Está en la página 1de 49

ESTADSTICA DESCRIPTIVA

ESTADSTICA

ESTADSTICA DESCRIPTIVA

INFERENCIA DESCRIPTIVA
La estadstica descriptiva nos
puede ayudar mediante resmenes
numricos, que son medidas:

Tendencia central, tambin


llamadas de posicin

Medidas de dispersin
TENDENCIA CENTRAL

media aritmtica moda


mediana
MEDIA ARITMTICA
La media aritmtica o simplemente promedio
(tambin llamada media muestral ya que
generalmente se calcula en relacin a una muestra)
se calcula de la siguiente forma: si las observaciones
de una muestra de tamao n son x1, x2,,xn
entonces
n

x 1 x 2 ... x n i 1
x i

X
n n
Caractersticas
MEDIANA
La mediana se suele definir como el valor
ms intermedio una vez que los datos han
sido ordenados en forma creciente. Se suele
denotar por Me. La forma ms general de
calcular la mediana es la siguiente:
x n 1 2 si n es impar

Me x x
( n 2) 1

n 2
si n es par
2
Otras caractersticas a tomar en cuenta
MODA
Es una medida de tendencia central que se
puede utilizar sea cual sea el tipo de variable a
estudiar. La moda de un conjunto de
observaciones es el valor que ms se repite,
aquel cuya frecuencia absoluta es mxima.
Puede ser nica, que haya ms de una, o que
no exista.
La localizacin o tendencia central de un conjunto de
datos no necesariamente proporciona informacin
SUFICIENTE para describirlos adecuadamente.
Debido a que no todos los valores son semejantes, la
variacin entre ellos se considera importante.
Las medidas descriptivas ms comunes de
dispersin son:
1. El rango
2. La varianza
3. La desviacin estndar
4. Rango intercuartlico.
Rango
El rango de la muestra es la medida de variabilidad
ms sencilla entre todas las mencionadas, y se
define como la diferencia entre la observacin ms
grande y la ms pequea.

r xmax xmin
Aunque es una medida muy fcil de calcular,
ignora toda la informacin de la muestra entre las
observaciones ms grande y ms pequea.

Sin embargo, vale la pena resaltar que el rango se


utiliza mucho en aplicaciones estadsticas al
control de calidad, donde lo comn es emplear
muestras con tamaos n = 4 o n = 5 ya que en
estos casos la prdida de informacin no se
considera relevante.
En general, se desea una medida de variabilidad que
dependa de TODAS las observaciones y no slo de unas
pocas; as que parece razonable medir la variacin en
trminos de las desviaciones relativas a alguna medida
de localizacin (generalmente esta medida es la media)
Para el conjunto de datos x1, x2,.,xn
Las diferencias ( x1 x ), ( x2 x ),....., ( xn x )
Determinan las desviaciones de la media.

Dado que la suma de estas desviaciones es cero, se


utiliza como medida de variabilidad el promedio de
los cuadrados de tales desviaciones.
n

i
( x x ) 2

s
2 i 1
n
Esta medida de variabilidad se denomina varianza.
Como S2 no tiene las mismas unidades que los datos,
se define la DESVIACIN ESTNDAR como la raz
cuadrada (positiva) de la varianza a fin de tener una
medida en las mismas unidades de los datos

La desviacin estndar es til para comparar dispersin


entre dos poblaciones, pero tambin lo es para calcular
el porcentaje de la poblacin que pueden localizarse a
menos de una distancia especfica de la media.
8 cms.

Aqu tenemos 9 rectngulos cuya altura es de 8 centmetros (y todos tienen la


misma base).

Existe alguna variacin respecto de su altura entre estos rectngulos?

Cul es el promedio de la altura de estos rectngulos?

8+8+8+8+8+8+8+8+8 72
= =8
9 9
10 cms

6 cms

8 cms.

El quinto rectngulo y el octavo rectngulo cambiaron su altura. El quinto rectngulo,


ahora de color rojo, mide 10 centmetros, y el octavo rectngulo, de color celeste, mide
6 centmetros

Cul es el nuevo promedio de estos 9 rectngulos?

8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 8 72
= =8
9 9

... el mismo promedio! Pero... ha habido variacin?


10 cms

6 cms

8 cms.

El rectngulo rojo tiene +2 centmetros sobre el promedio, y el rectngulo azul tiene 2


centmetros bajo el promedio. Los otros rectngulos tienen cero diferencia respecto del
promedio.

Si sumamos estas diferencias de la altura respecto del promedio, tenemos

0+0+0+0+2+0+02+0 =0

Este valor nos parece indicar que no ha habido variabilidad! Y sin embargo, ante
nuestros ojos, sabemos que hay variacin.
10 cms

6 cms

8 cms.

Una forma de eliminar los signos menos de aquellas diferencias que sean negativas,
esto es de aquellos mediciones que estn bajo el promedio, es elevar al cuadrado
todas las diferencias, y luego sumar...

02 + 02 + 02 + 02 + 22 + 02 + 02 + ( 2)2 + 02 = 8

Y este resultado repartirlo entre todos los rectngulos, es decir lo dividimos por el
nmero de rectngulos que es 9

02 + 02 + 02 + 02 + 22 + 02 + 02 + ( 2)2 + 02 = 8
= 0,89
9 9
10 cms

6 cms

8 cms.

Se dice entonces que la varianza fue de 0,89

Observemos que las unidades involucradas en el clculo de la varianza estn al


cuadrado. En rigor la varianza es de 0,89 centmetros cuadrados. De manera que se
define

0,89 0,943
La raz cuadrada de la varianza se llama desviacin estndar
10 cms

6 cms

8 cms.

Que la desviacin estndar haya sido de 0,943 significa que en promedio la altura de los
rectngulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centmetros.

Es claro que esta situacin es en promedio, puesto que sabemos que los
causantes de la variacin fueron los rectngulos quinto y octavo. Esta variacin hace
repartir la culpa a todos los dems rectngulos que no cambiaron su longitud.

La desviacin estndar mide la dispersin de los datos respecto del promedio


10 cms
8 cms. 8 cms. 8 cms. 8 cms. 8 cms.
7 cms.
6 cms
4 cms

Cul es la varianza y la desviacin estndar de las alturas de los rectngulos?

En primer lugar debemos calcular el promedio

8 + 4 + 8 + 8 + 10 + 8 + 7 + 6 + 8
= 7,44
9

Luego debemos calcular la varianza


10 cms
8 cms. 8 cms. 8 cms. 8 cms. 8 cms.
7 cms.
6 cms
4 cms

0,56 2,56 0,56 -0,44 -1,44


0,56
-3,44
0,56 0,56

7,44

Promedio

0,562 + (-3,44)2 + 0,562 + 0,562 + 2,562 + 0,562 + (-0,44)2 + (-1,44)2 + 0,562 22,2224
=
9 9

Este es el valor de la varianza = 2,469


10 cms
8 cms. 8 cms. 8 cms. 8 cms. 8 cms.
7 cms.
6 cms
4 cms

7,44

Promedio

Si la varianza fue de 2,469, entonces la desviacin estndar es de...

2, 469 1,57
Lo que significa que, en promedio, los rectngulos se desviaron ms o menos (ms
arriba o ms abajo) en 1,57 centmetros.
Si los valores de la serie de datos presenta la misma
forma a izquierda y derecha de un valor central
(media aritmtica) se dice que es simtrica de lo
contrario ser asimtrica.
Para medir el nivel de asimetra se utiliza el llamado
Coeficiente de Asimetra de Fisher, que viene
definido:
n
(1 / n)( ( xi x )3
g1 i 1
3
s
Los resultados pueden ser los siguientes:

1. g1 = 0 (distribucin simtrica; existe la misma


concentracin de valores a la derecha y a la izquierda
de la media)
2. g1 > 0 (distribucin asimtrica positiva; existe mayor
concentracin de valores a la derecha de la media
que a su izquierda)
3. g1 < 0 (distribucin asimtrica negativa; existe mayor
concentracin de valores a la izquierda de la media
que a su derecha)
El Coeficiente de Curtosis analiza el grado de
concentracin que presentan los valores
alrededor de la zona central de la distribucin.
Se definen 3 tipos de distribuciones segn su
grado de curtosis.
Distribucin mesocrtica: presenta un grado de
concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta una
distribucin normal).
Distribucin leptocrtica: presenta un elevado grado
de concentracin alrededor de los valores centrales
de la variable.
Distribucin platicrtica: presenta un reducido grado
de concentracin alrededor de los valores centrales
de la variable.
El Coeficiente de Curtosis viene definido por la
siguiente frmula:

n
(1 / n)( ( xi x ) 4
g2 i 1
4
3
s

Los resultados pueden ser los siguientes:


g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Los resultados pueden ser los
siguientes:
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
MEDIDAS DE POSICIN

Cuartiles: Dividen a la muestra en 4 grupos homogneos.


Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

Quintiles: 4 valores que dividen a una muestra en 5 grupos homogneos


Quintil 2= Decil 2= Percentil 20

Deciles: 9 valores que dividen a una muestra en 10 grupos homogneos


Decil 5= mediana= cuartil segundo= percentil 50

Percentil de orden k = cuantil de orden k/100


Percentil 50= mediana= cuartil segundo= decil quinto,
El percentil de orden 15 deja por debajo al 15% de las observaciones.
Por encima queda el 85%
Los Cuartiles
Son valores que dividen a la muestra en 4 partes
aproximadamente iguales.
Primer cuartil (Q1). El 25% de los datos.
Segundo cuartil (Q2), es la mediana.
Tercer cuartil (Q3). El 75 % de los datos.
70 100%

60
75%
50
Q3 Frecuencia
40 relativa
50%
acumulada
30
Q2
20
25%
10 Q1
0 0%
0.3 1.3 2.3 3.3 4.3 5.3 6.3 7.3 8.3 9.3
Primer cuartil
El primer cuartil es el valor correspondiente al
punto debajo del cual se encuentra el 25% de
las observaciones en un conjunto ordenado de
datos. n
CF
Q1 L 4 (i )
f
donde L = lmite de las clases que contienen Q1,
CF = frecuencia acumula que precede a la clase que
contiene a Q1, f = frecuencia de la clase que contiene Q1,
i= tamao de la clase que contiene Q1.
4-21

Tercer cuartil
El tercer cuartil es el valor correspondiente al
punto debajo del cual se encuentra 75% de las
observaciones en un conjunto ordenado de
datos:
3n
CF
Q3 = L + 4 (i )
f
donde L = lmite inferior de la clase que contiene a Q3, CF =
frecuencia acumulada precedente a la clase que contiene a
Q3, f = frecuencia de la clase que contiene a Q3, i = tamao
de la clase que contiene a Q3.
Para datos no agrupados:
A.- ordenar los datos de mayor a menor
B.- encontrar la posicion con: pQx= [x(n)* M/2]/M
C.- Calcular el valor con : vQx= Vpqx* ID

Ejemplo: hallar cuartil 3


10, 13, 4, 7, 8, 11 10, 16, 18, 12, 3, 6, 9, 4,
Ordenamos datos:

n 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Xi 3 4 4 6 7 8 9 10 10 11 12 13 16 18

pQ3: [3(14)+2]/4= 11
VQ3: 12 + 0(12-11)
Para datos agrupados

xi fi Fi

[10, 15) 12.5 3 3

[15, 20) 17.5 5 8

[20, 25) 22.5 7 15

[25, 30) 27.5 4 19

[30, 35) 32.5 2 21

21
Hallar cuartil 1:

pQ1: 1(21)/4= 5.25

VQ1: 15 + 5[(5.25-3)/5] = 17.25


QUINTIL

Se representan con la letra K.


Es el primer quintil. Separa a la muestra dejando el 20% de los
datos a su izquierda.
Es el segundo quintil. Es el valor que indica que el 40% de los
datos son menores.
Es el tercer quintil. Indica que el 60% de los datos son menores
que l.
Es el cuarto quintil. Separa al 80% de los datos del otro 20%.
VARIABLES
Las variables son cualidades, propiedades, caractersticas o conjunto de ellas
que asumen distintos valores intra e inter unidades de observacin.
Se clasifican de la siguiente manera:

Por su Generalidad o nivel de abstraccin:

Tericas

Intermedias

Empricas
Por su relacin causal:

Independiente

Dependiente

Interviniente:
Por su naturaleza:
Cualitativa:

Nominal

Ordinal

Cuantitativa:

Discreta

Continua
ESCALAS DE MEDICIN

Nominal: cuando slo puede ser objeto de clasificacin.

Ejemplo: sexo, lugar de nacimiento, grupo sanguneo, color de ojos, presencia o


ausencia de un factor de riesgo o enfermedad, estado civil, ocupacin, profesin, el
nmero de seguro social, nmeros de telfono.

Ordinal: cuando puede ser clasificada siguiendo un orden.

Ejemplo: nivel de instruccin, nivel socioeconmico, grados de ansiedad, trimestre de


embarazo, grados de disnea, Apgar, puntaje Apache de Gravedad cardaca, clase social,
lugar en la clase, los rangos de los militares, un organigrama jerrquico de una empresa,
Preferencias del Consumidor, entre tres sabores diferentes de gaseosas, orden de
llegada de los corredores.
De Intervalo:

Ejemplos: coeficiente de inteligencia, temperatura, nmero de hijos, veces que se


consult al establecimiento de salud, ndice de masa corporal, las puntuaciones de
una prueba, la escala de actitudes, horas del da

De Razn:

ejemplos: edad, peso, glicemia, altura, distancia, salario, costo por atencin, la
velocidad

También podría gustarte