Está en la página 1de 4

ESTADISTICA DESCRIPTIVA

DATOS SIN AGRUPAR


Consideramos una muestra de tamaño n de cierta población, que simbolizamos x1 , x2 , x3 , . . . xn .
La misma muestra ordenada de valores menores a valores mayores es anotada por x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n) .
En particular, x(1) es el valor mı́nimo observado y x(n) es el valor máximo observado.

1. MEDIDAS DE CENTRALIDAD, DE POSICIÓN O DE LOCACIÓN: media, mediana, moda, cuantiles

1∑
n
(a) MEDIA o PROMEDIO ARITMÉTICO: X= xi .
n i=1
Siempre existe. No tiene por qué ser un valor observado en la muestra. Es tratable matemáticamente,
Se encuentra entre los valores mı́nimo y máximo observados. es muy sensible a los valores extremos
de una muestra (no es una medida robusta). Es indiferente a los valores sensibles de la muestra (es
una medida robusta).


 x n+1 , si n es impar
 ( 2 )
(b) MEDIANA: M e = q2 =

 1{ }
 x n + x( n +1) , si n es par
2 (2) 2

No tiene por qué ser un valor observado en la muestra. Es difı́cilmente tratable matemáticamente. Se
encuentra entre los valores mı́nimo y máximo observados. Divide la muestra en el 50% de los valores
observados.
(c) MODA: es el valor más observado de la muestra, el valor más frecuente.Se calcula por observación.
No es tratable matemáticamente. No siempre existe y cuando existe no es siempre única; las dis-
tribuciones con más de una moda se llaman distribuciones multimodales. Es indiferente a los valores
sensibles de la muestra (es una medida robusta).
(d) CUANTILES: separan la muestra en una proporción p a su izquierda y una proporción 1 − p a su
derecha.

x(p) = bx(k+1) + (1 − b)x(k)


siendo p = el porcentaje que se quiere dejar a la izquierda
p 1
t=n +
100 2
k = [t] = parte entera de t (k ≤ t ≤ k + 1)
b = t − k = parte decinal de t (0 ≤ b < 1)

Cuando se separa la muestra en 4 grupos de 25% de la misma se llaman CUARTILES; cuando se


separa la muestra en 4 grupos de 12,5% se llaman OCTILES; cuando se separa la muestra en 10
grupos de 10% se llaman DECILES y cuando se separa la muestra en 100 grupos de 1% de llaman
PERCENTILES.

Casos especiales:
•p = 25 quad x(25) = q1 (primer cuartil)
•p = 50 quad x(50) = q2 (segundo cuartil o mediana)
•p = 75 quad x(75) = q3 (tercer cuartil)

2. MEDIDAS DE DISPERSIÓN O DE VARIABILIDAD: rango, diferencia intercuartı́lica, varianza y desviación


tı́pica

(a) RANGO: x(n) − x(1) , diferencia entre la observación máxima y la observación mı́nima.
(b) DIFERENCIA INTERCUARTÍLICA: q3 − q1 , encierra el 50% central de las observaciones.
(c) VARIANZA SIN CORREGIR O SESGADA:
∑n 2 ∑ ∑n 2
1 ∑( )2
n 2
i=1 xi ( ni=1 xi ) x 2
2 2
S = σn = xi − X = − 2
= i=1 i − X
n i=1 n n n
(d) VARIANZA CORREGIDA O INSESGADA:
∑ ∑ ∑n 2
1 ∑(
2
n
)2 n ni=1 x2i − ( ni=1 xi )2 i=1 xi − nX
2 2
s = σn−1 = xi − X = =
n − 1 i=1 n(n − 1) n−1

(e) DESVÍO O DESVIACIÓN ESTÁNDAR O TÍPICA SIN CORREGIR O SESGADA:


√ n
√ 1 ∑( )2
S = σn = S 2 = xi − X
n i=1

(f) DESVÍO O DESVIACIÓN ESTÁNDAR O TÍPICA CORREGIDA O INSESGADA:



√ 1 ∑( )2
n
2
s = σn−1 = s = xi − X
n − 1 i=1

DATOS AGRUPADOS
Consideramos una muestra de tamaño n de cierta población, que simbolizamos x1 , x2 , x3 , . . . xn . Se agrupan
los datos en K clases (intervalos). Se recomienda que la cantidad K de clases esté entre 5 y 20. Es recomenable
que la longitud de las clases sean iguales pero NO ES OBLIGATORIO. Si una clase intermedia quedara vacı́a,
habrá que juntarla con alguna de las clases contiguas aunque se sacrifique la longitus igual de las clases.
Emplearemos las siguientes notaciones.
fk es la frecuencia (o cantidad de observaciones) de la clase k−ésima, CON 1 ≤ k ≤ K
ck o mk es la marca de la clase k−ésima, esto es el punto medio de esta clase.
∑K
Se debe cumplir que la suma de las frecuencias de clase es n, o sea, fk = n.
k=1

1. MEDIDAS DE CENTRALIDAD, DE POSICIÓN O DE LOCACIÓN: media, mediana, moda, cuantiles

1∑
K
(a) MEDIA o PROMEDIO ARITMÉTICO: X= ck .fk .
n k=1
(b) MEDIANA: se identifica primero la clase mediana, o sea, la clase que acumula en ella el 50% de
las observaciones. 
n ∑
− ( fk )<q2
Me = q2 = Lq2 +  2  .longq
2
fq2
siendo
•Lq2 el lı́mite inferior de la clase mediana

• ( fk )<q2 las frecuencias acumuladas de las clases ANTERIORES a la clase mediana
•fq2 la frecuencia de la clase mediana
•longq2 la longitud de la clase mediana.
(c) MODA: se identifica prmero la clase modal, o sea, la clase que tiene mayor frecuencia (si es que
existe)- Se procede de manera similar al del cálculo de la mediana.
( )
∆1
Mo = Lmodal + .longmodal
∆1 + ∆2
siendo
•Lmodal el lı́mite inferior de la clase modal
•∆1 la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inmediata anterior
•∆2 la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inmediata posterior
•longmodal la longitud de la clase modal.
(d) CUANTILES: Daremos, a modo de ejemplo, el cálculo de los cuartiles. Estas fórmulas pueden
extenderse de manera similar para calcular cualquier cuantil deseado.
i. PRIMER CUARTIL: se identifica primero la clase que contiene el primer cuartil, o sea, la
clase que acumula
n en ella el 
25% de las observaciones.

− ( fk )<q1
q1 = L q 1 +  4  .longq
1
fq1
siendo
•L∑q1 el lı́mite inferior de la clase que contiene al primer cuartil
• ( fk )<q1 las frecuencias acumuladas de las clases ANTERIORES a la clase que contiene al
primer cuartil
•fq1 la frecuencia de la clase que contiene al primer cuartil
•longq1 la longitud de la clase que contiene al primer cuartil.
ii. TERCER CUARTIL: se identifica primero la clase que contiene al tercer cuartil, o sea, la
clase que acumula
 en ella el 75%
 de las observaciones.
3 ∑
n − ( fk )<q3
4 
q3 = L q 3 +   .longq3
fq3
siendo
•L∑q3 el lı́mite inferior de la clase que contiene al tercer cuartil
• ( fk )<q3 las frecuencias acumuladas de las clases ANTERIORES a la clase que contiene al
tercer cuartil
•fq3 la frecuencia de la clase que contiene al tercer cuartil
•longq3 la longitud de la clase que contiene al tercer cuartil.

2. MEDIDAS DE DISPERSIÓN O DE VARIABILIDAD: rango, diferencia intercuartı́lica, varianza y desviación


tı́pica

(a) RANGO: x(n) − x(1) , diferencia entre la observación máxima y la observación mı́nima.
(b) DIFERENCIA INTERCUARTÍLICA: q3 − q1 , encierra el 50% central de las observaciones.
1 ∑( )2
K
(c) VARIANZA: S 2 = σ2 = ck − X .fk
n k=1
v
u K
√ u1 ∑( )2
(d) DESVÍO O DESVIACIÓN ESTÁNDAR O TÍPICA: S = σ = S = t
2 ck − X .fk
n k=1

OTRAS MEDIDAS

3. MEDIDAS DE ASIMETRÍA:

(a) Relación entre media, mediana y moda


• Si la media, la mediana y la moda coinciden, la distribución de los datos es simétrica o insesgada.
Este hecho es prácticamente imposible de roducirse con datos reales.
• Si X < Me < Mo, la distribución de los datos presenta una asimetrı́ıa o un sesgo hacia la izquierda.
• Si Mo < Me < X, la distribución de los datos presenta una asimetrı́ıa o un sesgo hacia la derecha.
(b) COEFICIENTE DE ASIMETRÍA: Sk
n ( )3 K ( )3
1 ∑ xi − X 1 ∑ ck − X .fk
Para datos sin agrupar Sk = y para datos agrupados Sk =
n i=1 S3 n k=1 S3
• Si Sk = 0, la distribución de los datos es simétrica o insesgada.
• Si Sk < 0, la distribución de los datos presenta una asimetrı́ıa o un sesgo hacia la izquierda.
• Si Sk > 0, la distribución de los datos presenta una asimetrı́ıa o un sesgo hacia la derecha.
4. MEDIDA DE APUNTAMIENTO: curtosis
Esta medida, la curtosis, permite determinar si la distribución de los datos es más aplastada 0 es más
puntuda que la distribución normal.
n ( )4
1 ∑ xi − X
Para datos sin agrupar Curtosis = −3
n i=1 S4
K ( )4
1 ∑ ck − X .fk
y para datos agrupados Curtosis = −3
n k=1 S4
• Si K = 0, la distribución de los datos es mesocúrtica (similar a una distribución normal).
• Si K < 0, la distribución de los datos es platocúrtica (más aplastada que una distribución normal).
• Si K > 0, la distribución de los datos es leptocúrtica (más puntuda que una distribución normal).

También podría gustarte