Está en la página 1de 10

Módulo I

Lectura
Medidas de Dispersión y Otras
Medidas Relacionadas

1
MEDIDAS DE DISPERSIÓN Y OTRAS MEDIDAS RELACIONADAS

MEDIDAS DE DISPERSIÓN
Dispersión es el grado de variación o diseminación de los datos. Dos conjuntos de datos pueden
diferir tanto en tendencia central como en dispersión o dos conjuntos de datos pueden tener las
mismas medidas de tendencia central, pero diferir mucho en términos de dispersión.

Así también, para analizar la representatividad de las medidas de centralización se definen las
llamadas medidas de dispersión. Estas nos indicarán la variabilidad de los datos en torno a su valor
promedio, es decir si se encuentran muy o poco esparcidos en torno a su centro. Se pueden definir
entonces, diversas medidas de desviación o dispersión, siendo éstas fundamentales para la
descripción estadística de la muestra.

EL RANGO Y DESVIACIÓN MEDIA

RANGOS O RECORRIDOS
Una evaluación rápida de la dispersión de los datos se puede realizar calculando el recorrido
(también llamado rango), o diferencia entre el valor máximo (𝑥𝑚á𝑥 ) y el valor mínimo (𝑥𝑚í𝑛 ) que
toma la variable estadística.

𝑅 = 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛

Por otra parte, con el fin de eliminar la excesiva influencia de los valores extremos en el recorrido,
se define el recorrido intercuartílico como la diferencia entre el tercer y primer cuartil

𝑅 = 𝑄3 − 𝑄1

Está claro que este recorrido nos dará entonces el rango que ocupan el 50% central de los datos.

En ocasiones se utiliza el recorrido semi-intercuartílico, o mitad del recorrido intercuartílico


𝑄3 − 𝑄1
𝑅=
2

DESVIACIÓN MEDIA
Una de las medidas de dispersión más usada es la desviación media, también llamada con más
precisión desviación media respecto a la media aritmética. Se define ésta como la media aritmética
de las diferencias absolutas entre los valores de la variable y la media aritmética de la muestra. Su
símbolo es DM

2
a) Desviación media para datos no agrupados:
∑𝑛𝑖|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 = ; 𝑖 = 1,2, … , 𝑛
𝑛

a) Desviación media para datos agrupados:

∑𝑘𝑖|𝑥𝑖 − 𝑥̅ | 𝑓𝑖
𝐷𝑀 = ; 𝑖 = 1,2, … , 𝑘
𝑛

Donde:
Xi es la marca de clase en el caso de las variables continuas
n es el número de datos

Ejemplo:
Obtener la desviación media para los datos 5, 7, 8, 10, 16
Solución:
5 + 7 + 8 + 10 + 16
𝑥̅ = = 9.2
5

|5 − 9.2| + |7 − 9.2| + |8 − 9.2| + |10 − 9.2| + |16 − 9.2|


𝑫𝑴 =
5
15.2
𝑫𝑴 = = 3.04
5

LA VARIANZA Y DESVIACIÓN ESTÁNDAR

LA VARIANZA
La varianza se define como el promedio aritmético de las diferencias entre cada uno de los valores
del conjunto de datos y la media aritmética del conjunto elevadas al cuadrado.
Su símbolo es 𝑆 2 si estamos trabajando con una muestra y 𝜎 2 si estamos trabajando con una
población.

a) Varianza para datos no agrupados


Varianza muestral

∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐
𝑺𝟐 = ; 𝑑𝑜𝑛𝑑𝑒 𝑥𝑖 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝒏−𝟏

Otra forma de calcular la Varianza muestral es:

3
∑𝒌𝒊=𝟏 𝒙𝒊𝟐 − (∑𝒌𝒊=𝟏 𝒙𝒊 )𝟐 /𝒏
𝑺𝟐 =
𝒏−𝟏

Varianza poblacional

∑𝑵
𝒊=𝟏(𝒙𝒊 − 𝝁)
𝟐
𝝈𝟐 = ; 𝑑𝑜𝑛𝑑𝑒 𝑥𝑖 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑵−𝟏

b) Varianza para datos agrupados

Varianza muestral

∑𝒌𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐 𝒇𝒊
𝑺𝟐 = ; 𝑑𝑜𝑛𝑑𝑒 𝑥𝑖 𝑒𝑠 𝑙𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝒏−𝟏

Varianza poblacional

∑𝒌𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐 𝒇𝒊
𝝈𝟐 =
𝑵−𝟏

En muchas ocasiones se definen varianza y desviación típica utilizando n en vez de n − 1 en el


denominador, representando entonces la varianza una verdadera media aritmética del cuadrado de
las desviaciones. Está claro que ambas definiciones llevan a valores muy parecidos cuando n es
grande. El motivo de haber optado aquí por la definición con n − 1 es que ésta da una mejor
estimación de la dispersión de los datos.
Propiedades de la varianza:

4
DESVIACIÓN ESTÁNDAR
Llamada también desviación típica, es la raíz cuadrada positiva de la Varianza. Su símbolo es 𝑆 si
se está trabajando con una muestra y es 𝜎 si se está trabajando con una población.

Para una muestra:

𝑆 = √𝑉𝐴𝑅(𝑋) = √𝑠 2

Para una población:

𝜎 = √𝜎 2

La desviación estándar se define como el promedio de la variabilidad de los datos (o marcas de


clase) con respecto a su media.

La varianza y la desviación estándar miden la dispersión "promedio" en torno a la media aritmética,


es decir, cómo fluctúan las observaciones mayores por encima de la media aritmética y cómo se
distribuyen las observaciones menores por debajo de ella.

COEFICIENTE DE VARIACIÓN
Un problema que plantean las medidas de dispersión vistas, es que vienen expresadas en las
unidades en que se ha medido la variable. Es decir, son medidas absolutas y con el único dato de
su valor no es posible decir si tenemos una dispersión importante o no.

Para solucionar esto, se definen unas medidas de dispersión relativas, independientes de las
unidades usadas. Estas dispersiones relativas van a permitir además comparar la dispersión entre
diferentes muestras (con unidades diferentes). Entre estas medidas hay que destacar el coeficiente
de variación de Pearson, definido como el cociente entre la desviación típica y la media aritmética.
𝑆
𝐶𝑉 = ̅
𝑋

Nótese que este coeficiente no se puede calcular cuando 𝑋̅ = 0. Normalmente CV se expresa en


porcentaje, multiplicando su valor por 100. Evidentemente, cuanto mayor sea CV, mayor dispersión
tendrán los datos.
𝑆
𝐶𝑉 = 100 ̅ %
𝑋

Ejemplo:

5
Considerando el ejemplo del sueldo inicial de 12 recién egresados de la carrera de Administración
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925

Hallar el Rango, la Varianza muestral, la Desviación estándar y el Coeficiente de Variación.


Si n=12
a) Rango
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚í𝑛 = 3925 − 3310 = 615

b) Varianza muestral

Para hallar la varianza, primero determinemos la media

∑12
𝑖=1 𝑥𝑖 3310 + 3355 + 3450 + ⋯ + 3730 + 3925
𝑥̅ = =
12 12

42480
̅=
𝒙 = 3540
12

Sueldo
mensual
i xi (𝒙𝒊 − 𝒙̅ ) ̅)𝟐
(𝒙𝒊 − 𝒙
1 3310 -230 52900
2 3355 -185 34225
3 3450 -90 8100
4 3480 -60 3600
5 3480 -60 3600
6 3490 -50 2500
7 3520 -20 400
8 3540 0 0
9 3550 10 100
10 3650 110 12100
11 3730 190 36100
12 3925 385 148225
𝟏𝟐 𝟏𝟐

∑ 𝒙𝒊 ̅)𝟐
∑(𝒙𝒊 − 𝒙
Suma 𝒊=𝟏 𝒊=𝟏
Total = 42480 =301850

Entonces la varianza muestral es:

6
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 301850
𝑆2 = = = 27440.91
𝑛−1 12 − 1

c) Desviación estándar muestral

𝑆 = √27440.91 = 165.65

d) Coeficiente de Variación
165.65
𝐶𝑉 = = 0.0468 ≈ 4.68%
3540

Indica que la desviación estándar muestral es sólo 4.7% del valor de la media muestral.

MEDIDAS DE ASIMETRÍA Y CURTOSIS


La descripción estadística de una muestra de datos no concluye con el cálculo de su tendencia
central y su dispersión. Para dar una descripción completa es necesario estudiar también el grado
de simetría de los datos respecto a su medida central y la concentración de los datos alrededor de
dicho valor.

COEFICIENTE DE ASIMETRÍA
Mide el grado de deformación horizontal de la distribución de frecuencias.

Se dice que una distribución de medidas es simétrica cuando valores de la variable equidistantes, a
uno y otro lado, del valor central tienen la misma frecuencia. Es decir, en este caso tendremos
simetría en el histograma (o en el diagrama de barras) alrededor de una vertical trazada por el punto
central. En el caso de una distribución perfectamente simétrica los valores de media aritmética,
mediana y moda coinciden (x = Me = Mo).

En el caso de no tener simetría, diremos que tenemos asimetría a la derecha (o positiva) o a la


izquierda (o negativa) dependiendo de que el histograma muestre una cola de medidas hacia valores
altos o bajos de la variable respectivamente. También se puede decir que la distribución está
sesgada a la derecha (sesgo positivo) o a la izquierda (sesgo negativo).

En el caso de una distribución asimétrica, la media, mediana y moda no coinciden, siendo 𝑥̅ ≥ 𝑀𝑒 ≥


𝑀𝑜 para una asimetría positiva y siendo 𝑥̅ ≤ 𝑀𝑒 ≤ 𝑀𝑜 para una asimetría negativa (ver Figura)

7
Con el fin de cuantificar el grado de asimetría de una distribución se pueden definir los siguientes
coeficientes de asimetría:

Coeficiente de Asimetría de Pearson.- El coeficiente de asimetría de Pearson se define como:

̅ − 𝑴𝒆)
𝟑(𝒙 ̅ − 𝑴𝒐)
(𝒙
𝑨𝒔 = 𝒐 𝑨𝒔 =
𝑺 𝑺

El coeficiente de asimetría de Pearson sólo se utiliza en distribuciones unimodales.


Coeficiente de Asimetría de Fisher.- El coeficiente de asimetría de Fisher se define como:

∑𝒌 ̅)𝟑 𝒇𝒊
𝒊=𝟏(𝒙𝒊 −𝒙
𝒏
𝑨𝒔 =
𝒔𝟑

En ambos coeficientes de asimetrías, Pearson o Fisher, se tiene que:


Para una distribución simétrica 𝑨𝒔 = 0
Para una distribución asimétrica positiva 𝑨𝒔 > 0
Para una distribución asimétrica negativa 𝑨𝒔 < 0

Relación entre media, mediana y moda.- Para distribuciones unimodales, es decir, que tenga
una sola moda, se cumplen de manera general las siguientes relaciones.
Para una distribución simétrica: 𝑥̅ = 𝑀𝑒 = 𝑀𝑜
Para una distribución asimétrica positiva: 𝑥̅ ≥ 𝑀𝑒 ≥ 𝑀𝑜
Para una distribución asimétrica negativa: 𝑥̅ ≤ 𝑀𝑒 ≤ 𝑀𝑜

8
Ejemplo:

Para el salario inicial de 12 recién egresados de la carrera de Administración. Se obtuvieron las


siguientes medidas:
𝑥̅ = 3540, 𝑀𝑒 = 3505 y 𝑆 = 165.65

Hallar el coeficiente de asimetría.

Para este ejercicio utilizaremos el Coeficiente de Asimetría de Pearson

̅ − 𝑴𝒆) 𝟑(𝟑𝟓𝟒𝟎 − 𝟑𝟓𝟎𝟓)


𝟑(𝒙
𝑨𝒔 = = = 𝟎. 𝟔𝟑
𝑺 𝟏𝟔𝟓. 𝟔𝟓

Este valor indicaría que los datos siguen una distribución asimétrica positiva.

COEFICIENTE DE CURTOSIS
Mide el grado de deformación vertical de la distribución de frecuencias.
Con el coeficiente de Curtosis se pretende observar cómo se distribuyen los valores centrales de
nuestra variable. Para ello se compara la distribución que se esté analizando con la distribución
normal. Estas medidas nos van a indicar si la distribución tiene una forma de campana más o menos
apuntada que la distribución normal.

Para cuantificar este coeficiente podemos recurrir a la siguiente fórmula

∑𝑘 4
𝑖=1(𝑥𝑖 −𝑥̅ ) 𝑓𝑖
𝑛
𝑪𝒖 =
𝑠4
Así también para medir la curtosis (K) pueden utilizarse los cuartiles y percentiles:

(𝑄3 − 𝑄1 )
𝑪𝒖 =
2 (𝑃90 − 𝑃10 )

Si Cu > 3 la distribución será leptocúrtica (apuntada o picuda)


Si Cu = 3 la distribución será mesocúrtica (normal o moderada)
Si Cu < 3 la distribución será platicúrtica (plana, menos apuntada que lo normal).

9
Ejemplo:

Para el salario inicial de 12 recién egresados de la carrera de Administración. Se obtuvieron las


siguientes medidas:
𝑄1 = 3465

𝑄3 = 3600

𝑃10 = 3355

𝑃90 = 3730

Hallar el coeficiente de curtosis

Para este ejercicio utilizaremos el Coeficiente de Curtosis

(3600 − 3465)
𝑪𝒖 = = 0.18
2 (3730 − 3355)

Como Cu < 3 la distribución será platicúrtica (plana, menos apuntada que lo normal).

10

También podría gustarte