Está en la página 1de 12

 

MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
Revisor:  

 
       
 
 Medidas  de  dispersión  
 
por Oliverio Ramírez

Las medidas de tendencia central analizadas en la situación anterior, dirigen su interés al


comportamiento de los datos en relación a un valor central pero se olvidan de la forma en la que los
datos varían o se dispersan.

Las medidas de dispersión se encargan de estudiar el comportamiento de todos los datos y cómo se
distribuyen alrededor de un valor central, la media aritmética. Dentro de las medidas de dispersión se
encuentran: el rango, la desviación media, la desviación estándar y la varianza.

Observa a qué se refieren.

Rango  
En León, Guanajuato, una familia de fabricantes de calzado se dedica a producir exclusivamente
zapatos para adulto. Las tallas (longitud del pie en centímetros) que maneja en zapato para mujer son
las siguientes:

Talla
(en centímetros)
21.5
22
22.5
23
23.5
24
24.5
25
25.5
26
26.5
27
Tabla 1. Tallas de Zapatos. Datos Ficticios. Ramírez 2009

De esta lista de tallas de calzado, ¿cuál es la talla menor?, ¿cuál es la talla mayor? Al observar la tabla
te podrás percatar que la talla menor que maneja esta familia de fabricantes de calzado es 21.5 y la
talla mayor es 27. A partir de esta información se puede decir que la variación en las tallas de los
zapatos, desde la talla menor hasta la talla mayor es:

27 - 21.5 = 5.5

1
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

A la variación o diferencia entre el dato mayor y el dato menor de un conjunto de datos u observaciones
se le llama Rango.

Como puedes ver, con sólo identificar el valor mayor y el menor, es posible calcular el rango.

El Rango se define como:

La diferencia entre los datos mayor y menor del conjunto.


(Karmier, 2006:57)

Observa otro ejemplo


La siguiente distribución de frecuencias con intervalos muestra información acerca de personas que
acuden a un club deportivo en una ciudad fronteriza de acuerdo a sus edades.

Intervalos Número de
de personas
Edades f
42-46 2
47-51 9
52-56 31
57-61 50
62-66 51
67-71 30
72-76 7
180
Tabla 2. Tabla de intervalos de clase. Ramírez 2009.

De esta tabla se aprecia que el valor mayor es 76, el menor es 42, por lo que el rango es:

Rango = 76 − 42 = 34

es decir, la diferencia de edades de las personas que acuden al club deportivo es máximo de 34 años.

2
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

Ejemplo:
Uno de los problemas que aquejan a la juventud es el consumo de drogas o alcohol a temprana edad.
En una comunidad con una población no mayor a 3000 habitantes se realizó una encuesta a 85
habitantes y se les peguntó a los encuestados si consumían alcohol. Para el análisis de los datos, los
encuestados fueron agrupados por edades; el resultado de la encuesta se presenta a continuación:

Edades Personas que


consumen
alcohol
12 – 15 8
16 – 19 13
20 – 23 15
24 – 27 21
28 – 31 16
32 – 35 12
85
Tabla 3. Tabla de intervalos de personas que consumen alcohol. Datos ficticios. Ramírez 2009

¿Cuál es rango de edades que se consideró para la encuesta? ______.

Desviación  media  
Como viste, el rango sólo considera dos datos: el dato mayor y el dato menor. Sin embargo, es
conveniente contar con otra medida de dispersión de los datos respecto a la media en la que se tome
en cuenta todas las observaciones.

3
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

La desviación media es el promedio de las distancias (o diferencias) entre


todas las observaciones y la media aritmética. Se usa para medir la
variabilidad de un conjunto de datos y se calcula mediante la siguiente
ecuación:

Para una muestra:

D.M =
∑X−X
n

Para una población:

D.M =
∑ X −µ
N

(Kazmier, 2006:59)

Ejemplo: Se tiene el conjunto 5, 10, 15, 20 25, 30, 35, cuya X = 20

X X −X
60
5 15 D.M = = 8.57
10 10 7
15 5
140
X = = 20 20 0 8.57 es el promedio de las
7 25 5 diferencias de los datos con
30 10 respecte a la media aritmética.
35 15
N=7 ∑ X − X = 60

Una desviación media menor a 8.57 (por ejemplo el dato 25, cuya diferencia con la media es 5) nos
indicaría que los datos se encuentran más cercanos a su media aritmética. Si la desviación media
fuera cero (como el dato 20) significaría que todas las observaciones son idénticas a la media
aritmética. La desviación media obtenido indica que los datos de la variable se separan 8.57 en
promedio de la media aritmética.

Esta medida de dispersión cada vez se utiliza menos, pero aún puede ayudar a comprender el
significado de las siguientes medidas de dispersión: la varianza y la desviación estándar.

4
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

 
Varianza  
 
La varianza muestral puede considerarse como el promedio de los cuadrados de las diferencias
entra cada dato y la media aritmética del conjunto. La varianza se representa con el símbolo s2.
(Kazmier, 2006:60)

Matemáticamente:

2 2 2 2

s 2
=
(x
1 ) ( ) (
− x + x 2 − x + x3 − x +  + x n − x ) ( )
n −1

Si usamos la notación de sumatorias, la varianza se calcula con:

n 2

2
∑ (xi =1
i −x )
s =
n −1

La varianza poblacional se representa con el símbolo σ2 y u expresión matemática es

2 (x1 − µ )2 + (x2 − µ )2 + (x3 − µ )2 +  + (xn − µ )2


σ =
N

En forma abreviada queda:


n 2

2
∑ (x
i =1
i − µ)
σ =
N

Considera otro estudiante UVEG. Fabiola, quien estudia con Luis, obtuvo en el mismo cuatrimestre las
siguientes calificaciones: 9.2, 8.3, 7.6, 8.9 y 7.5. ¿Cuál es la varianza de las calificaciones de
Mercedes?

Primero debes calcular la media aritmética:

9.2 + 8.3 + 7.6 + 8.9 + 7.5 41.5


x= = = 8.3
5 5

2 2 2 2 2
s 2
=
(9.2 − 8.3) + (8.3 − 8.3) + (7.6 − 8.3) + (8.9 − 8.3) + (7.5 − 8.3)
=
2.3
= 0.575
4 4

5
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

En este caso la varianza de las calificaciones de Fabiola es 0.575 unidades cuadradas. ¿Qué
significado tiene? Si habláramos de kilogramos, ¿la varianza estaría en “kilogramos cuadrados”? Lo
anterior es cierto: una desventaja de la varianza es que se trata de un estadístico cuyas unidades se
encuentran elevadas al cuadrado. Para solucionar este inconveniente se recurre a la desviación
estándar, que es simplemente la raíz cuadrada de la varianza por lo que las unidades de esta medida
de dispersión no están elevadas al cuadrado.

La  desviación  estándar  

La desviación estándar es la medida de dispersión más frecuente por ser la más


práctica. (Kazmier 2006:60)

Podemos definirla, dado que ya conocemos la varianza, como la raíz cuadrada de la


varianza, esto es, la desviación estándar muestral es:

s = s2

n 2

∑ (x − x )
i =1
i
s=
n −1

De la misma forma, la desviación estándar poblacional es:

σ = σ2

n 2

∑ (x i − µ )
σ2 = i =1

La desviación estándar, por definición, es la raíz cuadrada de la varianza de tal manera que si se
conoce ésta, para calcular la desviación, simplemente se le extrae raíz a la varianza.

Ejemplo:
Volvamos al caso de Fabiola, quien obtuvo un promedio de calificaciones de 8.3 con una varianza de
0.575. La desviación estándar de las calificaciones de Fabiola es:

s = 0.575 = 0.758
6
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

Es decir, las calificaciones de Fabiola varían en promedio 0.758 puntos.

Ejemplo:
Arturo es un agricultor que cosecha sandías, pesó 6 sandías y sus resultados fueron: 4.5, 5.2, 4.8, 6.1,
5.8 y 6.3 kilogramos. ¿Cuál es la varianza y la desviación estándar de los pesos de las sandías de
Arturo?

Lo primero que debes calcular es la media aritmética:

4.5 + 5.2 + 4.8 + 6.1 + 5.8 + 6.3 32.7


x= = = 5.45
6 6

Luego la varianza:

2 2 2 2 2 2
s 2
=
(4.5 − 5.45) + (5.2 − 5.45) + (4.8 − 5.45) + (6.1 − 5.45) + (5.8 − 5.45) + (6.3 − 5.45)
5
2.655
s2 = = 0.531
5

Nuevamente para calcular la desviación estándar sólo calculamos la raíz cuadrada de la varianza.

s = 0.531 = 0.728

Tanto la varianza como la desviación estándar, miden la forma en que se dispersan los datos alrededor
de la media aritmética. Sin embargo, una de las desventajas de la varianza es que sus resultados son
unidades al cuadrado. En el caso de Arturo, la varianza fue 0.531 kilogramos al cuadrado. La
desviación estándar en cambio fue 0.728 kilogramos, que tiene más sentido en el caso de las sandías.

Ejemplo:
Rafael pretende vender algunas cabezas de ganado por lo que decidió pesar 5 de ellas. Los pesos de 5
animales registrados por Rafael en kilogramos fueron:

385, 396, 405, 398, 415.

¿Cuál es el peso promedio de los 5 animales?, ¿cuál es la desviación estándar de los pesos de los 5
animales?

La media aritmética es

385 + 396 + 405 + 398 + 415


x= = 399.8 Kilogramos.
5

7
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

La varianza se calcula mediante:

2 2 2 2 2
s 2
=
(385 − 399.8) + (396 − 399.8) + (405 − 399.8) + (398 − 399.8) + (415 − 399.8)
= 98.96
4

La desviación estándar por tanto es:

s = s 2 = 98.96 = 9.947

Después de terminar los cálculos, estas listos para responder las preguntas que se formularon en un
principio:

¿Cuál es el peso promedio de los 5 animales?


El peso promedio fue de 399.8 kilogramos

¿Cuál es la desviación estándar de los pesos de los 5 animales?


La desviación estándar es 9.947.

Otra implicación importante de la desviación estándar es el hecho de que la mayoría de los datos se
encuentra en un intervalo de x ± s , esto indica que la mayor parte de los pesos de los animales se
encuentra entre 399.8 − 9.947 = 𝟑𝟖𝟗. 𝟖𝟓𝟑 y 399.8 + 9.947 = 𝟒𝟎𝟗. 𝟕𝟒.

De hecho, 3 de los 5 pesos de los animales se encuentra en este rango: 396, 405 y 398.

Varianza  y  desviación  estándar  de  una  distribución  de  frecuencias  


¿Recuerdas el cambio que sufrió la fórmula de la media aritmética de datos no ordenados cuando se
utilizó para datos organizados en distribuciones de frecuencia?

x=
∑x → x=
∑ f ⋅x
n n

De la misma manera, las fórmulas de la desviación media, la varianza y la desviación estándar se verán
afectadas por la frecuencia absoluta (f).

8
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
 
Revisor:

Para datos no Para distribuciones de


agrupados frecuencia
Media aritmética
x=
∑x x=
∑ f ⋅x
n n
Desviación media ∑X−X ∑f ⋅ X−X
D.M = D.M =
n n
Varianza n 2 n 2

2
∑ (x
i =1
i −x )
2
∑ f ⋅ (x
i =1
i −x )
s = s =
n −1 n −1
Desviación estándar n 2
n 2

∑ (x − x )
i =1
i ∑ f ⋅ (x i −x )
s= s= i =1
n −1 n −1
Tabla 4. Fórmulas de Medidas de Dispersión. Ramírez 2009

Ejemplo:
A partir de los datos de la siguiente tabla, calcula la desviación media, la varianza y la desviación
estándar en una distribución de frecuencias con intervalos.

Valor medio Frecuencia


Clases
X f
42-46 44 2
47-51 49 9
52-56 54 31
57-61 59 50
62-66 64 51
67-71 69 30
72-76 74 7
180
Tabla 5. Tabla de distribución. Ramírez 2009

Para calcular x es necesario generar la columna f ⋅ x . Sin embargo, la media aritmética de este
conjunto de datos ya la has resuelto en páginas anteriores.

X=
∑ fx = 11005 = 61.14
n 180
2
Para encontrar la varianza es conveniente calcular la columna xi − x ( ) y luego simplemente sumarla.
9
©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
Revisor:  

Todos estos cálculos pueden llevarse a cabo en Excel para facilitarlos y evitar errores.

Valor
Frecuencia 2 2
Clases
medio
f (x − x)
i (
f ⋅ xi − x )
x
42-46 44 2 293.7796 587.5592
47-51 49 9 147.3796 1326.4164
52-56 54 31 50.9796 1580.3676
57-61 59 50 4.5796 228.98
62-66 64 51 8.1796 417.1596
67-71 69 30 61.7796 1853.388
72-76 74 7 165.3796 1157.6572
180 7151.528
Tabla 6. Tabla de distribución para calcular la Varianza

7151.528
s2 = = 39.952
179

s = 39.952 = 6.32

Usos  frecuentes  de  la  desviación  estándar  


 
Teorema  de  Chebyshev  
Este teorema fue formulado por el matemático ruso Pafnuty Ivóvich Chebyshev.

El Teorema de Chebyshev establece que para cualquier conjunto de datos, al menos


1
1− %
k2

de las observaciones se encuentran dentro de k desviaciones estándar, en donde k es


cualquier número mayor que 1. Si consideramos 2 desviaciones estándar tenemos, (Levin,
1998:132)
1
1− = 0.75%
22

10©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
Revisor:  

¿Que significa este resultado?, para el caso de Arturo, el agricultor que cosecha sandías, la media
aritmética fue X = 5.45 con una desviación estándar de s = 0.728 . Los límites del intervalo serán:

X + 2(0.728) = 5.45 + 0.728 = 6.906


X − 2(0.728) = 5.45 − 0.728 = 3.994

Es decir, El 75% de los pesos de las sandías cosechadas por Arturo estarán en el intervalo:
[3.994 − 6.906]

Coeficiente  de  variación  


Aunque la desviación estándar es una medida de dispersión bastante útil, una de sus limitantes es que
cuando se trabaja con dos o más distribuciones de datos con medias distintas las conclusiones en torno
a la dispersión pueden no ser ciertas. Para estos casos se prefiere usar el coeficiente de variación.

El coeficiente de variación se define como la relación entre la


desviación estándar y la media aritmética y se establece como
porcentaje.

⎛ s ⎞
CV = ⎜ ⎟100%
⎝ x ⎠
(Levin, 1998:141)

El coeficiente de variación para el caso de los pesos de las sandías de Arturo, tomando en cuenta que
x = 5.45 y s = 0.728 , sería entonces:

⎛ 0.728 ⎞
CV = ⎜ ⎟100% = 13.36%
⎝ 5.45 ⎠

Por otra parte, la media del peso de las conchas del panadero fue X = 50.87 y la desviación estándar
(no calculada en el ejercicio) de 7.84. El coeficiente de variación de las conchas es entonces:

⎛ 7.84 ⎞
CV = ⎜ ⎟100% = 15.41%
⎝ 50.87 ⎠

11©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.
 
MB0010_M1AA4L1_Dispersión
Versión: Septiembre 2012
Revisor:  

Al comparar los coeficientes de variación anteriores es posible determinar que la variabilidad del peso
de las conchas fue mayor que la variabilidad del peso de las sandías. Nota que el peso de las sandías
está dado en kilogramos y el peso de las conchas en gramos y esto no fue impedimento para que se
llevara a cabo la comparación.

Más adelante en el curso se analiza la distribución de probabilidad normal, que es otra aplicación
importante de la desviación estándar.

Ahora que has terminado de revisar el contenido de la actividad de aprendizaje 4 Medidas de


Dispersión, es hora de que realices la siguiente actividad con el propósito de evaluar tu aprendizaje.

Referencias      

Levin, R. 1998. Estadística para administradores. 2da. Edición. Prentice


Hall:México.

12©UVEG. Derechos reservados. Esta obra no puede ser reproducida, modificada, distribuida, ni transmitida, parcial o totalmente, mediante cualquier medio, método o
sistema impreso, electrónico, magnético, incluyendo el fotocopiado, la fotografía, la grabación o un sistema de recuperación de la información, sin la autorización por
escrito de la Universidad Virtual del Estado de Guanajuato.

También podría gustarte