Está en la página 1de 5

Estrategia didáctica 1.5.1.

Medidas de dispersión

Comentario: La desviación estándar es la única medida que se discutirá como medida de


dispersión. También se hablará de la fluctuación o rango intercuartil y de los percentiles.

Recordarás que cuando se vio el histograma de los datos de los obreros textiles y
petroleros, parecía que los salarios de estos últimos estaban mas dispersos que los de
los textiles. Puede ocurrir que los salarios de un par de profesiones fueran en
promedio los mismos, pero que los salarios de una de ella estuvieran mas dispersos,
lo que significa que a pesar de que los trabajadores de ambas profesiones son en
promedio los mismos, en el caso de una mayor dispersión hay mayor variabilidad de
salarios: por ejemplo, para un vendedor su salario fluctúa o varía mucho según lo
que haya vendido, pero podemos considerar que el salario de un profesor es mas fijo
pues su situación laboral es más estable. Ambas profesiones pueden tener el mismo
salario promedio, pero hay mas variabilidad en el salario de los vendedores.
Para medir esta dispersión se utiliza la desviación estándar. Esta medida (llamada de
dispersión), mide el grado de desviación de los datos con respecto de la media. Al
igual que como ocurre con las medidas de tendencia central, en la desviación
estándar existen fórmulas para datos agrupados y para datos no agrupados. La
fórmula para datos no agrupados es la siguiente:
n

 (x − x)
2
i
s2 = i =1

n −1

donde xi es cada uno de los datos; x es la media; n es el número de datos y s2 es la


varianza muestral (s es la desviación estándar. Aquí también se tienen parámetros y
estadísticos como en las medidas de tendencia central, la desviación estándar de la
población que se denota por σ y la desviación estándar de la muestra se escribe
como s.)

a) Calcula la desviación estándar de las 3 series de datos de los ejercicios II de la


Estrategia 1.2.2.2.

1. La desviación estándar para datos agrupados, se calcula de la siguiente manera:

s=
m 2
f
− x2
n −1

donde s es la desviación estándar, m es la marca de clase, f es la frecuencia de cada


clase, x es la media y n es el número de datos (o tamaño de la muestra.)

1
2. Por ejemplo, se da un ejemplo del cálculo de la media y de la desviación estándar
usando Excel, donde la explicación de las columnas se da en la parte inferior de
ellas mismas.

marca frecuencia m*f m cuadrada mcuad por frec

2.5 10635157 26587892.5 6.25 66469731.3


7.5 11251323 84384922.5 56.25 632886919
12.5 10736493 134206162.5 156.25 1677577031
17.5 9992135 174862362.5 306.25 3060091344
22.5 9071134 204100515 506.25 4592261588
27.5 8157743 224337932.5 756.25 6169293144
32.5 7136523 231936997.5 1056.25 7537952419
37.5 6352538 238220175 1406.25 8933256563
42.5 5194833 220780402.5 1806.25 9383167106
47.5 4072091 193424322.5 2256.25 9187655319
52.5 3357953 176292532.5 2756.25 9255357956
57.5 2559231 147155782.5 3306.25 8461457494
62.5 2198146 137384125 3906.25 8586507813
67.5 1660785 112102987.5 4556.25 7566951656
72.5 1245674 90311365 5256.25 6547573963
77.5 865270 67058425 6006.25 5197027938
82.5 483876 39919770 6806.25 3293381025
87.5 290051 25379462.5 7656.25 2220702969
92.5 122006 11285555 8556.25 1043913838
97.5 62892 6131970 9506.25 597867075
suma 95445854 2300684683 1.0401E+11

media 24.10460576 1089.74198 508.709962

desviación 22.5545996

La primer columna es la marca de cada clase; la segunda es la frecuencia absoluta;


la tercera es el producto de marca por frecuencia; la cuarta es la marca al cuadrado,
y la última es el producto de la marca al cuadrado por la frecuencia. A continuación
se suma la quinta columna y se divide por el total de datos menos 1. A este último
resultado se le resta la media de los datos al cuadrado. Finalmente se obtiene la raíz
de este valor y el resultado final es la desviación estándar. Es decir, la varianza es el
cuadrado de la desviación estándar.

3. Otra medida de dispersión es la fluctuación o rango intercuartil. Esta medida dice en


qué intervalo se encuentra el 50% de los datos centrados alrededor de la mediana.

2
Nos da una idea de la concentración de los datos. Si el rango es pequeño, significa
que hay alta concentración de datos en un intervalo pequeño. Si es grande, entonces
los datos están mas dispersos. Para calcularla, es necesario calcular medidas que
separen el primer 25% de los datos agrupados, a la que llamaremos primer cuartil;
enseguida calcularemos el segundo cuartil que separa el 25% de los datos entre este
y el primer cuartil, y finalmente calcularemos el tercer cuartil que separa el tercer
grupo del 25% de los datos que hay entre el segundo y el tercer cuartil. Los cuartiles
primero (Q1) y tercero (Q3), se calculan con las siguientes fórmulas (el segundo no
lo calculamos porque ya lo tenemos ¿quién es?):

 n −  fi 
a ) Q1 = LQ1 +  4 i

 f Q1
 

 3n −  f i 
b) Q3 = LQ3 +  4 i

 f Q3
 

Donde Q1 es el primer cuartil, LQ1 es el límite inferior de la clase que contiene a


primer cuartil y que se determina calculando cuál es el dato n/4 y contando desde la
clase inferior cuál es la que contiene el dato dado por esa cantidad. La sumatoria es
la suma de las frecuencias de las clases anteriores a la clase que contiene al primer
cuartil. Y la frecuencia es la de la clase que contiene al primer cuartil. Para la
fórmula b), se reinterpretan estas fórmulas usando el tercer cuartil, que se calcula
con la fórmula 3n/4.

a) Calcula los cuartiles para la serie de los datos de los obreros textiles y también
para los petroleros. Localízalos en el histograma correspondiente.

b) La fluctuación intercuartil se calcula tomando la diferencia entre el cuartil 3


menos el cuartil 1. Este intervalo contiene al 50% de los datos centrados en la
mediana ¿por qué?

c) También se pueden calcular deciles, que son 9 valores que separan al 10% de los
datos entre uno y otro valor. El primer decil separa el 10% de los datos más
pequeños; el segundo decil separa el siguiente 10% de los datos que están entre
el primero y el segundo y así sucesivamente. Las fórmulas para calcular el
primero y el segundo son las siguientes (deduce las siguientes 7 fórmulas para
los deciles consecutivos):

3
 n −  fi 
a) D1 = LD1 +  10 i

 f
 D1

 2n −  f i 
b) D2 = LD2 +  10 i

 f D2
 

A veces es conveniente separar una población en deciles para determinar cómo se


concentran los datos en cada uno de los intervalos separados por los deciles. Esto
permite determinar cómo se concentran los salarios, en el caso de los datos que
usamos, en cada uno de los deciles. Por ejemplo, en los tabulados de la ENIGH, se
calculan los deciles para el ingreso de los hogares en México. Examina la tabla y
contesta: ¿Del total de ingresos de los hogares, qué porcentaje le corresponde a cada
uno de los deciles? ¿cuál es el decil que contiene a los hogares más pobres? ¿y cuál
es el decil que contiene a los hogares mas ricos? ¿Cuál es el ingreso por cada hogar
según el decil en el que se encuentren?

b) Calcula los deciles de los ingresos de los obreros textiles y también para los
petroleros. Localiza cada uno de los deciles en el histograma e interpreta el
significado del último y del primer deciles.

3. Una manera de presentar gráficos que resuman los cuartiles, es mediante las
gráficas de caja. Estas sirven para detectar datos que están muy alejados de los
demás datos o del grupo de datos. La gráfica se construye señalando los 3 cuartiles,
el primero es la base de la caja, el tercero es la parte superior de la caja, el segundo,
que es la mediana, es la línea que está dentro de la caja. Las líneas que se
encuentran en los extremos se les suele llamar bigotes y su extensión es, según el
número de datos, hasta el primero y noveno deciles. A veces se extienden hasta el
percentil 5 y 95 (¿cómo definirías los percentiles según la manera como se
calcularon los deciles y los cuartiles?). Los datos que se encuentren más allá de los
deciles 1 y 9, se les llama datos atípicos y conocerlos es muy importante porque sus
valores influyen mucho en los cálculos de las medidas de dispersión y de tendencia
central. Por ejemplo, si calculas la media de 1, 2 y 3, se obtiene 3; si calculas la
media de 1, 2 y 30, la media es 11; si calculas la media de 1, 2 y 100. la media es
33. Puede observar que si un dato se dispara, entonces la media se empieza a alejar
de la serie de datos y se dispara a valores grandes (esto mismo ocurre si los datos
fueran muy pequeños). En la gráfica de caja, se señalan en rojo los valores atípicos
graves. Puedes ver que sólo en los salarios de los textiles hay salarios atípicos altos,
mientras que en los petroleros no existen. Esto significa que los salarios de los
petroleros están bastante simétricos alrededor del valor central. Los valores en verde
señalan los salarios potencialmente severos:

4
Box Plot
450.0

350.0
Amount

250.0

150.0
textil petroleros
Variables

✓ Guardar con el nombre nombre-apellido.E1.5.1Medidas-dispersión-grupo.xls

También podría gustarte