Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas de dispersión
Recordarás que cuando se vio el histograma de los datos de los obreros textiles y
petroleros, parecía que los salarios de estos últimos estaban mas dispersos que los de
los textiles. Puede ocurrir que los salarios de un par de profesiones fueran en
promedio los mismos, pero que los salarios de una de ella estuvieran mas dispersos,
lo que significa que a pesar de que los trabajadores de ambas profesiones son en
promedio los mismos, en el caso de una mayor dispersión hay mayor variabilidad de
salarios: por ejemplo, para un vendedor su salario fluctúa o varía mucho según lo
que haya vendido, pero podemos considerar que el salario de un profesor es mas fijo
pues su situación laboral es más estable. Ambas profesiones pueden tener el mismo
salario promedio, pero hay mas variabilidad en el salario de los vendedores.
Para medir esta dispersión se utiliza la desviación estándar. Esta medida (llamada de
dispersión), mide el grado de desviación de los datos con respecto de la media. Al
igual que como ocurre con las medidas de tendencia central, en la desviación
estándar existen fórmulas para datos agrupados y para datos no agrupados. La
fórmula para datos no agrupados es la siguiente:
n
(x − x)
2
i
s2 = i =1
n −1
s=
m 2
f
− x2
n −1
1
2. Por ejemplo, se da un ejemplo del cálculo de la media y de la desviación estándar
usando Excel, donde la explicación de las columnas se da en la parte inferior de
ellas mismas.
desviación 22.5545996
2
Nos da una idea de la concentración de los datos. Si el rango es pequeño, significa
que hay alta concentración de datos en un intervalo pequeño. Si es grande, entonces
los datos están mas dispersos. Para calcularla, es necesario calcular medidas que
separen el primer 25% de los datos agrupados, a la que llamaremos primer cuartil;
enseguida calcularemos el segundo cuartil que separa el 25% de los datos entre este
y el primer cuartil, y finalmente calcularemos el tercer cuartil que separa el tercer
grupo del 25% de los datos que hay entre el segundo y el tercer cuartil. Los cuartiles
primero (Q1) y tercero (Q3), se calculan con las siguientes fórmulas (el segundo no
lo calculamos porque ya lo tenemos ¿quién es?):
n − fi
a ) Q1 = LQ1 + 4 i
f Q1
3n − f i
b) Q3 = LQ3 + 4 i
f Q3
a) Calcula los cuartiles para la serie de los datos de los obreros textiles y también
para los petroleros. Localízalos en el histograma correspondiente.
c) También se pueden calcular deciles, que son 9 valores que separan al 10% de los
datos entre uno y otro valor. El primer decil separa el 10% de los datos más
pequeños; el segundo decil separa el siguiente 10% de los datos que están entre
el primero y el segundo y así sucesivamente. Las fórmulas para calcular el
primero y el segundo son las siguientes (deduce las siguientes 7 fórmulas para
los deciles consecutivos):
3
n − fi
a) D1 = LD1 + 10 i
f
D1
2n − f i
b) D2 = LD2 + 10 i
f D2
b) Calcula los deciles de los ingresos de los obreros textiles y también para los
petroleros. Localiza cada uno de los deciles en el histograma e interpreta el
significado del último y del primer deciles.
3. Una manera de presentar gráficos que resuman los cuartiles, es mediante las
gráficas de caja. Estas sirven para detectar datos que están muy alejados de los
demás datos o del grupo de datos. La gráfica se construye señalando los 3 cuartiles,
el primero es la base de la caja, el tercero es la parte superior de la caja, el segundo,
que es la mediana, es la línea que está dentro de la caja. Las líneas que se
encuentran en los extremos se les suele llamar bigotes y su extensión es, según el
número de datos, hasta el primero y noveno deciles. A veces se extienden hasta el
percentil 5 y 95 (¿cómo definirías los percentiles según la manera como se
calcularon los deciles y los cuartiles?). Los datos que se encuentren más allá de los
deciles 1 y 9, se les llama datos atípicos y conocerlos es muy importante porque sus
valores influyen mucho en los cálculos de las medidas de dispersión y de tendencia
central. Por ejemplo, si calculas la media de 1, 2 y 3, se obtiene 3; si calculas la
media de 1, 2 y 30, la media es 11; si calculas la media de 1, 2 y 100. la media es
33. Puede observar que si un dato se dispara, entonces la media se empieza a alejar
de la serie de datos y se dispara a valores grandes (esto mismo ocurre si los datos
fueran muy pequeños). En la gráfica de caja, se señalan en rojo los valores atípicos
graves. Puedes ver que sólo en los salarios de los textiles hay salarios atípicos altos,
mientras que en los petroleros no existen. Esto significa que los salarios de los
petroleros están bastante simétricos alrededor del valor central. Los valores en verde
señalan los salarios potencialmente severos:
4
Box Plot
450.0
350.0
Amount
250.0
150.0
textil petroleros
Variables