Está en la página 1de 29

Medidas de variabilidad

Estadística I
Ciclo I 2022

Mtra Karla María Mejia Ortiz


Medidas de variabilidad
 Los conjuntos de datos pueden tener el mismo centro pero con aspecto
diferente por la forma en que los números se dispersan desde el centro.
 Considere las dos distribuciones que se muestran en la figura. Ambas
distribuciones están centradas en x = 4, pero hay una gran diferencia en la
forma en que las mediciones se dispersan o varían.
 Las medidas de variabilidad pueden ayudarle a crear una imagen mental de
la dispersión de los datos.
Medidas de variabilidad
 Con frecuencia se requiere saber el grado de
variabilidad de los números en el conjunto de datos o
en la distribución. Las mejores descripciones de
variabilidad se refieren a las desviaciones de los valores
respecto a alguna medida de tendencia central, aunque
también se usan otros métodos.
 Las medidas de dispersión son:
 Rango
 Desviación media
 Varianza
 Desviación estándar
 Coeficiente de variación
Medidas de variabilidad
 Las medidas de dispersión o variabilidad son importantes en
el control de calidad. La variabilidad es el mayor enemigo de
la buena calidad. Esto se debe a que la consistencia de la
producción en una operación de manufactura es, por lo
general, una señal de buena calidad, mientras que las
variaciones extremas suelen significar mala calidad.
Medidas de variabilidad
 La media de las tres curvas es la misma, pero la curva A tiene
menor separación (o variabilidad) que la curva B, y ésta tiene
menor variabilidad que la C. Si medimos solo la media de estas
tres distribuciones, estaremos pasando por alto una diferencia
importante que existe entre las tres curvas. Al igual que sucede
con cualquier conjunto de datos, la media, la mediana y la moda
solo nos revelan una parte de la información que debemos conocer
acerca de las características de los datos. Pero no nos dicen nada
acerca de la dispersión de los datos.
¿Por qué es tan importante entender y medir la
dispersión de la distribución?
 Nos proporciona información adicional que nos permite juzgar la
confiabilidad de nuestra medida de tendencia central. Si los datos se
encuentran muy dispersos, como los que representa la curva C, la
posición central es menos representativa de los datos.
 Un valor pequeño en una medida de dispersión indica que los datos
están estrechamente agrupados alrededor de la media. Entonces la
media se considera representativa de los datos; la media es una
promedio confiable.
 Un valor grande en una medida de dispersión indica que los datos no
están agrupados alrededor de la media, están muy dispersos. Entonces
la media no se considera representativa de los datos; la media no es
una promedio confiable.
 Quizá se desee comparar la dispersión de dos o más distribuciones.
Por qué es tan importante entender y medir
la dispersión de la distribución?
 Por ejemplo:

 Debido a la gran dispersión, la medida de posición (45)


no es muy significativa.
Rango
 La medida más sencilla de variabilidad es el rango. Es llamado amplitud.
Es la diferencia entre el valor mas grande y el mas pequeño en el
conjunto de datos.

 El rango no siempre es una buena medida de variabilidad. Siempre que la


distribución contenga un valor extremo, el rango indicará una variación
excesiva.
𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚𝑎𝑦𝑜𝑟 − 𝑉𝑎𝑙𝑜𝑟 𝑚𝑒𝑛𝑜𝑟

 El rango es fácil de calcular, fácil de interpretar y es una medida adecuada de


variación para conjuntos pequeños de datos. Pero, para conjuntos grandes, el
rango no es una medida adecuada de variabilidad.
Rango
 Ejemplo: Encuentre el rango del siguiente conjunto de datos, 3, 3, 5, 6, 8
Solución
El valor mayor es 8 y el valor menor es 3, Rango = 8-3 = 5, indica que los
datos se encuentran dentro de una distancia de 5 unidades sobre la recta
numérica.
 Por ejemplo, las dos distribuciones de frecuencia relativa de la figura tienen
el mismo rango pero muy diferentes formas y variabilidad.
Rango
 Cuando los datos están agrupados en una distribución de clases y
frecuencias, el rango se determina así, Rango= valor de límite superior de
la última clase– valor de límite inferior de la primera clase.
 ¿Hay una medida de variabilidad que sea más sensible que el rango?
Considere, como ejemplo, las mediciones muestrales 5, 7, 1, 2, 4, mostradas
como una gráfica de puntos en la figura. La media de estas cinco mediciones
es
σ𝑥 19
𝑥ҧ = = = 3.8
𝑛 5
Rango
 Las distancias horizontales entre cada punto (medición) y la media 𝑥ҧ
ayudarán a medir la variabilidad. Si las distancias son grandes, los datos son

más dispersos o variables que si las distancias son pequeñas. Si 𝑥𝑖 es un punto


particular (medición), entonces la desviación de esa medición desde la media

es (𝑥𝑖 − 𝑥ҧ ) . Las mediciones a la derecha de la media producen desviaciones


positivas y, las de la izquierda, negativas.
Como las desviaciones en la segunda columna de
la tabla contienen información sobre variabilidad,
una forma para combinar las cinco desviaciones
en una medida numérica es promediarlas.
Desafortunadamente, el promedio no funcionará
porque algunas de las desviaciones son positivas,
algunas son negativas y la suma es siempre cero
(a menos que errores redondeados se hayan
introducido en los cálculos)
Rango
 Otra posibilidad sería no hacer caso de los signos de las desviaciones y
calcular el promedio de sus valores absolutos. Este método se ha usado como
medida de variabilidad en el análisis exploratorio de datos y en el análisis de
datos de series de tiempo.

 Preferimos, no obstante, superar la dificultad causada por los signos de las


desviaciones al trabajar con su suma de cuadrados. De la suma de
desviaciones cuadradas, se calcula una sola medida llamada varianza.

 La varianza será relativamente grande para datos muy variables y


relativamente pequeña para datos menos variables.
Desviación Media
 Un inconveniente del rango es que se basa sólo en dos valores, el mayor y
el menor. No toma en consideración a todos los demás valores.
 La desviación media mide la cantidad media en la que los valores de la
población, o de la muestra, varían de la media.
 Desviación media: es la media aritmética de los valores absolutos de las
desviaciones de la media aritmética.
 El valor de la desviación media indica a qué distancia promedio está un
dato respecto de la media.
Desviación media, DM, para una muestra
σ 𝑥−𝑥
𝐷𝑀 =
𝑛
Donde x es el valor de cada observación
𝑥 es la media aritmética de los valores
n número de observaciones en la muestra
Desviación Media - Ejemplo
 Para la muestra 6, 3, 8, 5, 3 determinar la desviación media.
Solución
25
 La media aritmética es 𝑥ҧ = =5
5

𝑥 6 3 8 5 3
𝑥 − 𝑥ҧ 1 2 3 0 2

σ 𝑥−𝑥 8
 𝐷𝑀 = = = 1.6 es la distancia promedio que está cada
𝑛 5
dato respecto a la media de 5
Varianza
 Es el promedio de los cuadrados de las diferencias entre los
valores de los datos y la media.
 Tiene ciertas propiedades matemáticas que la hacen útil en
otras aplicaciones estadísticas. Sin embargo, interpretar la
varianza como el promedio de los cuadrados de las diferencias
no es útil como medida descriptiva. La varianza es difícil de
interpretar debido a las unidades.
 La ecuación para la varianza poblacional es
2 σ 𝑥−𝜇 2
𝜎 = donde
𝑁
𝜎 2 es la varianza poblacional
x valores de la población
𝜇 media poblacional
N número de observaciones en la población
Varianza
σ 𝑥−𝑥 2
 La ecuación para la varianza muestral es 𝑠2 = donde
𝑛−1

𝑠 2 varianza muestral
𝑠 desviación estándar de la muestra
𝑥 valores de la muestra
𝑥 media muestral
𝑛 numero de observaciones en la muestra
 También se usa la ecuación siguiente para la varianza muestral
2 σ𝑥 2
σ𝑥 −
2
𝑠 = 𝑛
𝑛−1
 Fórmula de la varianza poblacional
2 σ𝑥 2
σ𝑥 −
𝜎2 = 𝑁
𝑁
Varianza - Ejemplo
 Se presenta una población de cinco edades. ¿Qué pasa con la
variabilidad de los datos? 20, 30, 40, 50, 60
 Solución
x = 200, (x-)=0 (x-)2=1000
x 𝑥−𝜇 (𝑥 − 𝜇)2 Media =  =200/5=40
20 -20 400 Varianza= σ2=1000/5=200
30 -10 100
Desviación estándar=σ= 200 =14.14
40 0 0
 Este valor de 14.14 indica que
50 10 100 hay poca dispersión de los datos
60 20 400 respecto a su media, significa
que la cantidad típica en la que
200 0 1000
los valores del arreglo difieren
de su media (40) es de alrededor
de 14.14
Desviación estándar
 Mide la cantidad típica en la que los valores del conjunto de
datos difieren de la media. La desviación estándar se usa en
general para describir el grado en el que un conjunto de datos
se dispersa alrededor de su media. Una desviación estándar
pequeña significa que los valores del conjunto tienden a estar
muy cerca de la media. Una desviación estándar grande indica
que los valores del conjunto se encuentran ampliamente
dispersos alrededor de la media.
 La desviación estándar está en las mismas unidades que los datos.
 La desviación estándar se calcula obteniendo la raíz cuadrada de
la varianza, 𝜎 = 𝜎 2
 La ecuación para la desviación estándar poblacional es
σ 𝑥−𝜇 2
 𝜎=
𝑁
Desviación estándar
 La ecuación para la desviación estándar muestral es
σ 𝑥−𝑥 2
 𝑠=
𝑛−1

 Desviación estándar muestral para datos agrupados (datos simples


o discretos)
σ 𝑓 𝑥−𝑥ҧ 2
 𝑠= o
𝑛−1

σ 𝑓𝑥 2
σ 𝑓𝑥 2 −
 𝑠= 𝑛
donde s es la desviación estándar muestral
𝑛−1

x es el punto medio de la clase


f es la frecuencia de clase
n es el número de observaciones en la muestra
Ejercicio
 Para la muestra siguiente, calcular la desviación estándar

x f σ 𝑓 𝑥−𝑥ҧ 2
Al usar la fórmula 𝑠 = se tiene que determinar
𝑛−1
0 3 la media y las desviaciones al cuadrado multiplicadas por
la frecuencia
1 2

4 5

6 4
Desviación estándar
 Desviación estándar muestral para datos agrupados en una
distribución de clases y frecuencias
σ 𝑓. 𝑃 2
σ 2] − 𝑚
σ 𝑓 𝑃𝑚 − 𝑥ҧ 2 [𝑓. (𝑃𝑚 )
𝑠= = 𝑛
𝑛−1 𝑛−1
 Desviación estándar poblacional para datos agrupados en una
distribución de clases y frecuencias

σ 𝑓 𝑃𝑚 − 𝜇 2
𝜎=
𝑁
Ejercicio
 Calcular la Desviación estándar muestral para las calificaciones
promedio de 30 estudiantes de primer año de una universidad,
registradas al final del año.

Clases Frecuencia
1.9 a  2.2 5 Usar la fórmula
2.2 a  2.5 4 σ 𝑓.𝑃𝑚 2
σ 𝑓.(𝑃𝑚 2 ]−
2.5 a  2.8 12 S=
𝑛
𝑛−1
2.8 a  3.1 6
3.1 a  3.4 2
3.4 a  3.7 1
Total 30
Cálculo de la varianza y la desviación estándar
utilizando datos agrupados
Interpretación y uso de la desviación estándar
 La desviación estándar se emplea como una medida para
comparar la dispersión de dos o más conjuntos de
observaciones.
 La desviación estándar nos permite determinar, con un buen
grado de dispersión, donde están localizados los valores de
una distribución de frecuencias con relación a la media.
Comparación de la variación en
diferentes poblaciones
 Anteriormente afirmamos que, como las unidades de la desviación estándar
son las mismas que las unidades de los datos originales, es más fácil
comprender la desviación estándar que la varianza. Sin embargo, esta misma
propiedad dificulta comparar la variación de valores tomados de distintas
poblaciones. Como el resultado es un valor libre de unidades de medida
específicas, el coeficiente de variación resuelve esta desventaja.
Dispersión relativa: Coeficiente de variación (CV)
 Una comparación de dos o más medidas de dispersión-
digamos la desviación estándar de una distribución de
ingresos anuales y la desviación estándar de una distribución
de ausentismo del mismo grupo de empleados- es imposible.
¿podemos decir que la desviación estándar $1200 de la
distribución de ingresos sea mayor que la desviación
estándar 4.5 días de la distribución del ausentismo?
Obviamente no, porque no podemos comparar directamente
dólares y días de ausencia en el trabajo.
 Para hacer una comparación entre la dispersión de los
ingresos y ausentismo, podemos convertir cada una de estas
medidas en un valor relativo-esto es, en un por ciento-. Esa
medida relativa es el coeficiente de variación (CV),
desarrollada por Karl Pearson.
Dispersión relativa: Coeficiente de variación (CV)
 El coeficiente de variación para un conjunto de datos expresa la desviación
estándar como un porcentaje de la media.
 El coeficiente de variación indica la cantidad relativa de variabilidad en una
distribución.
 En la toma de decisiones se usa el coeficiente de variación para:
1. Determinar la fiabilidad de la media como medida de tendencia central
2. Determinar si la desviación estándar es grande, pequeña o regular
3. Comparar la variabilidad de dos o más distribuciones
¿Cuándo se usa el coeficiente de variación?
- Cuando los datos están en unidades diferentes (ej. Dólares y días de
ausencia)
- Cuando los datos están en las mismas unidades, pero las medias son muy
distintas (ej. Ingresos de ejecutivos de alto nivel y los ingresos de los
empleados no calificados)
Coeficiente de variación (CV) - Ejemplo
 En un estudio de las puntuaciones en un examen de un curso en la
empresa sobre principios de administración, y de los años de servicio de
los empleados en el curso, se obtuvieron estos estadísticos. La
puntuación media fue 200; la desviación estándar fue 40. El número
medio de años de servicio fue 20 años; la desviación estándar fue 2 años.
Compara la dispersión relativa en las dos distribuciones usando el
coeficiente de variación.
Solución
 Las distribuciones tienen unidades diferentes (puntuación de examen y
años de servicio)
Interpretación
Para las puntuaciones de Para los años de servicio
Hay más dispersión relativa a
examen 𝑠
𝑠
𝐶𝑉 = 100 la media en la distribución de
𝑥
𝐶𝑉 = 100 las puntuaciones de exámenes
𝑥
40 2 que en la distribución de los
= 100 = 100
200 20 años de servicio (20% >
= 20% = 10% 10%)
Coeficiente de variación (CV) - Ejemplo
 La variación en los ingresos anuales de ejecutivos se va a comparar con la
variación en los ingresos anuales de empleados no calificados. En una muestra
de ejecutivos, 𝑥 = $500000 y 𝑠 = $50000. En una muestra de empleados no
calificados, 𝑥 = $22000 y 𝑠 = $2200. Estamos tentados a decir que hay mayor
dispersión en los ingresos anuales de los ejecutivos porque $500000 > $2200.
Sin embargo, las medias son tan diferentes que necesitamos convertir los
estadísticos en coeficientes de variación para poder hacer una comparación
de las variaciones en los ingresos anuales.
 Solución
Para los ejecutivos se Para los empleados no Interpretación
tiene: calificados No hay diferencia en
𝑠 𝑠
𝐶𝑉 = 100 𝐶𝑉 = 100
las dispersiones
𝑥 𝑥 relativas de los dos
50000 2200
= 100 = 100 grupos.
500000 22000
= 10% = 10%

También podría gustarte