Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
El objetivo general de la sesión es obtener e interpretar las principales medidas de
variabilidad, así como las técnicas para trabajar con datos agrupados, enfatizando en la
interpretación de la información obtenida.
2
Los objetivos específicos son los siguientes:
Objetivo procedimental: Distinguir los pasos que deben seguirse al usar las herramientas
de la Estadística mediante la solución de problemas y estudios de casos para comprender el
comportamiento de los datos como su variación, sesgo, curtosis, diagramas de caja entre
otros.
3
En la presente sesión se analizarán los siguientes subtemas:
1. Medidas de variabilidad
2. Aplicación en datos agrupados
3. Distribución simétrica
4. Valor estandarizado
5. Teorema de Chevyshev
6. Regla empírica
7. Asimetría, coeficiente de sesgo y curtosis.
8. Diagrama de caja
4
En la presente sesión se comprenderá que la media no es por si sola una descripción
completa o suficiente de los datos, sino que se cuenta con otras medidas que miden la
variabilidad o dispersión de las observaciones con respecto a la media y al mismo tiempo
da una descripción completa de los datos dando el sesgo y el apuntalamiento de la curva, y
así tener una descripción total de los datos.
5
Continuamos con el estudio de estadística descriptiva, es el caso de las medidas de
dispersión, las cuales nos ofrecen una perspectiva adicional del lugar donde los valores
están concentrados o dispersos en base a la media de la muestra que estamos estudiando.
Algunas medidas son: el rango, desviación media, varianza, desviación estándar y el
coeficiente de variación.
6
De acuerdo con (Douglas, 2014) el recorrido o rango, es una medida de dispersión muy fácil
de calcular, ya que sólo depende de dos valores extremos de una conjunto de datos, es
decir, el rango es la diferencia ente el dato mayor y el dato menor de los valores
observados, cuanto mayor es la dispersión de los datos con respecto al centro de la
distribución, mayor es el rango. El rango solo tiene en cuenta las observaciones con el valor
más alto y el valor más bajo; por ello, puede estar muy distorsionado si hay una
observación excepcionalmente extrema.
7
Un defecto del rango es que se basa solo en dos valores —el más alto y el más bajo— y no
toma en cuenta todos los valores intermedios.
Por su parte, la desviación media sí toma en cuenta todos los valores y mide la cantidad
media por la cual los valores en una población o muestra varían de su media (promedio).
En términos de definición, la desviación media es la media aritmética de los valores
absolutos de las desviaciones de cada dato con respecto a la media aritmética y clarifica
mejor la forma como los datos se dispersan con respecto del centro, ya sea que los datos
se encuentren agrupados o no.
8
Existen otras medidas de dispersión que tienen mayor precisión de la variabilidad. La
varianza y la desviación estándar también se basan en las desviaciones de la media. Sin
embargo, en lugar de utilizar el valor absoluto de las desviaciones, la varianza y la
desviación estándar elevan las desviaciones al cuadrado.
9
¿Por qué es tan importante entender y medir la dispersión?
• Segundo: ya que existen problemas característicos para datos muy dispersos, debemos
ser capaces de reconocer esa dispersión amplia para poder abordar esos problemas.
Por otra parte, la mayor utilidad de las medidas de dispersión consiste en comparar dos o
más serie de datos, los resultados de las desviaciones ayudan en la toma de decisiones,
pues se vuelven más confiables, ya que dan información del comportamiento de los datos
alrededor del centro determinado por la media aritmética.
10
Las fórmulas para la varianza de la población y la varianza de la muestra se diferencian en
lo siguiente:
Tenemos que:
Un parámetro es una característica específica de una población.
Un estadístico es una característica específica de una muestra.
11
El rango mide la dispersión de los datos, pero solo toma en cuenta dos de los valores. Se
necesita una medida que considere cada uno de los valores de los datos, esta medida
promediaría la distancia total entre cada observación y la media, esta distancia sería
negativa en el caso de los valores menores que la media, si se eleva al cuadrado cada una
de las diferencias, cada observación tanto por encima como por debajo de la media
contribuye a la suma de los términos al cuadrado.
12
De acuerdo con Quesada y Vergara (2007) la desviación media “equivale a la división de la
sumatoria del valor absoluto de las distancias existentes entre cada dato y su media
aritmética y el número total de datos” (p.133).
13
Fórmula para calcular la varianza en datos no agrupados, y es la diferencia de la sumatoria
del valor observado menos la media de los datos elevados al cuadrado y posteriormente se
divide entre el número total de observaciones. Se representa con sigma al cuadrado
porque es la varianza de la población al igual que N es el total de las observaciones de la
población de estudio.
14
Aquí encontramos las fórmulas para la desviación estándar de la población y el cálculo de la
varianza y desviación estándar de la muestra, si observas bien las fórmulas son muy
parecidas solo que para representar la varianza y desviación estándar se representa como s
cuadrada y s respectivamente y el total de las observaciones se les resta uno y se
representa con n minúscula y con esto sabemos que nos referimos a la muestra.
15
En esta diapositiva se presentan las fórmulas para datos agrupados, la diferencia radica en
que aquí se multiplica la frecuencia por la diferencia entre la marca de clase y la media de
los datos al cuadrado y tomamos como referencia que cuando es N se habla de población y
n-1 de la muestra
16
Tenemos un ejercicio en donde se calcula la varianza, la desviación estándar y el coeficiente
de variación de los datos mostrados.
Para lograrlo se hace una columna donde calculamos la diferencia de la marca de clase son
la media de los datos, posteriormente se eleva al cuadrado esa columna, para después
multiplicarla por la frecuencia de clase como se muestra.
Una vez realizado esto, se obtiene la sumatoria de la última columna la que se va a dividir
entre el total de las observaciones y el resultado obtenido es lo que llamamos la varianza
de los datos, si le sacamos la raíz cuadrada a la varianza lo que encontramos es la
desviación estándar y finalmente para calcular el coeficiente de variación se va a dividir la
desviación estándar entre la media de los datos y el resultado se multiplica por cien para
obtenerlo en porcentaje.
17
Cuando se tiene una distribución simétrica es cuando la gráfica presenta forma de campana
ya que presenta la misma forma hacia cualquier lado partiendo del centro de la curva, es
decir, si se dobla la curva exactamente a la mitad tendremos lo mismo en ambas pates, en
este tipo de distribuciones la media, mediana y moda son iguales y están localizadas en el
mero centro de la curva.
18
Las variables aleatorias normalmente distribuidas tienen muchas unidades de diferentes de
medición (pesos, dólares, pulgadas, kilos etc.) entonces podemos hablar de unidades
estándar e identifícalas con el símbolo z, se puede estandarizar si se le resta la media a
cada uno de los datos y se divide entre la desviación estándar y a estos valores se les llama
valor de z y con éste método es más fácil de estandarizar las distribuciones y poder calcular
las probabilidades, áreas bajo la curva, sino que también ayuda a comparar dos z-score de
diferentes muestras normales.
19
Las notas de un examen de Matemáticas tuvieron una media de 7.5, y una desviación
estándar de .50. Por otra parte, las notas de un examen de Economía tienen una media de
8.5, y una desviación estándar de.75.
Considera que Juan recibió una nota de 8.1 en el examen de Matemáticas y 9 en Economía.
Calculando los puntajes estandarizados se tiene que:
El valor estandarizado de Matemáticas tiene como resultado 1.2, mientras que el valor
estandarizado de Economía es de .66, lo anterior significa que Juan tuvo un mejor
rendimiento en Matemáticas ya que su nota es 1.2 veces la desviación estándar, mientras
que en Economía su nota es relativamente menor que el promedio de la clase, es decir, .66
veces la desviación estándar (Hernández, 2004).
20
El teorema de Chebyshev establece que los intervalos de datos de cualquier conjunto de
datos independientemente de la forma de la distribución que tengan al menos 75% de los
valores caen dentro de ± dos desviaciones estándar a partir de la media de la distribución y
al menos 89% de los valores caen dentro de ± tres desviaciones estándar a partir de la
media.
Una desviación baja para un conjunto de valores, significa que los valores se localizan cerca
de la media y si se tiene una desviación estándar muy alta, indica que los valores
observados se encuentran dispersos en relación con la media.
21
Para medir aún con mayor precisión el porcentaje de observaciones que cae dentro de un
rango específico de una curva simétrica en forma de campana podemos decir que:
aproximadamente 68% de los valores de la población cae dentro de ± una desviación
estándar a partir de la media. Aproximadamente 95% de los valores estará dentro de ±2
desviaciones estándar a partir de la media. Aproximadamente 99% de los valores están en
el intervalo que va desde tres desviaciones estándar a la izquierda de la media hasta tres
desviaciones estándar a la derecha de la media
22
Tenemos definidas las medidas de ubicación central para un grupo de observaciones
reportando la media, mediana y la moda, las medidas que muestran la cantidad de
extensión o variación de un conjunto de datos como la desviación estándar; por lo general,
se observan cuatro formas que son:
23
La media y la mediana de una distribución simétrica son iguales, ya que las observaciones
están equilibradas o sea están distribuidas uniformemente en torno al valor central. La
media de una distribución sesgada positivas mayor que su mediana. La media de una
distribución sesgada negativamente es menor que su mediana.
Una de las causas posibles del sesgo es la presencia de casos atípicos, las observaciones
excepcionalmente grandes tiende a aumentar la media, lo que provoca posiblemente un
sesgo positivo.
24
La curtosis es una medida del peso de las colas de una función de densidad. Cuando
medimos la curtosis de una distribución, estamos midiendo que tan puntiaguda es, y
tenemos leptocúrtica, mesocúrtica y platicúrtica.
25
Es una representación gráfica que se basa en los cuartiles y nos ayuda a ilustrar un conjunto
de datos, para elaborarlo necesitamos cinco valores, el valor mínimo que es el cuartil uno,
la mediana que también puede ser el cuartil dos, el cuartil tres y el valor máximo.
26
Para resolver el ejercicio primero se calcula la media como se vio anteriormente luego para
la desviación media se calcula restando la marca de case de cada clase tomando el valor
absoluto de ellos y luego multiplicando por la frecuencia de clase, se suma y se divide entre
el total de los datos y así obtenemos la desviación media.
Con los datos obtenidos de la diferencia de la marca de clase y la media, se elevan al
cuadrado, posteriormente se multiplica por la frecuencia, se suman cada una y se divide
entre el total de los datos, en el resultado se obtiene la varianza y por último se le saca la
raíz cuadrada y se obtiene la desviación estándar.
Para una mejor comprensión de estos cálculos se sugiere revisar el material
complementario de esta sesión.
27
Para seguir profundizando en cada uno de los subtemas que se han expuesto en esta
sesión, se recomienda consultar las siguiente bibliografía.
28