Está en la página 1de 28

Bienvenidos a la cuarta sesión de la materia de Estadística Empresarial para la toma de

decisiones correspondiente a la Maestría en Administración de Negocios

1
El objetivo general de la sesión es obtener e interpretar las principales medidas de
variabilidad, así como las técnicas para trabajar con datos agrupados, enfatizando en la
interpretación de la información obtenida.

2
Los objetivos específicos son los siguientes:

Objetivo cognitivo: Comprender qué resultados se obtienen de la Estadística a partir del


análisis de los tipos de herramientas para satisfacer las necesidades ciudadanas.

Objetivo procedimental: Distinguir los pasos que deben seguirse al usar las herramientas
de la Estadística mediante la solución de problemas y estudios de casos para comprender el
comportamiento de los datos como su variación, sesgo, curtosis, diagramas de caja entre
otros.

Objetivo actitudinal: Utilizar los tipos de herramientas de la Estadística en diversos casos


de estudio que nos permitan dimensionar sus alcances para conocer las medidas de
concentración y establecer las estrategias que dan respuesta a la ciudadanía.

3
En la presente sesión se analizarán los siguientes subtemas:

1. Medidas de variabilidad
2. Aplicación en datos agrupados
3. Distribución simétrica
4. Valor estandarizado
5. Teorema de Chevyshev
6. Regla empírica
7. Asimetría, coeficiente de sesgo y curtosis.
8. Diagrama de caja

4
En la presente sesión se comprenderá que la media no es por si sola una descripción
completa o suficiente de los datos, sino que se cuenta con otras medidas que miden la
variabilidad o dispersión de las observaciones con respecto a la media y al mismo tiempo
da una descripción completa de los datos dando el sesgo y el apuntalamiento de la curva, y
así tener una descripción total de los datos.

5
Continuamos con el estudio de estadística descriptiva, es el caso de las medidas de
dispersión, las cuales nos ofrecen una perspectiva adicional del lugar donde los valores
están concentrados o dispersos en base a la media de la muestra que estamos estudiando.
Algunas medidas son: el rango, desviación media, varianza, desviación estándar y el
coeficiente de variación.

6
De acuerdo con (Douglas, 2014) el recorrido o rango, es una medida de dispersión muy fácil
de calcular, ya que sólo depende de dos valores extremos de una conjunto de datos, es
decir, el rango es la diferencia ente el dato mayor y el dato menor de los valores
observados, cuanto mayor es la dispersión de los datos con respecto al centro de la
distribución, mayor es el rango. El rango solo tiene en cuenta las observaciones con el valor
más alto y el valor más bajo; por ello, puede estar muy distorsionado si hay una
observación excepcionalmente extrema.

7
Un defecto del rango es que se basa solo en dos valores —el más alto y el más bajo— y no
toma en cuenta todos los valores intermedios.

Por su parte, la desviación media sí toma en cuenta todos los valores y mide la cantidad
media por la cual los valores en una población o muestra varían de su media (promedio).
En términos de definición, la desviación media es la media aritmética de los valores
absolutos de las desviaciones de cada dato con respecto a la media aritmética y clarifica
mejor la forma como los datos se dispersan con respecto del centro, ya sea que los datos
se encuentren agrupados o no.

8
Existen otras medidas de dispersión que tienen mayor precisión de la variabilidad. La
varianza y la desviación estándar también se basan en las desviaciones de la media. Sin
embargo, en lugar de utilizar el valor absoluto de las desviaciones, la varianza y la
desviación estándar elevan las desviaciones al cuadrado.

La varianza es la media aritmética de las desviaciones cuadradas de la media, la varianza es


no negativa y es cero si todas las observaciones son iguales y la desviación estándar es la
raíz cuadrada de la varianza

9
¿Por qué es tan importante entender y medir la dispersión?

• Primero: proporciona información adicional que nos permite juzgar la confiabilidad de


nuestra medida de tendencia central.

• Segundo: ya que existen problemas característicos para datos muy dispersos, debemos
ser capaces de reconocer esa dispersión amplia para poder abordar esos problemas.

• Tercero: quizá se desea comparar las dispersiones de diferentes muestras.

Por otra parte, la mayor utilidad de las medidas de dispersión consiste en comparar dos o
más serie de datos, los resultados de las desviaciones ayudan en la toma de decisiones,
pues se vuelven más confiables, ya que dan información del comportamiento de los datos
alrededor del centro determinado por la media aritmética.

10
Las fórmulas para la varianza de la población y la varianza de la muestra se diferencian en
lo siguiente:

• Para el cálculo de la varianza de la población se toma (N) el total de los valores de la


población. Para las poblaciones cuyos valores son cercanos a la media, la varianza va a
ser pequeña y para las poblaciones cuyos valores están dispersos de la media, la
varianza va a ser alta.
• Para la varianza de la muestra en el denominador se coloca (n-1), donde n es en número
de observaciones de la muestra.

Mientras que la desviación estándar es la raíz cuadrada de la varianza. Cualquier


característica mensurable de la población se conoce como parámetro, la desviación
estándar de una muestra o cualquier otra medida basada en datos de una muestra se
conoce como estadístico.

Tenemos que:
Un parámetro es una característica específica de una población.
Un estadístico es una característica específica de una muestra.

11
El rango mide la dispersión de los datos, pero solo toma en cuenta dos de los valores. Se
necesita una medida que considere cada uno de los valores de los datos, esta medida
promediaría la distancia total entre cada observación y la media, esta distancia sería
negativa en el caso de los valores menores que la media, si se eleva al cuadrado cada una
de las diferencias, cada observación tanto por encima como por debajo de la media
contribuye a la suma de los términos al cuadrado.

La media de la suma de los términos al cuadrado se llama varianza y la raíz cuadrada de


esta es la desviación estándar mientras que el coeficiente de variación es el cociente de la
desviación estándar y la media aritmética representado en porcentaje (Anderson, 2014).

12
De acuerdo con Quesada y Vergara (2007) la desviación media “equivale a la división de la
sumatoria del valor absoluto de las distancias existentes entre cada dato y su media
aritmética y el número total de datos” (p.133).

Esta es la fórmula para calcular la desviación media de datos no agrupados, donde x es el


valor observado, x testada (x con una barra horizontal sobre el símbolo) es la media de los
valores de la muestra, n es el número de observaciones y se calcula en valor absoluto para
ver la desviación promedio de otro modo nos daría cero la operación.

13
Fórmula para calcular la varianza en datos no agrupados, y es la diferencia de la sumatoria
del valor observado menos la media de los datos elevados al cuadrado y posteriormente se
divide entre el número total de observaciones. Se representa con sigma al cuadrado
porque es la varianza de la población al igual que N es el total de las observaciones de la
población de estudio.

14
Aquí encontramos las fórmulas para la desviación estándar de la población y el cálculo de la
varianza y desviación estándar de la muestra, si observas bien las fórmulas son muy
parecidas solo que para representar la varianza y desviación estándar se representa como s
cuadrada y s respectivamente y el total de las observaciones se les resta uno y se
representa con n minúscula y con esto sabemos que nos referimos a la muestra.

15
En esta diapositiva se presentan las fórmulas para datos agrupados, la diferencia radica en
que aquí se multiplica la frecuencia por la diferencia entre la marca de clase y la media de
los datos al cuadrado y tomamos como referencia que cuando es N se habla de población y
n-1 de la muestra

16
Tenemos un ejercicio en donde se calcula la varianza, la desviación estándar y el coeficiente
de variación de los datos mostrados.
Para lograrlo se hace una columna donde calculamos la diferencia de la marca de clase son
la media de los datos, posteriormente se eleva al cuadrado esa columna, para después
multiplicarla por la frecuencia de clase como se muestra.
Una vez realizado esto, se obtiene la sumatoria de la última columna la que se va a dividir
entre el total de las observaciones y el resultado obtenido es lo que llamamos la varianza
de los datos, si le sacamos la raíz cuadrada a la varianza lo que encontramos es la
desviación estándar y finalmente para calcular el coeficiente de variación se va a dividir la
desviación estándar entre la media de los datos y el resultado se multiplica por cien para
obtenerlo en porcentaje.

17
Cuando se tiene una distribución simétrica es cuando la gráfica presenta forma de campana
ya que presenta la misma forma hacia cualquier lado partiendo del centro de la curva, es
decir, si se dobla la curva exactamente a la mitad tendremos lo mismo en ambas pates, en
este tipo de distribuciones la media, mediana y moda son iguales y están localizadas en el
mero centro de la curva.

18
Las variables aleatorias normalmente distribuidas tienen muchas unidades de diferentes de
medición (pesos, dólares, pulgadas, kilos etc.) entonces podemos hablar de unidades
estándar e identifícalas con el símbolo z, se puede estandarizar si se le resta la media a
cada uno de los datos y se divide entre la desviación estándar y a estos valores se les llama
valor de z y con éste método es más fácil de estandarizar las distribuciones y poder calcular
las probabilidades, áreas bajo la curva, sino que también ayuda a comparar dos z-score de
diferentes muestras normales.

Diversas situaciones y fenómenos pueden seguir un modelo de distribución normal, para


resolver dichas contextualizaciones, es necesario identificar el valor de la media, la
desviación estándar y el valor esperado de la variable que se está estudiando. El paso de
mayor relevancia consiste en la estandarización.

19
Las notas de un examen de Matemáticas tuvieron una media de 7.5, y una desviación
estándar de .50. Por otra parte, las notas de un examen de Economía tienen una media de
8.5, y una desviación estándar de.75.

Considera que Juan recibió una nota de 8.1 en el examen de Matemáticas y 9 en Economía.
Calculando los puntajes estandarizados se tiene que:

El valor estandarizado de Matemáticas tiene como resultado 1.2, mientras que el valor
estandarizado de Economía es de .66, lo anterior significa que Juan tuvo un mejor
rendimiento en Matemáticas ya que su nota es 1.2 veces la desviación estándar, mientras
que en Economía su nota es relativamente menor que el promedio de la clase, es decir, .66
veces la desviación estándar (Hernández, 2004).

20
El teorema de Chebyshev establece que los intervalos de datos de cualquier conjunto de
datos independientemente de la forma de la distribución que tengan al menos 75% de los
valores caen dentro de ± dos desviaciones estándar a partir de la media de la distribución y
al menos 89% de los valores caen dentro de ± tres desviaciones estándar a partir de la
media.

Una desviación baja para un conjunto de valores, significa que los valores se localizan cerca
de la media y si se tiene una desviación estándar muy alta, indica que los valores
observados se encuentran dispersos en relación con la media.

21
Para medir aún con mayor precisión el porcentaje de observaciones que cae dentro de un
rango específico de una curva simétrica en forma de campana podemos decir que:
aproximadamente 68% de los valores de la población cae dentro de ± una desviación
estándar a partir de la media. Aproximadamente 95% de los valores estará dentro de ±2
desviaciones estándar a partir de la media. Aproximadamente 99% de los valores están en
el intervalo que va desde tres desviaciones estándar a la izquierda de la media hasta tres
desviaciones estándar a la derecha de la media

22
Tenemos definidas las medidas de ubicación central para un grupo de observaciones
reportando la media, mediana y la moda, las medidas que muestran la cantidad de
extensión o variación de un conjunto de datos como la desviación estándar; por lo general,
se observan cuatro formas que son:

Otra característica de un conjunto de datos es la forma, por lo general se observan 4


formas;
Simétricas: la media y la mediana son iguales y los valores de los datos se encuentran
dispersos de manera uniforme alrededor de estos valores.
Sesgo positivo o sesgo a la derecha: los valores se extienden mas hacia la derecha del pico,
en este caso la media es mas alta que la mediana.
Sesgo negativo: los valores se extienden mas hacia la izquierda en la dirección negativa, la
media es menor que la mediana.
Distribución bimodal: Tiene dos o mas picos

23
La media y la mediana de una distribución simétrica son iguales, ya que las observaciones
están equilibradas o sea están distribuidas uniformemente en torno al valor central. La
media de una distribución sesgada positivas mayor que su mediana. La media de una
distribución sesgada negativamente es menor que su mediana.
Una de las causas posibles del sesgo es la presencia de casos atípicos, las observaciones
excepcionalmente grandes tiende a aumentar la media, lo que provoca posiblemente un
sesgo positivo.

24
La curtosis es una medida del peso de las colas de una función de densidad. Cuando
medimos la curtosis de una distribución, estamos midiendo que tan puntiaguda es, y
tenemos leptocúrtica, mesocúrtica y platicúrtica.

25
Es una representación gráfica que se basa en los cuartiles y nos ayuda a ilustrar un conjunto
de datos, para elaborarlo necesitamos cinco valores, el valor mínimo que es el cuartil uno,
la mediana que también puede ser el cuartil dos, el cuartil tres y el valor máximo.

26
Para resolver el ejercicio primero se calcula la media como se vio anteriormente luego para
la desviación media se calcula restando la marca de case de cada clase tomando el valor
absoluto de ellos y luego multiplicando por la frecuencia de clase, se suma y se divide entre
el total de los datos y así obtenemos la desviación media.
Con los datos obtenidos de la diferencia de la marca de clase y la media, se elevan al
cuadrado, posteriormente se multiplica por la frecuencia, se suman cada una y se divide
entre el total de los datos, en el resultado se obtiene la varianza y por último se le saca la
raíz cuadrada y se obtiene la desviación estándar.
Para una mejor comprensión de estos cálculos se sugiere revisar el material
complementario de esta sesión.

27
Para seguir profundizando en cada uno de los subtemas que se han expuesto en esta
sesión, se recomienda consultar las siguiente bibliografía.

28

También podría gustarte