Está en la página 1de 30

UNIVERSIDAD NACIONAL DEL

CALLAO

MEDIDAS DE DISPERSIÓN

Profesor: Modesto Roland Alcantara Ramirez


ESTADÍSTICA DESCRIPTIVA
Introducción

• ¿Los promedios proporcionan suficiente información


para una adecuada descripción de los datos?

• ¿Por qué estudiar la dispersión?

• ¿Qué medida de dispersión es la más adecuada para


comparar variabilidades entre dos conjuntos de
datos?
Introducción

• Los estudiantes de Estadística reciben diferentes calificaciones en la


asignatura (variabilidad). ¿A qué puede deberse?
Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?


• Por ejemplo supongamos que todos los alumnos poseen el mismo
nivel de conocimiento. ¿Las notas serían las mismas en todos?
Seguramente No.
• Dormir poco el día del examen, no desayunaste,...
Diferencias individuales en la habilidad para hacer un
examen.
• El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN
¿Qué son las Medidas de Dispersión?
¿Cómo sabré si un
promedio es
confiable?, o si los
• Son las que miden el grado de datos están
concentración o dispersión de concentrados.

los valores de una variable en


torno de un promedio.
Los más utilizados son:
• Rango o Recorrido
• Recorrido Intercuartílico
• Varianza y Desviación estándar
• Coeficiente de Variación
Medidas de Dispersión
Variación

Rango Rango Varianza Desviació Coeficiente


Intercuartílico nEstándar de Variación

• Medidas de dispersión dan


información sobre la
dispersión o variabilidad
de los datos.

Mismo centro,
Variación diferente
Variabilidad o Dispersión
Baja dispersión = Alta concentración=Datos
homogéneos.
Alta dispersión = Baja concentración=Datos
heterogéneos.
Es importante tener una
Imagen visual de la Distribución de la variable
Datos de baja variabilidad
La media provee una buena
representación de los valores
en la base de datos.

Datos con alta variabilidad


Al incrementar datos
la distribución cambia..

La media ya NO provee ahora una


buena información de los datos como
sucedía anterioremente
Variabilidad o Dispersión
Miden el grado de dispersión de los datos.

• Rango (R): R  X max  X min


Es la diferencia entre las observaciónes extremas.
• Ejemplo: Datos; 2,1,4,3,8,4.

Rango  8  1  7
• Es muy sensible a los valores extremos.

• Rango intercuartílico (RIC):


• Es la diferencia entre el tercer y primer cuartil.

Rango Intercuartílico  Q3  Q1
• No es tan sensible a valores extremos.
Ejemplo: Rango Intercuartílico (RIC)
Las puntuaciones de un exámen de15 estudiantes se listan abajo.
Halle el primer, segundo y tercer cuartíl de las puntuaciones, y el RIC.
28 43 48 51 43 30 55 44 48 33 45 37 37 42 38
Datos Ordenados:
Mitad inferior Mitad Superior

28 30 33 37 37 38 42 43 43 44 45 48 48 51 55
Q1 Q2 Q3

RIC  Q3  Q1 Las puntuaciones del exámen en la


parte media de los datos varian al
= 48 – 37 menos en 11 puntos.
= 11
DESVIACIÓN ESTÁNDAR
• Llamada también desviación típica.
• En la práctica, la desviación estándar se utiliza con más frecuencia que la
varianza.
• Una de las razones es que se expresa en las mismas unidades de medida de
la variable.
Interpretación del valor de “ s ”
• Sean las siguientes estadísticas de las edades de pacientes atendidos en un
consultorio médico:
Media = 39,80 años y s = 13,74 años
• La dispersión media de las edades de los pacientes con respecto al
promedio es de 13,74 años, o bien así:
• La variabilidad media de las edades de los pacientes en relación al
promedio es de 13,74 años.
Varianza y Desviación Estándar
n
Var ( x)  S 2  1  i
( x  x ) 2
(n1) i 1
Para facilitar los cálculos de s2 (la varianza)
utilizaremos la ecuación equivalente:
n
 2
S 
2 1

(n 1)  i 1
( xi )  n( X ) 
2


Desviación estándar muestral:
Es la raíz cuadrada de la varianza.

S  Var ( x)
Fórmula alternativa para s2
Ejemplo: Los pesos (en libras) de una muestra de cinco
cajas que se envían por UPS (empresa de mensajería)
son los siguientes: 12, 6, 7, 3 y 10. Calcule la varianza y
la desviación estándar.
Varianza muestral S2 :

S 2  1 (338)  5(7.6)2   12,3


(51)
Desviación estándar muestral S:
S  S 2  12,3  3,5071
Interpretación: En promedio, los pesos de las cajas
varian 3,51 libras respecto de la media de 7,6 libras.
MEDIDAS DE DISPERSIÓN
2
RANGO ( R) VARIANZA (S ) DESVIACIÓN ESTANDAR ( S )
Coeficiente de Variación
Es la razón entre la desviación estándar y la media.
S
 También se la denomina variabilidad relativa. CV   100%
 Es frecuente mostrarla en porcentajes x
• Si la media es 80 y la desviación estándar 20 entonces
CV=20/80=0,25=25% (variabilidad relativa).

 Es una cantidad adimensional. Conveniente para comparar la


variabilidad de diferentes variables.

 Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos


presentan mayor dispersión relativa en peso que en altura.
Se usa como estadístico de comparación respecto al cual se establece
si un conjunto de datos es homogéneo o heterogéneo.

- Si CV ≤ 30% → los datos son homogéneos


(dispersión baja).

- Si CV > 30% → los datos son heterogéneos.


(alto grado de dispersión).
Variabilidad o Dispersión
¿Cuál de las siguientes variables presenta un menor
grado de dispersión?
¿Cuál de las siguientes variables presenta un mayor
grado de dispersión?
Ejemplo: Variabilidad o Dispersión
Ante la pregunta sobre el número de hijos por familia, una
muestra de 12 hogares, marcó las siguientes respuestas:
2 1 2 4 1 3
2 3 2 0 5 1
Calcule el coeficiente de dispersión de los datos

• Solución:
 1, 4035 
• Media = 2.1667 CV ( x )     100  64, 7759%
 2,1667 
• Desv. Estándar = 1.4035

Interpretación: Como C.V.= 64.78% > 30% concluimos que la


distribución del número de hijos por familia es heterogénea.
RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA
Diagrama de Cajas (Boxplot)
Este diagrama permite determinar, en forma gráfica,
lo siguiente:

 Valores extremos o atípicos (outliers).


 La tendencia central.
 La variabilidad.
 La asimetría de la distribución.

Estos gráficos son bastante útiles para comparar dos o


más conjuntos de datos en cuanto a su tendencia
central y variabilidad.
Diagrama de Cajas (Boxplots)
Outlier Valor
Extremo
Forma de la Distribución y BoxPlot
Asimétrica Asimétrica
Simétrica
Izquierda Derecha

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
Boxplots: Aplicación
El índice fog se utiliza para medir la dificultad para leer un texto escrito:
cuanto más alto es el valor del índice, más difícil es el nivel de lectura.
Se toman muestras aleatorias independientes de 6 anuncios de
Scientific American, Fortune y New Yorker. Se miden los índices fog de
los 18 anuncios y se anotan en la Tabla siguiente.

Scientific
Fortune New Yorker
American
15,75 12,63 9,27
11,55 11,46 8,28
11,16 10,77 8,15
9,92 9,93 6,37
9,93 9,87 6,37
8,20 9,42 5,66
Boxplots: Aplicación
Objetivo del investigador:

Comparar los niveles de dificultad (en índices fog) para leer un


texto escrito.
 
Grupos de comparación:

Grupo 1: Índice promedio de dificultad de la revista Scientific


American.
Grupo 2: Índice promedio de dificultad de la revista Fortune.
Grupo 3: Índice promedio de dificultad de la revista New Yorker.
Boxplots: Aplicación
Boxplots: Aplicación
Tipo de Revista Estadístico

Varianza 7,005

Desv. típ. 2,64665

Scientific Coeficiente
0,241229
American Variación

Rango 7,55
Amplitud 3,63
intercuartil
Varianza 1,445

Desv. típ. 1,20210

Índice fog Coeficiente


(Dificultad de Fortune 0,112556
Variación
Lectura)
Rango 3,21
Amplitud 2,00
intercuartil
Varianza 1,994

Desv. típ. 1,41196

Coeficiente
New Yorker 0,192103
Variación

Rango 3,61
Amplitud 2,34
27 intercuartil
Propiedades de la Varianza
Conclusión: Ahora estamos listos
para describir y analizar
datos estadísticos

• Las medidas de dispersión son


necesarias para dos propósitos
básicos:

• Para verificar la confiabilidad de


los promedios, y
• Para que sirva como base para el
control de la variación misma
“El corazón alegre hermosea el rostro”

También podría gustarte