Tema 4 Medidas Descriptivas de Dispersión

MEDIDAS DESCRIPTIVAS DE DISPERSIÓN
Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.
MEDIDAS DE FORMA
Son aplicada en función a la representación gráfica de los datos. Comparan la forma gráfica con
la distribución normal y se determina una clasificación.
a) Simetría
Se establece que la distribución es simétrica cuando los datos de una población se distribuyen
con igual frecuencia y alejamiento por debajo y por encima de la media aritmética. En estas
distribuciones el valor de las medidas de tendencia central –media, moda y mediana- es el
mismo.
La simetría determina que la población es homogénea en relación a la variable en estudio.
b) Asimetría
Se clasifica como asimétrica la distribución donde los datos por debajo de la media son más
frecuentes que aquellos por encima de la media, o viceversa.
En este caso, se establece que la población es heterogénea para la variable en estudio.
Distribución asimétrica a la izquierda: los datos por debajo de la media son menos frecuentes,
hay menos datos por debajo del promedio
Distribución asimétrica a la derecha: los datos por encima de la media son menos frecuentes,
hay menos datos por encima del promedio.
SIMETRÍA
Cuando los datos de una población se distribuyen con igual frecuencia y alejamiento por debajo
y por encima de la media aritmética, se dice que la distribución es simétrica; pero, si los datos
por debajo de la media son más frecuentes que aquellos por encima de la media, o viceversa, se
dice que la distribución es asimétrica.
La curva normal es simétrica, en teoría la curva se extiende hasta

el infinito, la media, mediana y moda son iguales.
Asimetría a la izquierda
El promedio es el dato más pequeño, la mediana es mayor y la

moda es todavía más mayor.
Asimetría a la derecha
La moda es el valor más pequeño, la mediana es mayor que la

moda, y el promedio es el más grande de todos.
MEDIDAS DE DISPERSIÓN
Una medida de Dispersión indica cómo las observaciones se separan de la Media

Aritmética.
Esta medida de dispersión será grande si las observaciones están distantes de la media y
pequeña si están cerca.
Llamadas también medidas de variabilidad, miden el grado de separación de los datos

respecto a un valor central.
Son útiles porque:
1. Permiten juzgar la confiabilidad de la medida de tendencia central.

2. Los datos demasiados dispersos (muy pequeños o muy grandes) tienen un
comportamiento especial.
3. Es posible comparar dispersión de diversas muestras.
Medidas de dispersión
Rango o Amplitud (A)
Varianza (V - 2 -s2)
Desviación Estándar ( - s)
Desviación Cuartil (DC)

MEDIDAS QUE CALCULAN LA DISPERSIÓN
RANGO (Amplitud Total)
Es la medida más simple de dispersión.
La que menos información nos ofrece sobre la agrupación de las variables en torno a las medidas
de tendencia central, nos dice cual es el largo de nuestros datos entre el valor máximo y el valor
mínimo.
A =Observación Max -Observación Min
Se aplica a variables cuantitativas discretas o continuas, pero no a las cualitativas.
LA VARIANZA
Es una medida de dispersión que cuantifica la variabilidad de los datos con respecto a la Media
Aritmética.
Ver que tan lejos está cada uno de los datos del promedio, cuanto
más grande es la varianza es que más lejos están los datos.
Todos los valores que sumemos serán positivos.
Junto con la desviación estándar, es la medida de dispersión que mejor expresa la variabilidad
del fenómeno.
Si tenemos N datos X1, X2, X3, ..., XN. La varianza de estos datos se define como:
La sumatoria de todos los datos – el promedio elevado al cuadrado/ el

número total de datos
Se usa con los datos completos de toda una población.
Para una muestra de tamaño n:
Cuando se trabaja con muestras la fórmula es:
La sumatoria de todos los datos- el promedio levado al cuadrado/ el numero

total de datos de la muestra -1
Varianza en datos agrupados
En el caso de manejar datos agrupados, en una tabla de frecuencias, para hallar la varianza se
necesitan la marca de clase (Xi) y la frecuencia absoluta simple (fi).
La fórmula es la siguiente:
Para facilitar el cálculo, se recomienda agregar a la tabla de frecuencias 2 columnas:
Una columna que indique el valor de fiXi2 por cada intervalo.
Una columna que indique el valor de fiXi por cada intervalo.
V=94424- (1648)2/30/29
V=134.2712645
No redondear a la mitad de la fórmula.
DESVIACIÓN ESTÁNDAR
Es la medida de dispersión más común para definir datos médicos y del área de la salud. Analiza
la dispersión del 100% de los datos.
Específicamente, es la raíz cuadrada de la varianza, y se representa con  si se trata de una

población y con s si se trata de una muestra:
Desviación estándar ( o s)
= √𝑽 = √𝟏𝟑𝟒. 𝟐𝟕𝟏𝟐𝟔𝟒𝟓 = 𝟏𝟏. 𝟓𝟖𝟕𝟓𝟒𝟕𝟖𝟐 𝒂ñ𝒐𝒔
Es la medida de dispersión para datos simétricos
Es la medida de dispersión más común para definir datos médicos y del área de la salud.
Es la raíz cuadrada de la varianza
Requieren datos numéricos.
Cuanto menor sea la desviación estándar, menor será la dispersión (más homogénea) y cuando
mayor sea la desviación típica, mayor dispersión (menos homogéneas).
DESVIACIÓN CUARTIL
Es la media de dispersión para datos asimétricos.
Medida de dispersión respecto a la mediana, que analiza la dispersión de los datos del 50%
central de observaciones.
Es la semisuma de la distancia entre el primer y el tercer cuartil:
RIQ= rango intercuartílico
Excluye el 25% más alto y el 2% más bajo dando un rango del 50% de los datos.
Recordar:
Debajo del primer cuartil (Q1) hay 25% de los datos
Encima del tercer cuartil (Q3) hay también 25% de los datos.
Por consiguiente, en el rango intercuartílico hay un rango de 50% de los datos.
MEDIDAS DE DISPERSIÓN O VARIABILIDAD ABSOLUTAS
Rango, Desviación estándar y Varianza.
Son absolutas porque siempre van acompañadas de sus unidades de medida.
Rango de 6 hijos
Desviación estándar de 1.5 hijos
11 años de desviación estándar, siempre se le debe acompañar de su unidad de medida.
COEFICIENTE DE VARIACIÓN
Es una medida relativa de variabilidad de los datos entre la media y la desviación estándar de
una población o muestra. Permite comparar la variabilidad de dos o más conjuntos de datos
expresados en unidades diferentes.
Por ejemplo:
Peso en Kg. y libras o peso y talla
Es el porcentaje que la desviación estándar representa de la media ya al hablar de porcentaje

elimino su unidad de medida.
A) Cálculos a partir de datos no agrupados para la muestra:
CV= s/x*100, es decir tener la desviación estándar y dividirla entre el promedio
B) Cálculos a partir de datos no agrupados para la población:

CV= o/u*100
Así podremos decidir cuál de los grupos de datos es más disperso.
Pero sólo se puede usar si la escala de medida de la variable es de razón.
Si cambiamos el cero arbitrariamente, cambia también la media y por lo tanto cambiará el

CV.
Existe una clasificación de dispersión de un conjunto de datos, según el porcentaje de

coeficiente de variación:
CV < 10% Poca dispersión
10%> CV < 33% Dispersión aceptable
33%< CV < 50% Dispersión alta
CV> 50% La dispersión es muy alta
Las distribución más homogéneas tienen V más pequeñas y las

heterogéneas más grandes.
USO DE LAS DIFERENTES MEDIDAS DE DISPERSIÓN
Con distribuciones simétricas (no sesgadas) se emplean la media y la desviación estándar de

datos numéricos.
Cuando la distribución no es simétrica(sesgada) se emplean la mediana y Percentiles y rango

intercuartílicos y desviación cuartil.
La moda es el número más grande y la media aritmética es el

numero más pequeño.
La media es la mayor y la moda es la menor.
Media aritmética< Me< Mo
Los datos por debajo de la media son menos frecuentes
Media aritmética> Me> Mo
Los datos por encima de la media son menos frecuentes
El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores
extremos.
El coeficiente de variación es útil cuando la intención es comparar dos distribuciones numéricas

medidas en escalas diferentes.
MEDIDAS DESCRIPTIVAS DE DISPERSIÓN
Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.
Medidas de posición
Sitúan a un individuo en la distribución de la variable que se está estudiando.
Primero deben ordenarse los datos.
Se usan mucho en test psicométricos y medidas antropométricas.
Y dividen a la distribución en cuatro, diez o cien partes iguales:
Cuartiles, Deciles y Percentiles.
Recordar:
Q1= P25
Q2= mediana = P50
Q3= P75
BOX PLOT (DIAGRAMA DE CAJA)
Alternativa gráfica a pruebas estadísticas.
Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción

se usan cinco medidas descriptivas: mediana, primer cuartil, tercer cuartil, valor máximo y
valor mínimo.
Presenta, al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los
datos de estudio.
Además, permite identificar con claridad y de forma individual, las observaciones que se alejan
de manera inusual del resto de los datos. A estas observaciones se les conoce como valores
atípicos “outliers” o valores extremos.
Al igual que el histograma y el gráfico de Tallos y Hojas permite tener una idea visual de la
distribución de los datos (simetría y variabilidad). También se podrá ver cómo están los datos
centrales y como están los datos en los extremos.
Procedimiento
1. Dibujar una caja cuyo límite inferior será Q1 y el superior Q3.

2. Dentro de la caja trazar una línea que localice la mediana.
3. Calcular el rango intercuartílico:
RIQ = Q3 – Q1
4. Se calculan las Fronteras Interiores inferior (FIi) y superior (FIs):
FIi= Q1 – (1.5) (RIQ)
FIs= Q3 + (1.5) (RIQ)
5. Se calculan las Fronteras Exteriores inferior (FEi) y superior (FEs):
FEi = Q1 –3(RIQ)
FEs = Q3 +3(RIQ)
6. Mirando las Fronteras Interiores inferior (se les llama interiores ya
que están más cerca de la caja) (FIi) y superior (FIs):
FIi = Q1 – (1.5) (RIQ)
FIs = Q3 + (1.5) (RIQ)
Valores atípicos moderados se dibujan con un punto “●”
7. Mirando las Fronteras Exteriores inferior (FEi) y superior (FEs):

FEi = Q1 –3(RIQ)
FEs = Q3 +3(RIQ)
Valores atípicos extremos se dibujan con un asterisco “✽”
Mirando estas fronteras:
Si no hay valores atípicos, ‘outliers’, entonces las líneas perpendiculares

(bigotes) al límite de cada caja se trazan:
Hasta el valor mínimo de los datos, por abajo, y hasta el valor máximo de los
datos, por arriba.
Puedo incluir la media aritmética, o promedio con un punto, (generalmente

dentro de la caja).
Edad de 100 pacientes
Valor mínimo: 18
Valor máximo: 57
Posición de los cuartiles
N=100
N/4=25 posición del primer cuartil
N/2= 50 Posición de la mediana o segundo cuartil
3N/4=75 Posición del tercer cuartil.
Posiciones 25, 50 y 75
Q1= 23 años
Q2= 26 años
Q3= 31 años
Cálculos
Q1=23, Q2 o Me= 26, Q3=31
Min=18, Max=57
RIQ= Q3 – Q1= 31 - 23= 8
Fronteras Interiores inferior y superior:
FIi = Q1 – (1.5) (RIQ)= 11
FIs = Q3 + (1.5) (RIQ)= 43
Fronteras Exteriores inferior y superior:
FEi = Q1 – (3) (RIQ)= -1
FEs = Q3 + (3) (RIQ)= 55

1. Dibujar una caja cuyo límite inferior será Q1=23 y el superior Q3=31.
2. Dentro de la caja trazar una línea que localice la Mediana=26.
3. Calcular el rango intercuartílico:
RIQ= Q3 – Q1= 31 - 23= 8
4. Se calculan las Fronteras Interiores inferior y superior:
FIi = Q1 – (1.5) (RIQ)= 11
FIs = Q3 + (1.5) (RIQ)= 43
5. Se calculan las Fronteras Exteriores inferior y superior:
FEi = Q1 – (3) (RIQ)= -1
FEs = Q3 + (3) (RIQ)= 55
6. Dibujar un “bigote” saliendo del borde inferior de la caja hasta la frontera

inferior (11), o valor mínimo = 18
7. Dibujar otro “bigote” saliendo del borde superior de la caja hasta la Frontera
Interior superior = 43 o valor máximo.
8. Dibujar cualquier observación que se ubique fuera de los bigotes. Estos serán
los outliers moderados=51 o extremos.
FIi = Q1 – (1.5) (RIQ)= 11
FIs = Q3 + (1.5) (RIQ)= 43
9. Dibujar los valores más alejados, se debe considerar otra forma para el outlier
extremo= 57, por ejemplo, un asterisco.
FEi = Q1-(3 x RIQ) = -1
FEs = Q1+(3 x RIQ) = 55
En este caso no hay datos extremos.

Cambio en discapacidad según NUDS
DISPERSIÓN
Cajas anchas sugieren distribuciones muy dispersas en la parte central.
Cajas angostas muestran una gran concentración de datos.
La longitud de las colas por su parte nos dirá la mayor o menor concentración de los datos en
las zonas extremas.
Interpretación
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
La distancia entre las cinco medidas del boxplot (sin incluir la media aritmética) puede variar, sin
embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la
misma.
Entre el límite inferior y Q1 hay igual cantidad de datos que de Q1 a la mediana, de ésta a Q3 y
de Q3 al límite superior (25%).
Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.
La línea que representa la mediana indica la simetría.
Si está relativamente en el centro de la caja la distribución es simétrica.

Si se acerca al borde de la caja (Q1 o Q3), la distribución pudiera ser sesgada a la derecha
(asimétrica positiva hacia Q1) o sesgada a la izquierda (asimétrica negativa hacia Q3)
respectivamente.
La mediana puede inclusive coincidir con los cuartiles 1 y 2 o con los límites de los bigotes. Esto
sucede cuando se concentran muchos datos en un mismo punto.
Vista de un blox plot y su Histograma
Propiedades básicas y los box plots
El histograma y blox plot nos muestran la misma

información, pero se ve más detallada en el blox
plot
Salario (dólares hora) según ocupación
Valores atípicos: worker- service-managment

Tema 4 Medidas Descriptivas de Dispersión

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4 Medidas Descriptivas de Dispersión

Cargado por

Copyright:

Formatos disponibles

MEDIDAS DESCRIPTIVAS DE DISPERSIÓN

La simetría determina que la población es homogénea en relación a la variable en estudio.

En este caso, se establece que la población es heterogénea para la variable en estudio.

La curva normal es simétrica, en teoría la curva se extiende hasta

El promedio es el dato más pequeño, la mediana es mayor y la

La moda es el valor más pequeño, la mediana es mayor que la

Una medida de Dispersión indica cómo las observaciones se separan de la Media

Llamadas también medidas de variabilidad, miden el grado de separación de los datos

Son útiles porque:

1. Permiten juzgar la confiabilidad de la medida de tendencia central.

Rango o Amplitud (A)

Desviación Cuartil (DC)

RANGO (Amplitud Total)

Es la medida más simple de dispersión.

A =Observación Max -Observación Min

Se aplica a variables cuantitativas discretas o continuas, pero no a las cualitativas.

Todos los valores que sumemos serán positivos.

La sumatoria de todos los datos – el promedio elevado al cuadrado/ el

Se usa con los datos completos de toda una población.

Para una muestra de tamaño n:

Cuando se trabaja con muestras la fórmula es:

La sumatoria de todos los datos- el promedio levado al cuadrado/ el numero

Varianza en datos agrupados

Una columna que indique el valor de fiXi2 por cada intervalo.

Una columna que indique el valor de fiXi por cada intervalo.

No redondear a la mitad de la fórmula.

Específicamente, es la raíz cuadrada de la varianza, y se representa con  si se trata de una

= √𝑽 = √𝟏𝟑𝟒. 𝟐𝟕𝟏𝟐𝟔𝟒𝟓 = 𝟏𝟏. 𝟓𝟖𝟕𝟓𝟒𝟕𝟖𝟐 𝒂ñ𝒐𝒔

Es la medida de dispersión para datos simétricos

Es la raíz cuadrada de la varianza

Requieren datos numéricos.

Es la media de dispersión para datos asimétricos.

Es la semisuma de la distancia entre el primer y el tercer cuartil:

RIQ= rango intercuartílico

Debajo del primer cuartil (Q1) hay 25% de los datos

Por consiguiente, en el rango intercuartílico hay un rango de 50% de los datos.

MEDIDAS DE DISPERSIÓN O VARIABILIDAD ABSOLUTAS

Rango, Desviación estándar y Varianza.

Son absolutas porque siempre van acompañadas de sus unidades de medida.

Desviación estándar de 1.5 hijos

11 años de desviación estándar, siempre se le debe acompañar de su unidad de medida.

Peso en Kg. y libras o peso y talla

Es el porcentaje que la desviación estándar representa de la media ya al hablar de porcentaje

A) Cálculos a partir de datos no agrupados para la muestra:

CV= s/x*100, es decir tener la desviación estándar y dividirla entre el promedio

B) Cálculos a partir de datos no agrupados para la población:

Así podremos decidir cuál de los grupos de datos es más disperso.

Pero sólo se puede usar si la escala de medida de la variable es de razón.

Si cambiamos el cero arbitrariamente, cambia también la media y por lo tanto cambiará el

Existe una clasificación de dispersión de un conjunto de datos, según el porcentaje de

CV < 10% Poca dispersión

10%> CV < 33% Dispersión aceptable

33%< CV < 50% Dispersión alta

CV> 50% La dispersión es muy alta

Las distribución más homogéneas tienen V más pequeñas y las

USO DE LAS DIFERENTES MEDIDAS DE DISPERSIÓN

Con distribuciones simétricas (no sesgadas) se emplean la media y la desviación estándar de

Cuando la distribución no es simétrica(sesgada) se emplean la mediana y Percentiles y rango

La moda es el número más grande y la media aritmética es el

La media es la mayor y la moda es la menor.

Media aritmética< Me< Mo

Los datos por debajo de la media son menos frecuentes

Media aritmética> Me> Mo