Está en la página 1de 12

MEDIDAS DESCRIPTIVAS DE DISPERSIÓN

Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.

MEDIDAS DE FORMA

Son aplicada en función a la representación gráfica de los datos. Comparan la forma gráfica con
la distribución normal y se determina una clasificación.

a) Simetría

Se establece que la distribución es simétrica cuando los datos de una población se distribuyen
con igual frecuencia y alejamiento por debajo y por encima de la media aritmética. En estas
distribuciones el valor de las medidas de tendencia central –media, moda y mediana- es el
mismo.

La simetría determina que la población es homogénea en relación a la variable en estudio.

b) Asimetría

Se clasifica como asimétrica la distribución donde los datos por debajo de la media son más
frecuentes que aquellos por encima de la media, o viceversa.

En este caso, se establece que la población es heterogénea para la variable en estudio.

Distribución asimétrica a la izquierda: los datos por debajo de la media son menos frecuentes,
hay menos datos por debajo del promedio

Distribución asimétrica a la derecha: los datos por encima de la media son menos frecuentes,
hay menos datos por encima del promedio.

SIMETRÍA

Cuando los datos de una población se distribuyen con igual frecuencia y alejamiento por debajo
y por encima de la media aritmética, se dice que la distribución es simétrica; pero, si los datos
por debajo de la media son más frecuentes que aquellos por encima de la media, o viceversa, se
dice que la distribución es asimétrica.

La curva normal es simétrica, en teoría la curva se extiende hasta


el infinito, la media, mediana y moda son iguales.
Asimetría a la izquierda

El promedio es el dato más pequeño, la mediana es mayor y la


moda es todavía más mayor.

Asimetría a la derecha

La moda es el valor más pequeño, la mediana es mayor que la


moda, y el promedio es el más grande de todos.

MEDIDAS DE DISPERSIÓN

Una medida de Dispersión indica cómo las observaciones se separan de la Media


Aritmética.

Esta medida de dispersión será grande si las observaciones están distantes de la media y
pequeña si están cerca.

Llamadas también medidas de variabilidad, miden el grado de separación de los datos


respecto a un valor central.

Son útiles porque:

1. Permiten juzgar la confiabilidad de la medida de tendencia central.


2. Los datos demasiados dispersos (muy pequeños o muy grandes) tienen un
comportamiento especial.
3. Es posible comparar dispersión de diversas muestras.

Medidas de dispersión

Rango o Amplitud (A)

Varianza (V - 2 -s2)

Desviación Estándar ( - s)

Desviación Cuartil (DC)


MEDIDAS QUE CALCULAN LA DISPERSIÓN

RANGO (Amplitud Total)

Es la medida más simple de dispersión.

La que menos información nos ofrece sobre la agrupación de las variables en torno a las medidas
de tendencia central, nos dice cual es el largo de nuestros datos entre el valor máximo y el valor
mínimo.

A =Observación Max -Observación Min

Se aplica a variables cuantitativas discretas o continuas, pero no a las cualitativas.

LA VARIANZA

Es una medida de dispersión que cuantifica la variabilidad de los datos con respecto a la Media
Aritmética.

Ver que tan lejos está cada uno de los datos del promedio, cuanto
más grande es la varianza es que más lejos están los datos.

Todos los valores que sumemos serán positivos.

Junto con la desviación estándar, es la medida de dispersión que mejor expresa la variabilidad
del fenómeno.

Si tenemos N datos X1, X2, X3, ..., XN. La varianza de estos datos se define como:

La sumatoria de todos los datos – el promedio elevado al cuadrado/ el


número total de datos

Se usa con los datos completos de toda una población.

Para una muestra de tamaño n:

Cuando se trabaja con muestras la fórmula es:

La sumatoria de todos los datos- el promedio levado al cuadrado/ el numero


total de datos de la muestra -1

Varianza en datos agrupados

En el caso de manejar datos agrupados, en una tabla de frecuencias, para hallar la varianza se
necesitan la marca de clase (Xi) y la frecuencia absoluta simple (fi).

La fórmula es la siguiente:
Para facilitar el cálculo, se recomienda agregar a la tabla de frecuencias 2 columnas:

Una columna que indique el valor de fiXi2 por cada intervalo.

Una columna que indique el valor de fiXi por cada intervalo.

V=94424- (1648)2/30/29

V=134.2712645

No redondear a la mitad de la fórmula.

DESVIACIÓN ESTÁNDAR

Es la medida de dispersión más común para definir datos médicos y del área de la salud. Analiza
la dispersión del 100% de los datos.

Específicamente, es la raíz cuadrada de la varianza, y se representa con  si se trata de una


población y con s si se trata de una muestra:

Desviación estándar ( o s)

= √𝑽 = √𝟏𝟑𝟒. 𝟐𝟕𝟏𝟐𝟔𝟒𝟓 = 𝟏𝟏. 𝟓𝟖𝟕𝟓𝟒𝟕𝟖𝟐 𝒂ñ𝒐𝒔

Es la medida de dispersión para datos simétricos

Es la medida de dispersión más común para definir datos médicos y del área de la salud.

Es la raíz cuadrada de la varianza

Requieren datos numéricos.

Cuanto menor sea la desviación estándar, menor será la dispersión (más homogénea) y cuando
mayor sea la desviación típica, mayor dispersión (menos homogéneas).
DESVIACIÓN CUARTIL

Es la media de dispersión para datos asimétricos.

Medida de dispersión respecto a la mediana, que analiza la dispersión de los datos del 50%
central de observaciones.

Es la semisuma de la distancia entre el primer y el tercer cuartil:

RIQ= rango intercuartílico

Excluye el 25% más alto y el 2% más bajo dando un rango del 50% de los datos.

Recordar:

Debajo del primer cuartil (Q1) hay 25% de los datos

Encima del tercer cuartil (Q3) hay también 25% de los datos.

Por consiguiente, en el rango intercuartílico hay un rango de 50% de los datos.

MEDIDAS DE DISPERSIÓN O VARIABILIDAD ABSOLUTAS

Rango, Desviación estándar y Varianza.

Son absolutas porque siempre van acompañadas de sus unidades de medida.

Rango de 6 hijos

Desviación estándar de 1.5 hijos

11 años de desviación estándar, siempre se le debe acompañar de su unidad de medida.

COEFICIENTE DE VARIACIÓN

Es una medida relativa de variabilidad de los datos entre la media y la desviación estándar de
una población o muestra. Permite comparar la variabilidad de dos o más conjuntos de datos
expresados en unidades diferentes.

Por ejemplo:

Peso en Kg. y libras o peso y talla

Es el porcentaje que la desviación estándar representa de la media ya al hablar de porcentaje


elimino su unidad de medida.

A) Cálculos a partir de datos no agrupados para la muestra:

CV= s/x*100, es decir tener la desviación estándar y dividirla entre el promedio

B) Cálculos a partir de datos no agrupados para la población:


CV= o/u*100

Así podremos decidir cuál de los grupos de datos es más disperso.

Pero sólo se puede usar si la escala de medida de la variable es de razón.

Si cambiamos el cero arbitrariamente, cambia también la media y por lo tanto cambiará el


CV.

Existe una clasificación de dispersión de un conjunto de datos, según el porcentaje de


coeficiente de variación:

CV < 10% Poca dispersión

10%> CV < 33% Dispersión aceptable

33%< CV < 50% Dispersión alta

CV> 50% La dispersión es muy alta

Las distribución más homogéneas tienen V más pequeñas y las


heterogéneas más grandes.

USO DE LAS DIFERENTES MEDIDAS DE DISPERSIÓN

Con distribuciones simétricas (no sesgadas) se emplean la media y la desviación estándar de


datos numéricos.

Cuando la distribución no es simétrica(sesgada) se emplean la mediana y Percentiles y rango


intercuartílicos y desviación cuartil.

Asimetría a la izquierda

La moda es el número más grande y la media aritmética es el


numero más pequeño.
Asimetría a la derecha

La media es la mayor y la moda es la menor.

Media aritmética< Me< Mo

Asimetría a la izquierda

Los datos por debajo de la media son menos frecuentes

Media aritmética> Me> Mo

Asimetría a la derecha

Los datos por encima de la media son menos frecuentes

El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores
extremos.

El coeficiente de variación es útil cuando la intención es comparar dos distribuciones numéricas


medidas en escalas diferentes.

MEDIDAS DESCRIPTIVAS DE DISPERSIÓN

Aplica conocimientos de estadística descriptiva para calcular medidas de dispersión según el tipo
de variable que se está considerando.

Medidas de posición

Sitúan a un individuo en la distribución de la variable que se está estudiando.

Primero deben ordenarse los datos.

Se usan mucho en test psicométricos y medidas antropométricas.

Y dividen a la distribución en cuatro, diez o cien partes iguales:

Cuartiles, Deciles y Percentiles.

Recordar:

Q1= P25

Q2= mediana = P50

Q3= P75
BOX PLOT (DIAGRAMA DE CAJA)

Alternativa gráfica a pruebas estadísticas.

Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción


se usan cinco medidas descriptivas: mediana, primer cuartil, tercer cuartil, valor máximo y
valor mínimo.

Presenta, al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los
datos de estudio.

Además, permite identificar con claridad y de forma individual, las observaciones que se alejan
de manera inusual del resto de los datos. A estas observaciones se les conoce como valores
atípicos “outliers” o valores extremos.

Al igual que el histograma y el gráfico de Tallos y Hojas permite tener una idea visual de la
distribución de los datos (simetría y variabilidad). También se podrá ver cómo están los datos
centrales y como están los datos en los extremos.

Procedimiento

1. Dibujar una caja cuyo límite inferior será Q1 y el superior Q3.


2. Dentro de la caja trazar una línea que localice la mediana.
3. Calcular el rango intercuartílico:
RIQ = Q3 – Q1
4. Se calculan las Fronteras Interiores inferior (FIi) y superior (FIs):
FIi= Q1 – (1.5) (RIQ)
FIs= Q3 + (1.5) (RIQ)
5. Se calculan las Fronteras Exteriores inferior (FEi) y superior (FEs):
FEi = Q1 –3(RIQ)
FEs = Q3 +3(RIQ)
6. Mirando las Fronteras Interiores inferior (se les llama interiores ya
que están más cerca de la caja) (FIi) y superior (FIs):
FIi = Q1 – (1.5) (RIQ)
FIs = Q3 + (1.5) (RIQ)

Valores atípicos moderados se dibujan con un punto “●”

7. Mirando las Fronteras Exteriores inferior (FEi) y superior (FEs):


FEi = Q1 –3(RIQ)
FEs = Q3 +3(RIQ)

Valores atípicos extremos se dibujan con un asterisco “✽”

Mirando estas fronteras:

Si no hay valores atípicos, ‘outliers’, entonces las líneas perpendiculares


(bigotes) al límite de cada caja se trazan:

Hasta el valor mínimo de los datos, por abajo, y hasta el valor máximo de los
datos, por arriba.

Puedo incluir la media aritmética, o promedio con un punto, (generalmente


dentro de la caja).
Edad de 100 pacientes

Valor mínimo: 18

Valor máximo: 57

Posición de los cuartiles

N=100

N/4=25 posición del primer cuartil

N/2= 50 Posición de la mediana o segundo cuartil

3N/4=75 Posición del tercer cuartil.

Posiciones 25, 50 y 75

Q1= 23 años

Q2= 26 años

Q3= 31 años

Cálculos

Q1=23, Q2 o Me= 26, Q3=31

Min=18, Max=57

RIQ= Q3 – Q1= 31 - 23= 8

Fronteras Interiores inferior y superior:

FIi = Q1 – (1.5) (RIQ)= 11

FIs = Q3 + (1.5) (RIQ)= 43

Fronteras Exteriores inferior y superior:

FEi = Q1 – (3) (RIQ)= -1

FEs = Q3 + (3) (RIQ)= 55


1. Dibujar una caja cuyo límite inferior será Q1=23 y el superior Q3=31.

2. Dentro de la caja trazar una línea que localice la Mediana=26.

3. Calcular el rango intercuartílico:

RIQ= Q3 – Q1= 31 - 23= 8

4. Se calculan las Fronteras Interiores inferior y superior:

FIi = Q1 – (1.5) (RIQ)= 11

FIs = Q3 + (1.5) (RIQ)= 43

5. Se calculan las Fronteras Exteriores inferior y superior:

FEi = Q1 – (3) (RIQ)= -1

FEs = Q3 + (3) (RIQ)= 55

6. Dibujar un “bigote” saliendo del borde inferior de la caja hasta la frontera


inferior (11), o valor mínimo = 18

7. Dibujar otro “bigote” saliendo del borde superior de la caja hasta la Frontera
Interior superior = 43 o valor máximo.

8. Dibujar cualquier observación que se ubique fuera de los bigotes. Estos serán
los outliers moderados=51 o extremos.

FIi = Q1 – (1.5) (RIQ)= 11

FIs = Q3 + (1.5) (RIQ)= 43

9. Dibujar los valores más alejados, se debe considerar otra forma para el outlier
extremo= 57, por ejemplo, un asterisco.

FEi = Q1-(3 x RIQ) = -1

FEs = Q1+(3 x RIQ) = 55

En este caso no hay datos extremos.


Cambio en discapacidad según NUDS

DISPERSIÓN

Cajas anchas sugieren distribuciones muy dispersas en la parte central.

Cajas angostas muestran una gran concentración de datos.

La longitud de las colas por su parte nos dirá la mayor o menor concentración de los datos en
las zonas extremas.

Interpretación

Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

La distancia entre las cinco medidas del boxplot (sin incluir la media aritmética) puede variar, sin
embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la
misma.

Entre el límite inferior y Q1 hay igual cantidad de datos que de Q1 a la mediana, de ésta a Q3 y
de Q3 al límite superior (25%).

Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.

La línea que representa la mediana indica la simetría.

Si está relativamente en el centro de la caja la distribución es simétrica.


Si se acerca al borde de la caja (Q1 o Q3), la distribución pudiera ser sesgada a la derecha
(asimétrica positiva hacia Q1) o sesgada a la izquierda (asimétrica negativa hacia Q3)
respectivamente.

La mediana puede inclusive coincidir con los cuartiles 1 y 2 o con los límites de los bigotes. Esto
sucede cuando se concentran muchos datos en un mismo punto.

Vista de un blox plot y su Histograma

Propiedades básicas y los box plots

El histograma y blox plot nos muestran la misma


información, pero se ve más detallada en el blox
plot

Salario (dólares hora) según ocupación

Valores atípicos: worker- service-managment

También podría gustarte