Está en la página 1de 9

Medidas de variación o dispersión

Las medidas de variación o dispersión están relacionadas con las medidas de


tendencia central, ya que lo que pretenden es cuantificar cómo de concentrados o
dispersos están los datos respecto a estas medidas. Existen otros tipos de
mediciones de dispersión, sin embargo, la mayoría de estas medidas de dispersión
están asociadas a la media. La idea de estas medidas es valorar en qué medida
los datos están dispersos o agrupados en torno a la media.
Esta cuestión tan simple es uno de los motivos más absurdos de la mala prensa
que tiene la Estadística en la sociedad en general. La gente no se fía de lo que
ellos llaman la Estadística entre otros motivos, porque parece que todo el mundo
cree que una media tiene que ser un valor válido para todos, y eso es
materialmente imposible.
Ejemplo1.
Consideremos la media del salario de los mexicanos. En 2005 fue de $50.750 al
año. Ahora bien, esa media incluye tanto a las ciudades más desarrolladas como
a las más desfavorecidas y, evidentemente, la cifra generará mucho malestar en
gran parte de la población (con toda seguridad, más del 50 %), cuyo salario está
muy por debajo.
Ejemplo 2. Existe una frase muy conocida que dice que la Estadística es el arte
por el cuál si una persona se come un pollo y otro no se come ninguno, o se ha
comido medio pollo cada uno. Esa frase se usa en muchas ocasiones para
ridiculizar a la Estadística, cuando en realidad debería servir para desacreditar a
quien la dice, por su ignorancia.

Varianza

La varianza mide qué tan dispersos están los datos alrededor de su media. Es una
mediada de dispersión, calcula la diferencia media cuadrática de cada observación
con respecto a la media. Esto es, que para cada observación se saca su diferencia
con el promedio, pero esta diferencia es al cuadrado (para exagerar las diferencias,
hacer la medida más sensible) y después de todas las diferencias cuadráticas con
el promedio se calcula un promedio de todas. La varianza no está en las mismas
unidades que la media, de modo que no se pueden hacer afirmaciones directas y
coloquiales sobre su valor más que el propio valor.

Para calcular la varianza d una variable cuantitativa, se tiene una serie de datos, x1,
..., xn, luego se aplica las siguiente formula:

2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2
𝑠𝑛−1 = (𝑀𝑢𝑒𝑠𝑡𝑟𝑎) 𝜎2 = (𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛)
𝑛−1 𝑁
Donde:
xi = el iesimo dato
𝑥̅ = media aritmética
N= cantidad total de datos
𝑛 − 1 = número de datos -1
Cuanto mayor sea la varianza de los datos, más dispersos, heterogéneos o
variables son esos datos. Cuanto más pequeña sea una varianza de los datos, más
agrupados u homogéneos son dichos datos.

Ejemplo. Una muestra aleatoria simple de 9 datos de la dureza BHN (Brinell) de un acero
comercial arroja los siguientes resultados: 311,302,321,293,302,302,320,296 Calculemos
su media y su varianza muestral.
∑𝑛
𝑖=1 𝑥𝑖
𝑥̅ = 𝑛

Ejemplo1:
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en
muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine
su varianza.

Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como se
realizo en el problema anteriore.

(14.2−14.86)2 +(12.1−14.86)2 +..+(14.3−14.86)2 19.412


𝑠2 = = = 4.853𝑚𝑔
4 4

Interpretación
La varianza de los datos de la muestra, es una estimación de la varianza de la
población.
Cuando la varianza se basa en los datos de una muestra y no en toda la población,
es improbable que la varianza de la muestra sea igual a la varianza de la población.
Para estimar mejor la varianza de la población, utilice el intervalo de confianza.

Desviación Estándar.

La desviación estándar es la medida de dispersión más común, que indica qué tan
dispersos están los datos alrededor de la media. El símbolo σ (sigma) se utiliza
frecuentemente para representar la desviación estándar de una población, mientras
que s se utiliza para representar la desviación estándar de una muestra. La variación que
es aleatoria o natural de un proceso se conoce comúnmente como ruido.

La desviación estándar está expresada en las mismas unidades que la media, de modo que
es posible afirmar o inferir su relación o proporción con media.

La fórmula para el cálculo de la desviación estándar es:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2 ∑𝑛 (𝑥𝑖 − 𝑥̿ )2
𝑠=√ (𝑀𝑢𝑠𝑡𝑟𝑎) 𝜎 = √ 𝑖=1 (𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛)
𝑛−1 𝑵

Por tanto la desviación estándar de la muestra anterior sería;

s=
La interpretación de este resultado sería, que la cantidad de glucosa encontrada
en la muestra es en promedio de 14.86 miligramos y que la cantidad de glucosa
en la muestra se aleja o dispersa en promedio 2.2029 mg alrededor de la media.

La desviación estándar también se puede utilizar para establecer un valor de


referencia para estimar la variación general de un proceso.
Medidas de dispersión:

LA MEDICIÓN DE LA VARIABILIDAD
En la estadística descriptiva(inductiva). Para el tratamiento estadístico de la
información cuantitativa, es necesario hacer referencia a la medición de la
variabilidad. Han sido propuestas diferentes formas de medir la dispersión o
variabilidad de un conjunto de datos; cada una de ellas posee ventajas y también
limitaciones conceptuales y prácticas.
La elección de una de ellas, en particular, dependerá de la situación concreta
que se considere y de si, en ese caso, las ventajas de su utilización superan a
las
desventajas, en relación a las demás medidas. Seguidamente se discutirán las
medidas de variabilidad más conocidas, a saber:
a) El recorrido o amplitud.
b) La desviación media.
c) La desviación estándar.
d) La variancia.
e) El coeficiente de variación.

El recorrido o amplitud (R)


Una forma natural de apreciar la variabilidad es considerar los valores extremos
de un grupo de datos. Esto da origen al recorrido o amplitud, que se define como
la diferencia entre el valor mayor y el valor menor del conjunto de datos. Su
cálculo es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10,
2, 8,7. . También puede indicarse dando directamente los valores extremos, o
sea, para el ejemplo considerado: Recorrido de 2 a 10.
No obstante lo simple de su cálculo y lo fácil que resulta percibir su significado,
el recorrido no es muy usado debido a ciertas limitaciones que presenta.
La más importante, como puede apreciarse en su definición es la de que no toma
en cuenta todas las observaciones del grupo o muestra, sino únicamente el
mayor y el menor. Esta característica hace que dependa sensiblemente del
número de datos y que aumente al crecer este número ya que es probable que,
entre las nuevas observaciones agregadas aparezca una más pequeña y/o una
de mayor valor que las existentes y eso producirá un incremento en el valor del
recorrido.
En la práctica el recorrido se utiliza cuando se desea una medida simple de la
variabilidad o cuando por falta de tiempo no se pueden emplear medidas más
complejas.
La desviación media (DM)
La necesidad de definir una medida de dispersión que tome en cuenta para su
cálculo todos los datos y no esté tan estrictamente ligada al número de ellos,
lleva casi automáticamente a la conclusión de que esta medida tiene que estar
basada en las desviaciones o diferencias de los datos individuales respecto de
un valor central o típico.
Esta línea de razonamiento conduce lógicamente, a considerar la suma de las
desviaciones de los datos con respecto a la media aritmética como una posible
medida de dispersión. Sin embargo, como es sabido, la suma de las
desviaciones delas observaciones con respecto a la media aritmética siempre
es igual a cero, circunstancia que impide que pueda ser utilizada como medida
de dispersión.
Para obviar este problema, se puede emplear la suma de los valores absolutos
de las diferencias y dividirla por el número de datos para obtener una medida de
dispersión promedio o por observación. Así se origina la llamada desviación
media
MEDIDAS DE POSICION
Las medidas de posición se usan para describir la posición que tiene un dato
específico en relación con el resto de los datos. Se trata de medidas que nos indican
la posición dentro de la distribución de los datos. También podemos definirlo como
valores que permiten dividir la colección ordenada de datos en partes iguales con el
mismo número de datos en cada segmento o grupo» (Alvarado Verdín, 2014, pág.
3)

Aunque la varianza y la desviación estándar son las medidas de dispersión más


útiles en análisis estadístico, existen otras técnicas con las cuales puede medirse la
dispersión de un conjunto de datos. Estas medidas adicionales de dispersión son
conocidas como cuantiles.

Cuantiles
Los cuantiles son medidas de posición, pero no necesariamente ligados al centro
de los datos. La idea a la que responden es muy sencilla y muy práctica. Se trata
de valorar de forma relativa cómo es un dato respecto del conjunto global de todos
los datos. Por ejemplo, si nos dicen que el niño está entre el 1 % de los niños que
menos pesan, probablemente tiene un problema de crecimiento
Medidas de posición no centrales o cuantiles más utilizadas son:
• Cuartiles
• Deciles
• Percentiles
• Quintiles

CUARTILES:
Los cuartiles dividen la colección de datos en 4 partes iguales,
considerando que existen 3 cuartiles ( 𝑸𝟏, 𝑄2, 𝑄3).» (Alvarado Verdín,
2014, pág. 3) Q1, Q2 y Q3 determinan los valores correspondientes al 25%,
al 50% y al 75% de los datos. Q2 coincide con la mediana. Como se
muestra a continuación

Cálculo de los cuartiles (Datos no agrupados)


1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión
(𝑛 ∗ 𝑘)
𝑄𝑘 =
4
𝑑𝑜𝑛𝑑𝑒:
𝑘 = 𝑛𝑜 𝑑𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙
𝑛 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

CUARTILES Q1 que se ubica en el lugar n/4, es el primer cuartil, deja el 25% de las unidades
por debajo y el 75% por encima. Q2 que se ubica en el lugar (n * 2)/4, es el segundo cuartil,
deja el 25%*2, o sea el 50% por debajo y el otro 50% por encima, es decir que coincide con la
Mediana. Q3 que se ubica en el lugar (n *3)/4, es el tercer cuartil, deja el 25%*3, o sea el 75%
por debajo y el 25% por encima.

Deciles. Son valores de la variable que dividen los datos ordenados en subconjuntos de diez
partes iguales (9 divisiones).

Los percentiles son los cuantiles que dividen la muestra en 100 partes, es decir, son los
cuantiles 0.01 (percentil 1), 0.02 (percentil 2), ..., 0.99 (percentil 99). Si denotamos por Pα
al percentil α, con α = 1, 2, 3, ..., 99, se tiene que Pα = Qα/100. En Estadística Descriptiva
es más frecuente hablar de percentiles que de cuantiles porque se refieren a cantidades
entre 0 y 100, en tanto por ciento, que son más habituales de valorar por todo el mundo.

Calculo de percentiles cuartiles y deciles.


Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el
número de acciones correspondientes a 50 acciones transados en la Bolsa de Valores de
Nueva York, como se muestra en la siguiente tabla. Vale la pena destacar que los datos
han sido puestos en una serie ordenada. El lugar del P ésimo percentil se halla

Dados los siguientes datos ordenados obtenidos del tiempo que un reactivo requiere para
carbonatarse. los datos se han ordenado de menor a mayor (en 5 filas): calcule el percentil 25,
es decir P25, la fórmula para calcular el percentil es:
𝑝
𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑃∝ = (𝑛 + 1)
100
3 10 19 27 34 38 48 56 67 74

4 12 20 29 34 39 48 59 67 74

7 14 21 31 36 43 52 62 69 76

9 15 25 31 37 45 53 63 72 79

10 17 27 34 38 47 56 64 73 80

25
𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑃25 = (50 + 1) = 12.75
100
El valor resultante de 12.75 nos indica que el percentil 25 está ubicado al 75% del trayecto
comprendido entre la doceava observación, que es 20 y la treceava observación que es 21, es decir,
P25 =20 + 0.75 (21-20) = 20.75.
Ejemplo2. Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25
tareas en una CPU. Ahora los hemos ordenado de menor a mayor (en 5 filas):

Se va a calcular distintas medidas de posición y se comentaran. En primer lugar, la media


es 1.63. La mediana ocupa el lugar 13 en la muestra ordenada, y su valor es 1.38.
Obsérvese que la media es algo mayor que la mediana: esto es debido a la presencia de
algunos valores significativamente más altos que el resto, como observaremos al realizar
el histograma. Por su parte, el P25 o cuantil 0.25 ocupa la posición 7, ya que el 25 % de 25
es 6.25. Por tanto, P25 = 0.82. De igual forma, P75 = Q0.75 = 2.16, el valor que ocupa la
posición 19. Podemos ver, por tanto, que los valores más bajos están muy agrupados al
principio, y se van dispersando más conforme se hacen más altos.
Diagrama de Caja y Bigotes

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes de los datos, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o verticalmente.

Construcción:

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran
el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero(recordemos que el segundo cuartil coincide con la mediana).

Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y
máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente

EJEMPLO DISTRIBUCIÓN DE EDADES

Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20
personas.

36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

CALCULO DE CUARTILES

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la


variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En


nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39

DIBUJAR LA CAJA Y LOS BIGOTES

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)


La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).

INFORMACIÓN DEL DIAGRAMA

Podemos obtener abundante información de una distribución a partir de estas


representaciones. Veamos alguna:

 La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que
las edades comprendidas entre el 25% y el 50% de la población está más dispersa
que entre el 50% y el 75%.
 El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el
25% de los más jóvenes están más concentrados que el 25% de los mayores.
 El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.

Seguro que se podría obtener más información útil de estos datos: (¡Utiliza la mediana!)

También podría gustarte