Está en la página 1de 4

MEDIDAS DE DISPERSIÓN Y VARIABILIDAD

Estas medidas tienen relación con la media aritmética y poseen propiedades algebraicas que
les permiten intervenir en relaciones matemáticas, las que son fundamentales para los análisis
estadísticos. Estas medidas nos permiten conocer que tanto se dispersan los datos alrededor
de la media. Estas medidas son parámetros informáticos que nos permiten conocer como los
valores de los datos se reparten a través del eje x, mediante un valor numérico que representa
el promedio de dispersión de los datos.
La medida de dispersión o de variabilidad es un número que representa el desarrollo o el valor
de la dispersión de un conjunto de datos. (Rodas, 2012)
(Triola, 2013) Explica estas medidas gráficamente: “para tener un ejemplo visual de
variación, observe las siguientes gráficas de puntos que representan dos muestras
diferentes de puntuaciones de Coeficiente Intelectual. Ambas muestras tienen la misma
media de 100, pero observe que la gráfica de puntos que aparece en la parte superior
(basado en estudiantes de preparatoria seleccionados al azar) presenta puntuaciones
de CI más separadas entre sí que la gráfica en la parte inferior (que representa datos de
estudiantes de preparatoria agrupados de acuerdo con sus calificaciones). Esta
característica de dispersión o variación es tan importante que se crearon métodos para
medirla con números.” (p.99)

Una primera aproximación al problema es la de considerar la distancia que hay entre los valores
extremos, entre el primero y el último. Si usamos este procedimiento para el ejemplo de un
promedio de 20 sesiones de psicoterapia puede provenir de cuatro casos que utilizaron 18, 19,
21 y 22 sesiones o de otros cuatro que hayan insumido 5, 10, 30 y 35 sesiones. Vemos que en
la primera distribución hay 4 unidades entre la primera y la última observación (de 18 a 22) y
en la segunda hay 30 unidades de extremo a extremo (de 5 a 35). Por lo que ésta sería una
buena medida de la dispersión. Esta medida que ya hemos conocido se llama rango,
recordemos que se indica con la letra R y la expresión formal de su cálculo es:

𝑹 = 𝒅𝒎𝒂𝒙 − 𝒅𝒎𝒊𝒏
Donde 𝑑𝑚𝑎𝑥 y 𝑑𝑚𝑖𝑛 representan a los valores de los datos máximo y mínimo respectivamente.

Se llama Rango o Recorrido de una distribución a la diferencia entre los valores máximo y
mínimo de la variable. Se indica R.
Según (Bologna, 2011) las medidas de variabilidad que más se usan son las que tienen
en cuenta todas las observaciones, es decir aquellas que están basadas en la media.
Una manera de ver si el conjunto de datos está concentrado o disperso, consiste en
observar la distancia de la media a la que se encuentra cada observación, luego esas
distancias individuales pueden promediarse y tener una idea global de qué tan lejos
están los casos del promedio. (p. 100)
Intentemos hacer eso y veamos qué limitación aparece. Tomemos un conjunto pequeño de
datos, presentado en serie simple:
5, 7, 9, 11

La media aritmética ( 𝑋̅ ) es 8, como lo es la mediana. Aunque no hay moda, ya que todos los
valores tienen frecuencia igual a uno.

Tomemos ahora las distancias a las que cada observación se encuentra de la media (𝑋̅),
restando a cada una de ellas el valor 8 (la media):

𝒙 5 7 9 11
𝒙−𝑿̅ 5 – 8 = -3 7 – 8 = -1 9–8=1 11 – 8 = 3

−3 + (−1) + 1 + 3 = 0
Al sumar todas las distancias el resultado es cero, esto debido a la propiedad de la media (𝑋̅)
que es el punto de equilibrio entre las observaciones, las que se distancian por encima de ella
están compensadas por las que lo hacen por debajo.

Los valores 𝑥 − 𝑋̅ se llaman desvíos, que indican cuánto


se aleja cada observación de la media.

En el tema que nos ocupa en este momento, el de medición de la variabilidad del conjunto
de casos, la consecuencia de esta propiedad es que no será posible usar la suma de los desvíos
como indicador de dispersión, ya que da siempre cero.
A fin de resolver este problema vamos a eliminar el signo, utilizando la siguiente medida de
dispersión.
(Rodas, 2012) Define la desviación media (DM), como la media aritmética de las
desviaciones o desvíos, respecto a la media, tomada en valor absoluto, o sea, la suma de las
desviaciones absolutas de las observaciones desde su media aritmética, dividida entre el
número de observaciones. (p. 112)
Para una serie de datos simples la desviación media está dada por:
̅|
∑|𝒙 − 𝑿
𝑫𝑴 =
𝑵
Donde, ∑|𝑥 − 𝑋̅| es la sumatoria de los desvíos en valor absoluto.
Veamos el cálculo para el ejemplo anterior: considere la serie 5, 7, 9, 11, y calcule la
DM.
Conociendo la media aritmética de la serie 8, se calculan los recorridos en la fórmula.

|5 − 8| + |7 − 8| + |9 − 8| + |11 − 8|
𝐷𝑀 =
4
|−3| + |−1| + |1| + |3|
𝐷𝑀 =
4
3+1+1+3 8
𝐷𝑀 = = =2
4 4

La DM indica que los datos de la serie se


separan de la media en 2 unidades promedio

Otra opción para eliminar el signo de los desvíos negativos es usando el hecho matemático que
todo número elevado a la potencia 2 es positivo, sin importar el signo que haya tenido el número.
Elevaremos entonces al cuadrado cada una de los desvíos y así se perderá su signo y ya no será
cero la suma de todos ellos.
Usando ese recurso, definimos la varianza, a la que simbolizaremos como S2. Veamos con el
ejemplo anterior.

𝑥 5 7 9 11
𝑥 − 𝑋̅ -3 -1 1 3

Eliminamos el problema del signo elevando al cuadrado (potencia 2) cada desvío, para ello
utilizamos la fórmula de la varianza.
̅ )𝟐
∑(𝒙 − 𝑿
𝟐
𝑺 =
𝑵
Donde ∑(𝑥 − 𝑋̅ )2 es la sumatoria de cada desvío 𝑥 − 𝑋̅ elevado al cuadrado
Para el ejemplo:

(5 − 8)2 + (7 − 8)2 + (9 − 8)2 + (11 − 8)2


𝑆2 =
4
(−3)2 + (−1)2 + (1)2 + (3)2
𝑆2 =
4
9 + 1 + 1 + 9 20
𝑆2 = = =5
4 4
A los fines de la interpretación, la varianza presenta dos inconvenientes. Uno es que sus
unidades están elevadas al cuadrado; por lo que, si medimos número de errores, la varianza
quedará expresada en número de errores al cuadrado una entidad que no tiene significado,
como tampoco lo tienen hijos al cuadrado o segundos al cuadrado, para los tiempos de reacción.
El otro inconveniente es que no tiene límite superior, puede ser muy grande y no tenemos con
qué compararla para saber si indica una gran variabilidad o si es grande porque los valores de
la variable lo son.
Para resolver el primer inconveniente, definiremos una medida derivada de la varianza, que se
denomina desviación estándar (en algunos textos y programas de análisis de datos es llamada
desviación típica). Esta medida, indicada con la letra S se calcula como la raíz cuadrada de la
varianza:

̅ )𝟐
∑(𝒙 − 𝑿
𝑺= √
𝑵

O simplemente

𝑺 = √𝑺𝟐
Donde 𝑆 2 se refiere a la varianza.
Para el ejemplo anterior

𝑺 = √𝟓

𝑺 = 𝟐. 𝟐

(Triola, 2013) La define como sigue: La desviación estándar de un conjunto de valores


muéstrales, denotada con S, es la medida de variación de los valores con respecto a la media.
Es un tipo de desviación promedio de los valores con respecto a la media. (p. 100)
Las siguientes propiedades son consecuencia de la forma en que se define la desviación
estándar:
• La desviación estándar es una medida de variación de todos los valores con respecto a la
media.
 El valor de la desviación estándar S generalmente es positivo. Solo es igual a cero cuando
todos los valores de los datos son el mismo número. (Nunca es negativa). Además, valores
grandes de S implican mayores cantidades de variación.
 El valor de la desviación estándar puede aumentar de manera drástica con la inclusión de
uno o más valores atípicos (valores de datos que se encuentran muy lejos de los demás).
• Las unidades de la desviación estándar (como minutos, pies, libras, etcétera) son las
mismas de los datos originales.

También podría gustarte