Está en la página 1de 14

Dpto.

Psicología Básica y Metodología


Asignatura: Análisis de Datos en Psicología
Curso: 2015-2016
Profesor: Fulgencio Marín Martínez
Bibliografía: Merino et al. (2001), tema 5.

Tema 4. Índices de variabilidad y asimetría

4.1 Concepto de variabilidad.


4.2 Amplitud total.
4.3 Amplitud semi-intercuartil.
4.4 Varianza y desviación típica.
4.4.1 Definición y cálculo
4.4.2 Propiedades
4.5 Índices de asimetría.

4.1 Concepto de variabilidad

La variabilidad hace referencia al grado de concentración de las puntuaciones de


una variable con respecto al promedio. En otras palabras, refleja el grado de diferencias
individuales, de tal forma que si hay muchas diferencias individuales habrá más
dispersión. O también podríamos expresarlo diciendo que la variabilidad es el grado de
homogeneidad-heterogeneidad de las puntuaciones de una variable. Haciendo uso de
todos estos términos, los siguientes cuadros reflejan los dos extremos de la variabilidad:

HOMOGENEIDAD PEQUEÑAS DIFERENCIAS INDIVIDUALES


↕ ↕
HETEROGENEIDAD GRANDES DIFERENCIAS INDIVIDUALES

CONCENTRACIÓN PEQUEÑA VARIABILIDAD


↕ ↕
DISPERSIÓN GRAN VARIABILIDAD

Actividad 1. Ordene las siguientes distribuciones de la más homogénea a la más


heterogénea, o de la menos variable a la más variable.

Xi = {0, 2, 4, 6, 8, 10} X =5
Yi = { 5, 5, 5, 5, 5, 5} Y =5
Vi = {0, 0, 0,10,10,10} V =5
Wi = {4, 4, 4, 6, 6, 6 } W =5

1
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………

En los siguientes apartados veremos diferentes índices que permiten cuantificar


el grado de variabilidad de las puntuaciones de una variable: la amplitud total, la
amplitud semi-intercuartil, la varianza y la desviación típica.

4.2 Amplitud total

La amplitud total, AT, rango total o recorrido, R, de un conjunto de puntuaciones


es la distancia entre la puntuación máxima y la puntuación mínima:

AT = R = Xmáx – Xmín.

Por ejemplo, siendo Xi = {4, 3, 8, 7, 6}, calculamos la amplitud total según:

AT = 8 – 3 = 5

La amplitud total es una medida muy pobre e insuficiente de variabilidad porque


sólo toma en consideración dos puntuaciones, la máxima y la mínima. Así, se trata de
un índice insensible o que no se deja afectar por las variaciones en el resto de las
puntuaciones.

Actividad 2. ¿Cuál de las dos distribuciones le parece más variable? Calcule en ambos
casos la amplitud total y comente los resultados.

Xi = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 10}
Yi = {0, 0, 2, 2, 4, 6, 6, 8, 8, 9, 10}

4.3 Amplitud semi-intercuartil

La amplitud o rango semi-intercuartil, Q, es la semidistancia (mitad de la


distancia) entre el tercer y el primer cuartil:

Q 3 − Q1 P75 − P25 C 75 − C 25
Q= = = .
2 2 2

2
Se trata de un índice que no toma en consideración ni las puntuaciones por encima del
cuartil 3 (Q3) ni las puntuaciones por debajo del cuartil 1 (Q1), con lo que tan sólo toma
en consideración el 50% central de las puntuaciones. En consecuencia tiene la ventaja
de no dejarse afectar por la presencia de puntuaciones muy extremas, y el inconveniente
de no utilizar toda la información.

En el tema 3 vimos que en las distribuciones con asimetría muy pronunciada o


con puntuaciones muy extremas, se aconsejaba el cálculo de la mediana en lugar de la
media como índice de tendencia central, ya que aquélla no se dejaba afectar por las
puntuaciones más extremas. Por la misma razón, el índice de variabilidad aconsejable
en tales distribuciones es la amplitud semi-intercuartil. Y de forma general, en aquellas
condiciones donde sea preferible la mediana en lugar de la media como índice de
tendencia central, será preferible la amplitud semi-intercuartil como índice de
variabilidad.

4.4 Varianza y desviación típica

4.4.1 Definición y cálculo

Los dos índices de variabilidad que acabamos de ver, la amplitud total y la


amplitud semi-intercuartil, se caracterizan por no tomar en consideración la totalidad de
las puntuaciones en la distribución. La amplitud total sólo toma en consideración las
puntuaciones máxima y mínima, y la amplitud semi-intercuartil sólo toma en
consideración el 50% central de las puntuaciones.

A diferencia de estos dos índices, la varianza y la desviación típica sí van a


tomar en consideración todas las puntuaciones de la variable. Son índices que se basan
en las distancias de cada puntuación con respecto a la media, o en la transformación de
todas y cada una de las puntuaciones Xi de una variable en las distancias: X i − X . La
varianza y la desviación típica de una variable X se representan como s X2 y s X ,
respectivamente.

Actividad 3. En lugar de presentar directamente la conocida fórmula de la varianza


vamos a intentar deducirla por nosotros mismos, buscando un índice de variabilidad
basado en las distancias entre cada puntuación y la media: X i − X . Trabajando con estas
distancias buscamos una fórmula que permita medir el grado de concentración de las
puntuaciones con respecto al promedio, es decir, la variabilidad de la distribución.

• ¿Valdría la expresión ∑( X i − X) como índice de variabilidad?

• ¿Qué limitaciones tiene la fórmula ∑( X i − X) 2 como medida de variabilidad?

3
Finalmente presentamos la fórmula de la varianza de una variable X, s X2 , que
conceptualmente ha de entenderse como el promedio de las diferencias (distancias) al
cuadrado de cada puntuación respecto a la media:

∑ (X − X)
2

=
i
s X2
n

Desarrollando matemáticamente la expresión anterior se puede deducir otra


fórmula equivalente que simplifica los cálculos:

∑ (X − X) ∑ (X ) = ∑ X − ∑ 2X X + ∑ X
2 2
− 2X i X + X 2 2 2
= = =
i i i i
s X2
n n n

=
∑ X i − 2X
2
∑X i + nX 2
=
∑X i
2

2X ∑X i
+
nX 2
=
∑X i
2
− 2XX + X 2 =
∑X i
2
−X2
n n n n n n

Así, en la práctica se utilizará la siguiente fórmula de la varianza, que permite


simplificar los cálculos de la fórmula original:

s X2 =
∑X i
2
−X2
n

Actividad 4. Siendo X la edad en años de cuatro niños, Xi = {3, 5, 7, 9}, calcule la


varianza de X aplicando las dos fórmulas que acabamos de presentar, y compruebe que
dan el mismo resultado.

∑ (X − X)
2
i
s X2 = =
n

4
s X2 =
∑X i
2

−X2 =
n

Cuando los datos de una variable están agrupados por frecuencias, las fórmulas
que se aplican para calcular la varianza son las siguientes:

∑ n (X − X) ∑n X
2 2
i i
= = −X2
i i
s X2 s X2
n n

Veamos un ejemplo de aplicación de ambas fórmulas. Siendo Xi = {3, 3, 6, 6, 6,


6} la edad en años de seis niños, vamos a agrupar estos datos por frecuencias y a
continuación calcularemos la varianza:

Xi ni
3 2
6 4
n=6

X=
∑n X i i
=
2(3) + 4(6) 6 + 24 30
= = =5
n 6 6 6

∑ n (X − X)
2
2(3 − 5) 2 + 4(6 − 5) 2 2(4) + 4(1) 12
= = = = =2
i i
s X2
n 6 6 6

s X2 =
∑n X i i
2

−X2 =
2(3 2 ) + 4(6 2 )
− 52 =
2(9) + 4(36)
− 25 =
162
− 25 = 2
n 6 6 6

Cuando los datos de una variable están agrupados por intervalos, al igual que
ocurría con el cálculo de la media, se asume que las puntuaciones en un mismo intervalo
se concentran en el punto medio, con lo que los datos pasarían a estar únicamente
agrupados por frecuencias, aplicándose las mismas fórmulas que en el ejemplo previo.

Actividad 5. A partir de los siguientes datos, que representan la edad (variable X) en


años de 20 niños y adolescentes, calcule la varianza de X aplicando las dos fórmulas
para datos agrupados por frecuencias, y compruebe que dan el mismo resultado.

5
X ni Xi
8-10 4
11-13 10
14-16 6
n = 20

∑ n (X − X)
2
i i
s X2 = =
n

s X2 =
∑n X
i i
2

−X2 =
n

Terminamos este apartado con dos consideraciones respecto a la varianza:

Primera consideración: La varianza viene expresada en unidades cuadráticas, ya que


se obtiene a partir de las distancias al cuadrado entre cada puntuación y la media. Así, si
por ejemplo una variable viene medida en centímetros (cm), su varianza vendrá
expresada en centímetros al cuadrado (cm2). O si está medida en segundos (s), su
varianza vendrá expresada en segundos al cuadrado (s2).

6
∑ (X − X)
2
i
s X2 = → unidades cuadráticas
n

Para conseguir índice de variabilidad en las mismas unidades con que fue
medida la variable se propuso la desviación típica, s X , que se define como la raíz
cuadrada positiva de la varianza:

∑ (X − X)
2

sX = =
i
s X2 → unidades lineales
n

Sea X una variable medida en centímetros, si por ejemplo su varianza es de 25


cm2 ( s X2 = 25 cm2), la desviación típica valdrá 5 cm ( s X = s 2X = 25 cm 2 = 5 cm ).
Recuérdese que toda raíz cuadrada tiene dos resultados, uno positivo y otro negativo, de
ahí que la desviación típica se defina como la raíz cuadrada positiva de la varianza.

Segunda consideración: Tanto la varianza como la desviación típica sólo pueden tomar
valores positivos. El valor mínimo de ambos índices es 0, cuando todas las puntuaciones
son iguales o se da la situación de máxima homogeneidad. De ahí que conceptualmente
no tenga sentido hablar de variabilidad negativa o de distancias negativas entre las
puntuaciones y la media.

4.4.2 Propiedades de la varianza y la desviación típica

Propiedad 1. Si a las puntuaciones de una variable se les suma una constante, la


varianza y la desviación típica no se alteran, o la varianza y la desviación típica de las
nuevas puntuaciones coincide con la varianza y la desviación típica de las puntuaciones
originales. Matemáticamente:

Si Yi = Xi + a
entonces sY2 = s X2 y sY = s X

donde X e Y son variables y a una constante.

Veamos un ejemplo. Siendo Xi = {18, 18, 18, 18} la edad en años de cuatro
sujetos hoy, Yi la edad de los mismos sujetos dentro de tres años (Yi = Xi + 3) y a = 3 la
constante que representa que han pasado 3 años para todos ellos:

• Edad de los sujetos hoy: Xi = {18, 18, 18, 18} → X = 18, s X2 = 0, s X = 0

7
• Si Yi = Xi +3 (pasan tres años), entonces sY2 = s 2X = 0 y sY = s X = 0

• Comprobación: Yi ={21, 21, 21, 21} → Y = 21, sY2 = 0, sY = 0

Conceptualmente resulta fácil entender que cuando a las puntuaciones de una


variable se les suma una constante, las puntuaciones se desplazan en bloque sin alterar
su variabilidad.

Propiedad 2. Si a las puntuaciones de una variable se las multiplica por una constante,
la varianza de las nuevas puntuaciones es igual a la varianza de las puntuaciones
originales multiplicada por el cuadrado de la constante. Y la desviación típica de las
nuevas puntuaciones es igual a la desviación típica de las puntuaciones originales
multiplicada por el valor absoluto de la constante. Matemáticamente:

Si Yi = bXi
entonces sY2 = b 2 s X2 y sY = b s X

donde X e Y son variables y b una constante.

Veamos un ejemplo. Siendo Xi = {2, 5, 8} los salarios en €/día de tres sujetos,


imaginemos que se decide doblar sus salarios, siendo Yi los nuevos salarios (Yi = 2Xi ) y
b = 2 la constante que representa que todos los salarios han sido duplicados.

• Salarios de los sujetos: Xi = {2, 5, 8} → X = 5 , s X2 = 6, s X = 2,449

X=
∑X i
=
2 + 5 + 8 15
= =5
n 3 3

s X2 =
∑X i
2

−X2 =
4 + 25 + 64
− 25 = 31 − 25 = 6
n 3

s X = 6 = 2,449

• Si Yi = 2Xi (se duplican los salarios),

entonces sY2 = (2) 2 s X2 = 4 s X2 = 4(6) = 24 y sY = 2 s X = 2(2,449) = 4,898

8
• Comprobación: Yi ={4,10,16} → Y = 10 , sY2 = 24 , sY = 4,899

Y =
∑Y i
=
4 + 10 + 16 30
= = 10
n 3 3

sY2 =
∑Y i
2

−Y 2 =
16 + 100 + 256
− 100 = 124 − 100 = 24
n 3

sY = 24 = 4,899

Actividad 6. Combinando las propiedades 1 y 2, intente completar la siguiente


expresión:

Si Yi = a + bXi
entonces sY2 = y sY =

Propiedad 3. La varianza y la desviación típica, como se calculan a partir de la media,


presentan todos los inconvenientes de la media. Así, se dejan afectar en gran medida
(son muy sensibles) por la presencia de puntuaciones extremas y no se pueden calcular
cuando hay intervalos abiertos. En las condiciones donde no sea aconsejable calcular la
media tampoco se deberán calcular ni la varianza ni la desviación típica. Asimismo, en
las condiciones donde no se pueda calcular la media, tampoco se podrán calcular ni la
varianza ni la desviación típica.

Actividad 7. Revise los índices de variabilidad estudiados hasta el momento y piense en


cuál sería el más adecuado en una distribución muy asimétrica o con puntuaciones muy
extremas.

9
4.5 Índices de asimetría

Viendo el gráfico de una distribución de frecuencias podemos saber si la


distribución es simétrica o no lo es. A modo de ejemplo, para cada uno de estos tres
gráficos indique si la distribución es simétrica, asimétrica positiva o asimétrica
negativa:

X
Md
Mo

Mo Md X X Md Mo

Pero además existe la posibilidad de cuantificar el grado de asimetría de una


distribución a través de los denominados índices de asimetría. Estudiaremos tres de los
índices de asimetría más utilizados: intercuartílico, de Pearson y de Fisher. Todos ellos
coinciden en ser índices adimensionales o sin unidad de medida, que permiten comparar
el grado de asimetría de distribuciones diferentes.

10
4.5.1 Índice de asimetría intercuartílico

Este índice se basa en la relación entre los tres cuartiles de una distribución,
calculándose a partir de la fórmula:

(Q 3 − Q 2 ) − (Q 2 − Q1 )
As interc. =
Q 3 − Q1

donde Q3, Q2 y Q1 son los cuartiles 3, 2 y 1, respectivamente. Cuando el índice de


asimetría intercuartílico tiene un valor de 0, As interc. = 0, nos indica que la distribución
es simétrica. Si As interc. < 0, interpretaremos que la distribución es asimétrica
negativa, y si As interc. > 0, que la distribución es asimétrica positiva.

La razón por la que este índice mide el grado de asimetría se debe a que cuando
una distribución es simétrica, la distancia entre los cuatiles 3 y 2 (Q3 – Q2) es la misma
que entre los cuartiles 2 y 1 (Q2 – Q1). Si la distancia entre los cuartiles 3 y 2 es mayor
que entre los cuartiles 2 y 1 (Q3 – Q2 > Q2 – Q1), es porque predominan las
puntuaciones bajas, siendo la distribución asimétrica positiva. Y cuando la distancia
entre los cuartiles 3 y 2 es menor que entre los cuartiles 2 y 1, es porque predominan las
puntuaciones altas, siendo la distribución asimétrica negativa.

Actividad 8. Dibuje dos distribuciones, una simétrica y otra con una marcada asimetría
positiva, e indique la posición aproximada de los cuartiles 1, 2 y 3 en cada una de ellas.

4.5.2 Índice de asimetría de Pearson

Este índice se basa en la relación entre la media y la moda, calculándose a partir


de la fórmula:

X − Mo
As Pearson = ,
sx

11
donde X y Mo son la media y la moda de la distribución, respectivamente. Un valor de
0 nos indicará que la distribución es simétrica, un valor negativo que la distribución es
asimétrica negativa y un valor positivo, que es asimétrica positiva.

Este índice mide el grado de asimetría porque cuando una distribución es


simétrica coinciden la media, la mediana y la moda, mientras que cuando es asimétrica
positiva la media es mayor que la moda, y cuando es asimétrica negativa, la media es
menor que la moda (observe la posición relativa de la media, mediana y moda en los
gráficos de las distribuciones de la página 10).

Una limitación del índice de asimetría de Pearson es que sólo se puede calcular
en distribuciones unimodales o con una sola moda.

4.5.3 Índice de asimetría de Fisher

Este índice se basa en las distancias entre las puntuaciones y la media elevadas
al cubo. Se calcula a partir de la fórmula:

As Fisher =
∑ (X i − X) 3
,
n s 3x

donde X es la media y s 3x es la desviación típica elevada al cubo. Es considerado el


mejor de los índices de asimetría, por tomar en consideración todas y cada una de las
puntuaciones, Xi, de la variable. Con datos agrupados por frecuencias, se utiliza la
siguiente fórmula:

As Fisher =
∑ n (X
i i − X) 3
,
n s 3x

donde ni son las frecuencias absolutas correspondientes a cada valor de la variable. Si


además los datos están agrupados por intervalos, se volverá a aplicar la misma fórmula,
asumiendo que las puntuaciones de cada intervalo se concentran en el punto medio.

Un valor de 0 en el índice de Fisher nos indicará que la distribución es simétrica,


un valor inferior a 0 que es asimétrica negativa y un valor superior a 0, que es asimétrica
positiva.

12
13
14

También podría gustarte