Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de correspondencias
MICHAEL GREENACRE
Catedrtico de Estadstica en la Universidad Pompeu Fabra
_______________________________________________
www.fbbva.es
CAPTULO
Distancia ji-cuadrado e inercia
En los captulos 2 y 3 representamos grficamente los perfiles, medimos de forma implcita las distancias entre ellos y luego interpretamos sus posiciones. En
el AC las distancias entre los perfiles las medimos de forma algo ms complicada, mediante la distancia ji-cuadrado. Esta distancia es la clave de muchas de
las propiedades interesantes del AC. Existen varias maneras de justificar la utilizacin de la distancia ji-cuadrado. Algunas de ellas, ms tcnicas, quedan fuera del alcance de este libro, otras son ms intuitivas. En este captulo nos decantamos por estas ltimas. As, empezaremos por la interpretacin geomtrica del conocido estadstico ji-cuadrado, calculado a partir de los datos de una tabla de contingencia. Las ideas que hay detrs del estadstico ji-cuadrado nos
llevan al concepto de distancia ji-cuadrado y al concepto de inercia. En el AC
medimos la variabilidad de una tabla de datos mediante la inercia, un concepto muy relacionado con la distancia ji-cuadrado.
Contenido
La hiptesis de independencia, o de homogeneidad, en tablas de contingencia . . . . . . . . . . . . . . . . .
Contraste de la hiptesis de homogeneidad utilizando el estadstico ji-cuadrado . . . . . . . . . . . . . . . .
Clculo de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Una expresin alternativa del estadstico 2, en trminos de perfiles y de masas . . . . . . . . . . . . . . . .
La inercia (total) es igual al estadstico 2 dividido por el tamao de la muestra . . . . . . . . . . . . . . . .
La distancia eucldea o pitagrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La distancia ji-cuadrado: un ejemplo de distancia eucldea ponderada . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin geomtrica de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Las inercias mxima y mnima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La inercia de las filas es igual a la inercia de las columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Algo de notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
RESUMEN: Distancia ji-cuadrado e inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
47
47
47
48
49
49
50
51
51
51
53
45
La hiptesis de
independencia,
o de homogeneidad,
en tablas de
contingencia
Imagen 4.1:
Frecuencias observadas, tal
como aparecen en la
imagen 3.1 junto con las
frecuencias esperadas
(entre parntesis)
calculadas suponiendo que
se cumple el supuesto de
homogeneidad
Consideremos, otra vez, los datos de la imagen 3.1. Fijmonos en que, de los 312 individuos de la muestra, 57 (el 18,3%) estn situados en el grupo de lectores C1, 129
(el 41,3%) en el de lectores C2 y 126 (el 40,4%) en el de lectores C3; as pues, el perfil fila medio est constituido por las proporciones [0,183 0,413 0,404]. Si no existieran diferencias entre los niveles de educacin, por lo que concierne al tipo de lectores, los perfiles de todas las filas deberan ser ms o menos iguales al perfil fila medio.
Las diferencias que observamos se deberan slo a fluctuaciones del muestreo aleatorio. Si suponemos que no hay diferencias, o dicho de otra manera, si suponemos que
los niveles de educacin son homogneos con relacin al tipo de lectores, cules sern,
las frecuencias esperadas de la fila E5? El nivel de educacin E5 consta de 26 individuos, por tanto esperaramos que el 18,3% de stos pertenecieran a la categora C1;
es decir, 26 0,183 = 4,76 (aunque no tenga sentido considerar 0,76 individuos, para
estos clculos es conveniente mantener los valores decimales). De la misma forma, esperaramos que 26 0,413 = 10,74 individuos de E5, pertenecieran a la categora C2,
y 26 0,404 = 10,50 a la categora C3. En estadstica, el supuesto de no diferencias
entre las filas de una tabla de contingencia (o de forma similar, entre las columnas)
tiene distintas denominaciones, hiptesis de independencia es una de ellas, o
quizs, en este contexto, es ms adecuada la denominacin supuesto (o asuncin) de
homogeneidad. Mediante el supuesto de homogeneidad, las frecuencias esperadas para la fila E5 seran [4,76 10,74 10,50], sin embargo, los valores observados son
[3 7 16]. De forma similar, por el mismo supuesto de homogeneidad, podemos calcular las frecuencias esperadas de las restantes filas. En la imagen 4.1, mostramos, debajo de los valores observados de todas las filas, los correspondientes valores esperados. Llegaramos exactamente a las mismas frecuencias esperadas si trabajramos con
los perfiles columna, es decir, suponiendo que los grupos de lectores son homogneos.
TIPO DE LECTOR
NIVEL DE EDUCACIN
Rpidos
C1
5
(2,56)
18
(15,37)
19
(15,92)
12
(18,48)
3
(4,76)
7
(5,78)
46
(34,69)
29
(35,93)
40
(41,71)
7
(10,74)
2
(5,66)
20
(33,94)
39
(35,15)
49
(40,80)
16
(10,50)
Total
Perfil fila medio
57
(0,183)
129
(0,413)
126
(0,404)
46
Total
Masas
de las filas
14
0,045
84
0,269
87
0,279
101
0,324
26
0,083
312
Las frecuencias observadas siempre sern distintas de las frecuencias esperadas. Sin
embargo, en estadstica queremos saber si estas diferencias son suficientemente
grandes como para contradecir la hiptesis de que las filas son homogneas. Es decir, queremos saber si es poco probable que las discrepancias entre las frecuencias
observadas y las frecuencias esperadas se deban slo al azar. Para responder a esta
pregunta calcularemos una medida de discrepancia entre las frecuencias observadas y las frecuencias esperadas. Concretamente, calcularemos las diferencias entre cada par de frecuencias observadas y esperadas, las elevaremos al cuadrado, las
dividiremos por las frecuencias esperadas e iremos acumulando los resultados hasta llegar a un valor final el estadstico ji-cuadrado, que simbolizaremos por 2:
2 =
(observado esperado)2
esperado
Contraste de la hiptesis
de homogeneidad
utilizando el estadstico
ji-cuadrado
(5 2, 56 )2 (7 5, 78 )2 (2 5, 66)2
+
+
+
2,56
5,78
5,66
(3 4, 76)2 (7 10, 74 )2 (16 10, 50)2
+
+
+
4,76
10,74
10,50
Clculo de 2
(4.1)
En este clculo, la suma de los 15 trminos es igual a 26,0. Cuanto mayor sea este
valor, mayores sern las discrepancias entre las frecuencias observadas y las
frecuencias esperadas y, en consecuencia, estaremos menos convencidos de la certeza del supuesto de homogeneidad. Para valorar si 26,0 es grande o pequeo utilizamos las tablas de la distribucin ji-cuadrado, con sus correspondientes grados
de libertad. As, para una tabla de 5 3, los grados de libertad son 4 2 = 8 (el nmero de filas menos uno, multiplicado por el nmero de columnas menos uno). A
un valor del estadstico 2 de 26,0, con 8 grados de libertad, el valor p asociado es
de 0,001. Este resultado nos indica que la probabilidad de que las frecuencias observadas en la imagen 4.1 se correspondan con el supuesto de homogeneidad es extremadamente baja una entre mil. Es decir, rechazamos la homogeneidad de
la tabla y concluimos que es muy probable que existan diferencias reales entre los
niveles de educacin, en lo concerniente a los perfiles de los tipos de lectura.
De hecho, estamos ms interesados en la capacidad del 2 para medir la falta
de homogeneidad, es decir, para medir la heterogeneidad entre los perfiles,
que en la prueba estadstica de homogeneidad que acabamos de describir.
Vamos a expresar de otra forma el estadstico 2. Para ello dividiremos el numerador y el denominador de cada uno de los tres trminos de cada fila por
47
el cuadrado del total de la fila. Por ejemplo, fijmonos en los tres ltimos trminos del clculo del estadstico 2 que mostramos en (4.1); dividimos el numerador y el denominador de cada uno de estos tres trminos por el cuadrado del total de la fila E5, es decir, por 262, de esta forma, en vez de tener las
frecuencias absolutas originales, tenemos los perfiles observados y los perfiles
esperados;
2 = 12 trminos similares +
= 12 trminos similares +
+ 26
4,76
3
26
26
4,76
262
) (
2
7
10,74
26
26
10,74
262
) (
2
16 10,50
26
26
10,50
262
(0,115 0,183)2
(0, 269 0, 413)2
(0, 615 0, 404 )2
+ 26
+ 26
0,413
0,404
0,183
(4.2)
La inercia (total) es
igual al estadstico 2
dividido por el
tamao de la muestra
0,413
0,404
2
= 2 = 4 grupos similares de trminos +
312
(0,115 0,183)2 (0, 269 0, 413)2 (0, 615 0, 404 )2
+ 0, 083
+
+
0,183
0,413
0,404
(4.4)
Ahora, los cinco grupos de trminos de esta frmula, uno de cada fila de la tabla,
son iguales a la masa correspondiente de su fila (por ejemplo 0,083 para la fila E5),
multiplicada por un valor al cuadrado, entre parntesis, que tiene el aspecto de una
distancia (para ser ms precisos, el cuadrado de una distancia).
En la expresin (4.4) que acabamos de ver, si no fuera por el hecho de que dividimos el cuadrado de las diferencias entre los elementos observados y los esperados
del perfil por los elementos esperados, el valor entre los corchetes, sera exactamente el cuadrado de la distancia directa entre el perfil fila E5 y el perfil fila medio en un espacio fsico tridimensional, es decir la distancia eucldea o pitagrica.
Para comprenderlo mejor, vamos a verlo de otra manera, supongamos que representamos grficamente los dos perfiles [0,115 0,269 0,615] y [0,183 0,413 0,404]
con respecto a tres ejes perpendiculares. La distancia entre ellos sera la raz cuadrada de la suma de los cuadrados de las diferencias entre las coordenadas de cada
perfil, es decir:
Distancia eucldea = (0,115 0,183)2 + (0, 269 0, 413)2 + (0, 615 0, 404)2
La distancia
eucldea o pitagrica
(4.5)
Esta distancia, cuyo valor es 0,264, corresponde exactamente a la distancia entre el punto E5 y la media de los perfiles que representamos grficamente en la
Imagen 3.2
Sin embargo, la expresin (4.4) no es la distancia eucldea contiene un factor
extra, en el denominador de cada trmino al cuadrado. Dado que este factor redimensiona o repondera cada una de las diferencias al cuadrado, denominamos a esta variante de la distancia eucldea, distancia eucldea ponderada. En
este caso en particular en el que los factores de ponderacin que aparecen en
el denominador son los elementos esperados del perfil, la denominamos distancia ji-cuadrado, o de forma sinttica, distancia 2. Por ejemplo, la distancia 2 entre la fila E5 y el centroide es:
Distancia 2 =
(4.6)
La distancia ji-cuadrado:
un ejemplo de distancia
eucldea ponderada
Interpretacin
geomtrica de la inercia
(4.7)
efectuando la suma con relacin a las cinco filas de la tabla. Dado que la suma de las
masas es 1, podemos decir que la inercia es la media ponderada de los cuadrados de
las distancias 2 entre los perfiles fila y su perfil media. Por tanto, la inercia ser alta
cuando los perfiles fila presenten grandes desviaciones con relacin a su media, y
ser baja cuando stos se hallen cerca de la media. En la imagen 4.2 mostramos una
secuencia de cuatro pequeas matrices de datos, de baja a alta inercia total, cada
una de ellas con cinco filas y tres columnas. Tambin hemos representado grficamente cada una de las matrices en coordenadas triangulares. Hemos escogido estos
ejemplos, esencialmente, para visualizar incrementos de magnitud de las inercias.
Esta secuencia de mapas tambin ilustra el concepto de asociacin, o de correlacin,
entre las filas y las columnas de una matriz. Cuando la inercia es baja, los perfiles fila
presentan poca variacin y se hallan cerca de su perfil medio. En tal caso, decimos
que existe poca asociacin, o correlacin, entre las filas y las columnas. Cuanto
Imagen 4.2:
Serie de tablas de datos con
inercia total en aumento.
Cuanto mayor sea la
inercia total, mayor ser
la asociacin entre las
filas y las columnas.
Visualizamos este hecho con
una mayor dispersin de los
puntos en el espacio de
perfiles. Hemos escogido los
valores de estas tablas de
manera que las sumas
de las columnas sean
todas iguales, y as
tambin lo sern los pesos
en la formulacin de la
distancia 2. Por tanto las
distancias que observamos
en estos mapas son
distancias 2
a
b
c
d
e
1 2 3
11 10 9
10 11 9
10 9 10
9 9 12
10 11 10
Inercia = 0,0076
ac
1 2 3
a 17 5 3
b 3 20 4
c 19 5 2
d 6 8 35
e 5 12 6
1 2 3
a 13 8 9
b 6 14 10
c 14 7 8
d 7 9 18
e 10 12 5
Inercia = 0,5923
Inercia = 0,1101
b d
1 2 3
a 20 1 0
b 0 24 1
c 24 2 0
d 2 0 47
e 4 23 2
ca
Inercia = 1,5715
2
50
mayor sea la inercia, ms cerca se hallarn los perfiles fila de los vrtices columna.
Es decir, mayor ser la asociacin entre las filas y las columnas. Ms adelante, en el
captulo 8, describiremos de manera ms formal la relacin existente entre la inercia y el coeficiente de correlacin entre las filas y las columnas.
Si todos los perfiles fueran idnticos, y por tanto todos se hallaran en el mismo punto (su media), todas las distancias ji-cuadrado seran cero, tambin lo sera la inercia
total. Por otro lado, se llegara a la inercia mxima cuando todos los perfiles se hallaran exactamente en los vrtices del espacio de perfiles. En tal caso, la inercia
mxima sera igual a la dimensionalidad del espacio (en los ejemplos triangulares de la imagen 4.2, este valor mximo sera igual a 2).
Las inercias
mxima y mnima
Hasta ahora hemos visto los conceptos de perfil, de masa, de distancia 2 y de inercia, en trminos de las filas de una tabla. Tal como comentamos en el captulo 3,
todo lo que hemos descrito hasta ahora para las filas lo podramos aplicar, de forma equivalente, a las columnas de la tabla (en la imagen 3.4 podemos ver los valores de los perfiles columna, el perfil columna medio y las masas de las columnas). Podramos comprobar que el resultado del clculo de la inercia, segn la
ecuacin (4.7) sera idntico si lo calculramos a partir de los perfiles columna.
Es decir, la inercia total de la tabla, sera igual a la media ponderada de los cuadrados de las distancias 2 entre los perfiles columna y su perfil media, ponderadas ahora con las masas de las columnas.
Algo de notacin
ni j : elemento de la tabla de contingencia situado en la i-sima fila y en la j-sima columna, por ejemplo n 21 = 18.
ni +: el total de la i -sima fila, por ejemplo n 3 + = 87 (el subndice + indica suma
de los elementos del correspondiente ndice).
n+ j : el total de la j-sima columna, por ejemplo n+ 2 = 129.
n+ +: o simplemente n, el total de la tabla, por ejemplo n = 312.
pi j : ni j dividido por el total de la tabla, as, p21 = n 21/n = 18/312 = 0,0577.
ri : la masa de la i -sima fila, as ri = ni + /n (lo que equivale a pi + , la suma de frecuencias relativas de la i -sima fila pi j ); as r3 = 87/312 = 0,279; simbolizamos al
vector de masas como r.
51
j (aij ai j )2/cj : la distancia 2 entre el i-simo y el i -simo perfil fila, lo simbolizamos por ai ai c ; as de la imagen 3.1
a1 a 2 c =
0,183
0,413
= 0, 374.
0,404
b1 b2 r =
0,045
+ etc. = 0, 323
j (aij cj )2/cj : distancia 2 entre el i-simo perfil fila ai y el perfil fila medio
c (el vector de las masas de las columnas), lo simbolizamos por ai c c ; as de la
imagen 3.1
a1 c c =
= 0, 594.
b1 r r =
+ etc. = 0, 332.
pij
2
2
2
= ri ai c c = ri cj / cj
n
r
i
i
j i
= cj bi r
j
2
r
= cj
j
ij
cj
ri / ri
(por fila)
(4.8)
(por columna)
(4.9)
52
53
RESUMEN:
Distancia ji-cuadrado
e inercia