Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CORRESPONDENCIAS
ni+ n+j 2
r X c nij − n++ r X c
(Obs − Esp )
2
asint. 2
ij ij
X X
χ2 = ni+ n+j = ∼ χ(r−1)(c−1)
i=1 j=1 n i=1 j=1
Esp ij
++
Producto
Edad A B C
Jóvenes 20 20 20 60
Adultos 40 10 40 90
Mayores 20 10 40 70
80 40 100 220
y queremos saber hasta qué punto existe (o no) una asociación entre las
variables Edad y Producto preferido.
Esta tabla contiene los nij es decir que es la tabla de los valores observados.
n n+j
La tabla de los valores esperados será la que contenga los valores i+ n++
que son los esperados bajo la hipótesis de independencia.
Esta es la tabla de los valores esperados construida con esa fórmula:
Producto
Edad A B C
Jóvenes 21.82 10.91 27.27 60
Adultos 32.73 16.36 40.91 90
Mayores 25.45 12.73 31.82 70
80 40 100 220
ni+ n+j 2
X3 X 3 nij − n++
χ2 = ni+ n+j = 17.63
i=1 j=1 n++
y el p-valor del contraste es P (χ24 > 17.63) = 0.0015 con lo que rechazamos
la hipótesis de independencia y concluı́mos que existe algún tipo de relación
entre las dos variables categóricas.
Perfiles fila y columna y sus pesos
Una vez contrastada la posible independencia entre las dos variables vamos
a estudiar el tipo de relación que existe entre ellas. Para ello vamos a
analizar los denominados perfiles fila y columna (que no son más que las
distribuciones condicionadas por filas y columnas). Concretamente tenemos:
La distancia que se utiliza para medir las diferencias entre los perfiles es la
denominada distancia χ2, que es una distancia euclı́dea ponderada entre los
perfiles y que se calcula como sigue:
f
2
c f 0
Distancia χ2 entre perfiles fila: d2χ2 (i, i0) = j=1 f+j
1 ij i j
P
fi+ − fi0 +
f
2
r f 0
Distancia χ2 entre perfiles columna: d2χ2 (j, j 0) = i=1 f1i+ f+j ij
− f ij 0
P
+j
Ejercicio (Equivalencia distribucional de la distancia χ2):
Supongamos que tenemos una tabla T1 para la que los perfiles de las filas
i1 e i2 son iguales, es decir que
fi11 fi c fi21 fi c
,..., 1 = ,..., 2 .
fi1+ fi1+ fi2+ fi2+
χ2
Inercia total = .
n++
Planteamiento del problema y su solución
Hemos definido ya los elementos necesarios para resolver el problema del
Análisis de Correspondencias Simples. Recordar que lo que queremos es
representar lo mejor posible en el menor número posible de dimensiones las
diferencias que existen entre los perfiles de nuestra tabla de contingencia.
Vamos a escribir de forma matricial los elementos que necesitamos para
poder manejarlos de forma más sencilla. Denotaremos por F = (fij ) la
matriz r × c de las frecuencias relativas y por Dc = diag(f+1, . . . , f+c)
y Dr = diag(f1+, . . . , fr+) las matrices diagonales que contienen las
distribuciones condicionadas.
De este modo los r perfiles fila son las filas de Dr−1F y los c perfiles columna
son las columnas de F Dc−1 (o las filas de Dc−1F 0).
Además la distancia entre perfiles fila será d2χ2 (x, y) = (x − y)0Dc−1(x − y)
y entre perfiles columna d2χ2 (x, y) = (x − y)0Dr−1(x − y).
Como en ACP buscamos una dirección que maximice la inercia recogida por
las proyecciones de los perfiles en esa dirección. La diferencia ahora es que
tenemos una métrica no euclı́dea y unos pesos que dependen de los puntos
a proyectar.
Vamos a hacer solamente el desarrollo en Rc (perfiles fila). Si denotamos
ahora por hui el subespacio generado por el vector u y por Phuix la
proyección (con la distancia χ2) del perfil x sobre el subespacio generado
por u, estamos buscando
r
X
u = arg max peso(f ilai)d2χ2 (Phwixi, 0).
w
i=1
Igual que en ACP, como los subespacios generados por w y por λw son
los mismos, vamos a considerar vectores w unitarios. Ahora los vectores
unitarios son aquellos para los que d2χ2 (w, 0) = w0Dc−1w = 1.
Además ahora con la distancia χ2 se tiene que Phwix = (x0Dc−1w)w con lo
que d2χ2 (xi, 0) = (x0iDc−1w)2.
Por otra parte z = (Dr−1F )Dc−1w es un vector cuyas componentes son los
valores de las proyecciones de los perfiles fila, con lo que teniendo en cuenta
los pesos de los puntos debemos maximizar z 0Dr z. Es decir que debemos
resolver
r
X
u= arg max peso(f ilai)d2χ2 (Phwixi, 0)
{w:w0 Dc−1 w=1} i=1
• Factor α, ϕα = Dc−1uα.
tenemos
1 1
vα = √ F Dc uα y ψα = √ Dr−1F ϕα.
−1
λα λα
Reciprocamente tenemos que
1 1
uα = √ F Dr vα y ϕα = √ Dc−1F 0ψα.
0 −1
λα λα
Las distancias euclı́deas al cuadrado entre estos nuevos puntos son iguales
a las distancias χ2 al cuadrado entre los puntos fila originales:
n+
1 n+
c
Para una fila suplementaria de perfil n+
,..., n+
la proyección sobre el
+ +
eje α será !
c
1 X n+
j
ψ̂α+ = √ ϕ̂αj .
λα j=1 n+
+
Algunas nubes caracterı́sticas
Los siguientes gráficos e interpretaciones están tomados del libro
“Metodologı́a de la Investigación Social Cuantitativa” de López-Roldán
y Fachelli (UAB, 2016).
Cuando se pueden ordenar las filas y columnas de forma que las casillas con
más efectivos configuran dos bloques o subtablas, como las de la imagen
adjunta, entonces el gráfico factorial se configura con dos nubes de puntos
opuestos.
También puede haber tres bloques o subtablas. En ese caso la imagen que
se obtendrá tendrá tres grupos repartidos como en el siguiente gráfico.
El denominado efecto Guttman, muy frecuente en la práctica, configura
una nube de puntos en forma de parábola o arco. Esto sucede cuando existe
una fuerte asociación entre las dos variables y los efectivos se disponen en la
diagonal o bien estos efectivos de la tabla por filas y columnas se reordenan
con las frecuencias más altas en la diagonal. Se configura un primer factor
que opone los valores extremos, quedando en el centro los valores medios,
mientras que el segundo factor opone los valores extremos ante los medios.
También se puede configurar una parábola asimétrica con la concentración
de efectivos en una diagonal con forma de trapecio. A medida que aumentan
los valores de una variable aumenta la dispersión de los valores de la otra.
Beh, E. J., Lombardo, R. (2015). Confidence regions and approximate p-values for classical and non symmetric correspondence
analysis. Communications in Statistics - Theory and Methods, 44(1), 95-114.
Fithian, W., Josse, J. (2017). Multiple correspondence analysis and the multilogit bilinear model. Journal of Multivariate Analysis,
157, 87-102.
Yin, Y., Hao, L., Gu, X., Lu, J., Pan, Z. (2020). Source tracing of n-alkanes in songhua lake, based on correspondence analysis
and geochemical index. Environmental Geochemistry and Health, 42(5), 1347-1357.
Zabret, K., Šraj, M. (2019). Evaluating the influence of rain event characteristics on rainfall interception by urban trees using
multiple correspondence analysis. Water, 11(12), 2659.