Está en la página 1de 48

TEMA 2: ANÁLISIS DE

CORRESPONDENCIAS

ANÁLISIS DE DATOS (Grado en Estadı́stica)


ANÁLISIS MULTIVARIANTE (Grado en Matemáticas)

Departamento de Estadı́stica e I.O. Universidad de Valladolid


Análisis de Correspondencias
• Al igual que las Componentes Principales este es un procedimiento
multivariante de interdependencia. Es decir que no hay variable respuesta.
En este caso, a diferencia del ACP, se consideran variables categóricas.
Se quiere estudiar relaciones entre las variables y las categorı́as de las
mismas.

• El objetivo fundamental es representar, en un número reducido de


dimensiones, las similitudes y diferencias existentes entre las categorı́as de
las variables para poder estudiar posibles asociaciones entre las mismas.

• Cuando se dispone de dos variables categóricas se habla de Análisis de


Correspondencias Simples. Si son más de dos tendremos un Análisis de
Correspondencias Múltiples.

• Puede utilizarse para obtener valores numéricos asociados a las categorı́as


de las variables que permitirı́an, por ejemplo, incluir estas variables como
numéricas en otros procedimientos como el ACP.
Notas históricas

• Podrı́a decirse que la primera referencia es de Hirschfeld (1935).

• En realidad el desarrollo detallado es de Jean-Paul Benzecri en torno a


1970.

• Es una metodologı́a estudiada sobre todo por la escuela francesa de


análisis de datos.

• Como otras técnicas multivariantes comenzó a usarse intensivamente


cuando pudo ser implementado en ordenadores.
Objetivos globales

• Estudio de asociaciones entre variables categóricas.

• Representar en un número bajo de dimensiones las similitudes y


diferencias entre las categorı́as de las variables.

• Construcción de factores que permitan interpretar las diferencias entre


esas categorı́as.

• Permite ”cuantificar” de una manera objetiva las diferencias entre las


categorı́as lo que puede interpretarse como una cuantificación de las
variables categóricas. Esta cuantificación puede usarse después en otros
procedimientos que consideren variables continuas.
Otras consideraciones
• Notar que se pueden incluir variables continuas en este procedimiento
simplemente categorizandolas.

• Se comenzará estudiando el análisis de correspondencias simples (dos


variables categóricas) que es menos complejo.

• Lógicamente en este caso nuestros datos vendrán dados en una tabla de


contingencia.

• En esta situación, a diferencia de ACP, el papel de filas y columnas es el


mismo.

• Como primer paso estudiaremos la posiblidad de ausencia de todo tipo


de relación (independencia) entre las dos variables en estudio.
Ejemplos

• Estudio de la preferencia por determinados productos por tramos de


edad. Se toma una muestra de individuos que prueban, por ejemplo, 3
refrescos de cola y eligen el que prefieren. A estos mismos individuos
se les pregunta la edad que se clasifica en varios tramos. Tenemos por
tanto dos variables categóricas: preferencia por el producto (A, B, o C)
y edad del individuo (Joven, Adulto, Mayor). El procedimiento permitirá
estudiar si existe más preferencia por un producto en un determinado
tramo de edad o si por el contrario la distribución de las preferencias de
los productos no depende de la edad del individuo.

• Estudio de la estructura de gastos en departamentos de una empresa o


en varias factorı́as de la misma empresa. Se consideran los gastos en
cada factorı́a y se desglosan por tipo de gasto. Podremos ver si alguna
de las factorı́as está más asociada con un tipo de gasto que el resto y
valorar si eso constituye una anomalı́a.

• Tipo de accidentes por tipo de carretera. Se desglosan los accidentes de


tráfico según su tipologı́a (colisión frontal, colisión fronto-lateral, alcance,
atropello,...) y el tipo de carretera (autopista, autovı́a, via convencional,
tramo urbano,...). Se pueden observar las asociaciones que existen entre
las categorı́as y qué categorı́as se distribuyen de forma parecida entre los
diferentes tipos de carreteras.

• Tipos de empresa (o de sector de ocupación) por provincias.

• Votos a un partido por provincias o por secciones censales más pequeñas.


Análisis de Correspondencias Simples
Test χ2 de independencia
Suponemos que disponemos de una tabla de contingencia con r filas (rows)
y c columnas (columns)

X \Y Cl. 1 ... Cl. c


Cl. 1 n11 ... n1c n1+
.. .. .. ..
Cl. r n1r ... nrc nr+
n+1 ... n+c n++

nij es el número de individuos de la muestra que están en la clase i de la


variable X y en la clase j de la variable Y .
El sı́mbolo + en un subı́ndice quiere decir que se ha sumado en los valores
de ese ı́ndice. De ese modo n1+ es el número de individuos que están en la
clase 1 de la variable X (independientemente de en que clase de Y estén
puesto que se ha sumado en ese segundo ı́ndice).
Vamos a denotar por pij la probabilidad de que un individuo de la población
esté en la clase i de la variable X y en la clase j de la variable Y , por
pi+ la probabilidad de que esté en la clase i de la variable X y por p+j la
probabilidad de que esté en la clase j de la variable Y .
De este modo, puesto que bajo la independencia la probabilidad de
la intersección es el producto de las probabilidades, la hipótesis de
independencia entre X e Y puede expresarse como:

H0 : pij = pi+ × p+j , ∀i = 1, . . . , r, j = 1, . . . , c.

Como habitualmente, estimaremos la probabilidad de que algo ocurra por


la proporción de veces que eso ocurre en la muestra. Por tanto el estimador
nij
razonable de pij será p̂ij = n++ mientras que los de pi+ y p+j serán
ni+ n+j
p̂i+ = n++ y p̂+j = n++ .
Entonces bajo la independencia tendremos que:
ni+n+j
p̂ij ≈ p̂i+p̂+j ⇔ nij ≈ .
n++

El estadı́stico χ2 compara las diferencias entre ambos valores en la tabla del


modo siguiente:

ni+ n+j 2
 
r X c nij − n++ r X c
(Obs − Esp )
2
asint. 2
ij ij
X X
χ2 = ni+ n+j = ∼ χ(r−1)(c−1)
i=1 j=1 n i=1 j=1
Esp ij
++

El cuadrado del numerador evita que las diferencias positivas se compensen


con las negativas mientras que el denominador da mas relevancia a las
diferencias que se producen en celdas con valores esperados bajos (no es
igual de relevante una diferencia de una unidad cuando se esperaba 1
individuo en la celda que cuando se esperaban 100).
Ejemplo Artificial
Disponemos de los siguientes datos

Producto
Edad A B C
Jóvenes 20 20 20 60
Adultos 40 10 40 90
Mayores 20 10 40 70
80 40 100 220

y queremos saber hasta qué punto existe (o no) una asociación entre las
variables Edad y Producto preferido.
Esta tabla contiene los nij es decir que es la tabla de los valores observados.
n n+j
La tabla de los valores esperados será la que contenga los valores i+ n++
que son los esperados bajo la hipótesis de independencia.
Esta es la tabla de los valores esperados construida con esa fórmula:
Producto
Edad A B C
Jóvenes 21.82 10.91 27.27 60
Adultos 32.73 16.36 40.91 90
Mayores 25.45 12.73 31.82 70
80 40 100 220

En este caso el estadı́stico χ2 vale:

ni+ n+j 2
 
X3 X 3 nij − n++
χ2 = ni+ n+j = 17.63
i=1 j=1 n++

y el p-valor del contraste es P (χ24 > 17.63) = 0.0015 con lo que rechazamos
la hipótesis de independencia y concluı́mos que existe algún tipo de relación
entre las dos variables categóricas.
Perfiles fila y columna y sus pesos
Una vez contrastada la posible independencia entre las dos variables vamos
a estudiar el tipo de relación que existe entre ellas. Para ello vamos a
analizar los denominados perfiles fila y columna (que no son más que las
distribuciones condicionadas por filas y columnas). Concretamente tenemos:

 Perfiles fila  Perfiles columna


n11 n1c n11
   n   n1c

12
, . . . ,
 n1+ n1+  n+1
n21
n+2
n22
n+c
n2c
n21 n2c
     
n2+ , . . . , n2+
 n+1   n+2  ···  n+c 
 ..   ..   .. 
..      
  nr1 nr2 nrc
nr1 nrc n+1 n+2 n+c
nr+ , . . . , nr+
r puntos en Rc c puntos en Rr
ij n i+ n
Notar que si consideramos las frecuencias relativas fij = n++ , fi+ = n++ ,
n+j
f+j = n++ podemos escribir los perfiles de forma equivalente con las f 0s.
Es conveniente notar también que, a diferencia de lo que ocurrı́a en ACP,
filas y columnas juegan el mismo papel pero que, en este caso, las dos
nubes de puntos no se obtienen por simple trasposición de la matriz.
Hay otras diferencias muy importantes que señalaremos a continuación y
que hacen que el problema a resolver sea algo más elaborado.
La primera es que los perfiles no tienen todos el mismo peso. En ACP cada
fila es un individuo y, a priori, no hay motivo para dar más importancia a
ninguno de ellos por lo que todos tienen el mismo peso en el análisis. En
cambio, los perfiles habitualmente están generados por un número diferente
de individuos (por ejemplo, el número de individuos que generan el primer
perfil fila es n1+). Parece razonable entonces asignar pesos (importancias)
a los perfiles en función de los individuos que los han generado.
 
Ası́ el peso del perfil fila i, ffi+i1
, . . . , ffi+
ic
será fi+ y el peso del perfil
frj 0
 
f1j
columna j, f+j , . . . , f+j será f+j . Ambos sistemas de pesos suman 1.
Centros de Gravedad de las nubes
De este modo los centros de gravedad de las nubes de perfiles fila y
columna serán:
Pr  
fi1 fic
Perfiles fila: i=1 fi+ fi+ , . . . , fi+ = (f+1 , . . . , f+c )
frj 0
 
Pc f1j 0
Perfiles columna: j=1 f+j f+j , . . . , f+j = (f1+ , . . . , f r+ )

Es decir que el perfil medio de las filas (distribuciones de X condicionadas


por cada uno de los valores de Y ) es la distribución marginal de la variable
X y el perfil medio de las columnas (distribuciones de Y condicionadas por
cada uno de los valores de X) es la distribución marginal de la variable Y .
Nuestra intención ahora es representar, en el menor número de dimensiones
posible, las diferencias entre estos perfiles fila y columna (por eso este es
un método de reducción de dimensión). Para ello necesitamos un modo de
medir las distancias entre los perfiles.
Distancia χ2

La distancia euclı́dea no es buena idea, entre otras cosas, porque carece de


una propiedad necesaria para este tipo de datos denominada equivalencia
distribucional. Esta propiedad dice que si en una tabla dos perfiles fila son
iguales y se agregan los datos de esas filas las distancias entre los perfiles
columna resultantes deberı́an ser iguales a las que se tenı́an en la tabla
inicial.

La distancia que se utiliza para medir las diferencias entre los perfiles es la
denominada distancia χ2, que es una distancia euclı́dea ponderada entre los
perfiles y que se calcula como sigue:
 f
2
c f 0
Distancia χ2 entre perfiles fila: d2χ2 (i, i0) = j=1 f+j
1 ij i j
P
fi+ − fi0 +
 f
2
r f 0
Distancia χ2 entre perfiles columna: d2χ2 (j, j 0) = i=1 f1i+ f+j ij
− f ij 0
P
+j
Ejercicio (Equivalencia distribucional de la distancia χ2):

Supongamos que tenemos una tabla T1 para la que los perfiles de las filas
i1 e i2 son iguales, es decir que
   
fi11 fi c fi21 fi c
,..., 1 = ,..., 2 .
fi1+ fi1+ fi2+ fi2+

Construimos una nueva tabla T2 fusionando las filas i1 e i2 en una nueva


fila i0 de modo que ni0j = ni1j + ni2j para cada j = 1, . . . , c.

Comprobar que las distancias χ2 entre dos columnas cualesquiera j y j 0 en


las tablas T1 y T2 son las mismas. Es decir probar que

d2χ2,T1 (j, j 0) = d2χ2,T2 (j, j 0).


Inercia Total
Como hicimos en ACP vamos a definir la inercia total de la nube de puntos.
La calcularemos como la suma de los cuadrados de las distancias de los
perfiles al centro de gravedad teniendo en cuenta ademas los pesos de cada
perfil, es decir
r
X
Inercia total = peso(f ilai)d2χ2 (f ilai, Gf ilas)
i=1
Xc
= peso(colj )d2χ2 (colj , Gcol).
j=1

Ejercicio: Comprobar que

χ2
Inercia total = .
n++
Planteamiento del problema y su solución
Hemos definido ya los elementos necesarios para resolver el problema del
Análisis de Correspondencias Simples. Recordar que lo que queremos es
representar lo mejor posible en el menor número posible de dimensiones las
diferencias que existen entre los perfiles de nuestra tabla de contingencia.
Vamos a escribir de forma matricial los elementos que necesitamos para
poder manejarlos de forma más sencilla. Denotaremos por F = (fij ) la
matriz r × c de las frecuencias relativas y por Dc = diag(f+1, . . . , f+c)
y Dr = diag(f1+, . . . , fr+) las matrices diagonales que contienen las
distribuciones condicionadas.
De este modo los r perfiles fila son las filas de Dr−1F y los c perfiles columna
son las columnas de F Dc−1 (o las filas de Dc−1F 0).
Además la distancia entre perfiles fila será d2χ2 (x, y) = (x − y)0Dc−1(x − y)
y entre perfiles columna d2χ2 (x, y) = (x − y)0Dr−1(x − y).
Como en ACP buscamos una dirección que maximice la inercia recogida por
las proyecciones de los perfiles en esa dirección. La diferencia ahora es que
tenemos una métrica no euclı́dea y unos pesos que dependen de los puntos
a proyectar.
Vamos a hacer solamente el desarrollo en Rc (perfiles fila). Si denotamos
ahora por hui el subespacio generado por el vector u y por Phuix la
proyección (con la distancia χ2) del perfil x sobre el subespacio generado
por u, estamos buscando
r
X
u = arg max peso(f ilai)d2χ2 (Phwixi, 0).
w
i=1

Igual que en ACP, como los subespacios generados por w y por λw son
los mismos, vamos a considerar vectores w unitarios. Ahora los vectores
unitarios son aquellos para los que d2χ2 (w, 0) = w0Dc−1w = 1.
Además ahora con la distancia χ2 se tiene que Phwix = (x0Dc−1w)w con lo
que d2χ2 (xi, 0) = (x0iDc−1w)2.

Por otra parte z = (Dr−1F )Dc−1w es un vector cuyas componentes son los
valores de las proyecciones de los perfiles fila, con lo que teniendo en cuenta
los pesos de los puntos debemos maximizar z 0Dr z. Es decir que debemos
resolver
r
X
u= arg max peso(f ilai)d2χ2 (Phwixi, 0)
{w:w0 Dc−1 w=1} i=1

= arg max w0Dc−1F 0Dr−1Dr Dr−1F Dc−1w


{w:w0 Dc−1 w=1}

= arg max w0Dc−1F 0Dr−1F Dc−1w.


{w:w0 Dc−1 w=1}
Denotemos A = Dc−1F 0Dr−1F Dc−1. Utilizando multiplicadores de Lagrange
para maximizar una función bajo restricciones consideramos

f (w, λ) = w0Aw − λ(w0Dc−1w − 1).

Derivando con respecto a w y λ e igualando las derivadas a 0 obtenemos


que u debe verificar (DcA)u = λu con lo que u es un autovalor de DcA =
F 0Dr−1F Dc−1. Además como u0Au = u0Dc−1DcAu = λu0Dc−1u = λ (por
ser u unitario) tenemos que el vector u que buscabamos es el autovector
correspondiente al autovalor máximo de F 0Dr−1F Dc−1 y que ese autovalor
máximo λ es la inercia recogida por dicha dirección.

Lógicamente si consideramos los perfiles columna deberemos obtener el


autovector de autovalor máximo de la matriz F Dc−1F 0Dr−1.
Hemos obtenido entonces la mejor dirección de proyección, es decir la mejor
representación unidimensional posible de las distancias χ2 entre los puntos.
Como en ACP el siguiente paso serı́a encontrar la segunda mejor dirección
de proyección para tener la mejor representación bidimensional posible y ası́
sucesivamente. No desarrollaremos los siguientes pasos porque de ACP ya
sabemos cual es la solución, a saber, diagonalizar la matriz correspondiente
e ir extrayendo los autovectores asociados a los autovalores más altos.
Ejercicio: Comprobar que, como en ACP, que los autovalores de las dos
matrices correspondientes a los perfiles fila y columna son los mismos.
En este caso se puede comprobar además que (al sumar 1 las coordenadas
de los perfiles) 1 es siempre un autovalor que no proporciona una proyección
informativa puesto que todos los perfiles se proyectan en el mismo punto.
Como consecuencia el número de autovalores correspondientes a este
problema es min(r − 1, c − 1). Es decir que en ese número de dimensiones
se pueden representar perfectamente las distancias tanto entre los perfiles
fila como entre los perfiles columna.
En Rc (perfiles fila) denominaremos:

• Eje principal α, uα, al autovector asociado al autovalor λα.

• Factor α, ϕα = Dc−1uα.

• Ası́ las proyecciones sobre el eje principal uα se calculan como v̂α =


(Dr−1F )Dc−1uα = (Dr−1F )ϕα.

En Rr (perfiles columna) tenemos:

• Eje principal α, vα, al autovector asociado al autovalor λα.


• Factor α, ψα = Dr−1vα.
• Ası́ las proyecciones sobre el eje principal vα se calculan como ûα =
(Dc−1F 0)Dr−1vα = (Dc−1F 0)ψα.
También como en ACP existen las denominadas relaciones de transición
que permiten calcular unos autovectores a partir de los otros y que no sea
necesario diagonalizar las dos matrices.
Sabemos que F 0Dr−1F Dc−1uα = λαuα luego

F Dc−1F 0Dr−1(F Dc−1uα) = λα(F Dc−1uα)

y resulta que F Dc−1uα es autovalor de F Dc−1F 0Dr−1 (matriz a diagonalizar


para los puntos columna) asociado al autovalor λα con lo que F Dc−1uα =
kvα. Como vα es unitario y la norma al cuadrado de F Dc−1uα es

u0αDc−1F 0Dr−1F Dc−1uα = λαu0αDc−1uα = λα = k 2,

tenemos
1 1
vα = √ F Dc uα y ψα = √ Dr−1F ϕα.
−1
λα λα
Reciprocamente tenemos que

1 1
uα = √ F Dr vα y ϕα = √ Dc−1F 0ψα.
0 −1
λα λα

En consecuencia también podemos comprobar que las coordenadas de las


proyecciones de los perfiles fila sobre el eje α, v̂α, pueden calcularse como
p
v̂α = (Dr−1F )ϕα = λαψα = ψ̂α,

y proyecciones las de los perfiles columna ûα como


p
ûα = (Dc−1F 0)ψα = λαϕα = ϕ̂α.
Ejemplo Artificial (continuación)
Recordar que tenı́amos la tabla de contingencia
Producto
Edad A B C
Jóvenes 20 20 20 60
Adultos 40 10 40 90
Mayores 20 10 40 70
80 40 100 220

Si dividimos por n++ tenemos la tabla de frecuencias relativas (matriz F )


Producto
Edad A B C
Jóvenes 0.0909 0.0909 0.0909
Adultos 0.1818 0.04545 0.1818
Mayores 0.0909 0.04545 0.1818
Las matrices Dc y Dr tienen en la diagonal las distribuciones marginales de
las variables:
   
0.3636 0 0 0.2727 0 0
Dc =  0 0.1818 0  Dr =  0 0.4091 0 
0 0 0.4546 0 0 0.3182

Las matrices de puntos fila (Dr−1F ) y puntos columna (F Dc−1) contienen


respectivamente las distribuciones condicionadas por filas y columnas.
   
0.3333 0.3333 0.3333 0.25 0.5 0.2
Dr−1F =  0.4444 0.1111 0.4444  F Dc−1 =  0.5 0.25 0.4 
0.2857 0.1428 0.5714 0.25 0.25 0.4
Vamos a centrarnos en las filas. Las distancias χ2 al cuadrado entre los
puntos fila son:

d2χ2 (1, 2) = (fila 1 − fila 2) · Dc−1 · (fila 1 − fila 2)0


= (−0.1111, 0.2222, −0.1111) · Dc−1 · (−0.1111, 0.2222, −0.1111)0
= 0.3327
d2χ2 (2, 3) = 0.1103
d2χ2 (1, 3) = 0.3305.

La matriz a diagonalizar F 0Dr−1F Dc−1 es:


 
0.3770 0.3492 0.3587
F 0Dr−1F Dc−1 =  0.1746 0.2301 0.1682 
0.4484 0.4206 0.4730
Los autovalores de esta matriz son: 1, 0.0604, 0.01969.
Y los autovectores uα (ejes principales) son las columnas de:
 
0.3636 −0.0855 0.4734
 0.1818 0.3791 −0.0712 
0.4545 −0.2936 −0.4022

El primer autovector correspondiente al autovalor 1 no tiene interés como


podemos ver en los factores ϕα = Dc−1uα:
 
1 −0.2352 1.3018
 1 2.0849 −0.3916 
1 −0.6458 −0.8848
Las proyecciones sobre el eje principal serán Dr−1F Dc−1uα = (Dr−1F )ϕα:

Edad coordim1 coordim2


Jóvenes 1 0.4013 0.0085
Adultos 1 −0.1599 0.1418
Mayores 1 −0.1384 −0.1896

Las distancias euclı́deas al cuadrado entre estos nuevos puntos son iguales
a las distancias χ2 al cuadrado entre los puntos fila originales:

d2(1, 2) = (fila 1 − fila 2) · (fila 1 − fila 2)0


= 0.56122 + (−0.1333)2 = 0.3327
d2(2, 3) = 0.1103
d2(1, 3) = 0.3305.
Como tenı́amos una tabla 3 × 3 hemos reproducido perfectamente en dos
dimensiones las distancias originales.

Esta es la representación de esos puntos


Si ahora quisiéramos hacer un análisis similar para los perfiles columna
deberı́amos diagonalizar la matriz F Dc−1F 0Dr−1 obteniendo sus autovectores
para poder hacer las proyecciones de estos otros perfiles sobre los ejes
correspondientes.
Sin embargo, las relaciones de transición nos ahorran la diagonalización de
esa otra matriz ya que los autovalores de esa nueva matriz son los mismos
que los de la anterior y a partir de los autovalores y autovectores de la matriz
ya diagonalizada podemos calcular los ejes y proyecciones correspondientes
a los puntos columna.
Por ejemplo la relación de transición que permite calcular las proyecciones
de los perfiles columna
√ sobre los ejes correspondientes nos dice que estas
proyecciones son λαϕα donde λα son los autovectores de la matriz original
y ϕα son los factores de esa matriz inicial.

cuadrada de los autovalores λα de la matriz es: 1, 0.0604 =
La raı́z √
0.2459, 0.01969 = 0.1403.
Y las proyecciones de las columnas son:
   
−0.2352 −0.0578
0.2459 ×  2.0849  =  0.5127 
−0.6458 −0.1588
   
1.3018 0.1826
0.1403 ×  −0.3916  =  −0.0549 
−0.8848 −0.1241

De esta manera el trabajo computacional se ha reducido prácticamente a


la mitad. Las relaciones de transición también permiten calcular de forma
sencilla los factores y autovectores asociados a los perfiles columna.
En el siguiente gráfico tenemos las proyecciones de estos perfiles.
Podemos ahora además hacer la representación simultánea siguiente que
además es fácilmente interpretable:
Observaciones y cuestiones de interés a responder:

• ¿Cuál es la inercia total? ¿Cuánta inercia explica la primera componente?

• ¿Por qué la representación en dos dimensiones es perfecta? Si la tabla


tuviera las mismas filas pero se introdujeran 3 productos más, ¿cuántas
dimensiones se necesitarı́an para una representación perfecta?

• ¿Hay asociaciones entre las edades y los productos? ¿Qué asociaciones


hay?

• ¿Podemos decir que la mayorı́a de los jovenes prefieren el producto B, la


mayorı́a de los mayores el C, y los adultos (Mediana Edad) el A?

• Interpretar los dos ejes del análisis.


Contribuciones a la inercia
Como en el caso del ACP estudiaremos ahora cómo podemos identificar la
contribución de cada perfil a la formación de un eje y la calidad con la que
cada perfil está representado en cada eje.

• Contribuciones absolutas (a la inercia explicada por cada eje).


Las contribuciones absolutas de los puntos fila c.a.(i, α) se deducen de la
forma siguiente. Sabemos que vα0 Dr−1vα = 1 por ser el vector unitario.
Como ψα = Dr−1vα tenemos que vα = Dr ψ√α y entonces ψα0 Dr ψα =
Pr 2
Pr 2
Pr 2
ψ
i=1 αi fi+ = 1 y también λ α = i=1 fi+ ( λ α ψαi ) = i=1 fi+ ψ̂ αi .

Definimos entonces la contribución absoluta del perfil fila i al eje α como


2
fi+ ψ̂αi 2
Pr
c.a.(i, α) = λα = fi+ψαi. Notar que i=1 c.a.(i, α) = 1.
Análogamente la contribución absoluta del perfil columna j al eje α será
f+j ϕ̂2αj Pc
c.a.(j, α) = λα = f+j ϕ2αj . Ahora j=1 c.a.(j, α) = 1
• Contribuciones relativas (cosenos cuadrados).
Nos dicen como de cerca o lejos está cada perfil de cada eje. Sirven para
saber si un perfil está mejor o peor representado en un eje o conjunto de
2
2 ψ̂αi
ejes. Para los perfiles fila tendremos c.r.(i, α) = cos (i, α) = d2(i,G) =
ψ2 2 ϕ2αj
P αi 2y para los perfiles columna c.r.(j, α) = cos (j, α) = P 2 .
α ψαi α ϕαj
Ahora α cos (i, α) = α cos2(j, α) = 1.
2
P P
Ejemplo Artificial (continuación)

Las contribuciones absolutas y relativas de las filas y columnas en este


ejemplo son las siguientes.

Filas Coord1 c.a. cos2 Coord2 c.a. cos2


Jóvenes 0.401 72.628 1.000 0.008 0.100 0.000
Adultos −0.160 17.295 0.560 0.142 41.796 0.440
Mayores −0.138 10.077 0.348 −0.190 58.105 0.652

Columnas Coord1 c.a. cos2 Coord2 c.a. cos2


A −0.058 2.011 0.091 0.183 61.626 0.909
B 0.513 79.031 0.989 −0.055 2.788 0.011
C −0.159 18.959 0.621 −0.124 35.587 0.379
Elementos Suplementarios
Al igual que en ACP pueden incluirse en este caso filas o columnas
suplementarias en el análisis. En este caso las filas y columnas activas deben
ser una partición del conjunto de datos. Los elementos suplementarios
corresponderán a observaciones posteriores o en condiciones distintas al
resto o a elementos de naturaleza diferente al resto.

Estas filas o columnas suplementarias se protectarán en el análisis y se


interpretarán por proximidad a las activas. Notar que estos elementos no
tendrán contribuciones absolutas pero si puede calcularse la calidad de su
representación en el análisis (contribuciones relativas).

Para hacer las proyecciones se usan las relaciones de transición.


 0
n+
1 n+
r
Si tenemos una columna suplementaria de perfil n+
,..., n+
la proyección
+ +
sobre el eje α será !
r
1 X n+
ϕ̂+
α =√ i
ψ̂αi.
λα i=1
n+
+

 
n+
1 n+
c
Para una fila suplementaria de perfil n+
,..., n+
la proyección sobre el
+ +
eje α será !
c
1 X n+
j
ψ̂α+ = √ ϕ̂αj .
λα j=1 n+
+
Algunas nubes caracterı́sticas
Los siguientes gráficos e interpretaciones están tomados del libro
“Metodologı́a de la Investigación Social Cuantitativa” de López-Roldán
y Fachelli (UAB, 2016).
Cuando se pueden ordenar las filas y columnas de forma que las casillas con
más efectivos configuran dos bloques o subtablas, como las de la imagen
adjunta, entonces el gráfico factorial se configura con dos nubes de puntos
opuestos.
También puede haber tres bloques o subtablas. En ese caso la imagen que
se obtendrá tendrá tres grupos repartidos como en el siguiente gráfico.
El denominado efecto Guttman, muy frecuente en la práctica, configura
una nube de puntos en forma de parábola o arco. Esto sucede cuando existe
una fuerte asociación entre las dos variables y los efectivos se disponen en la
diagonal o bien estos efectivos de la tabla por filas y columnas se reordenan
con las frecuencias más altas en la diagonal. Se configura un primer factor
que opone los valores extremos, quedando en el centro los valores medios,
mientras que el segundo factor opone los valores extremos ante los medios.
También se puede configurar una parábola asimétrica con la concentración
de efectivos en una diagonal con forma de trapecio. A medida que aumentan
los valores de una variable aumenta la dispersión de los valores de la otra.

Es posible una configuración circular cuando se relacionan en el mismo


sentido los valores altos y bajos.
Una combinación de los dos casos anteriores darı́a lugar a la configuración
de una forma espiral.
Desarrollos actuales en AC

En AC no hay tantos desarrollos nuevos como en ACP. Algunos ejemplos


son:
Beh, E. J., Lombardo, R. (2019). Multiple and multiway correspondence analysis. Wiley Interdisciplinary Reviews: Computational
Statistics, 11(5), e1464.

Beh, E. J., Lombardo, R. (2015). Confidence regions and approximate p-values for classical and non symmetric correspondence
analysis. Communications in Statistics - Theory and Methods, 44(1), 95-114.

Fithian, W., Josse, J. (2017). Multiple correspondence analysis and the multilogit bilinear model. Journal of Multivariate Analysis,
157, 87-102.

Pero sı́ se utiliza en muchas aplicaciones:


Xiang, F., Tao, Z., Jialei, Z., Boya, Z., Dongliang, M. (2020). Research on heat transfer coefficient of supercritical water based
on factorial and correspondence analysis. Nuclear Engineering and Technology, 52(7), 1409-1416.

Yin, Y., Hao, L., Gu, X., Lu, J., Pan, Z. (2020). Source tracing of n-alkanes in songhua lake, based on correspondence analysis
and geochemical index. Environmental Geochemistry and Health, 42(5), 1347-1357.

Zabret, K., Šraj, M. (2019). Evaluating the influence of rain event characteristics on rainfall interception by urban trees using
multiple correspondence analysis. Water, 11(12), 2659.

También podría gustarte