Acorr2020 PDF

TEMA 2: ANÁLISIS DE
CORRESPONDENCIAS
ANÁLISIS DE DATOS (Grado en Estadı́stica)

ANÁLISIS MULTIVARIANTE (Grado en Matemáticas)
Departamento de Estadı́stica e I.O. Universidad de Valladolid

Análisis de Correspondencias
• Al igual que las Componentes Principales este es un procedimiento
multivariante de interdependencia. Es decir que no hay variable respuesta.
En este caso, a diferencia del ACP, se consideran variables categóricas.
Se quiere estudiar relaciones entre las variables y las categorı́as de las
mismas.
• El objetivo fundamental es representar, en un número reducido de

dimensiones, las similitudes y diferencias existentes entre las categorı́as de
las variables para poder estudiar posibles asociaciones entre las mismas.
• Cuando se dispone de dos variables categóricas se habla de Análisis de

Correspondencias Simples. Si son más de dos tendremos un Análisis de
Correspondencias Múltiples.
• Puede utilizarse para obtener valores numéricos asociados a las categorı́as

de las variables que permitirı́an, por ejemplo, incluir estas variables como
numéricas en otros procedimientos como el ACP.
Notas históricas
• Podrı́a decirse que la primera referencia es de Hirschfeld (1935).
• En realidad el desarrollo detallado es de Jean-Paul Benzecri en torno a

1970.
• Es una metodologı́a estudiada sobre todo por la escuela francesa de

análisis de datos.
• Como otras técnicas multivariantes comenzó a usarse intensivamente

cuando pudo ser implementado en ordenadores.
Objetivos globales
• Estudio de asociaciones entre variables categóricas.
• Representar en un número bajo de dimensiones las similitudes y

diferencias entre las categorı́as de las variables.
• Construcción de factores que permitan interpretar las diferencias entre

esas categorı́as.
• Permite ”cuantificar” de una manera objetiva las diferencias entre las

categorı́as lo que puede interpretarse como una cuantificación de las
variables categóricas. Esta cuantificación puede usarse después en otros
procedimientos que consideren variables continuas.
Otras consideraciones
• Notar que se pueden incluir variables continuas en este procedimiento
simplemente categorizandolas.
• Se comenzará estudiando el análisis de correspondencias simples (dos

variables categóricas) que es menos complejo.
• Lógicamente en este caso nuestros datos vendrán dados en una tabla de

contingencia.
• En esta situación, a diferencia de ACP, el papel de filas y columnas es el

mismo.
• Como primer paso estudiaremos la posiblidad de ausencia de todo tipo

de relación (independencia) entre las dos variables en estudio.
Ejemplos
• Estudio de la preferencia por determinados productos por tramos de

edad. Se toma una muestra de individuos que prueban, por ejemplo, 3
refrescos de cola y eligen el que prefieren. A estos mismos individuos
se les pregunta la edad que se clasifica en varios tramos. Tenemos por
tanto dos variables categóricas: preferencia por el producto (A, B, o C)
y edad del individuo (Joven, Adulto, Mayor). El procedimiento permitirá
estudiar si existe más preferencia por un producto en un determinado
tramo de edad o si por el contrario la distribución de las preferencias de
los productos no depende de la edad del individuo.
• Estudio de la estructura de gastos en departamentos de una empresa o

en varias factorı́as de la misma empresa. Se consideran los gastos en
cada factorı́a y se desglosan por tipo de gasto. Podremos ver si alguna
de las factorı́as está más asociada con un tipo de gasto que el resto y
valorar si eso constituye una anomalı́a.
• Tipo de accidentes por tipo de carretera. Se desglosan los accidentes de

tráfico según su tipologı́a (colisión frontal, colisión fronto-lateral, alcance,
atropello,...) y el tipo de carretera (autopista, autovı́a, via convencional,
tramo urbano,...). Se pueden observar las asociaciones que existen entre
las categorı́as y qué categorı́as se distribuyen de forma parecida entre los
diferentes tipos de carreteras.
• Tipos de empresa (o de sector de ocupación) por provincias.
• Votos a un partido por provincias o por secciones censales más pequeñas.

Análisis de Correspondencias Simples
Test χ2 de independencia
Suponemos que disponemos de una tabla de contingencia con r filas (rows)
y c columnas (columns)
X \Y Cl. 1 ... Cl. c

Cl. 1 n11 ... n1c n1+
.. .. .. ..
Cl. r n1r ... nrc nr+
n+1 ... n+c n++
nij es el número de individuos de la muestra que están en la clase i de la

variable X y en la clase j de la variable Y .
El sı́mbolo + en un subı́ndice quiere decir que se ha sumado en los valores
de ese ı́ndice. De ese modo n1+ es el número de individuos que están en la
clase 1 de la variable X (independientemente de en que clase de Y estén
puesto que se ha sumado en ese segundo ı́ndice).
Vamos a denotar por pij la probabilidad de que un individuo de la población
esté en la clase i de la variable X y en la clase j de la variable Y , por
pi+ la probabilidad de que esté en la clase i de la variable X y por p+j la
probabilidad de que esté en la clase j de la variable Y .
De este modo, puesto que bajo la independencia la probabilidad de
la intersección es el producto de las probabilidades, la hipótesis de
independencia entre X e Y puede expresarse como:
H0 : pij = pi+ × p+j , ∀i = 1, . . . , r, j = 1, . . . , c.
Como habitualmente, estimaremos la probabilidad de que algo ocurra por

la proporción de veces que eso ocurre en la muestra. Por tanto el estimador
nij
razonable de pij será p̂ij = n++ mientras que los de pi+ y p+j serán
ni+ n+j
p̂i+ = n++ y p̂+j = n++ .
Entonces bajo la independencia tendremos que:
ni+n+j
p̂ij ≈ p̂i+p̂+j ⇔ nij ≈ .
n++
El estadı́stico χ2 compara las diferencias entre ambos valores en la tabla del

modo siguiente:
ni+ n+j 2

r X c nij − n++ r X c
(Obs − Esp )
2
asint. 2
ij ij
X X
χ2 = ni+ n+j = ∼ χ(r−1)(c−1)
i=1 j=1 n i=1 j=1
Esp ij
++
El cuadrado del numerador evita que las diferencias positivas se compensen

con las negativas mientras que el denominador da mas relevancia a las
diferencias que se producen en celdas con valores esperados bajos (no es
igual de relevante una diferencia de una unidad cuando se esperaba 1
individuo en la celda que cuando se esperaban 100).
Ejemplo Artificial
Disponemos de los siguientes datos
Producto
Edad A B C
Jóvenes 20 20 20 60
Adultos 40 10 40 90
Mayores 20 10 40 70
80 40 100 220
y queremos saber hasta qué punto existe (o no) una asociación entre las
variables Edad y Producto preferido.
Esta tabla contiene los nij es decir que es la tabla de los valores observados.
n n+j
La tabla de los valores esperados será la que contenga los valores i+ n++
que son los esperados bajo la hipótesis de independencia.
Esta es la tabla de los valores esperados construida con esa fórmula:
Producto
Edad A B C
Jóvenes 21.82 10.91 27.27 60
Adultos 32.73 16.36 40.91 90
Mayores 25.45 12.73 31.82 70
80 40 100 220
En este caso el estadı́stico χ2 vale:
ni+ n+j 2

X3 X 3 nij − n++
χ2 = ni+ n+j = 17.63
i=1 j=1 n++
y el p-valor del contraste es P (χ24 > 17.63) = 0.0015 con lo que rechazamos
la hipótesis de independencia y concluı́mos que existe algún tipo de relación
entre las dos variables categóricas.
Perfiles fila y columna y sus pesos
Una vez contrastada la posible independencia entre las dos variables vamos
a estudiar el tipo de relación que existe entre ellas. Para ello vamos a
analizar los denominados perfiles fila y columna (que no son más que las
distribuciones condicionadas por filas y columnas). Concretamente tenemos:
Perfiles fila Perfiles columna

n11 n1c n11
   n   n1c

12
, . . . ,
n1+ n1+ n+1
n21
n+2
n22
n+c
n2c
n21 n2c
     
n2+ , . . . , n2+
 n+1   n+2  ···  n+c 
 ..   ..   .. 
..      
nr1 nr2 nrc
nr1 nrc n+1 n+2 n+c
nr+ , . . . , nr+
r puntos en Rc c puntos en Rr
ij n i+ n
Notar que si consideramos las frecuencias relativas fij = n++ , fi+ = n++ ,
n+j
f+j = n++ podemos escribir los perfiles de forma equivalente con las f 0s.
Es conveniente notar también que, a diferencia de lo que ocurrı́a en ACP,
filas y columnas juegan el mismo papel pero que, en este caso, las dos
nubes de puntos no se obtienen por simple trasposición de la matriz.
Hay otras diferencias muy importantes que señalaremos a continuación y
que hacen que el problema a resolver sea algo más elaborado.
La primera es que los perfiles no tienen todos el mismo peso. En ACP cada
fila es un individuo y, a priori, no hay motivo para dar más importancia a
ninguno de ellos por lo que todos tienen el mismo peso en el análisis. En
cambio, los perfiles habitualmente están generados por un número diferente
de individuos (por ejemplo, el número de individuos que generan el primer
perfil fila es n1+). Parece razonable entonces asignar pesos (importancias)
a los perfiles en función de los individuos que los han generado.

Ası́ el peso del perfil fila i, ffi+i1
, . . . , ffi+
ic
será fi+ y el peso del perfil
frj 0

f1j
columna j, f+j , . . . , f+j será f+j . Ambos sistemas de pesos suman 1.
Centros de Gravedad de las nubes
De este modo los centros de gravedad de las nubes de perfiles fila y
columna serán:
Pr
fi1 fic
Perfiles fila: i=1 fi+ fi+ , . . . , fi+ = (f+1 , . . . , f+c )
frj 0

Pc f1j 0
Perfiles columna: j=1 f+j f+j , . . . , f+j = (f1+ , . . . , f r+ )
Es decir que el perfil medio de las filas (distribuciones de X condicionadas

por cada uno de los valores de Y ) es la distribución marginal de la variable
X y el perfil medio de las columnas (distribuciones de Y condicionadas por
cada uno de los valores de X) es la distribución marginal de la variable Y .
Nuestra intención ahora es representar, en el menor número de dimensiones
posible, las diferencias entre estos perfiles fila y columna (por eso este es
un método de reducción de dimensión). Para ello necesitamos un modo de
medir las distancias entre los perfiles.
Distancia χ2
La distancia euclı́dea no es buena idea, entre otras cosas, porque carece de

una propiedad necesaria para este tipo de datos denominada equivalencia
distribucional. Esta propiedad dice que si en una tabla dos perfiles fila son
iguales y se agregan los datos de esas filas las distancias entre los perfiles
columna resultantes deberı́an ser iguales a las que se tenı́an en la tabla
inicial.
La distancia que se utiliza para medir las diferencias entre los perfiles es la
denominada distancia χ2, que es una distancia euclı́dea ponderada entre los
perfiles y que se calcula como sigue:
f
2
c f 0
Distancia χ2 entre perfiles fila: d2χ2 (i, i0) = j=1 f+j
1 ij i j
P
fi+ − fi0 +
f
2
r f 0
Distancia χ2 entre perfiles columna: d2χ2 (j, j 0) = i=1 f1i+ f+j ij
− f ij 0
P
+j
Ejercicio (Equivalencia distribucional de la distancia χ2):
Supongamos que tenemos una tabla T1 para la que los perfiles de las filas
i1 e i2 son iguales, es decir que

fi11 fi c fi21 fi c
,..., 1 = ,..., 2 .
fi1+ fi1+ fi2+ fi2+
Construimos una nueva tabla T2 fusionando las filas i1 e i2 en una nueva

fila i0 de modo que ni0j = ni1j + ni2j para cada j = 1, . . . , c.
Comprobar que las distancias χ2 entre dos columnas cualesquiera j y j 0 en

las tablas T1 y T2 son las mismas. Es decir probar que
d2χ2,T1 (j, j 0) = d2χ2,T2 (j, j 0).

Inercia Total
Como hicimos en ACP vamos a definir la inercia total de la nube de puntos.
La calcularemos como la suma de los cuadrados de las distancias de los
perfiles al centro de gravedad teniendo en cuenta ademas los pesos de cada
perfil, es decir
r
X
Inercia total = peso(f ilai)d2χ2 (f ilai, Gf ilas)
i=1
Xc
= peso(colj )d2χ2 (colj , Gcol).
j=1
Ejercicio: Comprobar que
χ2
Inercia total = .
n++
Planteamiento del problema y su solución
Hemos definido ya los elementos necesarios para resolver el problema del
Análisis de Correspondencias Simples. Recordar que lo que queremos es
representar lo mejor posible en el menor número posible de dimensiones las
diferencias que existen entre los perfiles de nuestra tabla de contingencia.
Vamos a escribir de forma matricial los elementos que necesitamos para
poder manejarlos de forma más sencilla. Denotaremos por F = (fij ) la
matriz r × c de las frecuencias relativas y por Dc = diag(f+1, . . . , f+c)
y Dr = diag(f1+, . . . , fr+) las matrices diagonales que contienen las
distribuciones condicionadas.
De este modo los r perfiles fila son las filas de Dr−1F y los c perfiles columna
son las columnas de F Dc−1 (o las filas de Dc−1F 0).
Además la distancia entre perfiles fila será d2χ2 (x, y) = (x − y)0Dc−1(x − y)
y entre perfiles columna d2χ2 (x, y) = (x − y)0Dr−1(x − y).
Como en ACP buscamos una dirección que maximice la inercia recogida por
las proyecciones de los perfiles en esa dirección. La diferencia ahora es que
tenemos una métrica no euclı́dea y unos pesos que dependen de los puntos
a proyectar.
Vamos a hacer solamente el desarrollo en Rc (perfiles fila). Si denotamos
ahora por hui el subespacio generado por el vector u y por Phuix la
proyección (con la distancia χ2) del perfil x sobre el subespacio generado
por u, estamos buscando
r
X
u = arg max peso(f ilai)d2χ2 (Phwixi, 0).
w
i=1
Igual que en ACP, como los subespacios generados por w y por λw son
los mismos, vamos a considerar vectores w unitarios. Ahora los vectores
unitarios son aquellos para los que d2χ2 (w, 0) = w0Dc−1w = 1.
Además ahora con la distancia χ2 se tiene que Phwix = (x0Dc−1w)w con lo
que d2χ2 (xi, 0) = (x0iDc−1w)2.
Por otra parte z = (Dr−1F )Dc−1w es un vector cuyas componentes son los
valores de las proyecciones de los perfiles fila, con lo que teniendo en cuenta
los pesos de los puntos debemos maximizar z 0Dr z. Es decir que debemos
resolver
r
X
u= arg max peso(f ilai)d2χ2 (Phwixi, 0)
{w:w0 Dc−1 w=1} i=1
= arg max w0Dc−1F 0Dr−1Dr Dr−1F Dc−1w

{w:w0 Dc−1 w=1}
= arg max w0Dc−1F 0Dr−1F Dc−1w.

{w:w0 Dc−1 w=1}
Denotemos A = Dc−1F 0Dr−1F Dc−1. Utilizando multiplicadores de Lagrange
para maximizar una función bajo restricciones consideramos
f (w, λ) = w0Aw − λ(w0Dc−1w − 1).
Derivando con respecto a w y λ e igualando las derivadas a 0 obtenemos

que u debe verificar (DcA)u = λu con lo que u es un autovalor de DcA =
F 0Dr−1F Dc−1. Además como u0Au = u0Dc−1DcAu = λu0Dc−1u = λ (por
ser u unitario) tenemos que el vector u que buscabamos es el autovector
correspondiente al autovalor máximo de F 0Dr−1F Dc−1 y que ese autovalor
máximo λ es la inercia recogida por dicha dirección.
Lógicamente si consideramos los perfiles columna deberemos obtener el

autovector de autovalor máximo de la matriz F Dc−1F 0Dr−1.
Hemos obtenido entonces la mejor dirección de proyección, es decir la mejor
representación unidimensional posible de las distancias χ2 entre los puntos.
Como en ACP el siguiente paso serı́a encontrar la segunda mejor dirección
de proyección para tener la mejor representación bidimensional posible y ası́
sucesivamente. No desarrollaremos los siguientes pasos porque de ACP ya
sabemos cual es la solución, a saber, diagonalizar la matriz correspondiente
e ir extrayendo los autovectores asociados a los autovalores más altos.
Ejercicio: Comprobar que, como en ACP, que los autovalores de las dos
matrices correspondientes a los perfiles fila y columna son los mismos.
En este caso se puede comprobar además que (al sumar 1 las coordenadas
de los perfiles) 1 es siempre un autovalor que no proporciona una proyección
informativa puesto que todos los perfiles se proyectan en el mismo punto.
Como consecuencia el número de autovalores correspondientes a este
problema es min(r − 1, c − 1). Es decir que en ese número de dimensiones
se pueden representar perfectamente las distancias tanto entre los perfiles
fila como entre los perfiles columna.
En Rc (perfiles fila) denominaremos:
• Eje principal α, uα, al autovector asociado al autovalor λα.
• Factor α, ϕα = Dc−1uα.
• Ası́ las proyecciones sobre el eje principal uα se calculan como v̂α =

(Dr−1F )Dc−1uα = (Dr−1F )ϕα.
En Rr (perfiles columna) tenemos:
• Eje principal α, vα, al autovector asociado al autovalor λα.

• Factor α, ψα = Dr−1vα.
• Ası́ las proyecciones sobre el eje principal vα se calculan como ûα =
(Dc−1F 0)Dr−1vα = (Dc−1F 0)ψα.
También como en ACP existen las denominadas relaciones de transición
que permiten calcular unos autovectores a partir de los otros y que no sea
necesario diagonalizar las dos matrices.
Sabemos que F 0Dr−1F Dc−1uα = λαuα luego
F Dc−1F 0Dr−1(F Dc−1uα) = λα(F Dc−1uα)
y resulta que F Dc−1uα es autovalor de F Dc−1F 0Dr−1 (matriz a diagonalizar

para los puntos columna) asociado al autovalor λα con lo que F Dc−1uα =
kvα. Como vα es unitario y la norma al cuadrado de F Dc−1uα es
u0αDc−1F 0Dr−1F Dc−1uα = λαu0αDc−1uα = λα = k 2,
tenemos
1 1
vα = √ F Dc uα y ψα = √ Dr−1F ϕα.
−1
λα λα
Reciprocamente tenemos que
1 1
uα = √ F Dr vα y ϕα = √ Dc−1F 0ψα.
0 −1
λα λα
En consecuencia también podemos comprobar que las coordenadas de las

proyecciones de los perfiles fila sobre el eje α, v̂α, pueden calcularse como
p
v̂α = (Dr−1F )ϕα = λαψα = ψ̂α,
y proyecciones las de los perfiles columna ûα como

p
ûα = (Dc−1F 0)ψα = λαϕα = ϕ̂α.
Ejemplo Artificial (continuación)
Recordar que tenı́amos la tabla de contingencia
Producto
Edad A B C
Jóvenes 20 20 20 60
Adultos 40 10 40 90
Mayores 20 10 40 70
80 40 100 220
Si dividimos por n++ tenemos la tabla de frecuencias relativas (matriz F )

Producto
Edad A B C
Jóvenes 0.0909 0.0909 0.0909
Adultos 0.1818 0.04545 0.1818
Mayores 0.0909 0.04545 0.1818
Las matrices Dc y Dr tienen en la diagonal las distribuciones marginales de
las variables:
   
0.3636 0 0 0.2727 0 0
Dc =  0 0.1818 0  Dr =  0 0.4091 0 
0 0 0.4546 0 0 0.3182
Las matrices de puntos fila (Dr−1F ) y puntos columna (F Dc−1) contienen

respectivamente las distribuciones condicionadas por filas y columnas.
   
0.3333 0.3333 0.3333 0.25 0.5 0.2
Dr−1F =  0.4444 0.1111 0.4444  F Dc−1 =  0.5 0.25 0.4 
0.2857 0.1428 0.5714 0.25 0.25 0.4
Vamos a centrarnos en las filas. Las distancias χ2 al cuadrado entre los
puntos fila son:
d2χ2 (1, 2) = (fila 1 − fila 2) · Dc−1 · (fila 1 − fila 2)0

= (−0.1111, 0.2222, −0.1111) · Dc−1 · (−0.1111, 0.2222, −0.1111)0
= 0.3327
d2χ2 (2, 3) = 0.1103
d2χ2 (1, 3) = 0.3305.
La matriz a diagonalizar F 0Dr−1F Dc−1 es:

 
0.3770 0.3492 0.3587
F 0Dr−1F Dc−1 =  0.1746 0.2301 0.1682 
0.4484 0.4206 0.4730
Los autovalores de esta matriz son: 1, 0.0604, 0.01969.
Y los autovectores uα (ejes principales) son las columnas de:
 
0.3636 −0.0855 0.4734
 0.1818 0.3791 −0.0712 
0.4545 −0.2936 −0.4022
El primer autovector correspondiente al autovalor 1 no tiene interés como

podemos ver en los factores ϕα = Dc−1uα:
 
1 −0.2352 1.3018
 1 2.0849 −0.3916 
1 −0.6458 −0.8848
Las proyecciones sobre el eje principal serán Dr−1F Dc−1uα = (Dr−1F )ϕα:
Edad coordim1 coordim2

Jóvenes 1 0.4013 0.0085
Adultos 1 −0.1599 0.1418
Mayores 1 −0.1384 −0.1896
Las distancias euclı́deas al cuadrado entre estos nuevos puntos son iguales
a las distancias χ2 al cuadrado entre los puntos fila originales:
d2(1, 2) = (fila 1 − fila 2) · (fila 1 − fila 2)0

= 0.56122 + (−0.1333)2 = 0.3327
d2(2, 3) = 0.1103
d2(1, 3) = 0.3305.
Como tenı́amos una tabla 3 × 3 hemos reproducido perfectamente en dos
dimensiones las distancias originales.
Esta es la representación de esos puntos

Si ahora quisiéramos hacer un análisis similar para los perfiles columna
deberı́amos diagonalizar la matriz F Dc−1F 0Dr−1 obteniendo sus autovectores
para poder hacer las proyecciones de estos otros perfiles sobre los ejes
correspondientes.
Sin embargo, las relaciones de transición nos ahorran la diagonalización de
esa otra matriz ya que los autovalores de esa nueva matriz son los mismos
que los de la anterior y a partir de los autovalores y autovectores de la matriz
ya diagonalizada podemos calcular los ejes y proyecciones correspondientes
a los puntos columna.
Por ejemplo la relación de transición que permite calcular las proyecciones
de los perfiles columna
√ sobre los ejes correspondientes nos dice que estas
proyecciones son λαϕα donde λα son los autovectores de la matriz original
y ϕα son los factores de esa matriz inicial.
√
cuadrada de los autovalores λα de la matriz es: 1, 0.0604 =
La raı́z √
0.2459, 0.01969 = 0.1403.
Y las proyecciones de las columnas son:
   
−0.2352 −0.0578
0.2459 ×  2.0849  =  0.5127 
−0.6458 −0.1588
   
1.3018 0.1826
0.1403 ×  −0.3916  =  −0.0549 
−0.8848 −0.1241
De esta manera el trabajo computacional se ha reducido prácticamente a

la mitad. Las relaciones de transición también permiten calcular de forma
sencilla los factores y autovectores asociados a los perfiles columna.
En el siguiente gráfico tenemos las proyecciones de estos perfiles.
Podemos ahora además hacer la representación simultánea siguiente que
además es fácilmente interpretable:
Observaciones y cuestiones de interés a responder:
• ¿Cuál es la inercia total? ¿Cuánta inercia explica la primera componente?
• ¿Por qué la representación en dos dimensiones es perfecta? Si la tabla

tuviera las mismas filas pero se introdujeran 3 productos más, ¿cuántas
dimensiones se necesitarı́an para una representación perfecta?
• ¿Hay asociaciones entre las edades y los productos? ¿Qué asociaciones

hay?
• ¿Podemos decir que la mayorı́a de los jovenes prefieren el producto B, la

mayorı́a de los mayores el C, y los adultos (Mediana Edad) el A?
• Interpretar los dos ejes del análisis.

Contribuciones a la inercia
Como en el caso del ACP estudiaremos ahora cómo podemos identificar la
contribución de cada perfil a la formación de un eje y la calidad con la que
cada perfil está representado en cada eje.
• Contribuciones absolutas (a la inercia explicada por cada eje).

Las contribuciones absolutas de los puntos fila c.a.(i, α) se deducen de la
forma siguiente. Sabemos que vα0 Dr−1vα = 1 por ser el vector unitario.
Como ψα = Dr−1vα tenemos que vα = Dr ψ√α y entonces ψα0 Dr ψα =
Pr 2
Pr 2
Pr 2
ψ
i=1 αi fi+ = 1 y también λ α = i=1 fi+ ( λ α ψαi ) = i=1 fi+ ψ̂ αi .
Definimos entonces la contribución absoluta del perfil fila i al eje α como

2
fi+ ψ̂αi 2
Pr
c.a.(i, α) = λα = fi+ψαi. Notar que i=1 c.a.(i, α) = 1.
Análogamente la contribución absoluta del perfil columna j al eje α será
f+j ϕ̂2αj Pc
c.a.(j, α) = λα = f+j ϕ2αj . Ahora j=1 c.a.(j, α) = 1
• Contribuciones relativas (cosenos cuadrados).
Nos dicen como de cerca o lejos está cada perfil de cada eje. Sirven para
saber si un perfil está mejor o peor representado en un eje o conjunto de
2
2 ψ̂αi
ejes. Para los perfiles fila tendremos c.r.(i, α) = cos (i, α) = d2(i,G) =
ψ2 2 ϕ2αj
P αi 2y para los perfiles columna c.r.(j, α) = cos (j, α) = P 2 .
α ψαi α ϕαj
Ahora α cos (i, α) = α cos2(j, α) = 1.
2
P P
Ejemplo Artificial (continuación)
Las contribuciones absolutas y relativas de las filas y columnas en este

ejemplo son las siguientes.
Filas Coord1 c.a. cos2 Coord2 c.a. cos2

Jóvenes 0.401 72.628 1.000 0.008 0.100 0.000
Adultos −0.160 17.295 0.560 0.142 41.796 0.440
Mayores −0.138 10.077 0.348 −0.190 58.105 0.652
Columnas Coord1 c.a. cos2 Coord2 c.a. cos2

A −0.058 2.011 0.091 0.183 61.626 0.909
B 0.513 79.031 0.989 −0.055 2.788 0.011
C −0.159 18.959 0.621 −0.124 35.587 0.379
Elementos Suplementarios
Al igual que en ACP pueden incluirse en este caso filas o columnas
suplementarias en el análisis. En este caso las filas y columnas activas deben
ser una partición del conjunto de datos. Los elementos suplementarios
corresponderán a observaciones posteriores o en condiciones distintas al
resto o a elementos de naturaleza diferente al resto.
Estas filas o columnas suplementarias se protectarán en el análisis y se

interpretarán por proximidad a las activas. Notar que estos elementos no
tendrán contribuciones absolutas pero si puede calcularse la calidad de su
representación en el análisis (contribuciones relativas).
Para hacer las proyecciones se usan las relaciones de transición.

0
n+
1 n+
r
Si tenemos una columna suplementaria de perfil n+
,..., n+
la proyección
+ +
sobre el eje α será !
r
1 X n+
ϕ̂+
α =√ i
ψ̂αi.
λα i=1
n+
+

n+
1 n+
c
Para una fila suplementaria de perfil n+
,..., n+
la proyección sobre el
+ +
eje α será !
c
1 X n+
j
ψ̂α+ = √ ϕ̂αj .
λα j=1 n+
+
Algunas nubes caracterı́sticas
Los siguientes gráficos e interpretaciones están tomados del libro
“Metodologı́a de la Investigación Social Cuantitativa” de López-Roldán
y Fachelli (UAB, 2016).
Cuando se pueden ordenar las filas y columnas de forma que las casillas con
más efectivos configuran dos bloques o subtablas, como las de la imagen
adjunta, entonces el gráfico factorial se configura con dos nubes de puntos
opuestos.
También puede haber tres bloques o subtablas. En ese caso la imagen que
se obtendrá tendrá tres grupos repartidos como en el siguiente gráfico.
El denominado efecto Guttman, muy frecuente en la práctica, configura
una nube de puntos en forma de parábola o arco. Esto sucede cuando existe
una fuerte asociación entre las dos variables y los efectivos se disponen en la
diagonal o bien estos efectivos de la tabla por filas y columnas se reordenan
con las frecuencias más altas en la diagonal. Se configura un primer factor
que opone los valores extremos, quedando en el centro los valores medios,
mientras que el segundo factor opone los valores extremos ante los medios.
También se puede configurar una parábola asimétrica con la concentración
de efectivos en una diagonal con forma de trapecio. A medida que aumentan
los valores de una variable aumenta la dispersión de los valores de la otra.
Es posible una configuración circular cuando se relacionan en el mismo

sentido los valores altos y bajos.
Una combinación de los dos casos anteriores darı́a lugar a la configuración
de una forma espiral.
Desarrollos actuales en AC
En AC no hay tantos desarrollos nuevos como en ACP. Algunos ejemplos

son:
Beh, E. J., Lombardo, R. (2019). Multiple and multiway correspondence analysis. Wiley Interdisciplinary Reviews: Computational
Statistics, 11(5), e1464.
Beh, E. J., Lombardo, R. (2015). Confidence regions and approximate p-values for classical and non symmetric correspondence
analysis. Communications in Statistics - Theory and Methods, 44(1), 95-114.
Fithian, W., Josse, J. (2017). Multiple correspondence analysis and the multilogit bilinear model. Journal of Multivariate Analysis,
157, 87-102.
Pero sı́ se utiliza en muchas aplicaciones:

Xiang, F., Tao, Z., Jialei, Z., Boya, Z., Dongliang, M. (2020). Research on heat transfer coefficient of supercritical water based
on factorial and correspondence analysis. Nuclear Engineering and Technology, 52(7), 1409-1416.
Yin, Y., Hao, L., Gu, X., Lu, J., Pan, Z. (2020). Source tracing of n-alkanes in songhua lake, based on correspondence analysis
and geochemical index. Environmental Geochemistry and Health, 42(5), 1347-1357.
Zabret, K., Šraj, M. (2019). Evaluating the influence of rain event characteristics on rainfall interception by urban trees using
multiple correspondence analysis. Water, 11(12), 2659.

Acorr2020 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Acorr2020 PDF

Cargado por

Copyright:

Formatos disponibles

TEMA 2: ANÁLISIS DE

ANÁLISIS DE DATOS (Grado en Estadı́stica)

Departamento de Estadı́stica e I.O. Universidad de Valladolid

• El objetivo fundamental es representar, en un número reducido de

• Cuando se dispone de dos variables categóricas se habla de Análisis de

• Puede utilizarse para obtener valores numéricos asociados a las categorı́as

• Podrı́a decirse que la primera referencia es de Hirschfeld (1935).

• En realidad el desarrollo detallado es de Jean-Paul Benzecri en torno a

• Es una metodologı́a estudiada sobre todo por la escuela francesa de

• Como otras técnicas multivariantes comenzó a usarse intensivamente

• Estudio de asociaciones entre variables categóricas.

• Representar en un número bajo de dimensiones las similitudes y

• Construcción de factores que permitan interpretar las diferencias entre

• Permite ”cuantificar” de una manera objetiva las diferencias entre las

• Se comenzará estudiando el análisis de correspondencias simples (dos

• Lógicamente en este caso nuestros datos vendrán dados en una tabla de

• En esta situación, a diferencia de ACP, el papel de filas y columnas es el

• Como primer paso estudiaremos la posiblidad de ausencia de todo tipo

• Estudio de la preferencia por determinados productos por tramos de

• Estudio de la estructura de gastos en departamentos de una empresa o

• Tipo de accidentes por tipo de carretera. Se desglosan los accidentes de

• Tipos de empresa (o de sector de ocupación) por provincias.

• Votos a un partido por provincias o por secciones censales más pequeñas.

X \Y Cl. 1 ... Cl. c

nij es el número de individuos de la muestra que están en la clase i de la

H0 : pij = pi+ × p+j , ∀i = 1, . . . , r, j = 1, . . . , c.

Como habitualmente, estimaremos la probabilidad de que algo ocurra por

El estadı́stico χ2 compara las diferencias entre ambos valores en la tabla del

El cuadrado del numerador evita que las diferencias positivas se compensen

En este caso el estadı́stico χ2 vale:

 Perfiles fila  Perfiles columna

Es decir que el perfil medio de las filas (distribuciones de X condicionadas

La distancia euclı́dea no es buena idea, entre otras cosas, porque carece de

Construimos una nueva tabla T2 fusionando las filas i1 e i2 en una nueva

Comprobar que las distancias χ2 entre dos columnas cualesquiera j y j 0 en

d2χ2,T1 (j, j 0) = d2χ2,T2 (j, j 0).

Ejercicio: Comprobar que

= arg max w0Dc−1F 0Dr−1Dr Dr−1F Dc−1w

= arg max w0Dc−1F 0Dr−1F Dc−1w.

f (w, λ) = w0Aw − λ(w0Dc−1w − 1).

Derivando con respecto a w y λ e igualando las derivadas a 0 obtenemos

Lógicamente si consideramos los perfiles columna deberemos obtener el

• Eje principal α, uα, al autovector asociado al autovalor λα.

• Ası́ las proyecciones sobre el eje principal uα se calculan como v̂α =

En Rr (perfiles columna) tenemos:

• Eje principal α, vα, al autovector asociado al autovalor λα.

F Dc−1F 0Dr−1(F Dc−1uα) = λα(F Dc−1uα)

y resulta que F Dc−1uα es autovalor de F Dc−1F 0Dr−1 (matriz a diagonalizar

u0αDc−1F 0Dr−1F Dc−1uα = λαu0αDc−1uα = λα = k 2,

En consecuencia también podemos comprobar que las coordenadas de las

y proyecciones las de los perfiles columna ûα como

Si dividimos por n++ tenemos la tabla de frecuencias relativas (matriz F )

Las matrices de puntos fila (Dr−1F ) y puntos columna (F Dc−1) contienen

d2χ2 (1, 2) = (fila 1 − fila 2) · Dc−1 · (fila 1 − fila 2)0

La matriz a diagonalizar F 0Dr−1F Dc−1 es:

El primer autovector correspondiente al autovalor 1 no tiene interés como

Edad coordim1 coordim2

d2(1, 2) = (fila 1 − fila 2) · (fila 1 − fila 2)0

Esta es la representación de esos puntos

De esta manera el trabajo computacional se ha reducido prácticamente a

• ¿Cuál es la inercia total? ¿Cuánta inercia explica la primera componente?

• ¿Por qué la representación en dos dimensiones es perfecta? Si la tabla

• ¿Hay asociaciones entre las edades y los productos? ¿Qué asociaciones

Perfiles fila Perfiles columna