Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANLISIS DE CORRESPONDENCIA
Surge con el fin de definir, describir e interpretar las relaciones entre variables
categricas a travs de un grfico geomtrico.
38
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
39
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
40
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
A su vez, cada eje, en cada una de sus direcciones identifica una caracterstica
no presente en las observaciones originales, marcando en estos mapas un alto
grado de similitud hacia esa caracterstica nueva o en su defecto, su opuesto,
la disimilitud.
41
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
42
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
1 2 .. b Total fila
1 n11 n12 .. n1b n1.
filas 2 n21 n22 .. n2b n2.
: : : : :
a na1 na2 .. nab na.
Total columna n.1 n.2 .. n.b n
P = ( pij ) = pij / p
43
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
La ltima columna de la tabla anterior contiene la suma de las filas pi. = bj =1 pij
. Este vector columna se representa por r y se pueden obtener como
c ' 1 = : : .. : :
pa1 p a 2 .. p ab pa.
p.1 p.2 .. p.b 1
44
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
1
n ni 2 nib 1 b nij ni.
ri' j = i1 ... = = =1
ni. ni. ni. : j =1 ni. ni. .
1
Por definicin,
45
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
n1 j
n. j
n2 j
a nij n. j
= n = n = 1 , y ahora
j' c j = (1 1 ... 1) n. j
: i =1 . j .j
naj
n. j
p.1 0 ... 0
0 p ... 0
Dc = diag(c) = .2
: : ... :
0 0 ... p.b
El vector r que qued definido como un vector columna de las suma de filas
de P, r = Pj = (p1., p2., . . . , pa.) = (n1 /n, n2./n, . . . , na./n), se puede expresar
como la media ponderada de los columnas-perfil.
b
r = p. j c j ; o lo que es lo mismo
j =1
46
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
Del mismo modo ocurre para c que es el vector fila de las sumas de columnas
a
de P, mediante la expresin c' = pi.r' .
i =1
b a
Se sabe que para cualquier fila o columna, p. j = pi. = 1 , y de ah, j'r = c' j = 1
j =1 i=
47
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
PRUEBA DE INDEPENDENCIA
Como se sabe los datos en una tabla de contingencia pueden ser usados para
verificar la asociacin de dos variables categricas. Supngase dos variables
categricas, x y y, y de acuerdo con lo visto en la seccin anterior, la
suposicin de independencia se puede expresar en trminos de probabilidad
mediante
a b ( pij pi. p. j ) 2
= n
2
,
i =1 j =1 pi. p. j
48
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
2
nn
nij i. . j
a b n
2 = .
i =1 j =1 ni. n. j
n
a b
2 = npi. (ri c )' Dc1 (r i c ) , o 2 = np. j (c j r )' D r 1 (c j r ).
i =1 j =1
49
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
50
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
Se escala P-rc para obtener Z = D r1/2 (P rc')D c1/2 , cuyos elementos de Z son
pij pi. p. j
zij = . Se factoriza a Z mediante svd, Z = UV ' , donde U y V son
pi. p. j
autovectores ortonormales y es una matriz diagonal con i , i=1,,k, donde k
es el min[(a-1)(b-1)] y se corresponden con los valores singulares de Z. Las
columnas axk de U y las columnas bxk de V son auitovectores normalizados
de ZZ y de ah que i2 , i=1,,k, sean los autovalores de ZZ. Note que
51
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
Las filas de P-rc estn representadas por la combinacin lineal de las filas de
B, las cuales son las columnas de B=(b1,b2,,bk). Los coeficientes
(coordenadas) para la i-sima fila de P-rc estn en la i-sima fila de A y de
la misma manera, las coordenadas para las columnas de P-rc estn dadas por
las columnas de AB, puesto que AB provee los coeficientes para
A=(a1,a2,.,ak).
Para encontrar las coordenadas para las desviaciones de las filas ri-cy las
desviaciones en las columnas cj-r, se expresa en forma matricial y en funcin
de P-rc de la siguiente manera
De este modo, las coordenadas para las filas en R-jc con respecto a los ejes
b1,b2,,bk, estn dados por las columnas de X = D r1 A , por otro lado, las
coordenadas para las columnas de C-rjn con respecto a los ejes a1,a2,,ak,
estn dados por Y = D c1 B .
52
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
De all, se tendra que para graficar las coordenadas para las desviaciones de
perfil-filas R-jc=ri-c, i=1,2,,a, en dos dimensiones, para dos columnas de
X, sera
x11 x12
x x22
X = 21
: :
xa1 xa 2
Del mismo modo par Y. Las coordenadas para las columnas de las
desviaciones del perfil-columnas Crj= cj-r, j=1,2,,b, en dos dimensiones
sera
y11 y12
y y 22
Y = 21 .
: :
yb1 yb 2
De este modo la media ponderada (ponderada por pi) de las distancias chi-
cudrado (ri c )D c1 (ri c ) entre las filas-perfil ri y y sus media c es llamada
inercia total y puede ser expresado por
2 a
2 b
= pi. (ri c ) D c1 (r i c ) , o = p. j (c j r )' D r 1 (c j r ) .
'
n i =1 n j =1
53
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
2 k
Pero como pi. = p. j = 1, entonces, = i2 y de ah la contribucin de
i j n i =1
cada una de las primeras dos dimensiones del grfico al total de inercia es
12 22 12 + 22
k
y k
. La combinada de las dos dimensiones sera k
.
2
i 2
i 2
i
1=1 1=1 1=1
54
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
EJEMPLOS
AC Y GRFICA CON DOS VARIABLES
Cantidad de fallas de los aros
de pistn en la tres patas
Pata del compresor
Compresor A B C Total fila
1 17 17 12 46
2 11 9 13 33
3 11 8 19 38
4 14 7 28 49
Total col. 53 41 72 166
Matriz de correspondencia
Pata del compresor
Compresor A B C Total fila
1 0,102 0,102 0,072 0,277
2 0,066 0,054 0,078 0,199
3 0,066 0,048 0,114 0,229
4 0,084 0,042 0,169 0,295
Total col. 0,319 0,247 0,434 1
columna-perfil
fila-perfil 0,3208 0,4146 0,1667
0,3696 0,3696 0,2609 1 0,2075 0,2195 0,1806
0,3333 0,2727 0,3939 1 0,2075 0,1951 0,2639
0,2895 0,2105 0,5000 1 0,2642 0,1707 0,3889
0,2857 0,1429 0,5714 1 1 1 1
55
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
R=inv(Dr)*P C=P*inv(Dc )
0,3697 0,3697 0,2610 0,3210 0,4146 0,1666
0,3330 0,2724 0,3935 0,2077 0,2195 0,1804
0,2894 0,2104 0,4998 0,2077 0,1951 0,2637
0,2859 0,1429 0,5718 0,2644 0,1707 0,3887
Prueba de independencia
inv(Dr)*(P-r*c')
0,050 0,123 -0,173 inv(Dc)*(P-r*c')'
0,014 0,026 -0,040 0,044 0,009 -0,021 -0,031
-0,030 -0,036 0,066 0,138 0,021 -0,034 -0,124
-0,034 -0,104 0,138 -0,110 -0,018 0,035 0,094
inv(Dr)*(P-r*c')*inv(Dc)*(P-r*c')'
0,038 0,006 -0,011 -0,033
0,009 0,001 -0,003 -0,007
-0,014 -0,002 0,004 0,012
-0,031 -0,005 0,009 0,027
CHI-CUADRADO= n*tr([inv(Dr)*(P-r*c')*inv(Dc)*(P-r*c')']
CHI-Cuad. 11,724
De acuerdo a tabla el valor-p sera 0.085, que acepta la hiptesis nula, la cual
hay evidencia de la prdida de independencia entre ambas variables y por
supuesto, se puede establecer alguna asociacin.
56
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
-3
x 10
2
1.5
0.5
-0.5
-1
-1.5
-2
-0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04
57
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
Lista de 12 observaciones y
sus categorias en cuatro variables
Estado Color
Obs. Gnero Edad civil pelo
1 M joven soltero castao
2 M adulto soltero rojizo
3 F mayor casado claro
4 M adulto soltero negro
5 F mayor casado negro
6 F mayor soltero castao
7 M joven casado rojizo
8 M adulto casado claro
9 M mayor soltero castao
10 F joven casado negro
11 F adulto soltero castao
12 M joven casado claro
58
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
G'
Obs. 1 2 3 4 5 6 7 8 9 10 11 12
1 1 0 1 0 0 1 1 1 0 0 1
Gnero
0 0 1 0 1 1 0 0 0 1 1 0
1 0 0 0 0 0 1 0 0 1 0 1
Edad 0 0 1 0 1 1 0 0 1 0 0 0
0 1 0 1 0 0 0 1 0 0 1 0
Edo. 1 1 0 1 0 1 0 0 1 1 0 0
civil 0 0 1 0 1 0 1 1 0 0 1 1
0 0 1 0 0 0 0 1 0 0 1 1
Color 1 0 0 0 0 1 0 0 1 1 0 0
pelo 0 0 0 1 1 0 0 0 0 0 0 0
0 1 0 0 0 0 1 0 0 0 0 0
J 3 1 4 0 0 2 2 1 2 0 1
Edad
M 1 3 0 4 0 2 2 1 2 1 0
A 3 1 0 0 4 2 2 2 0 1 1
Edo. S 4 2 2 2 2 6 0 0 4 1 1
civil C 3 3 2 2 2 0 6 4 0 1 1
Cl 2 2 1 1 2 0 4 4 0 0 0
Color Cst 2 2 2 2 0 4 0 0 4 0 0
pelo N 1 1 0 1 1 1 1 0 0 2 0
R 2 0 1 0 1 1 1 0 0 0 2
59
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple
Dimension 7
0.5
Dimension 7
1
1 0
0 2
2 3
3 4 2
2 4 -0.5 1
-0.5 1
-1
-1
1
1
-1.5 -1.5 1
1
-2 -2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -3 -2 -1 0 1 2 3
Dimension 6 Dimension 5
0.5 1
Dimension 7
Dimension 5
1 1
0 1 2
2 0 2
3 1
2 4
3
-0.5 1 2
-1 2
-1 Lev. cat. var. 1
1 Lev. cat. var. 2
-2
-1.5 1 Lev. cat. var. 3
Lev. cat. var. 4
-2 4
-3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
Dimension 4 Dimension 4
1 0.5 3
Dimension 6
0 1
2
2 0 2
1 2
-0.5 Lev. cat. var. 1
-0.5 1
Lev. cat. var. 2
-1 Lev. cat. var. 3
-1
1 Lev. cat. var. 4 Lev. cat. var. 1
1
-1.5 Lev. cat. var. 2
-1.5 Lev. cat. var. 3
2 2
Lev. cat. var. 4
-2 -2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -4 -3 -2 -1 0 1 2
Dimension 4 Dimension 3
60