Está en la página 1de 23

Anlisis Multivariante Parte 3.

Reduccin de datos Gerardo Colmenares


Y sus Aplicaciones Anlisis de correspondencia mltiple

ANLISIS DE CORRESPONDENCIA

Esta tcnica estadstica es de gran utilidad puesto que la interpretacin del


resultado puede hacerse de manera sencilla a travs de grficas. Con este
procedimiento se puede evidenciar de manera ms perceptible el grado de
relacin entre las categoras de cada variable; de ah el nombre de mapas
perceptuales. Cuando el grado de asociacin es alto, stas aparecern en el
diagrama relativamente juntas (Salvador, 2001).

Surge con el fin de definir, describir e interpretar las relaciones entre variables
categricas a travs de un grfico geomtrico.

Un medio descriptivo numrico prximo a estos mapas de percepcin, son las


tablas de contingencia o tambin conocidas tablas cruzadas o matriz de
tabulacin. Por tanto el Anlisis de Correspondencia (AC) es una tcnica
grfica que representa informacin contenida en una tabla de contingencia de
dos vas la cual representa la totalizacin (frecuencia) de las observaciones de
una muestra dada, para una tabla cruzada de dos variables categricas. Con el
AC se construye una grfica (mapa perceptual) que seala la interaccin de
dos variables categricas a travs de la relacin de las filas y de las columnas
entre s. Mide el grado de asociacin presente entre un conjunto de variables;
es decir, construye un diagrama cartesiano o mapa perceptual basado en la
relacin de dependencia e independencia de los atributos o categoras de las
variables. Algunas referencias indispensables en este tema son Greenacre
(1984), Jobson (1992, Seccin 9.4), Khattree y Naik (1999, Cpitulo 7),
Gower y Hand (1996, Cpitulos 4 y 9) y Benzecri (1992). Adicionalmente, se
puede relacionar con una tcnica ms de reduccin de variables al
transformarlas a un conjunto de variables observables. (Daz, 2002)

Las variables originales deben conformarse de atributos o categoras. Es decir


deben ser cualitativas.

En las tablas de contingencia cada variable con sus correspondientes atributos

38
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

es contabilizada contra las otras variables, representando, la frecuencia de


asociacin de las categoras. La finalidad es poner de manifiesto grficamente
las relaciones de dependencia existentes entre las diversas modalidades de dos
o ms variables categricas, es decir cualitativas, a partir de la informacin
proporcionada por sus estas tablas de frecuencias cruzadas o tablas de
contingencia.

Las variables categricas muestran en un mapa su recomposicin mediante la


asociacin de categoras o atributos para conformacin de conglomerados a
travs de la varianza. Esos conglomerados estn conformados por categoras
de las variables originales y tendran una varianza mnima internamente y
mxima entre ellos.

En el anlisis de correspondencia, el mapa perceptual muestra un punto por


cada fila y un punto para cada columna de la tabla de contingencia. Estos
puntos son, en efecto, las proyecciones de las filas y columnas de la tabla de
contingencia en un espacio euclidiano de dos dimensiones. El objetivo es
preservar tanto como sea posible la relacin de las filas (o columnas) a la otra
en un espacio de dos dimensiones. Si dos puntos-fila estn muy juntos, los
perfiles de las dos filas (a travs de las columnas) son similares.

Asimismo, dos puntos-columna que estn muy juntos representan columnas


con perfiles similares a travs de las filas. Si un punto de fila est cerca de un
punto de la columna, esta combinacin de categoras de las dos variables es
ms frecuente de lo que ocurrira, por casualidad, si las dos variables son
independientes. Otro resultado de un anlisis de correspondencia es la inercia,
o la cantidad de informacin en cada una de las dos dimensiones en la trama.
El mapa perceptual muestra, en fin, los puntos (categoras de las variables
observadas) que indican la relacin o correspondencia que pudiera existir
entre las variables de estudio. Las relaciones se pueden observar cuando se
forman algunos conglomerados (concentracin de puntos) que describen
cierto comportamiento particular (patrn).

39
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

Cuando en el grfico los puntos (variables observadas) se encuentran en el


centro del eje, indica que existe colinealidad entre las variables; es decir,
existen variables que estn fuertemente interrelacionadas, y, por tanto, resulta
difcil medir sus efectos individuales sobre la variable respuesta (variable de
inters). Las variables redundantes pueden ser identificadas a travs de la
matriz de correlacin y de este modo, se podra mitigar este fenmeno,
siempre y cuando las variables sean cuantitativas.

Para probar la importancia de la asociacin de las dos variables categricas en


una tabla de contingencia, podramos usar una prueba de chi-cuadrado o un
modelo log-lineal, los cuales representan una aproximacin asinttica. Si una
tabla de contingencia tiene algunas celdas frecuencias con valores pequeos o
nulos, la aproximacin chi-cuadrado no es muy satisfactoria. En este caso,
algunas categoras se pueden combinar para aumentar las frecuencias de las
celdas y as, disminuir el nmero de categoras originales. Es importante
destacar lo til de identificar categoras que sean similares; esto permitira
combinarlas y de all, crear una variable observable que explique mejor los
resultados.

Seguidamente se muestran dos mapas perceptuales en los que se representan


mediante crculos las nuevas variables despus de reagruparse las categoras.

40
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

En estos grficos, usando MINITAB, se observa cada categora identificada


por un nmero que al mostrar su grado asociacin o similitud, estructura estos
cluster que conforman la variable respuesta.

A su vez, cada eje, en cada una de sus direcciones identifica una caracterstica
no presente en las observaciones originales, marcando en estos mapas un alto
grado de similitud hacia esa caracterstica nueva o en su defecto, su opuesto,
la disimilitud.

Puede revisarse Hair et al., en el captulo diez.


De acuerdo a los grficos aportados por los mapas perceptuales, se asocia a
cada modalidad un punto en el espacio P, de forma que:

a) Cuanto ms alejado del origen de coordenadas est el punto asociado a una


modalidad de una variable, ms diferente es su perfil condicional del perfil
marginal correspondiente a las otras variables.
b) Los puntos correspondientes a dos modalidades diferentes de una misma
variable estarn ms cercanos cuanto ms se parezcan sus perfiles
condicionales.
c) Dichos puntos tendern a estar ms cerca de aquellas modalidades con las
que tienen una mayor afinidad; es decir, aqullas en los que las frecuencias
observadas de la celda correspondiente tiende a ser mayor que la esperada
bajo la hiptesis de independencia de las variables correspondientes.

41
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

42
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

PERFILES DE FILAS Y COLUMNAS


Una tabla de contingencia con a filas y b columnas se muestra en la tabla ms
abajo. El entradas nij son los totales o frecuencias para cada combinacin de
fila y columna (cada celda). Los totales marginales se muestran usando la
notacin familiar de puntos: ni . = bj =1 nij y n. j = aj=1 nij , indican la suma de
todas las columnas y de todas las filas respectivamente. La frecuencia total
general se denota por n en lugar de n.. por simplicidad: n = i , j nij .

Las frecuencias nij en una tabla de contingencia se puede convertir a las


frecuencias relativas pij al dividir entre n; esto es, pij = nij/n. La matriz de
frecuencias relativas se llama matriz de correspondencia y se denota por P:
Tabla de contingencia con a filas y b columnas
columnas

1 2 .. b Total fila
1 n11 n12 .. n1b n1.
filas 2 n21 n22 .. n2b n2.
: : : : :
a na1 na2 .. nab na.
Total columna n.1 n.2 .. n.b n

Matriz de correspondencias de frecuencias relativas P


columnas
Total
1 2 .. b
fila
1 p11 p12 .. p1b p1.
2 p21 p22 .. p2b p2.
filas : : : : :
a pa1 pa2 .. pab pa.
Total
p.1 p.2 .. p.b p
columna

P = ( pij ) = pij / p

43
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

La ltima columna de la tabla anterior contiene la suma de las filas pi. = bj =1 pij
. Este vector columna se representa por r y se pueden obtener como

r = Pj = (p1., p2., . . . , pa.) = (n1 /n, n2./n, . . . , na./n)

donde j es un vector ax1 de 1(s). De manera similar la ltima fila de la tabla


anterior contiene la suma de las columnas p. j = ia=1 pij . Este vector columna se
representa por c y se pueden obtener como

c = jP = (p.1, p.2, . . . , p.b) = (n.1/n, n.2/n, . . . , n.b/n)

Los elementos de los vectores r y c tambin se le conocen como filas y


columnas masas. La matriz de correspondencia y los totales marginales
pueden ser expresados de acuerdo a una matriz ampliada

p11 p12 .. p1b p1.


p p22 .. p 2b p 2.
P r
21

c ' 1 = : : .. : :

pa1 p a 2 .. p ab pa.
p.1 p.2 .. p.b 1

La definicin de los perfiles de cada fila y columna de P es como sigue. La i-


sima fila-perfil ri, i=1,2,,a, se define dividiendo la i-sima fila de
cualquiera de las tablas anteriores entre su total marginal:

p pi 2 pib ni1 ni 2 nib


ri' = i1 , , ..., = , , ..., .
pi . pi . pi. ni. ni. ni.

Los elementos de cada ri son frecuencias relativas y de ah que su suma sea 1.

44
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

1

n ni 2 nib 1 b nij ni.
ri' j = i1 ... = = =1
ni. ni. ni. : j =1 ni. ni. .

1
Por definicin,

p1. 0 ... 0 1 / p1. 0 ... 0


0 p2. ... 0 0 1 / p 2. ... 0
Dr = diag(r) = y, Dr-1 = .
: : ... : : : ... :

0 0 ... pa. 0 0 ... 1 / pa.

La matriz R de filas-perfil puede ser expresada como

p11 p12 p1b


...
r1' p1. p1. p1.
' p21 p 22 p2b

r
R = Dr-1.P = 2 = p2. p 2.
...
p12.
:
' : : ... :
ra pa1 pa 2 pab
...
pa. pa. pa. .

De manera similar sucede para la columna-perfil, cj, j=1,2,b, se define


dividiendo la j-sima columna entre su total marginal. Esto es
' '
p1 j p2 j paj n1 j n2 j naj
c j= ... = ... .
p p. j p. j n. j n. j n. j
.j

Los elementos en cada cj son frecuencias relativas y su suma es 1.

45
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

n1 j


n. j

n2 j

a nij n. j
= n = n = 1 , y ahora
j' c j = (1 1 ... 1) n. j
: i =1 . j .j

naj

n. j

p.1 0 ... 0
0 p ... 0
Dc = diag(c) = .2
: : ... :

0 0 ... p.b

Y usando la matriz de columnas-perfil C, se tiene

p11 p12 p1b


...
p.1 p.2 p.b
p 21 p 22 p2b
...
C = PD c1 = (c1 c2 ... c b ) = p.1 p.2 p.b .

: : ... :
pa1 pa 2 pab
...
p.1 p.1 p.b

El vector r que qued definido como un vector columna de las suma de filas
de P, r = Pj = (p1., p2., . . . , pa.) = (n1 /n, n2./n, . . . , na./n), se puede expresar
como la media ponderada de los columnas-perfil.

b
r = p. j c j ; o lo que es lo mismo
j =1

( p1. p 2. ... p a. )' = p.1c 1 + p.2c 2 + ... + p.b c b ,

46
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

al sustituir a ci por sus respectivos vectores y realizar las operaciones


correspondientes, quedara

p1. = p11 + p12 + ... + p1b


p 2. = p 21 + p 22 + ... + p 2b
, que es el vector de las sumas de filas, r.
...................................
p a. = p a1 + pa 2 + ... + p ab

Del mismo modo ocurre para c que es el vector fila de las sumas de columnas
a
de P, mediante la expresin c' = pi.r' .
i =1
b a
Se sabe que para cualquier fila o columna, p. j = pi. = 1 , y de ah, j'r = c' j = 1
j =1 i=

, donde la suma de una fila-perfil en r con j de ax1 de P, es igual a una b


columna-perfil en c con j de bx1 de P y es igual 1.

47
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

PRUEBA DE INDEPENDENCIA

Como se sabe los datos en una tabla de contingencia pueden ser usados para
verificar la asociacin de dos variables categricas. Supngase dos variables
categricas, x y y, y de acuerdo con lo visto en la seccin anterior, la
suposicin de independencia se puede expresar en trminos de probabilidad
mediante

P(xiyj) = P(xi)P(yj), i=1,2,...,a y j=1,2,,b,

Donde xi y yj se corresponden a la i-sima fila y j-sima columna de la matriz


de correspondencia, se puede estimar

pij = pi.p.j con i=1,2,...,a y j=1,2,,b.

La chi-cuadrado para probar la hiptesis nula que indica independencia de x y


y, al comparar pij con pi. y p.j, est dada por

a b ( pij pi. p. j ) 2
= n
2
,
i =1 j =1 pi. p. j

La cual es aproximadamente asintticamente distribuida como una variable


aleatoria chi-cuadrado con (a-1)(b-1) grados de libertad.

En funcin de la cantidad de observaciones en la tabla de contingencia, en


lugar de las frecuencias relativa pij, se puede re-escribir con el total n, el total
en cada celda nij y en cada columna ni. y fila n.j,

48
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

2
nn
nij i. . j
a b n
2 = .
i =1 j =1 ni. n. j
n

La expresin anterior tambin se puede re-escribir en funcin vectorial, tal


como se ha visto hasta este momento. En funcin de r, ri, Dc, Dr, cj y c.
Cualquiera de las dos expresiones siguientes son aplicables: mediante la
comparacin de los vectores ri a c para cada i, y mediante los vectores cj a r
para cada j. Cualquiera de estas comparaciones es equivalente a probar la
independencia comparando pij a pi.p.j, para todo i, j.

a b
2 = npi. (ri c )' Dc1 (r i c ) , o 2 = np. j (c j r )' D r 1 (c j r ).
i =1 j =1

En conclusin, es equivalente la prueba de independencia mediante la chi-


cuadrado si se aplica cualquiera de los siguientes tres procedimientos.

a) pij=pi.p.j para todo i, j, (P=rc).


b) Todas las filas ri de R son iguales (tambin iguales a su media
ponderada, c).
c) Todas las columnas cj de C son iguales (tambin iguales a su media
ponderada, r).
De este modo, si x y y fueran independientes, se esperara que las filas de la
tabla de contingencia tendran perfil similar o de manera equivalente, las
columnas tendran perfil similar.

En forma vectorial, la chi-cuadrado se puede exptresar de la siguiente manera

2 = n tr[ D r1 (P rc')D c1 (P rc')' ] ,

49
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

donde tr es la traza de la matriz resultante de la expresin o lo que es lo


mismo, la suma de la diagonal de esa matriz y n es la suma total de las
frecuencias de la tabla de contingencia.
k
La expresin anterior es equivalente a escribir n = i2 , que son los k
i =1

autovalores diferentes de cero de [ D r1 D c1


(P rc') (P rc')' y k es el rango de
[ D r1 (P rc')D c1 (P rc')' . Hay que recordar que este rango k est asociado al
min[(a-1),(b-1)].

50
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

COORDENADAS PARA GRAFICAR LOS PERFILES DE FILAS Y


COLUMNAS

En este punto se consideran los aspectos fundamentales para establecer, en


general, las coordenadas para un anlisis de correspondencia, sea de dos o ms
variables.

La mtrica para los puntos de filas y columnas es la misma y los dos


conjuntos de puntos pueden ser superpuestos en el mismo grfico.

Para obtener estas coordenadas se factoriza la matriz mediante una


descomposicin espectral. En anlisis de correspondencia la matriz P-rc no
es simtrica y de ah el uso de valor de descomposicin singular (svd) para
obtener las coordenadas.

Se escala P-rc para obtener Z = D r1/2 (P rc')D c1/2 , cuyos elementos de Z son
pij pi. p. j
zij = . Se factoriza a Z mediante svd, Z = UV ' , donde U y V son
pi. p. j
autovectores ortonormales y es una matriz diagonal con i , i=1,,k, donde k
es el min[(a-1)(b-1)] y se corresponden con los valores singulares de Z. Las
columnas axk de U y las columnas bxk de V son auitovectores normalizados
de ZZ y de ah que i2 , i=1,,k, sean los autovalores de ZZ. Note que

ZZ = D r1/2 (P rc')D c1/2 D c1/2 (P rc')' D r1/2


= D r1/2 (P rc')D c1 (P rc')' D r1/2
= D r1/2 D r1/2 (P rc')D c1 (P rc')' == D r1 (P rc')D c1 (P rc')' ,

que es la expresin ya conocida para determinar los k autovalores.

Para la descomposicin de P-rc, se puede igualando

51
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

Z = D r1/2 (P rc')D c1/2 con Z = UV ' .


D r1/2 (P rc')D c1/2 = UV
(P rc') = D1/2 1/2
r UV ' D c = AB ' ,
k
A B ' = j a j b j
j =1

r U y B = D c V , ai y bi son las columnas de A y B, y = i ,


Luego A = D1/2 1/2

i=1,,k. Adems, UU=I y VV=I, luego por la expresin anterior, A y B


estn escaladas y A' D r1 A y BD c1 B son iguales a I.

Las filas de P-rc estn representadas por la combinacin lineal de las filas de
B, las cuales son las columnas de B=(b1,b2,,bk). Los coeficientes
(coordenadas) para la i-sima fila de P-rc estn en la i-sima fila de A y de
la misma manera, las coordenadas para las columnas de P-rc estn dadas por
las columnas de AB, puesto que AB provee los coeficientes para
A=(a1,a2,.,ak).

Para encontrar las coordenadas para las desviaciones de las filas ri-cy las
desviaciones en las columnas cj-r, se expresa en forma matricial y en funcin
de P-rc de la siguiente manera

R jc' = Dr1 (P rc') y


C rj' = D c1 (P rc')

De este modo, las coordenadas para las filas en R-jc con respecto a los ejes
b1,b2,,bk, estn dados por las columnas de X = D r1 A , por otro lado, las
coordenadas para las columnas de C-rjn con respecto a los ejes a1,a2,,ak,
estn dados por Y = D c1 B .

52
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

De all, se tendra que para graficar las coordenadas para las desviaciones de
perfil-filas R-jc=ri-c, i=1,2,,a, en dos dimensiones, para dos columnas de
X, sera

x11 x12

x x22
X = 21
: :

xa1 xa 2

Del mismo modo par Y. Las coordenadas para las columnas de las
desviaciones del perfil-columnas Crj= cj-r, j=1,2,,b, en dos dimensiones
sera

y11 y12

y y 22
Y = 21 .
: :

yb1 yb 2

Teniendo en cuenta que cada punto tiene un peso o ponderacin iguala su


masa (los elementos de los vectores r y c se le conocen como filas y columnas
masas), la inercia sera un estadstico adecuado para medir la dispersin de la
nube de puntos. Esta dispersin es el promedio de las distancias de los puntos
a su centro de gravedad. Mayores detalles s e pueden consultar en
escalamiento multidimensional.

De este modo la media ponderada (ponderada por pi) de las distancias chi-
cudrado (ri c )D c1 (ri c ) entre las filas-perfil ri y y sus media c es llamada
inercia total y puede ser expresado por

2 a
2 b
= pi. (ri c ) D c1 (r i c ) , o = p. j (c j r )' D r 1 (c j r ) .
'

n i =1 n j =1

53
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

2 k
Pero como pi. = p. j = 1, entonces, = i2 y de ah la contribucin de
i j n i =1

cada una de las primeras dos dimensiones del grfico al total de inercia es
12 22 12 + 22
k
y k
. La combinada de las dos dimensiones sera k
.
2
i 2
i 2
i
1=1 1=1 1=1

Hay un procedimiento en MATLAB que puede producir este conjunto de


estadsticos y valores de pruebas, conjuntamente con las grficas que ayuden a
formular reducciones de de categoras con las combinacin de dos o ms de
ellas, en variables latentes que a juicio particular dara origen a nuevas
variables. Del mismo modo, SPSS, SAS, Minitab y otros, ofrecen esta
herramienta multivariante de reduccin de variables para hacer un anlisis,
ms descriptivo, y especialmente grfico, de los valores observados.

54
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

EJEMPLOS
AC Y GRFICA CON DOS VARIABLES
Cantidad de fallas de los aros
de pistn en la tres patas
Pata del compresor
Compresor A B C Total fila
1 17 17 12 46
2 11 9 13 33
3 11 8 19 38
4 14 7 28 49
Total col. 53 41 72 166

Matriz de correspondencia
Pata del compresor
Compresor A B C Total fila
1 0,102 0,102 0,072 0,277
2 0,066 0,054 0,078 0,199
3 0,066 0,048 0,114 0,229
4 0,084 0,042 0,169 0,295
Total col. 0,319 0,247 0,434 1

columna-perfil
fila-perfil 0,3208 0,4146 0,1667
0,3696 0,3696 0,2609 1 0,2075 0,2195 0,1806
0,3333 0,2727 0,3939 1 0,2075 0,1951 0,2639
0,2895 0,2105 0,5000 1 0,2642 0,1707 0,3889
0,2857 0,1429 0,5714 1 1 1 1

55
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

R=inv(Dr)*P C=P*inv(Dc )
0,3697 0,3697 0,2610 0,3210 0,4146 0,1666
0,3330 0,2724 0,3935 0,2077 0,2195 0,1804
0,2894 0,2104 0,4998 0,2077 0,1951 0,2637
0,2859 0,1429 0,5718 0,2644 0,1707 0,3887

Prueba de independencia

inv(Dr)*(P-r*c')
0,050 0,123 -0,173 inv(Dc)*(P-r*c')'
0,014 0,026 -0,040 0,044 0,009 -0,021 -0,031
-0,030 -0,036 0,066 0,138 0,021 -0,034 -0,124
-0,034 -0,104 0,138 -0,110 -0,018 0,035 0,094

inv(Dr)*(P-r*c')*inv(Dc)*(P-r*c')'
0,038 0,006 -0,011 -0,033
0,009 0,001 -0,003 -0,007
-0,014 -0,002 0,004 0,012
-0,031 -0,005 0,009 0,027

Como la traza es la suma de la diagonal y ella resulta en 0.071, la 2 con (a-


1)*(b-1) grados de libertad, donde a=4 y b=3, resulta en 6 g.d.l.

CHI-CUADRADO= n*tr([inv(Dr)*(P-r*c')*inv(Dc)*(P-r*c')']
CHI-Cuad. 11,724

De acuerdo a tabla el valor-p sera 0.085, que acepta la hiptesis nula, la cual
hay evidencia de la prdida de independencia entre ambas variables y por
supuesto, se puede establecer alguna asociacin.

56
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

Mtrica para las coordenadas

-3
x 10
2

1.5

0.5

-0.5

-1

-1.5

-2
-0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04

57
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

ACM Y GRFICA CON MLTIPLES VARIABLES

Lista de 12 observaciones y
sus categorias en cuatro variables
Estado Color
Obs. Gnero Edad civil pelo
1 M joven soltero castao
2 M adulto soltero rojizo
3 F mayor casado claro
4 M adulto soltero negro
5 F mayor casado negro
6 F mayor soltero castao
7 M joven casado rojizo
8 M adulto casado claro
9 M mayor soltero castao
10 F joven casado negro
11 F adulto soltero castao
12 M joven casado claro

Obs. Gnero Edad Edo. civil Color pelo


1 1 0 1 0 0 1 0 0 1 0 0
2 1 0 0 0 1 1 0 0 0 0 1
3 0 1 0 1 0 0 1 1 0 0 0
4 1 0 0 0 1 1 0 0 0 1 0
5 0 1 0 1 0 0 1 0 0 1 0
6 0 1 0 1 0 1 0 0 1 0 0
7 1 0 1 0 0 0 1 0 0 0 1
8 1 0 0 0 1 0 1 1 0 0 0
9 1 0 0 1 0 1 0 0 1 0 0
10 0 1 1 0 0 1 0 0 1 0 0
11 0 1 0 0 1 0 1 1 0 0 0
12 1 0 1 0 0 0 1 1 0 0 0

58
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

G'

Obs. 1 2 3 4 5 6 7 8 9 10 11 12
1 1 0 1 0 0 1 1 1 0 0 1
Gnero
0 0 1 0 1 1 0 0 0 1 1 0
1 0 0 0 0 0 1 0 0 1 0 1
Edad 0 0 1 0 1 1 0 0 1 0 0 0
0 1 0 1 0 0 0 1 0 0 1 0
Edo. 1 1 0 1 0 1 0 0 1 1 0 0
civil 0 0 1 0 1 0 1 1 0 0 1 1
0 0 1 0 0 0 0 1 0 0 1 1
Color 1 0 0 0 0 1 0 0 1 1 0 0
pelo 0 0 0 1 1 0 0 0 0 0 0 0
0 1 0 0 0 0 1 0 0 0 0 0

MATRIZ DE BURT (G'G)


M 7 0 3 1 3 4 3 2 2 1 2
Gnero
F 0 5 1 3 1 2 3 2 2 1 0

J 3 1 4 0 0 2 2 1 2 0 1
Edad
M 1 3 0 4 0 2 2 1 2 1 0
A 3 1 0 0 4 2 2 2 0 1 1
Edo. S 4 2 2 2 2 6 0 0 4 1 1
civil C 3 3 2 2 2 0 6 4 0 1 1
Cl 2 2 1 1 2 0 4 4 0 0 0
Color Cst 2 2 2 2 0 4 0 0 4 0 0
pelo N 1 1 0 1 1 1 1 0 0 2 0
R 2 0 1 0 1 1 1 0 0 0 2

Mtrica para las coordenadas


De acuerdo a la tabla de BURT anterior y haber usado la funcin de
MATLAB analcorr2.m, se observaron, entre otros estos mapas que se logran
percibir algunas combinaciones. Ms detalle se puede observar en la segunda

59
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

prctica. Sin embargo, el juicio sobre cules combinaciones sean apropiadas


depende de aspectos: un buen valosr re la chi-cuadrado que as lo justifique y
el criterio que se siga para realizar las asociaciones.

Plot of variable levels of the performed Multiple Correspondence Analysis


from the Burt matrix.
Plot of variable levels of the performed Multiple Correspondence Analysis 2
from the Burt matrix. Lev. cat. var. 1 2
2
2 Lev. cat. var. 2
Lev. cat. var. 1 1.5
Lev. cat. var. 3
1.5 Lev. cat. var. 2 2
Lev. cat. var. 4
Lev. cat. var. 3 2 1 3
1 Lev. cat. var. 4
3
0.5

Dimension 7
0.5
Dimension 7

1
1 0
0 2
2 3
3 4 2
2 4 -0.5 1
-0.5 1

-1
-1
1
1
-1.5 -1.5 1
1

-2 -2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -3 -2 -1 0 1 2 3
Dimension 6 Dimension 5

Plot of variable levels of the performed Multiple Correspondence Analysis


from the Burt matrix. Plot of variable levels of the performed Multiple Correspondence Analysis
2 from the Burt matrix.
2
3
Lev. cat. var. 1
1.5 3
Lev. cat. var. 2
2 Lev. cat. var. 3
2
1 3 Lev. cat. var. 4
1

0.5 1
Dimension 7

Dimension 5

1 1
0 1 2
2 0 2
3 1
2 4
3
-0.5 1 2
-1 2
-1 Lev. cat. var. 1
1 Lev. cat. var. 2
-2
-1.5 1 Lev. cat. var. 3
Lev. cat. var. 4
-2 4
-3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
Dimension 4 Dimension 4

Plot of variable levels of the performed Multiple Correspondence Analysis


from the Burt matrix.
2 Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
2
2
1.5
2
1.5
1 1
3
1 1
4 3
0.5 3 4
Dimension 6

1 0.5 3
Dimension 6

0 1
2
2 0 2
1 2
-0.5 Lev. cat. var. 1
-0.5 1
Lev. cat. var. 2
-1 Lev. cat. var. 3
-1
1 Lev. cat. var. 4 Lev. cat. var. 1
1
-1.5 Lev. cat. var. 2
-1.5 Lev. cat. var. 3
2 2
Lev. cat. var. 4
-2 -2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -4 -3 -2 -1 0 1 2
Dimension 4 Dimension 3

60

También podría gustarte