Está en la página 1de 23

Anlisis Multivariante Parte 3.

Reduccin de datos Gerardo Colmenares


Y sus Aplicaciones Anlisis de correspondencia mltiple

38

ANLISIS DE CORRESPONDENCIA

Esta tcnica estadstica es de gran utilidad puesto que la interpretacin del
resultado puede hacerse de manera sencilla a travs de grficas. Con este
procedimiento se puede evidenciar de manera ms perceptible el grado de
relacin entre las categoras de cada variable; de ah el nombre de mapas
perceptuales. Cuando el grado de asociacin es alto, stas aparecern en el
diagrama relativamente juntas (Salvador, 2001).

Surge con el fin de definir, describir e interpretar las relaciones entre variables
categricas a travs de un grfico geomtrico.

Un medio descriptivo numrico prximo a estos mapas de percepcin, son las
tablas de contingencia o tambin conocidas tablas cruzadas o matriz de
tabulacin. Por tanto el Anlisis de Correspondencia (AC) es una tcnica
grfica que representa informacin contenida en una tabla de contingencia de
dos vas la cual representa la totalizacin (frecuencia) de las observaciones de
una muestra dada, para una tabla cruzada de dos variables categricas. Con el
AC se construye una grfica (mapa perceptual) que seala la interaccin de
dos variables categricas a travs de la relacin de las filas y de las columnas
entre s. Mide el grado de asociacin presente entre un conjunto de variables;
es decir, construye un diagrama cartesiano o mapa perceptual basado en la
relacin de dependencia e independencia de los atributos o categoras de las
variables. Algunas referencias indispensables en este tema son Greenacre
(1984), Jobson (1992, Seccin 9.4), Khattree y Naik (1999, Cpitulo 7),
Gower y Hand (1996, Cpitulos 4 y 9) y Benzecri (1992). Adicionalmente, se
puede relacionar con una tcnica ms de reduccin de variables al
transformarlas a un conjunto de variables observables. (Daz, 2002)

Las variables originales deben conformarse de atributos o categoras. Es decir
deben ser cualitativas.

En las tablas de contingencia cada variable con sus correspondientes atributos
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

39

es contabilizada contra las otras variables, representando, la frecuencia de
asociacin de las categoras. La finalidad es poner de manifiesto grficamente
las relaciones de dependencia existentes entre las diversas modalidades de dos
o ms variables categricas, es decir cualitativas, a partir de la informacin
proporcionada por sus estas tablas de frecuencias cruzadas o tablas de
contingencia.

Las variables categricas muestran en un mapa su recomposicin mediante la
asociacin de categoras o atributos para conformacin de conglomerados a
travs de la varianza. Esos conglomerados estn conformados por categoras
de las variables originales y tendran una varianza mnima internamente y
mxima entre ellos.

En el anlisis de correspondencia, el mapa perceptual muestra un punto por
cada fila y un punto para cada columna de la tabla de contingencia. Estos
puntos son, en efecto, las proyecciones de las filas y columnas de la tabla de
contingencia en un espacio euclidiano de dos dimensiones. El objetivo es
preservar tanto como sea posible la relacin de las filas (o columnas) a la otra
en un espacio de dos dimensiones. Si dos puntos-fila estn muy juntos, los
perfiles de las dos filas (a travs de las columnas) son similares.

Asimismo, dos puntos-columna que estn muy juntos representan columnas
con perfiles similares a travs de las filas. Si un punto de fila est cerca de un
punto de la columna, esta combinacin de categoras de las dos variables es
ms frecuente de lo que ocurrira, por casualidad, si las dos variables son
independientes. Otro resultado de un anlisis de correspondencia es la inercia,
o la cantidad de informacin en cada una de las dos dimensiones en la trama.
El mapa perceptual muestra, en fin, los puntos (categoras de las variables
observadas) que indican la relacin o correspondencia que pudiera existir
entre las variables de estudio. Las relaciones se pueden observar cuando se
forman algunos conglomerados (concentracin de puntos) que describen
cierto comportamiento particular (patrn).

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

40

Cuando en el grfico los puntos (variables observadas) se encuentran en el
centro del eje, indica que existe colinealidad entre las variables; es decir,
existen variables que estn fuertemente interrelacionadas, y, por tanto, resulta
difcil medir sus efectos individuales sobre la variable respuesta (variable de
inters). Las variables redundantes pueden ser identificadas a travs de la
matriz de correlacin y de este modo, se podra mitigar este fenmeno,
siempre y cuando las variables sean cuantitativas.

Para probar la importancia de la asociacin de las dos variables categricas en
una tabla de contingencia, podramos usar una prueba de chi-cuadrado o un
modelo log-lineal, los cuales representan una aproximacin asinttica. Si una
tabla de contingencia tiene algunas celdas frecuencias con valores pequeos o
nulos, la aproximacin chi-cuadrado no es muy satisfactoria. En este caso,
algunas categoras se pueden combinar para aumentar las frecuencias de las
celdas y as, disminuir el nmero de categoras originales. Es importante
destacar lo til de identificar categoras que sean similares; esto permitira
combinarlas y de all, crear una variable observable que explique mejor los
resultados.

Seguidamente se muestran dos mapas perceptuales en los que se representan
mediante crculos las nuevas variables despus de reagruparse las categoras.












Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

41

En estos grficos, usando MINITAB, se observa cada categora identificada
por un nmero que al mostrar su grado asociacin o similitud, estructura estos
cluster que conforman la variable respuesta.

A su vez, cada eje, en cada una de sus direcciones identifica una caracterstica
no presente en las observaciones originales, marcando en estos mapas un alto
grado de similitud hacia esa caracterstica nueva o en su defecto, su opuesto,
la disimilitud.

Puede revisarse Hair et al., en el captulo diez.
De acuerdo a los grficos aportados por los mapas perceptuales, se asocia a
cada modalidad un punto en el espacio P, de forma que:

a) Cuanto ms alejado del origen de coordenadas est el punto asociado a una
modalidad de una variable, ms diferente es su perfil condicional del perfil
marginal correspondiente a las otras variables.
b) Los puntos correspondientes a dos modalidades diferentes de una misma
variable estarn ms cercanos cuanto ms se parezcan sus perfiles
condicionales.
c) Dichos puntos tendern a estar ms cerca de aquellas modalidades con las
que tienen una mayor afinidad; es decir, aqullas en los que las frecuencias
observadas de la celda correspondiente tiende a ser mayor que la esperada
bajo la hiptesis de independencia de las variables correspondientes.

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

42





















Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

43


PERFILES DE FILAS Y COLUMNAS
Una tabla de contingencia con a filas y b columnas se muestra en la tabla ms
abajo. El entradas n
ij
son los totales o frecuencias para cada combinacin de
fila y columna (cada celda). Los totales marginales se muestran usando la
notacin familiar de puntos:

=
=
b
j
ij i
n n
1
. y

=
=
a
j
ij j
n n
1
.
, indican la suma de
todas las columnas y de todas las filas respectivamente. La frecuencia total
general se denota por n en lugar de n.. por simplicidad:

=
j i
ij
n n
,
.
Las frecuencias n
ij
en una tabla de contingencia se puede convertir a las
frecuencias relativas p
ij
al dividir entre n; esto es, p
ij
= n
ij
/n. La matriz de
frecuencias relativas se llama matriz de correspondencia y se denota por P:
Tabla de contingencia con a filas y b columnas
columnas

1 2 .. b Total fila
1 n
11
n
12
.. n
1b
n
1.

filas 2 n
21
n
22
.. n
2b
n
2.

: : : : :
a n
a1
n
a2
.. n
ab
n
a.

Total columna n
.1
n
.2
.. n
.b
n

Matriz de correspondencias de frecuencias relativas P
columnas
1 2 .. b
Total
fila

filas
1 p
11
p
12
.. p
1b
p
1.

2 p
21
p
22
.. p
2b
p
2.

: : : : :
a p
a1
p
a2
.. p
ab
p
a.


Total
columna
p
.1
p
.2
.. p
.b
p

p p p
ij ij
/ ) ( = = P
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

44

La ltima columna de la tabla anterior contiene la suma de las filas

=
=
b
j
ij i
p p
1
.
. Este vector columna se representa por r y se pueden obtener como

r = Pj = (p
1.
, p
2.,
. . . , p
a.
) = (n
1
/n, n
2.
/n, . . . , n
a.
/n)

donde j es un vector ax1 de 1(s). De manera similar la ltima fila de la tabla
anterior contiene la suma de las columnas

=
=
a
i
ij j
p p
1
.
. Este vector columna se
representa por c y se pueden obtener como

c = jP = (p
.1
, p
.2,
. . . , p
.b
) = (n
.1
/n, n
.2
/n, . . . , n
.b
/n)

Los elementos de los vectores r y c tambin se le conocen como filas y
columnas masas. La matriz de correspondencia y los totales marginales
pueden ser expresados de acuerdo a una matriz ampliada

(
(
(
(
(
(

=
(

1 ..
..
: : .. : :
..
..
'
. 2 . 1 .
. 2 1
. 2 2 22 21
. 1 1 12 11
b
a ab a a
b
b
p p p
p p p p
p p p p
p p p p
1 c
r P


La definicin de los perfiles de cada fila y columna de P es como sigue. La i-
sima fila-perfil r
i

, i=1,2,,a, se define dividiendo la i-sima fila de


cualquiera de las tablas anteriores entre su total marginal:

|
|

\
|
=
|
|

\
|
=
. .
2
.
1
. .
2
.
1 '
..., , , ..., , ,
i
ib
i
i
i
i
i
ib
i
i
i
i
n
n
n
n
n
n
p
p
p
p
p
p
i
r .

Los elementos de cada r
i

son frecuencias relativas y de ah que su suma sea 1.


Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

45

1
1
:
1
1
...
.
.
1
. . .
2
.
1
= = =
|
|
|
|
|

\
|
|
|

\
|
=

=
i
i
b
j
i
ij
i
ib
i
i
i
i
n
n
n
n
n
n
n
n
n
n
j r
'
i
.
Por definicin,

D
r
= diag(r) =
(
(
(
(

.
. 2
. 1
... 0 0
: ... : :
0 ... 0
0 ... 0
a
p
p
p
y, D
r
-1
=
(
(
(
(

.
. 2
. 1
/ 1 ... 0 0
: ... : :
0 ... / 1 0
0 ... 0 / 1
a
p
p
p
.

La matriz R de filas-perfil puede ser expresada como

R = D
r
-1
.P =
(
(
(
(
(

'
'
2
'
1
:
a
r
r
r
=
(
(
(
(
(
(
(
(

. .
2
.
1
. 12
2
. 2
22
. 2
21
. 1
1
. 1
12
. 1
11
...
: ... : :
...
...
a
ab
a
a
a
a
b
b
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
.

De manera similar sucede para la columna-perfil, c
j
, j=1,2,b, se define
dividiendo la j-sima columna entre su total marginal. Esto es

'
. .
2
.
1
'
. .
2
.
1
... ...
|
|

\
|
=
|
|

\
|
=
j
aj
j
j
j
j
j
aj
j
j
j
j
n
n
n
n
n
n
p
p
p
p
p
p
j
c .

Los elementos en cada c
j
son frecuencias relativas y su suma es 1.
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

46

( ) 1
:
1 ... 1 1
.
.
1
.
.
.
2
.
1
= = =
|
|
|
|
|
|
|
|
|

\
|
=

=
j
j
a
i
j
ij
j
aj
j
j
j
j
n
n
n
n
n
n
n
n
n
n
j
c j' , y ahora
D
c
= diag(c) =
(
(
(
(

b
p
p
p
.
2 .
1 .
... 0 0
: ... : :
0 ... 0
0 ... 0

Y usando la matriz de columnas-perfil C, se tiene

( )
|
|
|
|
|
|
|
|

\
|
= = =

b
ab a a
b
b
b
b
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
.
2
1 .
1
.
2
2 .
22
1 .
21
.
1
2 .
12
1 .
11
...
1 .
: ... : :
...
...
b 2 1
1
c
c ... c c PD C .

El vector r que qued definido como un vector columna de las suma de filas
de P, r = Pj = (p
1.
, p
2.,
. . . , p
a.
) = (n
1
/n, n
2.
/n, . . . , n
a.
/n), se puede expresar
como la media ponderada de los columnas-perfil.

;
1
. j
c r

=
=
b
j
j
p o lo que es lo mismo
( )
b 2 1
c c c
b a
p p p p p p
. 2 . 1 . . . 2 . 1
... ' ... + + + = ,

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

47

al sustituir a c
i
por sus respectivos vectores y realizar las operaciones
correspondientes, quedara

ab a a a
b
b
p p p p
p p p p
p p p p
+ + + =
+ + + =
+ + + =
...
..... .......... .......... ..........
...
...
2 1 .
2 22 21 . 2
1 12 11 . 1
, que es el vector de las sumas de filas, r.

Del mismo modo ocurre para c que es el vector fila de las sumas de columnas
de P, mediante la expresin r' c'

=
=
a
i
i
p
1
.
.
Se sabe que para cualquier fila o columna, 1
.
1
.
= =

= =
a
i
i
b
j
j
p p , y de ah, 1 j c r j
' '
= =
, donde la suma de una fila-perfil en r con j de ax1 de P, es igual a una b
columna-perfil en c con j de bx1 de P y es igual 1.

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

48


PRUEBA DE INDEPENDENCIA

Como se sabe los datos en una tabla de contingencia pueden ser usados para
verificar la asociacin de dos variables categricas. Supngase dos variables
categricas, x y y, y de acuerdo con lo visto en la seccin anterior, la
suposicin de independencia se puede expresar en trminos de probabilidad
mediante

P(x
i
y
j
) = P(x
i
)P(y
j
), i=1,2,...,a y j=1,2,,b,

Donde x
i
y y
j
se corresponden a la i-sima fila y j-sima columna de la matriz
de correspondencia, se puede estimar

p
ij
= p
i.
p
.j
con i=1,2,...,a y j=1,2,,b.

La chi-cuadrado para probar la hiptesis nula que indica independencia de x y
y, al comparar p
ij
con p
i.
y p
.j
, est dada por

= =

=
a
i
b
j
j i
j i ij
p p
p p p
n
1 1
. .
2
. . 2
) (
,

La cual es aproximadamente asintticamente distribuida como una variable
aleatoria chi-cuadrado con (a-1)(b-1) grados de libertad.

En funcin de la cantidad de observaciones en la tabla de contingencia, en
lugar de las frecuencias relativa p
ij
, se puede re-escribir con el total n, el total
en cada celda n
ij
y en cada columna n
i.
y fila n
.j
,

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

49

= =
|
|

\
|

=
a
i
b
j j i
j i
ij
n
n n
n
n n
n
1 1 . .
2
. .
2
.

La expresin anterior tambin se puede re-escribir en funcin vectorial, tal
como se ha visto hasta este momento. En funcin de r, r
i
, D
c
, D
r
, c
j
y c.
Cualquiera de las dos expresiones siguientes son aplicables: mediante la
comparacin de los vectores r
i
a c para cada i, y mediante los vectores c
j
a r
para cada j. Cualquiera de estas comparaciones es equivalente a probar la
independencia comparando p
ij
a p
i.
p
.j
, para todo i, j.

( ) ( ) c r D c r
i
1
c i
=

=

a
i
i
np
1
'
.
2
, o ( ) ( ) r c D r c
j
1
j
=

=

r
b
j
j
np
'
1
.
2
.

En conclusin, es equivalente la prueba de independencia mediante la chi-
cuadrado si se aplica cualquiera de los siguientes tres procedimientos.

a) p
ij
=p
i.
p
.j
para todo i, j, (P=rc).
b) Todas las filas r
i
de R son iguales (tambin iguales a su media
ponderada, c).
c) Todas las columnas c
j
de C son iguales (tambin iguales a su media
ponderada, r).
De este modo, si x y y fueran independientes, se esperara que las filas de la
tabla de contingencia tendran perfil similar o de manera equivalente, las
columnas tendran perfil similar.

En forma vectorial, la chi-cuadrado se puede exptresar de la siguiente manera

( ) ( ) ] ' [
2
rc' P D rc' P D tr
1
c
1
r
=

n ,
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

50


donde tr es la traza de la matriz resultante de la expresin o lo que es lo
mismo, la suma de la diagonal de esa matriz y n es la suma total de las
frecuencias de la tabla de contingencia.
La expresin anterior es equivalente a escribir

=
=
k
i
i
n
1
2
, que son los k
autovalores diferentes de cero de ( ) ( )' [ rc' P D rc' P D
1
c
1
r


y k es el rango de
( ) ( )' [ rc' P D rc' P D
1
c
1
r


. Hay que recordar que este rango k est asociado al
min[(a-1),(b-1)].

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

51

COORDENADAS PARA GRAFICAR LOS PERFILES DE FILAS Y
COLUMNAS

En este punto se consideran los aspectos fundamentales para establecer, en
general, las coordenadas para un anlisis de correspondencia, sea de dos o ms
variables.

La mtrica para los puntos de filas y columnas es la misma y los dos
conjuntos de puntos pueden ser superpuestos en el mismo grfico.

Para obtener estas coordenadas se factoriza la matriz mediante una
descomposicin espectral. En anlisis de correspondencia la matriz P-rc no
es simtrica y de ah el uso de valor de descomposicin singular (svd) para
obtener las coordenadas.

Se escala P-rc para obtener ( )
1/2
c
1/2
r
D rc' P D Z

= , cuyos elementos de Z son
j i
j i ij
ij
p p
p p p
z
. .
. .

= . Se factoriza a Z mediante svd, ' V U Z = , donde U y V son


autovectores ortonormales yes una matriz diagonal con
i
, i=1,,k, donde k
es el min[(a-1)(b-1)] y se corresponden con los valores singulares de Z. Las
columnas axk de U y las columnas bxk de V son auitovectores normalizados
de ZZ y de ah que
2
i
, i=1,,k, sean los autovalores de ZZ. Note que

( ) ( )
1/2
r
1/2
c
1/2
c
1/2
r
D ' rc' P D D rc' P D ZZ

=
( ) ( )
1/2
r
1/2
r
D ' rc' P D rc' P D

=
1
c

( ) ( ) ( ) ( )' rc' P D rc' P D ' rc' P D rc' P D D
1
r
1/2
r
1/2
r
== =
1 1
c c
,

que es la expresin ya conocida para determinar los k autovalores.

Para la descomposicin de P-rc, se puede igualando

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

52

( )
1/2
c
1/2
r
D rc' P D Z

= con ' V U Z = .
( ) V U D rc' P D
1/2
c
1/2
r
=


( ) ' ' B A D V U D rc' P
1/2
c
1/2
r
= = ,
j j
b a B A

=
=
k
j
j
1
'

Luego U D A
1/2
r
= y V D B
1/2
c
= , a
i
y b
i
son las columnas de A y B, y =
i
,
i=1,,k. Adems, UU=I y VV=I, luego por la expresin anterior, A y B
estn escaladas y A D A'
1
r

y B BD
1
c

son iguales a I.

Las filas de P-rc estn representadas por la combinacin lineal de las filas de
B, las cuales son las columnas de B=(b
1
,b
2
,,b
k
). Los coeficientes
(coordenadas) para la i-sima fila de P-rc estn en la i-sima fila de A y de
la misma manera, las coordenadas para las columnas de P-rc estn dadas por
las columnas de AB, puesto que AB provee los coeficientes para
A=(a
1
,a
2
,.,a
k
).

Para encontrar las coordenadas para las desviaciones de las filas r
i
-cy las
desviaciones en las columnas c
j
-r, se expresa en forma matricial y en funcin
de P-rc de la siguiente manera

( ) rc' P D jc' R
1
r
=

y
( ) rc' P D rj' C
1
c
=



De este modo, las coordenadas para las filas en R-jc con respecto a los ejes
b
1
,b
2
,,b
k
, estn dados por las columnas de =

A D X
1
r
, por otro lado, las
coordenadas para las columnas de C-rjn con respecto a los ejes a
1
,a
2
,,a
k
,
estn dados por =

B D Y
1
c
.

Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

53

De all, se tendra que para graficar las coordenadas para las desviaciones de
perfil-filas R-jc=r
i
-c, i=1,2,,a, en dos dimensiones, para dos columnas de
X, sera

|
|
|
|
|

\
|
=
2 1
22 21
12 11
: :
a a
x x
x x
x x
X


Del mismo modo par Y. Las coordenadas para las columnas de las
desviaciones del perfil-columnas Crj= c
j
-r, j=1,2,,b, en dos dimensiones
sera

|
|
|
|
|

\
|
=
2 1
22 21
12 11
: :
b b
y y
y y
y y
Y .

Teniendo en cuenta que cada punto tiene un peso o ponderacin iguala su
masa (los elementos de los vectores r y c se le conocen como filas y columnas
masas), la inercia sera un estadstico adecuado para medir la dispersin de la
nube de puntos. Esta dispersin es el promedio de las distancias de los puntos
a su centro de gravedad. Mayores detalles s e pueden consultar en
escalamiento multidimensional.

De este modo la media ponderada (ponderada por p
i
) de las distancias chi-
cudrado ( ) ( ) c r D c r
i
1
c i


entre las filas-perfil r
i
y y sus media c es llamada
inercia total y puede ser expresado por

( ) ( ) c r D c r
i
1
c i
=

=

a
i
i
p
n
1
'
.
2

, o ( ) ( ) r c D r c
j
1
j
=

=

r
b
j
j
p
n
'
1
.
2

.
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

54

Pero como 1
. .
= =

j
j
i
i
p p , entonces,

=
=
k
i
i
n
1
2 2

y de ah la contribucin de
cada una de las primeras dos dimensiones del grfico al total de inercia es

=
k
i
1 1
2
2
1

=
k
i
1 1
2
2
2

. La combinada de las dos dimensiones sera

=
+
k
i
1 1
2
2
2
2
1


.

Hay un procedimiento en MATLAB que puede producir este conjunto de
estadsticos y valores de pruebas, conjuntamente con las grficas que ayuden a
formular reducciones de de categoras con las combinacin de dos o ms de
ellas, en variables latentes que a juicio particular dara origen a nuevas
variables. Del mismo modo, SPSS, SAS, Minitab y otros, ofrecen esta
herramienta multivariante de reduccin de variables para hacer un anlisis,
ms descriptivo, y especialmente grfico, de los valores observados.


Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

55


EJEMPLOS
AC Y GRFICA CON DOS VARIABLES





Compresor A B C Total fila
1 17 17 12 46
2 11 9 13 33
3 11 8 19 38
4 14 7 28 49
Total col. 53 41 72 166
Pata del compresor
Cantidad de fallas de los aros
de pistn en la tres patas
Matriz de correspondencia
Compresor A B C Total fila
1 0,102 0,102 0,072 0,277
2 0,066 0,054 0,078 0,199
3 0,066 0,048 0,114 0,229
4 0,084 0,042 0,169 0,295
Total col. 0,319 0,247 0,434 1
Pata del compresor
fila-perfil
0,3696 0,3696 0,2609 1
0,3333 0,2727 0,3939 1
0,2895 0,2105 0,5000 1
0,2857 0,1429 0,5714 1
columna-perfil
0,3208 0,4146 0,1667
0,2075 0,2195 0,1806
0,2075 0,1951 0,2639
0,2642 0,1707 0,3889
1 1 1
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

56




Prueba de independencia






Como la traza es la suma de la diagonal y ella resulta en 0.071, la
2
con (a-
1)*(b-1) grados de libertad, donde a=4 y b=3, resulta en 6 g.d.l.



De acuerdo a tabla el valor-p sera 0.085, que acepta la hiptesis nula, la cual
hay evidencia de la prdida de independencia entre ambas variables y por
supuesto, se puede establecer alguna asociacin.
R=inv(D
r
)*P
0,3697 0,3697 0,2610
0,3330 0,2724 0,3935
0,2894 0,2104 0,4998
0,2859 0,1429 0,5718
C=P*inv(D
c
)
0,3210 0,4146 0,1666
0,2077 0,2195 0,1804
0,2077 0,1951 0,2637
0,2644 0,1707 0,3887
inv(D
r
)*(P-r*c')
0,050 0,123 -0,173
0,014 0,026 -0,040
-0,030 -0,036 0,066
-0,034 -0,104 0,138
inv(D
c
)*(P-r*c')'
0,044 0,009 -0,021 -0,031
0,138 0,021 -0,034 -0,124
-0,110 -0,018 0,035 0,094
inv(D
r
)*(P-r*c')*inv(Dc)*(P-r*c')'
0,038 0,006 -0,011 -0,033
0,009 0,001 -0,003 -0,007
-0,014 -0,002 0,004 0,012
-0,031 -0,005 0,009 0,027
CHI-CUADRADO= n*tr([inv(D
r
)*(P-r*c')*inv(D
c
)*(P-r*c')']
CHI-Cuad. 11,724
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

57


Mtrica para las coordenadas




-0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x 10
-3
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

58


ACM Y GRFICA CON MLTIPLES VARIABLES



Obs. Gnero Edad
Estado
civil
Color
pelo
1 M joven soltero castao
2 M adulto soltero rojizo
3 F mayor casado claro
4 M adulto soltero negro
5 F mayor casado negro
6 F mayor soltero castao
7 M joven casado rojizo
8 M adulto casado claro
9 M mayor soltero castao
10 F joven casado negro
11 F adulto soltero castao
12 M joven casado claro
Lista de 12 observaciones y
sus categorias en cuatro variables
G
Obs. Edo. civil
1 1 0 1 0 0 1 0 0 1 0 0
2 1 0 0 0 1 1 0 0 0 0 1
3 0 1 0 1 0 0 1 1 0 0 0
4 1 0 0 0 1 1 0 0 0 1 0
5 0 1 0 1 0 0 1 0 0 1 0
6 0 1 0 1 0 1 0 0 1 0 0
7 1 0 1 0 0 0 1 0 0 0 1
8 1 0 0 0 1 0 1 1 0 0 0
9 1 0 0 1 0 1 0 0 1 0 0
10 0 1 1 0 0 1 0 0 1 0 0
11 0 1 0 0 1 0 1 1 0 0 0
12 1 0 1 0 0 0 1 1 0 0 0
Gnero Edad Color pelo
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

59





Mtrica para las coordenadas
De acuerdo a la tabla de BURT anterior y haber usado la funcin de
MATLAB analcorr2.m, se observaron, entre otros estos mapas que se logran
percibir algunas combinaciones. Ms detalle se puede observar en la segunda
G'
Obs. 1 2 3 4 5 6 7 8 9 10 11 12
1 1 0 1 0 0 1 1 1 0 0 1
0 0 1 0 1 1 0 0 0 1 1 0
1 0 0 0 0 0 1 0 0 1 0 1
0 0 1 0 1 1 0 0 1 0 0 0
0 1 0 1 0 0 0 1 0 0 1 0
1 1 0 1 0 1 0 0 1 1 0 0
0 0 1 0 1 0 1 1 0 0 1 1
0 0 1 0 0 0 0 1 0 0 1 1
1 0 0 0 0 1 0 0 1 1 0 0
0 0 0 1 1 0 0 0 0 0 0 0
0 1 0 0 0 0 1 0 0 0 0 0
Gnero
Edad
Edo.
civil
Color
pelo
M 7 0 3 1 3 4 3 2 2 1 2
F 0 5 1 3 1 2 3 2 2 1 0
J 3 1 4 0 0 2 2 1 2 0 1
M 1 3 0 4 0 2 2 1 2 1 0
A 3 1 0 0 4 2 2 2 0 1 1
S 4 2 2 2 2 6 0 0 4 1 1
C 3 3 2 2 2 0 6 4 0 1 1
Cl 2 2 1 1 2 0 4 4 0 0 0
Cst 2 2 2 2 0 4 0 0 4 0 0
N 1 1 0 1 1 1 1 0 0 2 0
R 2 0 1 0 1 1 1 0 0 0 2
Edad
MATRIZ DE BURT (G'G)
Color
pelo
Edo.
civil
Gnero
Anlisis Multivariante Parte 3. Reduccin de datos Gerardo Colmenares
Y sus Aplicaciones Anlisis de correspondencia mltiple

60

prctica. Sin embargo, el juicio sobre cules combinaciones sean apropiadas
depende de aspectos: un buen valosr re la chi-cuadrado que as lo justifique y
el criterio que se siga para realizar las asociaciones.




-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1
2
1
2
3
1
2
1
2
3
4
Dimension 6
D
i
m
e
n
s
i
o
n

7
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4
-3 -2 -1 0 1 2 3
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1
2
1
2
3
1
2
1
2
3
4
Dimension 5
D
i
m
e
n
s
i
o
n

7
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1
2
1
2
3
1
2
1
2
3
4
Dimension 4
D
i
m
e
n
s
i
o
n

7
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-3
-2
-1
0
1
2
3
1
2
1
2
3
1
2 1
2
3
4
Dimension 4
D
i
m
e
n
s
i
o
n

5
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1
2
1
2
3
1
2
1
2
3
4
Dimension 4
D
i
m
e
n
s
i
o
n

6
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4
-4 -3 -2 -1 0 1 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
1
2
1
2
3
1
2
1
2
3
4
Dimension 3
D
i
m
e
n
s
i
o
n

6
Plot of variable levels of the performed Multiple Correspondence Analysis
from the Burt matrix.
Lev. cat. var. 1
Lev. cat. var. 2
Lev. cat. var. 3
Lev. cat. var. 4

También podría gustarte