Está en la página 1de 10

Anlisis Multivariante

Anlisis de Correspondencia Simple


Cali, Colombia, Agosto-Diciembre de 2016

TRABAJO 2

1, a 1, b
Edwin Estiven Pulgarin Rodriguez ,, John Wilmar Vargas Mendez

1 Programa de Estadstica, Facultad de Ingeniera, Universidad del Valle, Cali, Colombia

Introduccin
A pesar de que el ACS fue concebido para describir las asociaciones entre modalidades de dos variables
cualitativas, a partir de la tabla de contingencia asociada, dicho mtodo se puede utilizar con datos que
no son tablas de contingencia. El nico requisito es que las entradas de la tabla no sean negativas y que
la suma de las y columnas tenga sentido y no se anule.
La siguiente tabla es un ejemplo de este tipo de datos. En ella se presenta la Cantidad (litros) de gasolina
regular comprada, por marca y tipo de vehculo en noviembre de 1996, en una estacin de servicios.

auto jeep c.liv c.pes taxi m.tp m.f o.tipo


Chevr 14.52 13.32 17.32 14.20 11.36 18.98 0.00 0.00
Daihat 11.00 14.34 26.70 12.50 24.41 0.00 0.00 17.04
Fiat 20.00 31.74 24.08 11.36 73.86 0.00 19.57 0.00
Hyun 16.22 0.00 15.30 11.36 17.41 0.00 0.00 0.00
Isuzu 18.45 23.32 17.61 49.14 0.00 1.13 0.00 0.00
Mazda 11.63 0.00 18.23 41.47 17.04 0.00 0.00 11.59
Mitsub 19.01 29.35 15.48 0.00 20.76 0.00 0.00 11.36
Nissan 14.81 29.11 15.92 21.83 24.47 8.52 15.81 0.00
Subaru 17.26 0.00 16.86 31.02 11.36 17.04 14.55 11.36
Suzuki 24.07 18.81 18.54 0.00 11.36 0.00 11.70 0.00
Toyota 16.13 14.31 18.95 19.04 20.20 16.53 15.19 13.69
O.marca 18.85 18.52 22.36 28.20 23.74 69.31 27.25 16.56
Tabla 1: Tabla de contingencia original

Principales abreviaciones: c.liv= carga liviana, c.pes= carga pesada, m.t.p=microbs de transporte
pblico, m.f= microbs familiar. Observe que n=12, p=8. A partir de esta tabla, realice un Anlisis de
correspondencias mediante el paquete ade4 o FactoMineR de R, y responda los siguientes requerimientos
justicando sus respuestas.
a . E-mail: edwin.pulgarin@correounivalle.edu.co
b . E-mail: john.vargas.mendez@correounivalle.edu.co

1
2 Edwin Estiven Pulgarin Rodriguez & John Wilmar Vargas Mendez

1) Decida si es pertinente el anlisis de asociaciones entre las dos variables.


Es de inters el estudio de las relaciones eventuales entre los atributos de las variables. Se dice que
hay independencia entre dos variables i e j, si i y j se tiene fij = fi. f.j . El test clsico 2 de Karl
Pearson permite apreciar la desviacin entre fij y fi. f.j . De esta manera la hiptesis de inters es:

H0 : fij = fi. f.j i = 1, 2, ..., n j = 1, 2, ..., p

Ha : fij 6= fi. f.j i = 1, 2, ..., n j = 1, 2, ..., p

Si no se rechaza la hiptesis nula (H0 ) todos los perles la (columna) son iguales entre s e iguales
al perl marginal correspondiente.
Se realiza entonces la prueba chi-cudrado con el software R, y se obtiene el resultado:

Se observa que el software arrojo un mensaje de advertencia, y sugiere que la prueba puede ser
incorrecta. Esto se debe a que la prueba chi-cuadrado se ve afectada cuando en las celdas de la tabla
de contingencia bajo estudio se presentan muchos ceros. El problema se presenta por las ultimas tres
columnas: m.t.p, m.f y o.tipo. Se concluye entonces que el anlisis original no es conveniente. Dichas
columnas se juntaran en una nueva variable, a la que se llamara otipo2.

2) Tome dos marcas de vehculos al azar y compare sus perles (grcamente); compare
estos perles con el perl medio. Describa sus principales apreciaciones.
Se han tomado al azar las marcas Toyota y at. En la siguiente grca se comparan los perles de
ambas marcas con el perl medio:

Se observa que el tipo de vehculos otipo2 (correspondiente a microbs de transporte pblico, microbs
y otro tipo de vehculos) presentan un mayor consumo para la marca Toyota en comparacon con el perl
medio y la marca Fiat.
El perl medio presenta un mayor consumo de gasolina para el tipo de vehculo otipo2 (al igual que el
perl de la marca Toyota ), mientras que la marca Fiat presenta un mayor consumo para el tipo de
vehculotaxi.
En general los perles de ambas marcas son diferentes al perl medio, excepto para tipo de vehculo auto,
en la cual los tres perles son casi idnticos.

Multivariada(2016)
TRABAJO 2 3

3) Determine la distancia 2 entre ambos perles. Interprete


Se construye la distancia entre perles denominada distancia 2 de la siguiente manera:
p  2
fij fi0 j
(1)
X
d2 (i, i0 ) = f.j
j=1
fi. fi.0

La distancia chi-cuadrado en distancia euclidiana (perl ponderado) es:

p
!2
fij f i0 j
(2)
X
2 0
d (i, i ) = p p
j=1
fi. f.j fi0 . f.j

Donde el perl medio ponderado es: fij



P p
i fi. = f.j
fi. f.j

En la siguiente tabla, se encuentran todos los componentes para hallar la distancia entre ambos
perles:

auto jeep c.liv c.pes taxi o.tipo2


Fiat fij 0.01 0.02 0.02 0.01 0.05 0.01
Toyota fi0 j 0.01 0.01 0.01 0.01 0.01 0.03
f
p.j
0.14 0.13 0.16 0.17 0.18 0.22
f.j 0.4 0.4 0.4 0.4 0.4 0.5
fij

fi. f.j
0.20 0.42 0.42 0.20 1.04 0.20
fi0 j
fi0 .

f.j
0.31 0.31 0.31 0.31 0.31 0.8
 2
fi0 j
fij

fi. f.j

fi0 .

f.j
0.012 0.012 0.012 0.012 0.533 0.36
Tabla 2

Se obtiene entonces que la distancia entre ambos perles es igual a:

p
!2
fij f i0 j
(3)
X
2 0
d (i, i ) = p p = 0.941
j=1
fi. f.j fi0 . f.j

La principal diferencia entre entre el consumo de gasolina para las marcas de vehculo Fiat y Toyota,
se encuentra principalmente en las modalidades taxi y otipo2(otro tipo de vehculos).

4) Evalu el grado de asociacin entre las dos variables


El estadstico de prueba chi-cuadrado es igual a:
n n p
!2
X X X fij X (fij fi. fj. )2
2 /k = 2 = IGI = pi d2 (i, GI ) =
p
fi. p f.j =
i=1 i=1 j=1
fi. f.j i,j
fi. fj.

Se realizar la prueba chi-cuadrado con el software R:

Multivariada(2016)
4 Edwin Estiven Pulgarin Rodriguez & John Wilmar Vargas Mendez

Dado que KI = 2 > 2n1,p1,/2 se rechaza la hiptesis nula, con un nivel de signicancia del
5 %. Se concluye entonces que existe dependencia entre ambas variable, y por lo tanto el Anlisis de
correpondencia intervendr de manera til, para describir las relaciones de dependencia entre las y
columnas.

5) Cuntos ejes selecciona para el anlisis?


Sea r el nmero de valores propios del anlisis. Un criterio global y sencillo de seleccionar el nmero
de ejes para el anlisis es tomar los primeros d ejes que expliquen el 75 % o ms de la inercia total, I.
Se aconseja controlar esta decisin con un criterio local que utilice la inercia explicada promedio como
r =1,..,d.
umbral, y consiste en retener los primeros d ejes que satisfacen I 100
En este caso se obtienen cinco valores propios, es decir, que r=5. Los valores propios se presentan a
continuacin:

Valor propio % de inercia % de inercia acumulada


=1 0.15 41.32 41.32
=2 0.13 35.15 76.47
=3 0.05 14.57 91.04
=4 0.03 7.50 98.54
=5 0.01 1.46 100.00
Tabla 3: Valores propios

La inercia total es igual a: = 0.37.


Pp1
=1

De acuerdo con el criterio global , se tomarian los dos primeros ejes, pues estos explican ms del 75 %.
Es decir que segn el criterio global se seleccionara el plano factorial para el anlisis.

Usando el criterio local , se seleccionarn aquellos ejes cuyo porcentaje de inercia explicado sea superior
a 100
r % = 20 %. En este caso, los ejes que cumplen con dicha condicin son los dos primeros ejes, es decir,
que segn el criterio local se debe trabajar en el plano factorial para el anlisis.

Tanto el criterio global como el criterio local , arrojan como resultado que el anlisis debe ser realizado
con los dos primeros ejes.

6) Muestre grcamente una de las marcas Subaru, Toyota o Nissan como baricentro de los
tipos de vehculos. Interprete.
Las coordenadas factoriales en el espacio Rn son:
= M p F 0 Mn (4)

De las relaciones de transicin, se tiene:


n
1 X fij
j = i (5)
i=1 f.j

As, excepto por el coeciente de dilatacin 1 , las proyecciones de los puntos de una nube sobre un
eje , son los baricentros de las proyecciones de los puntos de la otra nube.

Multivariada(2016)
TRABAJO 2 5

As que para proyectar a la marca Subaru como baricentro de los tipos de vehculo, se necesitan las
coordenadas Fila de esta marca. De la tabla 1, se encuentra que las coordenadas en el primer plano
factorial de la marca Subaru son (-0.52,0.10).

Eje 1 Eje 2 Eje 3 Eje 4 Eje 5


Chevr 0.00 0.04 0.12 0.10 -0.06
Daihat 0.20 -0.04 -0.11 0.05 -0.24
Fiat 0.52 -0.23 -0.30 -0.18 0.05
Hyun 0.37 0.34 -0.41 0.43 0.08
Isuzu -0.01 0.87 0.36 -0.15 0.02
Mazda -0.21 0.64 -0.33 -0.03 -0.01
Mitsub 0.55 -0.25 0.32 0.00 0.03
Nissan 0.13 -0.01 0.14 -0.20 0.01
Subaru -0.52 0.10 -0.12 0.13 0.06
Suzuki 0.40 -0.16 0.34 0.37 0.04
Toyota -0.23 -0.17 0.01 0.01 -0.01
O.marca -0.56 -0.38 0.04 -0.04 0.01
Tabla 4: Coordenadas de las proyecciones sobre la nube de puntos la

Auto Jeep C.Liv C.pes Taxi O.tipo2 fij


Pn
i=1 f.j i
Subaru (fij ) 0,01 0,00 0,01 0,02 0,01 0,03
f.j 0,14 0,13 0,16 0,17 0,18 0,22
fij
f.j 0,07 0,00 0,06 0,12 0,06 0,14
fij
f.j 1i -0,04 0,00 -0,03 -0,06 -0,03 -0,07 -0,23
fij
f.j 2i 0,007 0,00 0,006 0,012 0,006 0,014 0,045

Se encuentra que las coordenadas de la marca Subaru como baricentro son (-0.23,0.045). A continuacin
se representa grcamente dicha situacin:

Multivariada(2016)
6 Edwin Estiven Pulgarin Rodriguez & John Wilmar Vargas Mendez

7) En el primer plano factorial graque la representacin simultnea.

Representacin simultnea-primer plano factorial del ACS

Las marcas Fiat, Mitsubishi y Suzuki tienen un perl de consumo similar.

Debido a la cercana con el tipo de vehculo taxi y jeep, estas marcas tienen consumos ms altos.

El perl consumo de otro tipo de vehculos (microbs de transporte pblico, microbs familiar) est
asociado con otro tipo de marcas.

Las marcas Hyundai y Subaru tienen los perles de consumo ms similares.

8) Muestre la tabla de contribuciones absolutas, c.a(i) y cos2(i) por marca de vehculo


en los tres primeros ejes. Observe que la contribucin media por marca de vehculo es
1/n*100. Todo perl la que tenga c.a(i)mayor qu 1/n*100 en el simo eje, se denomina
perl explicativo. Para garantizar buena calidad de representacin se usa la regla cos2(i)
mayor o igual 0.5. Identique los perles explicativos con buena representacin..

Contribucin absoluta:
La contribucin de un perl a la varianza del eje (inercia proyectada), depende del peso y de la
coordenada al cuadrado:

fi. (F (i))2
Ca =

A continuacin se muestra la tabla de las contribuciones absolutas de los tres primeros eje

Multivariada(2016)
TRABAJO 2 7

Tabla 5: Contribuciones absolutas


Eje 1 Eje 2 Eje 3
Chev 0 0.1 1.6
Daih 1.9 0,1 1.6
Fiat 21.9 5.1 20.8
Hyun 3.7 3.7 12.9
Isuzu 0 44.3 18
Mazda 2 21.7 14
Mitsu 13.1 3.3 12.7
Nissan 1.1 0 3.2
Subaru 14.7 0.6 2.2
Suzuki 6.1 1.2 12.5
Toyota 3.2 2.1 0
Otra 32.3 17.8 0.5

La contribucin absoluta en la nube de marcas, no muestra que el primer eje se debe sobre todo los
perles Fiat , otra marca, subaru y Mitsubishi.
En el segundo eje los perles que mas contribuyen a este son Isuzu y Mazda.
Por ultimo la contribucin a la construccin del tercer eje est distribuida en varios perles marcas,
siendo los ms sobresaliente los perles de Fiat, Isuzu y Mazda.

Contribucin relativa :
(F (i))2
Cos2 =
d2 (i, g)

A continuacin se muestra la tabla de las contribuciones relativas de los tres primeros eje

Tabla 6: Add caption


Marca Eje 1 Eje 2 Eje 3
Isuzu 0 0,8 0,1
Mazda 0,1 0,7 0,2
Toyota 0,6 0,4 0
Otra 0,7 0,3 0
Hyun 0,2 0,2 0,3
Mitsu 0,6 0,1 0,2
Fiat 0,6 0,1 0,2
Suzuki 0,4 0,1 0,3
Chev 0 0 0,5
Subaru 0,9 0 0
Daih 0,4 0 0,1
Nissan 0,2 0 0,2

La contribucin relativa en la nube de marcas nos da como resultado que la mejor calidad de
representacin del primer eje se da en los perles Subaru, otras marcas, Mitsubishi, Toyota y Fiat.
El segundo tiene una mejor representacin en los perles Isuzu y Mazda.
El perl marca Chevrolet tiene la mejor calidad de representacin en el tercer eje.

Multivariada(2016)
8 Edwin Estiven Pulgarin Rodriguez & John Wilmar Vargas Mendez

9) Muestre la tabla de contribuciones absolutas c.a(j) y por tipo de vehculo


en los tres primeros ejes. Proceda anlogamente como en 8.
Contribuciones absolutas
fi. (F (i))2
Ca =

A continuacin se muestra la tabla de las contribuciones absolutas de los tres primeros eje
La siguiente tabla muestra las contribuciones absolutas del perl tipo de vehculo de los tres primeros
ejes.

Tabla 7: Contribuciones absolutas


Eje 1 Eje 2 Eje 3
auto 3.2 1.06 3.95
jeep 16.82 1.19 47.13
cliv 1.84 1.43 0.26
cpes 11.03 59.98 1.05
taxi 19.77 6.17 47.29
otipo2 47.33 30.16 0.32

la construccin del primer eje se debe sobre todo los perles Otro tipo de vehculo, taxi y jeep. En el
segundo eje se debe a los perles Otro tipo de vehculo y carga pesada, y nalmente la contribucin
a la direccin del tercer eje se debe a los perles taxi y jeep.

Contribuciones relativas
(F (i))2
Cos2 =
d2 (i, g)

A continuacin se muestra la tabla de las contribuciones relativas de los tres primeros eje

Tabla 8: Contribuciones relativas


Eje 1 Eje 2 Eje 3
Auto 0.22 0.06 0.1
Jeep 0.44 0.03 0.43
Cliv 0.21 0.14 0.01
Cpes 0.17 0.79 0.01
Taxi 0.46 0.12 0.39
otipo2 0.65 0.35 0

El perl otro tipo de vehculo est mejor representado en el primer eje.


El perl carga pesada est mejor representado en el segundo eje. El perl taxi y jeep tienen una
mayor contribucin en la inercia del tercer eje, pero no tiene una buena calidad de representacin. se
puede concluir que la contribucin absoluta esta por encima con respecto a la contribucin relativa,
por tanto el perl jeep y taxi es el que ms aporta a la inercia del tercer eje aunque no tenga una
buena calidad de representacin.

Multivariada(2016)
TRABAJO 2 9

10)Con base en los puntos 7), 8) y 9) describa los dos primeros ejes. Para
una misma variable describa los perles similares, los perles diferentes;
compare los perles de modalidades de diferentes variables. En general
describa las principales asociaciones; se insinan grupos o clster importantes?,
cules?
En las siguientes grcas los perles la y columna y su respectivo perl medio.
 Comparacin perl marca

 Comparacin perl tipo de vehculo

En la nube de puntos de tipo de vehculo, el perl que ms se asemeja al perl medio es el


de tipo auto. Otro tipo de marca est asociado con el consumo de gasolina de otro tipo de
vehculo. El consumo de los vehculos tipo carga pesada est asociado con la marca Isuzu.
En general se observan perles-columna similares entre El perl de consumo de los tipos de
vehculo jeep y taxi y nalmente el perl de consumo de los tipos auto y carga liviana.

Multivariada(2016)
10 Edwin Estiven Pulgarin Rodriguez & John Wilmar Vargas Mendez

 Representacin simultnea (grupos de perles similares)-primer plano factorial del ACS

se podran hacer dos grupos de perles de consumo similares. En un primer grupo, los jeep y
taxis de las marcas Fiat y Mitsubishi. En un segundo grupo, los vehculos tipo auto y carga
liviana de las marcas Nissan y Daihatsu.
Estos dos grupos estan muy cercanos, pero aun as es necesario realizar mas anlisis es decir
un anlisis de clster.

Referencias
[1] Pardo, C. E. , Mtodos estadsticos multivariados en investigacin social, Universidad de
Medelln, 1999.
[2] Lebart, L., Morineau, A. Warwick , Multivariate Descriptive Statistical Analysis,Wiley
New York, 1984
[3] Gonzlez, V , Anlisis de correspondencias (AC). Notas de Clase, Universidad del Valle.2016

Multivariada(2016)

También podría gustarte