Está en la página 1de 56

TÉCNICAS

ESTADÍSTICAS
MULTIVARIANTES I

1
CAPÍTULO 2

Análisis Factorial de
Correspondencias Simples.

2
3
Color de cabellos
Total
Se desea estudiar las Moreno Castaño Pelirrojo Rubio
relaciones entre las Marrón 68 119 26 7 220
variables: “color de Color de
Avellana 15 54 14 10 93
los
cabellos” y “color de los ojos Verde 5 29 14 16 64
ojos”.
Azul 20 84 17 94 215

Total 108 286 71 127 592

GRUPO DE CONSUMIDORES

1 2 3 4 5 Total
MARCA
Se desea conocer la relación
A 346 57 291 147 3 844
existente entre las variables
B 180 42 456 207 14 899
“marca” y “grupo de
C 47 24 200 350 43 664
consumidores”.
D 27 25 187 45 13 297
Total 600 148 1134 749 73 2704

EL OBJETIVO DEL ANÁLISIS DE CORRESPONDENCIAS SIMPLE es la


visualización de Tablas de frecuencias de dos variables cualitativas, de
forma que sea posible detectar las relaciones existentes entre las
variables.
4
Una Tabla de Contingencia se obtiene al cruzar dos variables nominales y
repartir una población (o muestra) según el número de individuos que
presentan una categoría de cada una de las variables.

El conjunto de columnas de la Tabla designa las modalidades de una


variable.

El conjunto de líneas corresponde a las modalidades de la otra variable.

Las líneas y las columnas (que determinan dos particiones de una


población) JUEGAN PAPELES SIMÉTRICOS y se tratan de forma análoga.

5
TRANSFORMACIÓN DE LA TABLA DE CONTINGENCIA.

Punto de partida: TABLA DE CONTINGENCIA

En esta Tabla, vamos a tener en cuenta dos conjuntos I y J, de cardinales


respectivos, k y p respectivamente.

1 2 . . p Total
•ni,j representa la frecuencia
absoluta de datos de la 1 n11 n12 n1p n1.

modalidad i de la variable fila y 2 n21 n22 . . n2p n2.


la modalidad j de la variable . . . . . . .
columna. k nk1 kn2 . . nkp nk.
Total n.1 n.2 . . n.p N
• ni. representa el total de la fila i
• n.j el total de la columna j.
k p
• N es el total global. Es decir: N =  n
i=1 j=1
ij

6
En nuestro ejemplo:
GRUPO DE CONSUMIDORES

Filas: variable Marca. k=4 modalidades. MARCA


1 2 3 4 5 Total

A 346 57 291 147 3 844


Columnas: variable Grupo. p=5 modalidades. B 180 42 456 207 14 899
C 47 24 200 350 43 664
D 27 25 187 45 13 297
Total 600 148 1134 749 73 2704

Puede ocurrir, que los valores de las frecuencias absolutas correspondientes


a dos filas sean de magnitud muy distinta y sin embargo que sean
proporcionales.

El hecho de que dos totales marginales, de, por ejemplo, dos filas sean
distintos, puede que no signifique que las dos filas tienen distinta
importancia, sino que no se han muestreado de la misma manera.

7
Por lo tanto, parece lógico considerar la Tabla de frecuencias relativas, donde

fij = nij/N

fij es la frecuencia de presencia de la población Hi y el carácter Aj.


k

es la frecuencia de Aj, f j =  f i j
p

fi. es la frecuencia de Hi, fi =  fi j fj


j=1 i=1

1 2 . . p
f1.
1 f11 f12 f1p
f2.
2 f21 f22 . . f2p
. . . . . .
fk.
k fk1 fk2 . . fkp
f.1 f.2 f.p

1 2 3 4 5

A 0.1279586 0.0210799 0.1076183 0.0543639 0.0011095 0.3121302

B 0.066568 0.0155325 0.1686391 0.0765533 0.0051775 0.3324704

C 0.0173817 0.0088757 0.0739645 0.1294379 0.0159024 0.2455621

D 0.0099852 0.0092456 0.0691568 0.016642 0.0048077 0.1098373

0.2218935 0.0547337 0.4193787 0.276997 0.026997


8
La distribución de frecuencias de los caracteres (columnas), en la población i (fila i),
viene dado por el Perfil Fila i:
f f f 
Perfil Fila i :  i1 , i2 ,......, ip  i  1,....., k
 fi fi fi 

La distribución de frecuencias de las Poblaciones (Filas), en el Carácter j (columna


j), viene dado por el Perfil Columna j:

 f1j f2j fpj 


Perfil Columna j :  , ,......,  j  1,.....,p
f f f j 
 j j

PERFILES FILA: PERFILES COLUMNA:

1 2 . p 1 2 . p
1
1 f11/ f1. f12/ f1. f1p/ f1. 1 f11/ f.1 f12/ f.2 f1p/ f.p
1
2 f21/ f2. f22/ f2. . f2p/ f2. 2 f21/ f.1 f22/ f.2 . f2p/ f.p

. . . . . . . . . .
1
k fk1/ fk. fk2/ fk. . fkp/ fk. k fk1/ f.1 fk2/ f.2 . fkp/ f.p

1 1 1
9
1 2 3 4 5

A 0.1279586 0.0210799 0.1076183 0.0543639 0.0011095 0.3121302

B 0.066568 0.0155325 0.1686391 0.0765533 0.0051775 0.3324704

C 0.0173817 0.0088757 0.0739645 0.1294379 0.0159024 0.2455621

D 0.0099852 0.0092456 0.0691568 0.016642 0.0048077 0.1098373

0.2218935 0.0547337 0.4193787 0.276997 0.026997

Perfiles Fila

1 2 3 4 5

A 0.409953 0.067536 0.344787 0.174171 0.003555

B 0.200222 0.046719 0.507230 0.230256 0.015573

C 0.070783 0.036145 0.301205 0.527108 0.064759

D 0.090909 0.084175 0.629630 0.151515 0.043771 Vamos a construir


dos nubes de puntos
Perfiles Columna partiendo de las
1 2 3 4 5
Tablas de Perfiles
A 0.576667 0.385135 0.256614 0.196262 0.041096

B 0.300000 0.283784 0.402116 0.276368 0.191781

C 0.078333 0.162162 0.176367 0.467290 0.589041

D 0.045000 0.168919 0.164903 0.060080 0.178082


10
11
CONSTRUCCIÓN DE LA NUBE DE PUNTOS

Razonaremos en términos de los Perfiles.

Esto es lo que nos permitirá comparar las modalidades de una misma variable.

La proximidad entre los puntos se interpretará en términos de similitud.

NUBE DE PUNTOS FILA. NUBE DE PUNTOS COLUMNA

El conjunto de los perfiles fila Los p perfiles columna constituyen


forma una nube de puntos en el una nube de p puntos en el espacio
espacio de las p columnas. de las k filas.
Cada punto i tiene por Las coordenadas en Rk de la
coordenadas en R p
columna j vienen dadas por
 fi j  
 fij 

 ; j = 1, 2, ...,p  masa fi.  ;i = 1, 2, ...,k  masa f.j
 fi  
f j 

La suma de las p coordenadas siempre
vale 1 para cada perfil fila, Los p puntos se sitúan en un subespacio de
los n puntos se sitúan en un dimensión k-1.
subespacio de dimensión p-1. 12
k
 fi j 
Centro de Gravedad,  f i    f  j con j = 1, ..., p
i=1  fi 

13
DISTANCIA 2 .

Si utilizamos la distancia euclídea entre dos puntos líneas sobre los datos
brutos esta no hará mas que traducir las diferencias efectivas entre dos
modalidades en la población.

Si utilizamos la distancia euclídea entre los perfiles-fila o columna se traducirá


correctamente el parecido o la diferencia entre dos modalidades pero no
tendremos en cuenta los efectivos totales de estas modalidades:

2
p
f f 
d 2  i, i' =   ij - i'j 
j=1  f i. fi'. 

Sin embargo, esta distancia favorece las columnas que tienen una masa f.j
importante, es decir aquellas que se encuentran bien representadas en la
población estudiada.

14
Para remediar ésto y también por otras propiedades se utiliza la distancia 2.
Así, dadas las filas:

f f f  f f f 
Fila i :  i1 , i2 ,......, ip  Fila i ' :  i '1 , i ' 2 ,......, i 'p 
 fi fi fi   fi ' fi ' fi ' 

Se define la distancia 2 entre las Filas i e i’, en relación a las p Columnas, como:

2
1  fij fi' j 
p
d (i,i') =   - 
2

j=1 f j  fi fi' 

Esta distancia, pondera cada desviación por la inversa de la masa de la


columna. Una propiedad importante de esta distancia así construida es que
podemos agrupar dos modalidades idénticas.

15
k
 fi j 
Centro de Gravedad,  f i    f  j con j = 1, ..., p
i=1  fi 

16
2 2
p
1  fij fi' j  p  fi j fi' j 
d (i,i') =   -  d (i, i') =   
2 2
-
j=1  f i f j fi' f j 
j=1 f j  fi fi'   

 fi1 fi 2 fip 
Fila i :  , ,......, 
 fi f 1 fi f 2 fi f p 

El Centro de Gravedad de los k puntos que representan las filas en el espacio


Rp tendrá por coordenadas:

k  fi j  1 k fj
 fi 



 f ij   f j con j = 1, ...,p
i=1
 fi f j  fj i=1 fj

Las coordenadas del Centro de Gravedad son:

 f 1 , f 2 ,..., f p 
17
REPRESENTACIÓN DE POBLACIONES Y CARACTERES.

REPRESENTACIÓN DE POBLACIONES.

Para representar las poblaciones en dimensión reducida, a partir de las coordenadas


 fi1 fi 2 fip 
Fila i :  , ,......, 
 fi f 1 fi f 2 fi f p 

vamos a considerar que nos enfrentamos a un problema de representación de datos


mediante un A.C.P., donde nuestra matriz de datos de partida es:
0.8702847 0.2886722 0.5324114 0.3309309 0.0216332

 fij 
0.4250505 0.1996927 0.7832528 0.437495 0.0947786

X=  0.1502649 0.1544954 0.4651133 1.0015264 0.3941325


 fi f j 
  0.1929901 0.3597958 0.972259 0.2878846 0.2663967

En filas tenemos los individuos (marcas) y en columnas las variables


(consumidores).

Debemos diagonalizar la matriz de Varianzas-Covarianzas entre variables.

Sea Sp esta matriz. Veamos que forma tiene Sp .


18
19
De la misma manera, la distancia entre dos columnas j, j’ , viene dada por:

2
k  
2
k
1  fij fi j'  fij fi j'
d 2 (j, j') =   -     - 
i=1 f i
 
 f j f j'  i=1 f j
 fi f j' fi 

Las coordenadas de los puntos que representan las columnas, son:

 f1j f2j fpj 


Columna j:  , ,......, 
 f j f1 f j f2 f j fp 
 

Y el Centro de Gravedad de los p puntos que representan las columnas en Rk tiene


coordenadas:

 f1 , f2 ,..., fk 

20
La media del carácter j, en la matriz X, ponderada por las frecuencias relativas f i

viene dada por: k  fi j  1 k fj


 f i
 
 fi f j 

fj
 fi j  fj
 fj
i=1
  i=1

El vector de medias de las variables, es: M  


f 1 , f 2 ,..., f p '
La Covarianza entre los Caracteres j y j´ viene dada por:

k fijfi j' k fijfi j'


S j j'   fi  f j f j'    f j f j'
i=1 fi f j fi f j' i=1 f i f j f j'

 f1    
 
 f2   
Dk =  MATRIZ DE VAR.-COV. ENTRE CARACTERES
     
 
    fk  S p = X' Dk X - MM'
Tendremos que buscar el eje de inercia máxima, buscando el eje que máx la
suma de los cuadrados de las proyecciones sobre dicho eje. 21
22
Propiedades:
,
2. Los autovectores de Sp, son también autovectores de X' Dk X.

3. M es autovector de X' Dk X con autovalor asociado λ=1.

3. M es autovector de Sp con autovalor asociado λ=0.

Como consecuencia de las propiedades anteriores, a la hora de diagonalizar la


matriz de Varianzas-Covarianzas, Sp, bastará con diagonalizar X'Dk X

Tendremos en cuenta los autovectores de esta matriz, con autovalor asociado


distinto de 1.

Además se cumple: 1> λ2 ≥ λ3 ≥……≥ λp

X'Dk X  UDλ U' U la matriz ortogonal de autovectores de X'Dk X

1 0  0
 
0 λ2  0
Dλ = 
    
 
0 0  λ p 
23
0.3061083 0.119963 0.2930839 0.1947783 0.0394605

0.119963 0.0593483 0.1560419 0.1082371 0.0337222

X'Dk X  0.2930839 0.1560419 0.449393 0.3140538 0.1017403

0.1947783 0.1082371 0.3140538 0.3532339 0.1213759


Dimensión 5
0.0394605 0.0337222 0.1017403 0.1213759 0.0490732

0.156813

0.0561434
Autovalores
0.0042003

-1.18E-17

0.4710557 -0.659491 0.5339869 0.0292606 0.2391238

0.2339524 -0.119054 -0.087982 0.6826471 -0.676273

Autovectores 0.6475945 -0.09101 -0.712208 -0.237669 0.0928007

0.5263051 0.6429192 0.4462088 -0.239364 -0.230782

0.1643078 0.3595417 -0.027838 0.6475761 0.6508479


24
VT = traza(Sp ) = traza(X'Dk X) - 1 = λ 2 + ..... + λ p

λ 2 + .... + λ d
Porc = 100
λ 2 + .... + λ p

25
REPRESENTACIÓN DE POBLACIONES Y CARACTERES.

REPRESENTACIÓN DE CARACTERES.

Para representar las poblaciones en dimensión reducida, a partir de las coordenadas

 f1j f2j fpj 


Columna j:  , ,......, 
 f j f1 f j f2 f j fp 
 
vamos a considerar que nos enfrentamos a un problema de representación de datos
mediante un A.C.P., donde nuestra matriz de datos de partida es:
1.0321836 0.5202891 0.158076 0.1357806

0.6893587 0.4921654 0.3272418 0.5096868

 fij  0.4593165 0.6973893 0.3559068 0.4975694


X' =  '
f f  0.3512915 0.4793051 0.9429866 0.1812825
 j i  0.0735581 0.3326049 1.1886798 0.5373356

Debemos diagonalizar la matriz de Varianzas-Covarianzas entre variables que


ahora son las Filas o Poblaciones. (marcas)

Sea Sk esta matriz. Veamos que forma tiene Sk .

26
La media de la población i, en la matriz X, ponderada por las frecuencias relativas f j

viene dada por: fi

El vector de medias de las variables, es: Μ  


f1 , f2 ,..., fk '

La Covarianza entre las Poblaciones i e i´ viene dada por:

p
fijfi ' j
Sii'    fi fi '
j=1 f j fi fi '

f 1     MATRIZ DE VAR.-COV. ENTRE POBLACIONES


 
  f2   
Dp =
      Sk = X Dp X ' - M M'
 
    f p 

27
,
Propiedades:

1. M es autovector de SK con autovalor asociado μ=0.

2. Los autovectores de Sk, son también autovectores de X Dp X '

3. M es autovalor de X Dp X ' con autovalor asociado μ=1.

Como consecuencia de las propiedades anteriores, a la hora de diagonalizar la


matriz de Varianzas-Covarianzas, Sk, bastará con diagonalizar X D X '
p

Tendremos en cuenta los autovectores de esta matriz, con autovalor asociado


distinto de 1.
Además se cumple: 1> μ2 ≥ μ3 ≥……≥ μp

X Dp X '  TDμ T' T la matriz ortogonal de


autovectores de X Dp X '
1 0  0
 
0 μ2  0
Dμ = 
    
 
0 0  μk 
28
0.3852224 0.3193708 0.211229 0.1648822

0.3193708 0.3439124 0.2670273 0.203823


X Dp X '  0.211229 0.2670273 0.3489866 0.1527541

Dimensión 4 0.1648822 0.203823 0.1527541 0.1390354

0.156813
Autovalores
0.0561434

0.0042003

0.5586861 -0.615445 -0.488542 0.2653741

0.5766025 -0.087399 0.3792842 -0.718355


Autovectores
0.4955423 0.7830972 -0.358267 0.1133193

0.3314171 0.01864 0.6993671 0.6330094

29
VT = traza(Sk ) = traza(XDp X ') -1 = μ 2 + ..... + μk

μ 2 + .... + μ d
Porc = 100
μ 2 + .... + μ k

30
REPRESENTACIÓN CONJUNTA.

Hasta este momento, se ha resuelto el problema de representar por separado las dos
nubes de puntos de nuestro problema, mediante la diagonalización de las matrices

X'Dk X X Dp X '
Las dos representaciones tienen una estrecha relación entre si.

 fij 
Z= 
 fi f j 
 
Esta matriz, verifica las siguientes propiedades:

1. X'Dk X = Z'Z X Dp X ' = ZZ'

2. Z'Z y ZZ' tienen los mismos autovalores

3. Si Z'Z tiene autovector u con autovalor asociado λ, entonces v=Zu, es

autovector de ZZ' con autovalor asociado λ.


31
Por lo tanto, los autovalores verifican:

1 ≥ λ2=μ2 ≥ …… ≥ λt=μt con t = min (k,p) = rango( Z´Z ) = rango( ZZ´ ).


El resto de valores propios son nulos.

Bastará con diagonalizar ZZ´ o Z´Z. En general, la de menor dimensión.

Supongamos que es Z´Z. Z'Z = UDλ U'


¿Cómo son los autovectores de autovalor no nulo de ZZ´,

Las columnas de la matriz V=ZU. Los autovectores no tienen norma 1


1 1 1
- - -
2 2
Para normalizar la matriz por columnas, se multiplica por D
. λ
2 U = VD = ZUD
λ λ

1 1 1 1
- - - -
2
U 'U = D V'VD
λ λ
2 2
= D U'Z ' ZUD
λ λ
2
 D-λ1U'Z ' ZU  UD-λ1U'Z ' Z = I k

Las coordenadas de las poblaciones son las filas de Ψ = XU


Y las de los caracteres son las filas de φ = X' U

Existe un autovalor nulo, y debemos prescindir de la primera columna,


32
RELACIÓN ENTRE COORDENADAS DE FILAS Y COLUMNAS

1
- -1 -1 -1
-1
X = D FD , X = Dk 2 FDp-1 , Z = Dk 2 FDp 2
k p
2

1 1 1
- -1 -1 -1 - -
φ = X' U  X'ZUD  D F ' D D FD UD = D F'ΨD
λ
2 -1
p k
2
k
2
p
2
λ
2 -1
p λ
2

la coordenada del carácter j (columna j) sobre el eje h, se puede expresar en función


de las coordenadas de las k poblaciones sobre el eje h, según la expresión:

1  f1j fkj 
φ jh =  Ψ1h + ......... + Ψ kh 

λh f
 j f j 

33
REGLAS DE INTERPRETACIÓN.

Las nubes de puntos filas y columnas se representará en el plano de proyección


formado por los primeros ejes factoriales dos a dos.

La lectura de estas gráficas necesita reglas de interpretación, para apreciar las


proximidades, identificar elementos responsables de la formación de factores y las
características de estos.

Estas reglas se obtendrán a partir de la secuencia de valores propios y el porcentaje


de inercia, los factores significativos, y los estadísticos asociados al Análisis.

La inercia total no tiene interpretación interesante, pero si el porcentaje de inercia


asociado a cada eje al relacionar unos con respecto a otros.

34
Test de independencia.

La inercia global I está relacionada con el test clásico de la 2 a través de:

f - fi.f.j 
2
k p p k
χ2
I =  fi.d (i,G) =  f .jd (j,G) = 
2 2 ij
=
i=1 j=1 j=1 i=1 fi.f.j N

NI sigue una ley 2 con (p-1)(k-1) g. l. bajo la hipótesis de independencia.

Por lo que si NI es mayor que 2(p-1)(k-1)() rechazamos la citada hipótesis de


independencia y por tanto tendrá sentido realizar el análisis.

Además la inercia I, se expresa como la suma de los autovalores no triviales

I =  λα
α

35
Inertia and Chi-Square Decomposition
Singular Principal Chi- Cumulative 14 28 42 56 70
Value Inertia Square Percent Percent
----+----+----+----+----
+---
0.39600 0.15681 424.022 72.21 72.21 *****************
*********
0.23695 0.05614 151.812 25.85 98.07 *********

0.06481 0.00420 11.358 1.93 100.00 *


Total 0.21716 587.192 100.00
Degrees of Freedom = 12

la hipótesis de independencia es rechazada ya que

587.192 > χ 4,3


2
(α)

En general: dos variables son independientes si los perfiles de sus


modalidades son idénticos.

Geométricamente esto significa que todos los puntos se concentran alrededor del
centro de gravedad de la nube siguiendo una forma esférica.

36
OBSERVACIÓN

N(1  ...  r )  (2k 1)( p 1) r  min(k , p)

N(1  ...  r )  N(1  ...  m )  N(m 1  ...  r )

(p-1)(k-1)=
(p+k-3)+(p+k-5)+ ..........+(p+k-2m-1)+

+(p+k-2m-3)+(p+k-2m-5)+…….(|k-p|+1)

N(1  ...  m )  (2k  p3)( k  p 5)...( k  p 2m1)

N(m1  ...  r )  (2pk 2m3)...(|k  p|1)

37
REGLAS PARA DETERMINAR EL NÚMERO DE FACTORES A RETENER.

1. Elegir aquellas dimensiones correspondientes Inercia total


a las inercias principales mayores que
min  p  1, k  1

2. El principio de Carlier, propone retener el menor valor m de factores que verifique:

N(m+1+...+k) < (p-1)(k-1)

3. A nivel práctico el mejor criterio es tomar sólo los dos o tres primeros ejes
significativos siempre que estos expliquen una variabilidad aceptable

4. Realizar el contraste; H0: m+1=m+2=...=q =0, es decir m factores son suficientes.

N(1  ...  m )  (2k  p 3)( k  p 5)...( k  p 2m1)


P
 N  1  2  ...  m    2
( k  p 3)  ( k  p 5) ...( k  p  2 m 1)    significativo

N(m1  ...  k )  (2pk 2m3)...(|k  p|1)

P  N m+1  m+2  ...  P    (2p  k  2 m3) ...(|k  p|1)    No significativo


38
CONTRIBUCIONES PARCIALES O ABSOLUTAS Y COSENOS O
CONTRIBUCIONES RELATIVAS.

Contribuciones absolutas: representan la proporción de la inercia de un factor


achacable a la modalidad correspondiente:

fi. ψ hi2 k

Crh (i) =  Cr (i) = 1


α
λh i=1

Cosenos al cuadrado o contribuciones relativas: expresan la proporción de la


variabilidad (inercia) de una variable explicada por un factor h:

2 dh2 (i,G) ψ hi2


Cos (i) = 2
h =
d (i,G) p-1 2
 ψ hi
h=1

Se interpretan igual que las cargas del Análisis Factorial.

Los valores que se obtienen en los cálculos, son los cuadrados de los cosenos,
siempre positivos. Por lo tanto, debe utilizarse el signo de las coordenadas para
comprobar el sentido de la correlación.
La suma de los cosenos al cuadrado con todos los ejes para cada categoría
representa la Comunalidad,
39
ELEMENTOS SUPLEMENTARIOS.

Son elementos suplementarios aquellos que no intervienen en la construcción de la


nube (es decir tienen peso 0 y su contribución a la formación de los ejes es 0).

No obstante estos pueden ser representados y obtenerse los cosenos cuadrados


con respecto a cualquier eje lo cual nos proporcionará una ayuda adicional para
poder interpretarlos.

Se suelen recoger como elementos suplementarios:

•Modalidades aberrantes, que se hayan mostrado como tal en el desarrollo del


análisis (aquellas que se van eliminando por que inestabilizan el resultado).

•Observaciones o modalidades cuya información se recogió en circunstancias


diferentes a las del resto.

•Elementos de distinta naturaleza a los activos.

•Casos nuevos, recogidos con posterioridad a la realización del análisis

40
Dada una columna suplementaria f j+ podemos obtener su Perfil Columna

 +
 f ij 
 k

 + ;i = 1, 2, ...k  donde f +
.j =  f + ij
 f
 .j 
 i=1

La proyección del punto j suplementario sobre el eje h:

1  fij+ 
k
φhj =
+

λh
  + ψ hi
i=1  f .j 

Para una modalidad i suplementaria , se tendrá de forma análoga:

1 p  fij+ 
ψ hi+ =
λh
  + φhj
j=1  f i. 

41
EJEMPLOS RESUELTOS CON SAS.

DATA PRUEBAS;
INPUT EDAD_SEXO $ COCHE_PREF $ FRECUENCIA;
CARDS;
JOV_FEM OPEL 25
JOV_FEM PEUGEOT 18
JOV_FEM HYUNDAI 36
JOV_FEM RENAULT 8
JOV_MAS OPEL 10
JOV_MAS PEUGEOT 26
JOV_MAS HYUNDAI 25
JOV_MAS RENAULT 30
MAD_FEM OPEL 5
MAD_FEM PEUGEOT 8
MAD_FEM HYUNDAI 2
MAD_FEM RENAULT 4
MAD_MAS OPEL 35
MAD_MAS PEUGEOT 20
MAD_MAS HYUNDAI 7
MAD_MAS RENAULT 60
MAY_FEM OPEL 6
MAY_FEM PEUGEOT 6
MAY_FEM HYUNDAI 1
MAY_FEM RENAULT 6
MAY_MAS OPEL 10
MAY_MAS PEUGEOT 16
MAY_MAS HYUNDAI 3
MAY_MAS RENAULT 25
;

PROC CORRESP DATA=PRUEBAS OUTC=GRAFICA ALL;


TABLES EDAD_SEXO, COCHE_PREF;
WEIGHT FRECUENCIA;
RUN;
42
Tabla de contigencia
HYUNDAI OPEL PEUGEOT RENAULT Suma
JOV_FEM 36 25 18 8 87
JOV_MAS 25 10 26 30 91
MAD_FEM 2 5 8 4 19
MAD_MAS 7 35 20 60 122
MAY_FEM 1 6 6 6 19
MAY_MAS 3 10 16 25 54
Suma 74 91 94 133 392

Perfil de la fila
Perfiles de columna
HYUNDAI OPEL PEUGEOT RENAULT
HYUNDAI OPEL PEUGEOT RENAULT
JOV_FEM 0.4138 0.2874 0.2069 0.0920
JOV_FEM 0.4865 0.2747 0.1915 0.0601
JOV_MAS 0.2747 0.1099 0.2857 0.3297
JOV_MAS 0.3378 0.1099 0.2766 0.2256
MAD_FEM 0.1053 0.2632 0.4211 0.2105
MAD_FEM 0.0270 0.0549 0.0851 0.0301
MAD_MAS 0.0574 0.2869 0.1639 0.4918
MAD_MAS 0.0946 0.3846 0.2128 0.4511
MAY_FEM 0.0526 0.3158 0.3158 0.3158
MAY_FEM 0.0135 0.0659 0.0638 0.0451
MAY_MAS 0.0556 0.1852 0.2963 0.4630
MAY_MAS 0.0405 0.1099 0.1702 0.1880

43
j i i N

Inercia y descomposición chi-cuadrado


Valor Inercia Chi- Porcentaje 15 30 45 60 75
singular principal cuadrado Porcentaje acumulado ----+----+----+----+----+---
0.42119 0.17740 69.5406 76.58 76.58 **************************

0.18623 0.03468 13.5959 14.97 91.55 *****

0.13990 0.01957 7.6719 8.45 100.00 ***

Total 0.23165 90.8084 100.00

Grados de libertad = 15

¿Existe relación entre filas y columnas? N(1+...+q)= 90.8084

P( 152  90.8084)  7  1013

44
ELECCIÓN DEL NÚMERO DE FACTORES A RETENER:

H0: m+1=m+2=...=q =0, m factores a retener son suficientes.

1. m=1, 1 factor es suficiente

N 1   (2k  p 3)  ( k  p 5) ...( k  p  2 m 1)   (6  4 3)   7  Pr ob   7  69.54   1.8  10


2 2 2 12

N(1) es significativo

N (2  3 )  (2p  k 2 m3)...(|k  p|1)  82

N(2  3 )  13.5959  7.6719  21.2678, Pr ob( 82  21.2678)  0.00649  0.01

por este método y a nivel α=0.01 no nos conformamos con m=1 componente.

45
2. m=2, 2 factores son suficientes

N(1+2)=69.5406+13.59=83.1365

N(1 +2 )   (10 3)  (10 5)  12  Pr ob  12  83.1365   1.03  10
2 2 2 12

N(1+2) es significativo

N(3)=7.6719

N(3 )   32 Pr ob(  32  7.6719)  0.0831

N(λ3) NO ES SIGNIFICATIVO A NIVEL 0.01

Con m=2 factores es suficiente

46
Estadísticos de sumarización para
Coordinadas de la fila
los puntos de la fila
Dim1 Dim2 Calidad Masa Inercia
JOV_FEM 0.6630 0.1630
JOV_FEM 0.9999 0.2219 0.4466
JOV_MAS 0.1783 -0.2653
JOV_MAS 0.9074 0.2321 0.1128
MAD_FEM -0.0103 -0.1236
MAD_FEM 0.0678 0.0485 0.0475
MAD_MAS -0.4071 0.1603
MAD_MAS 0.9720 0.3112 0.2646
MAY_FEM -0.2258 0.0700
MAY_FEM 0.3628 0.0485 0.0322
MAY_MAS -0.3657 -0.1588
MAY_MAS 0.9817 0.1378 0.0963

Contribuciones parciales a la inercia para los


Cosenos cuadrados para los
puntos de la fila Indices de las coordenadas que mejor
puntos de la fila
contribuyen a la inercia para los puntos de fila
Dim1 Dim2
Dim1 Dim2 Mejor Dim1 Dim2
JOV_FEM 0.5499 0.1701
JOV_FEM 1 1 1 JOV_FEM 0.9428 0.0570
JOV_MAS 0.0416 0.4711
JOV_MAS 0 2 2 JOV_MAS 0.2823 0.6251
MAD_FEM 0.0000 0.0214 MAD_FEM 0 0 2 MAD_FEM 0.0005 0.0673
MAD_MAS 0.2908 0.2305 MAD_MAS 1 1 1
MAD_MAS 0.8416 0.1304
MAY_FEM 0.0139 0.0069 MAY_FEM 0 0 1
MAY_FEM 0.3310 0.0319
MAY_MAS 0.1038 0.1002 MAY_MAS 0 0 1
MAY_MAS 0.8259 0.1558

47
Estadísticas de sumarización para
Coordenadas de la columna los puntos de columna
Dim1 Dim2 Calidad Masa Inercia
HYUNDAI 0.7742 -0.0214 HYUNDAI 0.9713 0.1888 0.5032
OPEL -0.0249 0.3095 OPEL 0.9010 0.2321 0.1073
PEUGEOT 0.0287 -0.2209 PEUGEOT 0.5906 0.2398 0.0870
RENAULT -0.4340 -0.0437 RENAULT 0.9213 0.3393 0.3025

Contribuciones parciales ala inercia para los


Índices de las coordenadas que más contribuyen a la inercia para
puntos de la columna
los puntos de la columna
Dim1 Dim2
Dim1 Dim2 Mejor
HYUNDAI 0.6378 0.0025
HYUNDAI 1 0 1
OPEL 0.0008 0.6413
OPEL 0 2 2
PEUGEOT 0.0011 0.3375
PEUGEOT 0 2 2
RENAULT 0.3603 0.0187
RENAULT 1 0 1

Cosenos cuadrados para puntos


de columnas
Dim1 Dim2
HYUNDAI 0.9706 0.0007
OPEL 0.0058 0.8952
PEUGEOT 0.0098 0.5807
RENAULT 0.9121 0.0093

48
proc print data=grafica;
run;

Obs _TYPE_ _NAME_ Quality Mass Inertia Dim1 Dim2 Contr1 Contr2 SqCos1 SqCos2 Best1 Best2 Best
1 INERTIA . . 0.23165 . . 0.17740 0.03468 . . . . .
2 OBS JOV_FEM 0.99985 0.22194 0.44661 0.66296 0.16303 0.54986 0.17008 0.94284 0.05702 1 1 1
3 OBS JOV_MAS 0.90740 0.23214 0.11282 0.17826 -0.26529 0.04158 0.47106 0.28226 0.62515 0 2 2
4 OBS MAD_FEM 0.06781 0.04847 0.04749 -0.01029 -0.12363 0.00003 0.02136 0.00047 0.06735 0 0 2
5 OBS MAD_MAS 0.97200 0.31122 0.26457 -0.40710 0.16026 0.29076 0.23046 0.84158 0.13042 1 1 1
6 OBS MAY_FEM 0.36284 0.04847 0.03223 -0.22580 0.07005 0.01393 0.00686 0.33099 0.03185 0 0 1
7 OBS MAY_MAS 0.98170 0.13776 0.09628 -0.36568 -0.15881 0.10384 0.10018 0.82592 0.15578 0 0 1
8 VAR HYUNDAI 0.97130 0.18878 0.50324 0.77419 -0.02140 0.63780 0.00249 0.97056 0.00074 1 0 1
9 VAR OPEL 0.90098 0.23214 0.10726 -0.02492 0.30955 0.00081 0.64133 0.00580 0.89518 0 2 2
10 VAR PEUGEOT 0.59057 0.23980 0.08700 0.02874 -0.22093 0.00112 0.33746 0.00983 0.58074 0 2 2
11 VAR RENAULT 0.92132 0.33929 0.30249 -0.43402 -0.04374 0.36027 0.01872 0.91205 0.00926 1 0 1

49
%PLOTIT (DATA=GRAFICA, labelvar=_Name_, plotvars=dim2 dim1, href=0,
vref=0);

50
data fumadoras;
input mujer $ 10. x1-x4;
label x1='Muerto prematuro’ x2='Vivo prematuro' x3='Bebe muerto 1º año'
x4='Bebe vivo tras 1º año';
cards;

Jov_nofuma 50 315 24 4012


Jov_fuma 9 40 6 459
May_nofuma 41 147 14 1594
May_fuma 4 11 1 124
;

proc corresp data=fumadoras outc=salida_fumadora;


var x1-x4;
id mujer;
run;

51
ELEMENTOS SUPLEMENTARIOS.

Son elementos suplementarios aquellos que no intervienen en la construcción de la


nube (es decir tienen peso 0 y su contribución a la formación de los ejes es 0).

No obstante estos pueden ser representados y obtenerse los cosenos cuadrados


con respecto a cualquier eje lo cual nos proporcionará una ayuda adicional para
poder interpretarlos.

Se suelen recoger como elementos suplementarios:

•Modalidades aberrantes, que se hayan mostrado como tal en el desarrollo del


análisis (aquellas que se van eliminando por que inestabilizan el resultado).

•Observaciones o modalidades cuya información se recogió en circunstancias


diferentes a las del resto.

•Elementos de distinta naturaleza a los activos.

•Casos nuevos, recogidos con posterioridad a la realización del análisis

52
Dada una columna suplementaria f j+ podemos obtener su Perfil Columna

 +
 f ij 
 k

 + ;i = 1, 2, ...k  donde f +
.j =  f + ij
 f
 .j 
 i=1

La proyección del punto j suplementario sobre el eje h:

1  fij+ 
k
φhj =
+

λh
  + ψ hi
i=1  f .j 

Para una modalidad i suplementaria , se tendrá de forma análoga:

1 p  fij+ 
ψ hi+ =
λh
  + φhj
j=1  f i. 

53
data USPop;

* Regions:
* New England - ME, NH, VT, MA, RI, CT.
* Great Lake - OH, IN, IL, MI, WI.
* South Atlantic - DE, MD, DC, VA, WV, NC, SC, GA, FL.
* Mountain - MT, ID, WY, CO, NM, AZ, UT, NV.
* Pacific - WA, OR, CA.
*
* Note: Multiply data values by 1000 to get populations.;

input Region $14. y1920 y1930 y1940 y1950 y1960 y1970;

label y1920 = '1920' y1930 = '1930' y1940 = '1940'


y1950 = '1950' y1960 = '1960' y1970 = '1970';

if region = 'Hawaii' or region = 'Alaska'


then w = -1000; /* Filas Suplementarias */
else w = 1000;

datalines;
New England 7401 8166 8437 9314 10509 11842
NY, NJ, PA 22261 26261 27539 30146 34168 37199
Great Lake 21476 25297 26626 30399 36225 40252
Midwest 12544 13297 13517 14061 15394 16319
South Atlantic 13990 15794 17823 21182 25972 30671
KY, TN, AL, MS 8893 9887 10778 11447 12050 12803
AR, LA, OK, TX 10242 12177 13065 14538 16951 19321
Mountain 3336 3702 4150 5075 6855 8282
Pacific 5567 8195 9733 14486 20339 25454
Alaska 55 59 73 129 226 300
Hawaii 256 368 423 500 633 769
;

proc corresp print=percent observed cellchi2 rp cp


short outc=Coor;
var y1920 -- y1970;
id Region;
weight w;
run;
%plotit(data=Coor, datatype=corresp, plotvars=Dim1 Dim2)

proc corresp data=USPop print=percent observed cellchi2 rp cp


short outc=Coor;
var y1920 -- y1970;
id Region;
supplementary y1970; /*Columnas Suplementarias*/
run;
%plotit(data=Coor, datatype=corresp, plotvars=Dim1 Dim2) 54
55
•Se realiza una encuesta en Inglaterra y se les pregunta sobre como ven a
los ciudadanos de otros países de la Unión Europea. Se obtiene una Tabla de
frecuencias (las filas son los países y las columnas las características
asignadas a cada estado) y con ella se lleva a cabo Análisis de
Correspondencias Simple. La Tabla de inercia resultante del mismo es:
Inertia and Chi-Square Decomposition
Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 10 20 30 40 50
---+----+----+----+----+---
0.48722 0.23738 246.402 48.08 48.08 ************************
0.38580 0.14884 154.497 30.15 78.22 ***************
0.24617 0.06060 62.904 12.27 90.50 ******
0.19620 0.03849 39.956 7.80 98.29 ****
0.07207 0.00519 5.391 1.05 99.35 *
0.05685 0.00323 3.355 0.65 100.00
Total 0.49374 512.505 100.00

Se pide responder a las siguientes cuestiones:

•Explicar el contenido de la salida anterior


•¿Sabrías decir cuantos individuos fueron entrevistados?
•¿En base a qué podríamos justificar la aplicación del análisis de
Correspondencias?

56

También podría gustarte