Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo 2 Corresp2019
Capitulo 2 Corresp2019
ESTADÍSTICAS
MULTIVARIANTES I
1
CAPÍTULO 2
Análisis Factorial de
Correspondencias Simples.
2
3
Color de cabellos
Total
Se desea estudiar las Moreno Castaño Pelirrojo Rubio
relaciones entre las Marrón 68 119 26 7 220
variables: “color de Color de
Avellana 15 54 14 10 93
los
cabellos” y “color de los ojos Verde 5 29 14 16 64
ojos”.
Azul 20 84 17 94 215
GRUPO DE CONSUMIDORES
1 2 3 4 5 Total
MARCA
Se desea conocer la relación
A 346 57 291 147 3 844
existente entre las variables
B 180 42 456 207 14 899
“marca” y “grupo de
C 47 24 200 350 43 664
consumidores”.
D 27 25 187 45 13 297
Total 600 148 1134 749 73 2704
5
TRANSFORMACIÓN DE LA TABLA DE CONTINGENCIA.
1 2 . . p Total
•ni,j representa la frecuencia
absoluta de datos de la 1 n11 n12 n1p n1.
6
En nuestro ejemplo:
GRUPO DE CONSUMIDORES
El hecho de que dos totales marginales, de, por ejemplo, dos filas sean
distintos, puede que no signifique que las dos filas tienen distinta
importancia, sino que no se han muestreado de la misma manera.
7
Por lo tanto, parece lógico considerar la Tabla de frecuencias relativas, donde
fij = nij/N
es la frecuencia de Aj, f j = f i j
p
1 2 . . p
f1.
1 f11 f12 f1p
f2.
2 f21 f22 . . f2p
. . . . . .
fk.
k fk1 fk2 . . fkp
f.1 f.2 f.p
1 2 3 4 5
1 2 . p 1 2 . p
1
1 f11/ f1. f12/ f1. f1p/ f1. 1 f11/ f.1 f12/ f.2 f1p/ f.p
1
2 f21/ f2. f22/ f2. . f2p/ f2. 2 f21/ f.1 f22/ f.2 . f2p/ f.p
. . . . . . . . . .
1
k fk1/ fk. fk2/ fk. . fkp/ fk. k fk1/ f.1 fk2/ f.2 . fkp/ f.p
1 1 1
9
1 2 3 4 5
Perfiles Fila
1 2 3 4 5
Esto es lo que nos permitirá comparar las modalidades de una misma variable.
13
DISTANCIA 2 .
Si utilizamos la distancia euclídea entre dos puntos líneas sobre los datos
brutos esta no hará mas que traducir las diferencias efectivas entre dos
modalidades en la población.
2
p
f f
d 2 i, i' = ij - i'j
j=1 f i. fi'.
Sin embargo, esta distancia favorece las columnas que tienen una masa f.j
importante, es decir aquellas que se encuentran bien representadas en la
población estudiada.
14
Para remediar ésto y también por otras propiedades se utiliza la distancia 2.
Así, dadas las filas:
f f f f f f
Fila i : i1 , i2 ,......, ip Fila i ' : i '1 , i ' 2 ,......, i 'p
fi fi fi fi ' fi ' fi '
Se define la distancia 2 entre las Filas i e i’, en relación a las p Columnas, como:
2
1 fij fi' j
p
d (i,i') = -
2
j=1 f j fi fi'
15
k
fi j
Centro de Gravedad, f i f j con j = 1, ..., p
i=1 fi
16
2 2
p
1 fij fi' j p fi j fi' j
d (i,i') = - d (i, i') =
2 2
-
j=1 f i f j fi' f j
j=1 f j fi fi'
fi1 fi 2 fip
Fila i : , ,......,
fi f 1 fi f 2 fi f p
k fi j 1 k fj
fi
f ij f j con j = 1, ...,p
i=1
fi f j fj i=1 fj
f 1 , f 2 ,..., f p
17
REPRESENTACIÓN DE POBLACIONES Y CARACTERES.
REPRESENTACIÓN DE POBLACIONES.
fij
0.4250505 0.1996927 0.7832528 0.437495 0.0947786
2
k
2
k
1 fij fi j' fij fi j'
d 2 (j, j') = - -
i=1 f i
f j f j' i=1 f j
fi f j' fi
f1 , f2 ,..., fk
20
La media del carácter j, en la matriz X, ponderada por las frecuencias relativas f i
f1
f2
Dk = MATRIZ DE VAR.-COV. ENTRE CARACTERES
fk S p = X' Dk X - MM'
Tendremos que buscar el eje de inercia máxima, buscando el eje que máx la
suma de los cuadrados de las proyecciones sobre dicho eje. 21
22
Propiedades:
,
2. Los autovectores de Sp, son también autovectores de X' Dk X.
1 0 0
0 λ2 0
Dλ =
0 0 λ p
23
0.3061083 0.119963 0.2930839 0.1947783 0.0394605
0.156813
0.0561434
Autovalores
0.0042003
-1.18E-17
λ 2 + .... + λ d
Porc = 100
λ 2 + .... + λ p
25
REPRESENTACIÓN DE POBLACIONES Y CARACTERES.
REPRESENTACIÓN DE CARACTERES.
26
La media de la población i, en la matriz X, ponderada por las frecuencias relativas f j
p
fijfi ' j
Sii' fi fi '
j=1 f j fi fi '
27
,
Propiedades:
0.156813
Autovalores
0.0561434
0.0042003
29
VT = traza(Sk ) = traza(XDp X ') -1 = μ 2 + ..... + μk
μ 2 + .... + μ d
Porc = 100
μ 2 + .... + μ k
30
REPRESENTACIÓN CONJUNTA.
Hasta este momento, se ha resuelto el problema de representar por separado las dos
nubes de puntos de nuestro problema, mediante la diagonalización de las matrices
X'Dk X X Dp X '
Las dos representaciones tienen una estrecha relación entre si.
fij
Z=
fi f j
Esta matriz, verifica las siguientes propiedades:
1 1 1 1
- - - -
2
U 'U = D V'VD
λ λ
2 2
= D U'Z ' ZUD
λ λ
2
D-λ1U'Z ' ZU UD-λ1U'Z ' Z = I k
1
- -1 -1 -1
-1
X = D FD , X = Dk 2 FDp-1 , Z = Dk 2 FDp 2
k p
2
1 1 1
- -1 -1 -1 - -
φ = X' U X'ZUD D F ' D D FD UD = D F'ΨD
λ
2 -1
p k
2
k
2
p
2
λ
2 -1
p λ
2
1 f1j fkj
φ jh = Ψ1h + ......... + Ψ kh
λh f
j f j
33
REGLAS DE INTERPRETACIÓN.
34
Test de independencia.
f - fi.f.j
2
k p p k
χ2
I = fi.d (i,G) = f .jd (j,G) =
2 2 ij
=
i=1 j=1 j=1 i=1 fi.f.j N
I = λα
α
35
Inertia and Chi-Square Decomposition
Singular Principal Chi- Cumulative 14 28 42 56 70
Value Inertia Square Percent Percent
----+----+----+----+----
+---
0.39600 0.15681 424.022 72.21 72.21 *****************
*********
0.23695 0.05614 151.812 25.85 98.07 *********
Geométricamente esto significa que todos los puntos se concentran alrededor del
centro de gravedad de la nube siguiendo una forma esférica.
36
OBSERVACIÓN
(p-1)(k-1)=
(p+k-3)+(p+k-5)+ ..........+(p+k-2m-1)+
+(p+k-2m-3)+(p+k-2m-5)+…….(|k-p|+1)
37
REGLAS PARA DETERMINAR EL NÚMERO DE FACTORES A RETENER.
3. A nivel práctico el mejor criterio es tomar sólo los dos o tres primeros ejes
significativos siempre que estos expliquen una variabilidad aceptable
fi. ψ hi2 k
Los valores que se obtienen en los cálculos, son los cuadrados de los cosenos,
siempre positivos. Por lo tanto, debe utilizarse el signo de las coordenadas para
comprobar el sentido de la correlación.
La suma de los cosenos al cuadrado con todos los ejes para cada categoría
representa la Comunalidad,
39
ELEMENTOS SUPLEMENTARIOS.
40
Dada una columna suplementaria f j+ podemos obtener su Perfil Columna
+
f ij
k
+ ;i = 1, 2, ...k donde f +
.j = f + ij
f
.j
i=1
1 fij+
k
φhj =
+
λh
+ ψ hi
i=1 f .j
1 p fij+
ψ hi+ =
λh
+ φhj
j=1 f i.
41
EJEMPLOS RESUELTOS CON SAS.
DATA PRUEBAS;
INPUT EDAD_SEXO $ COCHE_PREF $ FRECUENCIA;
CARDS;
JOV_FEM OPEL 25
JOV_FEM PEUGEOT 18
JOV_FEM HYUNDAI 36
JOV_FEM RENAULT 8
JOV_MAS OPEL 10
JOV_MAS PEUGEOT 26
JOV_MAS HYUNDAI 25
JOV_MAS RENAULT 30
MAD_FEM OPEL 5
MAD_FEM PEUGEOT 8
MAD_FEM HYUNDAI 2
MAD_FEM RENAULT 4
MAD_MAS OPEL 35
MAD_MAS PEUGEOT 20
MAD_MAS HYUNDAI 7
MAD_MAS RENAULT 60
MAY_FEM OPEL 6
MAY_FEM PEUGEOT 6
MAY_FEM HYUNDAI 1
MAY_FEM RENAULT 6
MAY_MAS OPEL 10
MAY_MAS PEUGEOT 16
MAY_MAS HYUNDAI 3
MAY_MAS RENAULT 25
;
Perfil de la fila
Perfiles de columna
HYUNDAI OPEL PEUGEOT RENAULT
HYUNDAI OPEL PEUGEOT RENAULT
JOV_FEM 0.4138 0.2874 0.2069 0.0920
JOV_FEM 0.4865 0.2747 0.1915 0.0601
JOV_MAS 0.2747 0.1099 0.2857 0.3297
JOV_MAS 0.3378 0.1099 0.2766 0.2256
MAD_FEM 0.1053 0.2632 0.4211 0.2105
MAD_FEM 0.0270 0.0549 0.0851 0.0301
MAD_MAS 0.0574 0.2869 0.1639 0.4918
MAD_MAS 0.0946 0.3846 0.2128 0.4511
MAY_FEM 0.0526 0.3158 0.3158 0.3158
MAY_FEM 0.0135 0.0659 0.0638 0.0451
MAY_MAS 0.0556 0.1852 0.2963 0.4630
MAY_MAS 0.0405 0.1099 0.1702 0.1880
43
j i i N
Grados de libertad = 15
44
ELECCIÓN DEL NÚMERO DE FACTORES A RETENER:
N(1) es significativo
por este método y a nivel α=0.01 no nos conformamos con m=1 componente.
45
2. m=2, 2 factores son suficientes
N(1+2)=69.5406+13.59=83.1365
N(1 +2 ) (10 3) (10 5) 12 Pr ob 12 83.1365 1.03 10
2 2 2 12
N(1+2) es significativo
N(3)=7.6719
46
Estadísticos de sumarización para
Coordinadas de la fila
los puntos de la fila
Dim1 Dim2 Calidad Masa Inercia
JOV_FEM 0.6630 0.1630
JOV_FEM 0.9999 0.2219 0.4466
JOV_MAS 0.1783 -0.2653
JOV_MAS 0.9074 0.2321 0.1128
MAD_FEM -0.0103 -0.1236
MAD_FEM 0.0678 0.0485 0.0475
MAD_MAS -0.4071 0.1603
MAD_MAS 0.9720 0.3112 0.2646
MAY_FEM -0.2258 0.0700
MAY_FEM 0.3628 0.0485 0.0322
MAY_MAS -0.3657 -0.1588
MAY_MAS 0.9817 0.1378 0.0963
47
Estadísticas de sumarización para
Coordenadas de la columna los puntos de columna
Dim1 Dim2 Calidad Masa Inercia
HYUNDAI 0.7742 -0.0214 HYUNDAI 0.9713 0.1888 0.5032
OPEL -0.0249 0.3095 OPEL 0.9010 0.2321 0.1073
PEUGEOT 0.0287 -0.2209 PEUGEOT 0.5906 0.2398 0.0870
RENAULT -0.4340 -0.0437 RENAULT 0.9213 0.3393 0.3025
48
proc print data=grafica;
run;
Obs _TYPE_ _NAME_ Quality Mass Inertia Dim1 Dim2 Contr1 Contr2 SqCos1 SqCos2 Best1 Best2 Best
1 INERTIA . . 0.23165 . . 0.17740 0.03468 . . . . .
2 OBS JOV_FEM 0.99985 0.22194 0.44661 0.66296 0.16303 0.54986 0.17008 0.94284 0.05702 1 1 1
3 OBS JOV_MAS 0.90740 0.23214 0.11282 0.17826 -0.26529 0.04158 0.47106 0.28226 0.62515 0 2 2
4 OBS MAD_FEM 0.06781 0.04847 0.04749 -0.01029 -0.12363 0.00003 0.02136 0.00047 0.06735 0 0 2
5 OBS MAD_MAS 0.97200 0.31122 0.26457 -0.40710 0.16026 0.29076 0.23046 0.84158 0.13042 1 1 1
6 OBS MAY_FEM 0.36284 0.04847 0.03223 -0.22580 0.07005 0.01393 0.00686 0.33099 0.03185 0 0 1
7 OBS MAY_MAS 0.98170 0.13776 0.09628 -0.36568 -0.15881 0.10384 0.10018 0.82592 0.15578 0 0 1
8 VAR HYUNDAI 0.97130 0.18878 0.50324 0.77419 -0.02140 0.63780 0.00249 0.97056 0.00074 1 0 1
9 VAR OPEL 0.90098 0.23214 0.10726 -0.02492 0.30955 0.00081 0.64133 0.00580 0.89518 0 2 2
10 VAR PEUGEOT 0.59057 0.23980 0.08700 0.02874 -0.22093 0.00112 0.33746 0.00983 0.58074 0 2 2
11 VAR RENAULT 0.92132 0.33929 0.30249 -0.43402 -0.04374 0.36027 0.01872 0.91205 0.00926 1 0 1
49
%PLOTIT (DATA=GRAFICA, labelvar=_Name_, plotvars=dim2 dim1, href=0,
vref=0);
50
data fumadoras;
input mujer $ 10. x1-x4;
label x1='Muerto prematuro’ x2='Vivo prematuro' x3='Bebe muerto 1º año'
x4='Bebe vivo tras 1º año';
cards;
51
ELEMENTOS SUPLEMENTARIOS.
52
Dada una columna suplementaria f j+ podemos obtener su Perfil Columna
+
f ij
k
+ ;i = 1, 2, ...k donde f +
.j = f + ij
f
.j
i=1
1 fij+
k
φhj =
+
λh
+ ψ hi
i=1 f .j
1 p fij+
ψ hi+ =
λh
+ φhj
j=1 f i.
53
data USPop;
* Regions:
* New England - ME, NH, VT, MA, RI, CT.
* Great Lake - OH, IN, IL, MI, WI.
* South Atlantic - DE, MD, DC, VA, WV, NC, SC, GA, FL.
* Mountain - MT, ID, WY, CO, NM, AZ, UT, NV.
* Pacific - WA, OR, CA.
*
* Note: Multiply data values by 1000 to get populations.;
datalines;
New England 7401 8166 8437 9314 10509 11842
NY, NJ, PA 22261 26261 27539 30146 34168 37199
Great Lake 21476 25297 26626 30399 36225 40252
Midwest 12544 13297 13517 14061 15394 16319
South Atlantic 13990 15794 17823 21182 25972 30671
KY, TN, AL, MS 8893 9887 10778 11447 12050 12803
AR, LA, OK, TX 10242 12177 13065 14538 16951 19321
Mountain 3336 3702 4150 5075 6855 8282
Pacific 5567 8195 9733 14486 20339 25454
Alaska 55 59 73 129 226 300
Hawaii 256 368 423 500 633 769
;
56