Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Componentes principales
1
Ejemplo 1: matriz 51x9
Gastos por provincia en:
X1= alimentación, X2= vestido y calzado,
X3= vivienda, X4= mobiliario doméstico
X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio,
X9= otros gastos
Prov X1 X2 X3 X4 X5 X6 X7 X8 X9
Almeria 618957,00 295452,00 522128,00 167067,00 58288,00 280035,00 129219,00 307967,00 107334,00
Cadiz 683940,00 203619,00 426690,00 124162,00 60657,00 285888,00 127792,00 313238,00 83523,00
Cordoba 590770,00 265604,00 487143,00 113386,00 37131,00 237320,00 116764,00 247536,00 79924,00
Granada 547353,00 238822,00 458338,00 119540,00 40340,00 236694,00 103901,00 272308,00 72813,00
Huelva 649225,00 245722,00 570631,00 99250,00 61953,00 253286,00 123244,00 238880,00 83070,00
Componentes principales
Buscamos variables Z, combinación lineal de
las X originales, tales que:
n r de ellas contengan toda la información
n las restantes p-r sean irrelevantes
Ventajas
n Transforma las variables originales,
usualmente correladas en incorreladas
n Es el primer paso para descubrir variables
latentes
2
Componentes principales
V1 V2
Componentes principales 186
181
495
477
176 425
149 322
184 482
190 587
n Ejemplo 2: p=2 158 370
139 322
Datos originales 175 479
700 148 375
152 330
600 111 300
141 386
500
153 401
400 190 645
V2
157 440
300
131 317
200 149 319
135 298
100 132 253
0
media 156,85 401,15
desvío 22,0687 99,841
0 50 100 150 V1 200
varianza 487,0275 9968,2
covarianza 1954,5725
coef correl 0,8871
UTN - FRRo - ISI - SG2 - 2007 6
3
Primera transformación
Datos originales
700
600
500
400
V2
300
200
100
0
0 50 100 150 V1 200
0,5
V2
0
0 -3 -2 -1 0 1 2
-0,5
-80 -40 0 40
-1
-1,5
-100
-2
V1
-200 variable 1
UTN - FRRo - ISI - SG2 - 2007 7
component variances 0
-80 -40 0 40
Comp.1 Comp.2
10355.36014 99.89486 -100
-200 variable 1
Datos originales
700 Datos Rotados (matriz cov)
600 40
500
400
componente 2
20
V2
300 (111;300)
200
0
100 -200 -100 0 100 200 300
0
-20
0 50 100 150 V1 200 componene 1
4
Datos estandarizados
Datos estandarizados Matriz de correlación
3 Comp.1 Comp.2
2,5 Calorías 0.7071068 0.7071068
2 Sodio 0.7071068 -0.7071068
1,5
# component variances
1
0,5
Comp.1 Comp.2
V2
0 1.8870867 0.1129133
-3 -2 -1 0 1 2
-0,5
-1
-1,5
-2
V1
0,08
0,04
componente 2
0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04
-0,08
componente 1
Componentes Principales
Datos Rotados (matriz cov)
40
componente 2
20
0
-200 -100 0 100 200 300
-20
componene 1
0,08
0,04
componente 2
0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04
-0,08
componente 1
5
Caso p=2
a
n a1: vector dirección de la rotación a1= a11
12
a1 = 1 a´a=1
Datos centrados
300
200
100
variable 2
0
-80 -40 0 40
-100
-200 variable 1
( z1 )i = a11 x i 1 + a12 x i 2
(r1)i
xi
(z1)i
θ
xi´ xi = (r1)i2+ (z1)i2
a1
UTN - FRRo - ISI - SG2 - 2007 12
6
Criterio para determinar la dirección a1
constante
∑ x´i x i = ∑ r12i + ∑ z12i
7
Cálculo de la primera componente: z1
n max a1´S a1
sa a1´a1=1
Usando un multiplicador de Lagrange:
n max M=a1´Sa1-λ(a1´a1-1)
δM
= 2Sa 1 − 2λa1 = 0 Sa1=λa1
δa1
n V(z1)=a1´S a1=a1´λa1=λa1´a1=λ
8
Primera componente principal
Sa1 = λa1 ⇒ (S-λI) a1 = 0
sistema homogéneo de ecuaciones,
tiene solución no nula si S-λI=0
$vectors
[,1] [,2]
[1,] 0.1942908 0.9809440
[2,] 0.9809440 -0.1942908
λ1 =10355.36=Var(z1) (z1)i=0.1943x1i+0.9809x2i
9
Ejemplo 1
X1= alimentación, X2= vestido y calzado, X3= vivienda,
X4= mobiliario doméstico X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos
Ejemplo 1
Se aplicó logaritmo neperiano para simetrizar los datos
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n X1 -0.1147761 -0.05343502 -0.12034155 0.2612229058 -0.214312476 0.44364830
n X2 -0.1826223 -0.16651943 -0.07664524 0.8374539947 0.003532345 -0.23152093
n X3 -0.2990625 0.17601574 -0.34314968 -0.0241379095 -0.048405319 -0.48945499
n X4 -0.3070734 -0.06136193 -0.11284971 0.1310609224 0.006620215 -0.23224887
n X5 -0.4598233 0.18081977 0.85202791 0.0190553226 -0.077400760 -0.07687613
n X6 -0.3407942 -0.28776055 -0.04488003 -0.0880925360 0.861991873 0.17816330
n X7 -0.4992529 0.41864330 -0.28178082 0.0009028143 -0.146450287 0.54427912
n X8 -0.3079972 0.17493979 -0.20270601 -0.3718754460 -0.053300295 -0.34471145
n X9 -0.3131281 -0.78313542 -0.02647115 -0.2574067473 -0.422328437 0.05788501
n Comp.7 Comp.8 Comp.9
n X1 0.071919172 0.017358852 0.80809919
n X2 0.077483651 -0.368776184 -0.19000706
n X3 0.553440559 0.444892280 0.12292624
n X4 -0.786577125 0.438694767 0.08299744
n X5 0.098873645 0.039639425 0.07939753
n X6 0.102477875 -0.013407305 0.07632197
n X7 -0.008422978 -0.008529560 -0.42219896
n X8 -0.180092536 -0.686655462 0.26373622
n X9 0.105080491 -0.001020005 -0.17010529 Suma de valores
propios= 0.459
n > .PC$sd^2 # component variances
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n 0.341339134 0.031427234 0.026244108 0.017199715 0.012221882 0.010605997
n Comp.7 Comp.8 Comp.9
n 0.009978369 0.005735050 0.005177540
UTN - FRRo - ISI - SG2 - 2007 20
10
Ejemplo 1 (cálculo con S estimada)
n $values
n [1] 0.348165916 0.032055778 0.026768990 0.017543710 0.012466319 0.010818117
n [7] 0.010177936 0.005849751 0.005281090
11
Ejemplo 1: Segunda componente principal
Ejemplo 1
12
Propiedades de las nuevas variables
Solución: Estandarizar
UTN - FRRo - ISI - SG2 - 2007 26
13
Análisis con correlaciones
n Variables estandarizadas
Matriz de covarianzas=Matriz de correlaciones
n Los componentes principales normados se
obtienen calculando los valores y vectores
propios asociados a la matriz de correlación
Si las diferencias entre las varianzas de
las variables son informativas y
queremos tenerlas en cuenta
NO DEBEMOS ESTANDARIZAR
UTN - FRRo - ISI - SG2 - 2007 27
Bibliografía
n halweb.uc3m.es/esp/Personal/personas/dpen
a/docencia/mcap5.ppt
14