Está en la página 1de 14

COMPONENTES PRINCIPALES

Est. Mónica Grasso


Ing. Cristian Bigatti
2007

Componentes principales

n Objetivo: dada una matriz de datos de


dimensiones nxp que representa los valores
de p variables en n individuos, investigar si
es posible representar los individuos
mediante r variables (r<p) con poca (o,
dentro de lo posible, ninguna) pérdida de
información.

UTN - FRRo - ISI - SG2 - 2007 2

1
Ejemplo 1: matriz 51x9
Gastos por provincia en:
X1= alimentación, X2= vestido y calzado,
X3= vivienda, X4= mobiliario doméstico
X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio,
X9= otros gastos
Prov X1 X2 X3 X4 X5 X6 X7 X8 X9
Almeria 618957,00 295452,00 522128,00 167067,00 58288,00 280035,00 129219,00 307967,00 107334,00
Cadiz 683940,00 203619,00 426690,00 124162,00 60657,00 285888,00 127792,00 313238,00 83523,00
Cordoba 590770,00 265604,00 487143,00 113386,00 37131,00 237320,00 116764,00 247536,00 79924,00
Granada 547353,00 238822,00 458338,00 119540,00 40340,00 236694,00 103901,00 272308,00 72813,00
Huelva 649225,00 245722,00 570631,00 99250,00 61953,00 253286,00 123244,00 238880,00 83070,00

Fuente: Encuesta de Presupuestos Familiares de España, año 1990/91

UTN - FRRo - ISI - SG2 - 2007 3

Componentes principales
Buscamos variables Z, combinación lineal de
las X originales, tales que:
n r de ellas contengan toda la información
n las restantes p-r sean irrelevantes

Ventajas
n Transforma las variables originales,
usualmente correladas en incorreladas
n Es el primer paso para descubrir variables
latentes

UTN - FRRo - ISI - SG2 - 2007 4

2
Componentes principales

n Xnxp: matriz de datos centrados

 x11 x12 ... x1p 


x x22 ... x 2 p 
 21 1
n X=  M
X =0 S= X´X
M M  n
 
 x n1 x n2 ... x np 

UTN - FRRo - ISI - SG2 - 2007 5

V1 V2
Componentes principales 186
181
495
477
176 425
149 322
184 482
190 587
n Ejemplo 2: p=2 158 370
139 322
Datos originales 175 479
700 148 375
152 330
600 111 300
141 386
500
153 401
400 190 645
V2

157 440
300
131 317
200 149 319
135 298
100 132 253
0
media 156,85 401,15
desvío 22,0687 99,841
0 50 100 150 V1 200
varianza 487,0275 9968,2
covarianza 1954,5725
coef correl 0,8871
UTN - FRRo - ISI - SG2 - 2007 6

3
Primera transformación
Datos originales
700

600

500

400

V2
300

200

100

0
0 50 100 150 V1 200

Datos centrados Datos estandarizados


300
3
2,5
200 2
1,5
1
100
variable 2

0,5
V2

0
0 -3 -2 -1 0 1 2
-0,5
-80 -40 0 40
-1
-1,5
-100
-2
V1

-200 variable 1
UTN - FRRo - ISI - SG2 - 2007 7

Datos centrados Datos centrados


300

Comp.1 Comp.2 200

Calorías 0.1942908 0.9809440


Sodio 0.9809440 -0.1942908 100
variable 2

component variances 0
-80 -40 0 40
Comp.1 Comp.2
10355.36014 99.89486 -100

-200 variable 1
Datos originales
700 Datos Rotados (matriz cov)
600 40
500

400
componente 2

20
V2

300 (111;300)
200
0
100 -200 -100 0 100 200 300

0
-20
0 50 100 150 V1 200 componene 1

UTN - FRRo - ISI - SG2 - 2007 8

4
Datos estandarizados
Datos estandarizados Matriz de correlación
3 Comp.1 Comp.2
2,5 Calorías 0.7071068 0.7071068
2 Sodio 0.7071068 -0.7071068
1,5
# component variances
1
0,5
Comp.1 Comp.2
V2

0 1.8870867 0.1129133
-3 -2 -1 0 1 2
-0,5
-1
-1,5
-2
V1

Datos Rotados (matriz de corr)

0,08

0,04
componente 2

0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04

-0,08
componente 1

UTN - FRRo - ISI - SG2 - 2007 9

Componentes Principales
Datos Rotados (matriz cov)
40
componente 2

20

0
-200 -100 0 100 200 300

-20
componene 1

Datos Rotados (matriz de corr)

0,08

0,04
componente 2

0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04

-0,08
componente 1

UTN - FRRo - ISI - SG2 - 2007 10

5
Caso p=2
a 
n a1: vector dirección de la rotación a1=  a11 
 12 
a1 = 1 a´a=1
Datos centrados
300

200

100
variable 2

0
-80 -40 0 40

-100

-200 variable 1

UTN - FRRo - ISI - SG2 - 2007 11

z1i: proyección del vector xi en la dirección a1


r1i: distancia del punto xi a la recta de dirección a1
x i´ a1
( z1 )i = x i cos θ = x i = x i´ a1
x i a1

( z1 )i = a11 x i 1 + a12 x i 2
(r1)i
xi

(z1)i
θ
xi´ xi = (r1)i2+ (z1)i2
a1
UTN - FRRo - ISI - SG2 - 2007 12

6
Criterio para determinar la dirección a1

n Minimizar las distancias de los puntos a la


recta de dirección a1
min ∑ r12i
x´i x i = r12i + z12i

constante
∑ x´i x i = ∑ r12i + ∑ z12i

min ∑ r12i ⇒ max ∑ z12i

UTN - FRRo - ISI - SG2 - 2007 13

Criterio para determinar la dirección a1

n z1 es una variable cuyos valores son las


proyecciones de los vectores xi sobre a1
n Cada (z1)i es combinación lineal de los xi, por
tanto z1 tiene media 0, y:
1 n 2
∑ z 1i = Var (z1 )
n i
max ∑ z12i ⇒ max V (z1 )
n Buscar la dirección que maximiza la varianza
de los datos proyectados

UTN - FRRo - ISI - SG2 - 2007 14

7
Cálculo de la primera componente: z1

n Buscar la combinación lineal de las variables


originales con máxima varianza
n z1 es un vector formado por todas las
proyecciones de los vectores xi sobre a1,
cada una es combinación lineal de las
variables centradas originales: z1=Xa1
1 ´ 1
V ( z1 ) = z 1 z 1 = a´i X´ Xa1 = a´i Sa1
n n

UTN - FRRo - ISI - SG2 - 2007 15

Cálculo de la primera componente: z1

n max a1´S a1
sa a1´a1=1
Usando un multiplicador de Lagrange:
n max M=a1´Sa1-λ(a1´a1-1)

δM
= 2Sa 1 − 2λa1 = 0 Sa1=λa1
δa1

n V(z1)=a1´S a1=a1´λa1=λa1´a1=λ

UTN - FRRo - ISI - SG2 - 2007 16

8
Primera componente principal
Sa1 = λa1 ⇒ (S-λI) a1 = 0
sistema homogéneo de ecuaciones,
tiene solución no nula si S-λI=0

S-λI=0 es la ecuación característica de la matriz


ecuación polinómica en λ de orden p

sus p raíces, λj son los valores propios de la matriz


cada una tiene asociada dos vectores propios, aj
de módulo 1, misma dirección y sentidos opuestos

UTN - FRRo - ISI - SG2 - 2007 17

Cálculo con R (p=2)

> matcovest<-cov(salchi) cov calcula covza y vza dividiendo por (n-1)


> matcov<-19/20*matcovest corrige para que covar y vza sean divididos n
> matcov
v1 v2
v1 487.0275 1954.572
v2 1954.5725 9968.227
> eigen(matcov)
$values
[1] 10355.36014 99.89486

$vectors
[,1] [,2]
[1,] 0.1942908 0.9809440
[2,] 0.9809440 -0.1942908

λ1 =10355.36=Var(z1) (z1)i=0.1943x1i+0.9809x2i

UTN - FRRo - ISI - SG2 - 2007 18

9
Ejemplo 1
X1= alimentación, X2= vestido y calzado, X3= vivienda,
X4= mobiliario doméstico X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos

UTN - FRRo - ISI - SG2 - 2007 19

Ejemplo 1
Se aplicó logaritmo neperiano para simetrizar los datos
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n X1 -0.1147761 -0.05343502 -0.12034155 0.2612229058 -0.214312476 0.44364830
n X2 -0.1826223 -0.16651943 -0.07664524 0.8374539947 0.003532345 -0.23152093
n X3 -0.2990625 0.17601574 -0.34314968 -0.0241379095 -0.048405319 -0.48945499
n X4 -0.3070734 -0.06136193 -0.11284971 0.1310609224 0.006620215 -0.23224887
n X5 -0.4598233 0.18081977 0.85202791 0.0190553226 -0.077400760 -0.07687613
n X6 -0.3407942 -0.28776055 -0.04488003 -0.0880925360 0.861991873 0.17816330
n X7 -0.4992529 0.41864330 -0.28178082 0.0009028143 -0.146450287 0.54427912
n X8 -0.3079972 0.17493979 -0.20270601 -0.3718754460 -0.053300295 -0.34471145
n X9 -0.3131281 -0.78313542 -0.02647115 -0.2574067473 -0.422328437 0.05788501
n Comp.7 Comp.8 Comp.9
n X1 0.071919172 0.017358852 0.80809919
n X2 0.077483651 -0.368776184 -0.19000706
n X3 0.553440559 0.444892280 0.12292624
n X4 -0.786577125 0.438694767 0.08299744
n X5 0.098873645 0.039639425 0.07939753
n X6 0.102477875 -0.013407305 0.07632197
n X7 -0.008422978 -0.008529560 -0.42219896
n X8 -0.180092536 -0.686655462 0.26373622
n X9 0.105080491 -0.001020005 -0.17010529 Suma de valores
propios= 0.459
n > .PC$sd^2 # component variances
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n 0.341339134 0.031427234 0.026244108 0.017199715 0.012221882 0.010605997
n Comp.7 Comp.8 Comp.9
n 0.009978369 0.005735050 0.005177540
UTN - FRRo - ISI - SG2 - 2007 20

10
Ejemplo 1 (cálculo con S estimada)
n $values
n [1] 0.348165916 0.032055778 0.026768990 0.017543710 0.012466319 0.010818117
n [7] 0.010177936 0.005849751 0.005281090

n $vectors Suma de valores


n [,1] [,2] [,3] [,4] [,5] [,6] propios= 0.468
n [1,] -0.1147761 -0.05343502 -0.12034155 0.2612229058 -0.214312476 -0.44364830
n [2,] -0.1826223 -0.16651943 -0.07664524 0.8374539947 0.003532345 0.23152093
n [3,] -0.2990625 0.17601574 -0.34314968 -0.0241379095 -0.048405319 0.48945499
n [4,] -0.3070734 -0.06136193 -0.11284971 0.1310609224 0.006620215 0.23224887
n [5,] -0.4598233 0.18081977 0.85202791 0.0190553226 -0.077400760 0.07687613
n [6,] -0.3407942 -0.28776055 -0.04488003 -0.0880925360 0.861991873 -0.17816330
n [7,] -0.4992529 0.41864330 -0.28178082 0.0009028143 -0.146450287 -0.54427912
n [8,] -0.3079972 0.17493979 -0.20270601 -0.3718754460 -0.053300295 0.34471145
n [9,] -0.3131281 -0.78313542 -0.02647115 -0.2574067473 -0.422328437 -0.05788501
n [,7] [,8] [,9]
n [1,] 0.071919172 -0.017358852 0.80809919
n [2,] 0.077483651 0.368776184 -0.19000706
n [3,] 0.553440559 -0.444892280 0.12292624
n [4,] -0.786577125 -0.438694767 0.08299744
n [5,] 0.098873645 -0.039639425 0.07939753
n [6,] 0.102477875 0.013407305 0.07632197
n [7,] -0.008422978 0.008529560 -0.42219896
n [8,] -0.180092536 0.686655462 0.26373622
n [9,] 0.105080491 0.001020005 -0.17010529

UTN - FRRo - ISI - SG2 - 2007 21

Segunda componente principal

UTN - FRRo - ISI - SG2 - 2007 22

11
Ejemplo 1: Segunda componente principal

X1= alimentación, X2= vestido y calzado, X3= vivienda,


X4= mobiliario doméstico X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos
n λ2=0.032 (Σλi=0.459)
n z2= (0.05x1+0.16x2+0.07x4+0.23x6+0.78x9)-
(0.17x3+0.21x5+0.40x7+0.17x8)
Separa entre provincias con altos costos de
transferencias y transportes (no tienen
universidad) contra las que tienen altos
costos en educación.

UTN - FRRo - ISI - SG2 - 2007 23

Ejemplo 1

UTN - FRRo - ISI - SG2 - 2007 24

12
Propiedades de las nuevas variables

1. Conservan la variabilidad inicial


La traza de una matriz es igual a la suma de sus
valores propios, el determinante al producto de los
mismos.
Varianza total: Tx=tr(S)=Σλi=ΣVar(zi)=Tz
Vza Gralizada: VGx=lSl=Πλi=ΠVar(zi)=VGz

2. La proporción de variabilidad explicada por un


componente es el cociente entre su valor propio y la
suma de los valores propios de la matriz

UTN - FRRo - ISI - SG2 - 2007 25

Análisis con correlaciones


n Al maximizar la varianza de las proyecciones sobre
la dirección a, si alguna de las variables, por ej. xi,
tiene varianza mucho mayor que las de las demás,
entonces el modo de aumentar V(zi) es
acompañando a xi con un coeficiente muy grande.
El primer componente tenderá a coincidir con esta
variable.
n Si las unidades de medida de las variables son
distintas, la maximización dependerá de la escala
usada para cada variable.

Solución: Estandarizar
UTN - FRRo - ISI - SG2 - 2007 26

13
Análisis con correlaciones

n Variables estandarizadas
Matriz de covarianzas=Matriz de correlaciones
n Los componentes principales normados se
obtienen calculando los valores y vectores
propios asociados a la matriz de correlación
Si las diferencias entre las varianzas de
las variables son informativas y
queremos tenerlas en cuenta
NO DEBEMOS ESTANDARIZAR
UTN - FRRo - ISI - SG2 - 2007 27

Bibliografía

n Peña, Daniel (2002): Análisis de Datos


Multivariantes. Editorial Mc Graw Hill.
España. ISBN: 84-481-3610-1 Capítulo 5

n halweb.uc3m.es/esp/Personal/personas/dpen
a/docencia/mcap5.ppt

UTN - FRRo - ISI - SG2 - 2007 28

14

También podría gustarte