Está en la página 1de 30

Componentes

principales
MET. ROSA ISELA
HERNÁNDEZ ZAMORA
Componentes Principales

Es una metodología estadística


multivariada que tiene por
objetivo:

Reducción de variables o datos.


Supongamos un vector aleatorio
Xp  ( X 1 , X 2 ,  , X p ).
Desde el punto de vista matemático
los componentes principales son
combinaciones lineales de las p variables
X i que representan un nuevo sistema de
coordenadas (rotando los ejes X i ) con la
máxima variabilidad.
120
Y1
110
Y2
100

90
X2
80

70

60

50

40
40 60 80 100 120 140 X1 160

Ilustración gráfica.
El algoritmo que se aplica es el siguiente.

1. - Encontrar un vector c1  (c11 , c12 ,  , c1 p ) tal que se maximize


2 2
var(c1 x)  var(c11 x1  c12 x2    c1 p x p ) s.a. c1 c1  1  c11  c12    c12p .
2. - Encontrar un vector c2  (c21 , c22 ,  , c2 p ) tal que se maximize
var(c2 x)  var(c21 x1  c22 x2    c2 p x p ) s.a. c2c 2  1 y c1 c 2  0.
3. - Encontrar un vector c3  (c31 , c32 ,  , c3 p ) tal que se maximize
var(c3x)  var(c31 x1  c32 x2    c3 p x p ) s.a. c3c3  1, c1c3  0, c2c3  0.
  
Encontrar un vector cq  (cq1 , cq 2 ,  , cqp ) tal que se maximize
var(cq x)  var(cq1 x1  cq 2 x2    cqp x p ) s.a. cq c q  1, cp c q  0 para p  q

hasta q  p.
Resolvemos el paso 1.
Supongamos que se tiene una muestra
aleatoria del vector X p con matriz de
covarianzas Σ. Se quiere :
max var(cX )  cΣc
p
s.a. cc  1  i 1
ci
2
.
El lagrangiano es,
L(c)  cΣc   (cc  1)  cΣc   (cIc  1)
d
L(c)  2 Σc  2Ic  0
dc
Σc  c de donde (c,  ) deben ser el
eigen vector y su correspondiente
eigenvalor de Σ.
Sea e1 y 1 un eigenvector y su
correspondiente eigenvalor de Σ.
Entonces, var(e1 X )  e1 Σe1  e1 (1e1 )
var(e1 X )  1e1e1  1 (1)  1.
Entonces para maximizar var(e1 X )
se tiene que 1 debe ser el mayor
eigenvalor de Σ.
De manera similar se puede probar
que (e 2 , 2 ) es la solución de
max cΣc s.a. cc  1 y c  e1
donde 2 es el segundo eigenvalor
mayor, etc.
El i - ésimo componente principal es
Yi  ei X p  ei1 xi  ei 2 x2    eip x p .
Ahora, la varianza total de las X ´s
2 2 2
es Var T   1 2  p

es decir en la traza de Σ,
luego, Var T  Tr ( Σ).
Pero Σ  PΛP, donde P es la matriz
cuyas columnas son los eigenvectores
y Λ es la matriz diagonal cuyos elementos
son los eigenvalores.
Entonces,
Var T  tr ( Σ)  tr (PΛP)  tr ( ΛPP )
p
Var T  tr ( ΛI )  tr ( Λ )  i 1 i .
Luego, la proporción de la varianza
total que tiene el componente ppal i
i
está dado por p
.
i1 i
x1 x2 x3 x4 x5 x6
84.382 -56.062 1458.060 963.242 -148.181 3.656
-10.873 -69.034 1305.460 913.603 -50.791 -132.867
144.774 -319.350 1326.110 895.760 -230.398 -487.729
63.542 104.477 616.300 874.947 67.845 -23.531
Ejemplo. 81.999
6.863
84.940 1202.560
6.778 1014.240
902.133
883.390
169.140
6.745
199.378
38.784
15.180 15.891 1329.520 901.544 -48.663 127.133
-35.908 37.971 872.060 905.490 -11.199 -73.262
33.364 -98.488 1232.280 913.914 6.776 -183.936
78.043 10.883 1223.170 922.645 53.476 44.834
-93.775 -51.779 732.940 876.964 -256.938 -144.118
22.416 -98.666 810.750 832.410 -123.568 2.052
1.416 132.388 378.140 824.000 63.173 225.744
129.971 -95.307 1271.320 910.957 -19.296 -144.014
100.313 -1.844 1393.110 930.208 -59.459 179.095
54.674 134.101 1528.450 918.996 229.928 368.150
70.757 -130.367 1086.440 892.253 8.039 -254.489
95.466 -126.657 1250.430 917.406 -5.297 -299.965
-108.091 -63.782 1122.410 904.053 -312.849 169.856
76.369 95.470 532.170 911.938 10.938 -65.787
Resultado en R del Análisis de Componentes Principales de las variables: x1, x2,
x3, x4 y x6
 Análisis de los valores propios de la Matriz de Covarianza
PC1 PC2 PC3 PC4 PC5 PC6
Standard deviation 328.5356 233.6110 124.67700 47.55939 36.39006 9.5385
Proportion of Variance 0.5939 0.3003 0.08553 0.01245 0.00729 0.0005
Cumulative Proportion 0.5939 0.8942 0.97977 0.99221 0.99950 1.0000

 Análisis de los vectores propios de la Matriz de Covarianza


Rotation (n x k) = (6 x 6):
PC1 PC2 PC3 PC4 PC5 PC6
x1 -0.07713247 -0.033286434 0.35481580 -0.87563545 0.29766275 -0.1082026
x2 0.15089654 0.394999536 0.13788156 0.32057144 0.69033716 -0.4720835
x3 -0.98123964 0.119161215 -0.01698752 0.09835703 0.02850493 -0.1104271
x4 -0.06871844 0.007085868 0.01778818 0.09201604 0.53633469 0.8359362
x5 0.01677516 0.344378640 0.83773896 0.18903449 -0.33591021 0.1753445
x6 0.05870222 0.842627514 -0.39074655 -0.27680576 -0.18310760 0.1539488

OJO: el primer componente ppal esta dominado por x3.


Gráfico de
codo.
Si son diferentes unidades se recomienda hacer
el analisis de CP con los datos estandarizados,
donde Σ se reduce a la matriz de correlaciones.
 Análisis de los valores propios de la Matriz de Correlación
PC1 PC2 PC3 PC4 PC5 PC6
Standard deviation 1.5559 1.3732 1.0279 0.6119 0.49910 0.11566
Proportion of Variance 0.4035 0.3143 0.1761 0.0624 0.04152 0.00223
Cumulative Proportion 0.4035 0.7177 0.8939 0.9563 0.99777 1.00000

 Análisis de los vectores propios de la Matriz de Correlación


Rotation (n x k) = (6 x 6):
PC1 PC2 PC3 PC4 PC5 PC6
x1 -0.2628718 -0.4201516 -0.6211299 0.12893552 -0.58720786 -0.08444694
x2 0.5828519 -0.2502973 0.0648740 -0.34568478 -0.12911095 -0.67620905
x3 -0.3858817 -0.4550925 0.3575666 0.49107741 0.29073246 -0.43640557
x4 -0.3229733 -0.4801139 0.3733519 -0.65830764 -0.09298236 0.28943479
x5 0.3226217 -0.4944048 -0.4251626 0.00568696 0.61721935 0.29953935
x6 0.4836123 -0.2806585 0.4024677 0.43510843 -0.40544602 0.41432343

OJO, aquí ya no domina x3 ni x4.


Gráfico de codo con los CP de la
matriz de correlaciones.
Se recomienda los componentes
ppales que acumulan
Entre el 70 y 90% de la varianza
total.
Ejemplo. Variables de un pozo petrolero. datos

Eigenanalysis of the Correlation Matrix


Eigenvalue 5.3471 1.1674 0.7242 0.3932 0.2510 0.0826 0.0231 0.0114
Proportion 0.668 0.146 0.091 0.049 0.031 0.010 0.003 0.001
Cumulative 0.668 0.814 0.905 0.954 0.985 0.996 0.999 1.000

Variable PC1 PC2 PC3 PC4 PC5 PC6


peso de levante(stons) 0.420 -0.057 -0.058 0.047 -0.352 -0.186
peso de arrastre(stones) 0.421 0.094 -0.066 -0.051 -0.330 -0.255
peso de rotación(stones) 0.417 0.113 -0.076 -0.105 -0.364 -0.056
torque de fondo(KLft) 0.407 -0.110 0.219 -0.031 0.018 0.871
torque fuera de fondo(KLft) 0.309 -0.358 0.491 0.583 0.304 -0.287
ángulo(grados) 0.285 0.351 -0.648 0.425 0.434 0.081
RPM 0.229 0.639 0.451 -0.373 0.397 -0.160
peso de lodo(stones) 0.278 -0.551 -0.274 -0.569 0.442 -0.157

Variable PC7 PC8


peso de levante(stons) -0.715 0.379
peso de arrastre(stones) 0.049 -0.794
peso de rotación(stones) 0.672 0.458
torque de fondo(KLft) -0.062 -0.104
torque fuera de fondo(KLft) 0.143 0.018
ángulo(grados) -0.009 0.012
RPM -0.098 0.063
peso de lodo(stones) 0.021 0.010
Scree Plot of peso de levante(stons), ..., peso de lodo(stones)
6

4
Eigenvalue
3

1 2 3 4 5 6 7 8
Component Number
PL PA PR TF TFF A RPM PL
143 122 140 10.5 9.5 40.3 42 9.5

xbarra: 148.5862 129.4828 139.7931 9.468966 8.641379 53.34897 41.93103 9.438621


S: 6.213564 6.434398 6.548606 1.608705 1.42466 4.188646 2.344157 0.080655

Z: -0.89903 -1.16293 0.031594 0.64091 0.602685 -3.11532 0.02942 0.761014

e1 e2 e3
0.420491 -0.05723 -0.05804 Y1 = -1.07452
0.420529 0.093728 -0.06597
0.417104 0.113073 -0.07589 Y2 = -1.835
0.407483 -0.10995 0.219007
0.309469 -0.35763 0.490856 Y3 = 2.385854
0.28459 0.35138 -0.64779
0.228629 0.639002 0.450741
0.278013 -0.5508 -0.27353

Ejemplo de cálculo de componentes principales 1, 2 y 3.


Ejemplo: puntajes de estudiantes de ingreso a posgrado.

Eigenanalysis of the Correlation Matrix


357 cases used, 209 cases contain missing values

Eigenvalue 3.2642 0.9941 0.8460 0.7221 0.6299 0.5212 0.0225


Proportion 0.466 0.142 0.121 0.103 0.090 0.074 0.003
Cumulative 0.466 0.608 0.729 0.832 0.922 0.997 1.000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7


PUNTAJE_GLOBAL 0.547 -0.081 0.033 -0.003 -0.025 0.023 0.832
PUNTAJE_VERBAL 0.381 -0.022 0.200 -0.478 0.695 0.206 -0.247
PUNTAJE_HABILIDADESCON 0.391 -0.158 -0.268 0.465 0.283 -0.633 -0.233
PUNTAJE_REDACCION 0.275 0.445 0.675 0.463 -0.109 0.127 -0.170
PUNTAJE_MATEMÁTICO 0.389 -0.332 -0.341 0.241 -0.256 0.640 -0.299
PUNTAJE_INGLÉS 0.390 -0.016 0.112 -0.525 -0.599 -0.355 -0.273
PROMEDIO_PROFESIONAL 0.156 0.812 -0.550 -0.089 0.015 0.070 -0.004
Scree Plot of PUNTAJE_GLOBAL, ..., PROMEDIO_PROFESIONAL
3.5

3.0

2.5

Eigenvalue
2.0

1.5

1.0

0.5

0.0
1 2 3 4 5 6 7
Component Number
PG PV PH PR PM PI PP
490 62 55 58 47 60 88

Xbarra: 568.0106 51.4894 53.5053 58.16431 51.11484 54.11131 86.80906


S: 79.40083 9.638 8.645372 9.385332 8.81627 7.695992 5.939173

Z: -0.98249 1.090538 0.17289 -0.01751 -0.46673 0.765164 0.200523

e1 e2 e3
0.546895 -0.08063 0.033144 Y1 = 0.088881
0.380687 -0.0221 0.199904
0.390753 -0.15752 -0.26815 Y2 = 0.325724
0.274851 0.445248 0.674621
0.388846 -0.33177 -0.34125 Y3 = 0.262069
0.390075 -0.01578 0.112242
0.156183 0.812178 -0.55033

Ejemplo de cálculo de componentes principales 1, 2 y 3.


INFERENCIA CON MUESTRA GRANDE
Sea X1 ,  , X n una muestra aleatoria de una distribución
normal con matriz de covarianza Σ p con eigenvalores
1  2     p  0. Sea λˆ   (ˆ1 ,  , ˆ p ) y eˆ1 ,  , eˆ p los
eigenvalores y eigenvectores de S.
1. Sea Λ la matriz diagonal de eigenvalores 1 , ,  p de Σ.
Entonces n (λˆ  λ ) tiene una dist aproximada de N p (0,2 Λ 2 ).
p
k
2. Sea Ei  i  e e , entonces
2 k k
k 1 (k  i )
k i

n (eˆ i  ei ) tiene una dist aproximada de N p (0, Ei ).


3. Cada ˆi es independiente de eˆ i .
De 1 se concluye que los ˆi son independientes y que
ˆ 2
 tiene dist aprox N ( ,2 / n), luego
i i i

P{| ˆi  i | z / 2 i 2 / n }  1   , de donde el IC es,


ˆi ˆi
 i  .
1  z / 2 2 / n 1  z / 2 2 / n

Para intervalos de Bonferroni de m eigenvalores,


sustituir z / 2 por z / 2 m .
Ejemplo. Variables de pozo petrolero (n = 29).

5.347 5.347
IC del 95% para 1 :  1  ,
1  1.96 2 / 29 1  1.96 2 / 29
3.53  1  11 .02.

IC de Bonferroni del 95% para 1 , 2 , 3 (m  3, z0.05 / 6  2.394);


5.347 1.167 0.724
1 : , 2 : , 3 :
1  2.394 2 / 29 1  2.394 2 / 29 1  2.394 2 / 29
3.283  1  14.40, 0.717  2  3.143, 0.445  3  1.950 .
MAS EJEMPLOS DE PCA.

proceso quimico mas ejemplos


PH para Equicorrelación.

1   
 1   
Sea ρ 0   
    
 
    1  p p
Luego H 0 : ρ  ρ 0 vs H1 : ρ  ρ 0 .

H 0 equivale a que solo hay un eigenvalor en Σ.


Sea R p p  (rij ) la matriz de correlaciones lineales de n observaciones.
Sea :
p
 r ik
i 1
ik
rk  (promedio de los elementos fuera de la diagonal en la columna k )
p 1

2 rij
i j
r (promedio de elementos fuera de la diagonal)
p ( p  1)

( p  1) 2 [1  (1  r ) 2 ]
ˆ 
p  ( p  2)(1  r ) 2
Estadístico de prueba,

p
(n  1)  2
T 2   
(1  r )  i k
( rik  r ) 2
 ˆ  ( rk  r ) 
k 1 

Se rechaza H 0 con nivel de significancia  si


2
T  , ( p 1)( p  2) / 2 .
Ejemplo.
n = 150
1 0.7501 0.6329 0.6363
R= 0.7501 1 0.6925 0.7386
0.6329 0.6925 1 0.6625
0.6363 0.7386 0.6625 1

r-barra(k) = 0.6731 0.727067 0.662633 0.679133 r-barra = 0.685483

gamma-gorrito = 2.132924 T = 11.36206


valor crítico = 11.0705

Luego, con alfa = 5%, se tiene que no hay equicorrelación.

ejemplo

También podría gustarte