Está en la página 1de 5

Componentes Principales: Variables cuantitativas

Introducción: En el contexto multivariado, en muchas situaciones, es difícil determinar


interpretaciones de relación funcional entre las variables, la idea es reducir las dimensiones y
3
hacer un estudio en un espacio más simple, por ejemplo en el plano o el espacio IR , con una
mínima pérdida de información. No se requiere normalidad multivariante

Supongamos que de una población multivariada se extrae una muestra aleatoria e independiente
e idénticamente distribuida representada por una matriz X donde las filas representan las
mediciones y las columnas las variables

[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np

Definición: Las Componentes principales son una combinación lineal de las variables aleatorias
primitivas que corresponden a las componentes del vector aleatorio.

Observación: La finalidad es que se pueda percibir en dimensión uno las relaciones funcionales
que en dimensiones mayores permanecen ocultas. Estas nuevas variables son incorrelacionadas,
lo que permite mejorar la interpretación de los datos

Las C.P solo dependen de la matriz de v-c S o de la matriz de correlación R, no se requiere


normalidad multivariante, sin embargo, consideremos esta distribución para contextualizar

Consideremos que el vector aleatorio


⃗x ≈N p ( ⃗μ ,Σ ) λ ,λ ,..... λ p los valores propios de la
y sean 1 2

matriz de v-c muestral S y 1


⃗e ,....⃗e p los vectores propios asociados, es decir, se tiene la ecuación
de valores y vectores propios dada por

S ⃗ei =λ i ⃗ei
λ ⃗e
Supongamos que 1 es el valor propio mayor y 1 su vector propio asociado (todos los valores
propios de la matriz S son positivos, ya que, ésta matriz es positiva definida),

Y = ⃗
e t
x
⃗ ⃗x =[ x 1 , x 2 ,. .. . ., x p ]
t
Definición: La primera C.P se define por 1 1 donde el vector contiene
las p variables aleatorias originales

Similarmente la segunda, tercera, cuarta C.P se definen de manera similar por


Y 2 =⃗ Y 3 =⃗ Y 4 =⃗
t t t
e 2 ⃗x e 3 ⃗x e 4 ⃗x ,….

Y λ Y i=⃗
e t ⃗x
La varianza de la C.P i corresponde al valor propio i ,en efecto, si i
Proposición:

Var(Y i )=V ( ⃗
e i ⃗x )=⃗
e i S ⃗e i= ⃗
t t t
ei λ i ⃗ei =λi‖⃗ei‖= λi .
p p p p
∑ Sii =∑ var ( x i )=∑ Y i=∑ λi
Además la varianza total es VTotal= I =1 i =1 i=1 i=1

λi∗100
p
∑ λi
La proporción de varianza total explicada por la i-ésima C.P es dada por i =1

Observación:

cov(Y i ,Y j )=⃗ e j =⃗
eit S ⃗ ei t λ j e⃗j=0

Nota: Los vectores propios para éste caso particular son ortogonales y por lo tanto su producto
punto es nulo

La magnitud de las componentes del vector propio miden la importancia de la variable original en
la C.P, éste hecho, lo describe el siguiente resultado

e ik √ λi
Definición: r Y ,x =
i k
√ S kk Y
caracteriza al coeficiente de correlación lineal entre la C.P i y la

x
variable aleatoria k

Cuando los valores de las entradas de la matriz son muy disímiles, es conveniente normalizar los
datos de la matriz de muestreo usando el siguiente resultado

( )
i= p
1
diag(S−1/2 )=
−1/2 s
Z =H n Xdiag (S ) donde ii
0. 5 i=1
es una matriz diagonal
Los cálculos para determinar las C.P en un contexto de normalización es análogo a los cálculos
previos o en forma equivalente en lugar de calcular los valores propios y vectores propios de la
matriz de v-c S se usa la matriz de correlación R de la matriz X

Proposición: Si X es la matriz de muestreo y T es la matriz cuyas columnas son los vectores propios
ordenados de acuerdo a la magnitud de los valores propios en forma decreciente. Entonces la
matriz de componentes principales es

[ ][ ]
x 11 x 12 . . x1 p e 11 e 12 . . e1 p
x 21 x 22 . . x2 p e 21 e 22 . . e2 p
Y = XT= . . . . . . . . . .
. . . . . . . . . .
x n1 xn 2 . . x np e p1 e p2 . . e pp

[ ]
3 36 0 .1
X= 4 48 0. 02
2 51 0.35
Ejemplo: Considere la matriz de muestreo
1 64 0. 46

a) Determine el porcentaje de información de cada C.P y la varianza total

b) Determine las dos primeras C.P y la variable que contiene mayor información en la

Primera C.P

c) Normalice los datos de la matriz y responda nuevamente a) y b)

Solución: a)

[ ]
1 .25 −7 . 875 −0. 19625
1
S X = X t H 4 X = −7 . 875 99. 1875 1 . 39563 ⇒
4
−0 . 19625 1. 39563 0 . 032069
3
Var( X )=1. 25+99. 1875+0 . 032069=100 . 47=∑ λi
i=1

Los valores propios son


λ1 =99 . 8365 λ2 =0 . 632332 λ 3=0. 0007323

Porcentaje de información de la C.P ordenadas en forma decreciente son dadas po :

Primera C.P 99.3699% Segunda C.P 0.6294% Tercera C.P 0.0007%


t
⃗x =[ x 1 , x 2 , x 3 ]
b) Denotemos el vector aleatorio por
t
el vector propio asociado a
λ1 es
e 1= [−0 . 079645 , 0 .996724 ,0 . 014094 ]

t
y para el valor propio
e 2= [ 0 . 987549 , 0 .080821 ,−0. 134959 ]
λ2 el vector propio es ⃗

Y 1 =⃗
e t ⃗x =−0. 079645 x 1 +0 . 996724 x 2 +0 . 014094 x 3
luego la primera C.P 1

Y 2 =⃗
e t ⃗x =0. 987549 x 1 +0 . 080821 x 2 −0 .134959 x 3
y la segunda C.P 2 .

Para determinar la importancia de las variables aleatorias en las C.P se calcula el coeficiente

de correlación de Pearson

−0. 079645 √ 99 .8365 0.996724 √ 99.8365


r Y 1 ,x1 = =−0.711784 r Y 1 , x2 = =0.999949
√1.25 √99 .1875
0.014094 √ 99 .8365
r Y 1 , x3 = =0.786363
√0.032069
Luego la variable aleatoria más importante en la primera C.P es
x2

c) La matriz Z que tiene entradas normalizadas tiene matriz de v-c

[ ] [ ]
0 . 447215 −1 . 38062 −0 .739905
1 −0. 707239 −0 . 980197
1 . 34165 −0 . 175715 −1. 18664
Z= ⇒ S Z = −0.707239 1 0. 782526
−0. 447215 0. 125511 0 . 656142
−0 .980197 0 .782526 1
−1 .34165 1. 43082 1. 2704

los valores propios son


λ1 =2 .65225 λ 2=0. 334639 λ3 =0 . 013099

E( ⃗z )= ⃗0 Var (⃗z )=I 3


t
⃗z =[ z 1 , z 2 , z 3 ]
En éste contexto el vector aleatorio tiene

Porcentaje de información de la C.P ordenadas: 84.4087% 11.1547 % 0.4366%

Y 1 =⃗
e t ⃗x =−0. 588397 z 1 +0 . 537815 z 2 +0. 603775 z 3
La primera componente es 1

−0.588397 √ 2.65225 0 .537815 √ 2.65225


r Y 1 ,z 1= =−0. 958236 r Y 1 , z 1= =0. 875871
1 1
0.603775 √ 2. 65225
rY = =0 . 983292
1 , z1 1
Conclusión: La finalidad es obtener variables incorrelacionadas que permiten una mejor
interpretación y también minimizar las dimensiones en los cálculos, idealmente en dimensión uno,
dos o tres con una mínima pérdida de información y con la posibilidad de hacer gráficos. En el
ejemplo se puede reemplazar la matriz de muestreo X por los valores de la primera C.P con una
pérdida de información igual 0.6301%, en lugar de calcular en dimensión 3 se hace solo en
dimensión 1 con muy poco pérdida de información

También podría gustarte