Apte7 - Métodos Multivariados - Prof Fraancisco Gómez - v1

Componentes Principales: Variables cuantitativas
Introducción: En el contexto multivariado, en muchas situaciones, es difícil determinar

interpretaciones de relación funcional entre las variables, la idea es reducir las dimensiones y
3
hacer un estudio en un espacio más simple, por ejemplo en el plano o el espacio IR , con una
mínima pérdida de información. No se requiere normalidad multivariante
Supongamos que de una población multivariada se extrae una muestra aleatoria e independiente
e idénticamente distribuida representada por una matriz X donde las filas representan las
mediciones y las columnas las variables
[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np
Definición: Las Componentes principales son una combinación lineal de las variables aleatorias
primitivas que corresponden a las componentes del vector aleatorio.
Observación: La finalidad es que se pueda percibir en dimensión uno las relaciones funcionales
que en dimensiones mayores permanecen ocultas. Estas nuevas variables son incorrelacionadas,
lo que permite mejorar la interpretación de los datos
Las C.P solo dependen de la matriz de v-c S o de la matriz de correlación R, no se requiere

normalidad multivariante, sin embargo, consideremos esta distribución para contextualizar
Consideremos que el vector aleatorio

⃗x ≈N p ( ⃗μ ,Σ ) λ ,λ ,..... λ p los valores propios de la
y sean 1 2
matriz de v-c muestral S y 1

⃗e ,....⃗e p los vectores propios asociados, es decir, se tiene la ecuación
de valores y vectores propios dada por
S ⃗ei =λ i ⃗ei
λ ⃗e
Supongamos que 1 es el valor propio mayor y 1 su vector propio asociado (todos los valores
propios de la matriz S son positivos, ya que, ésta matriz es positiva definida),
Y = ⃗
e t
x
⃗ ⃗x =[ x 1 , x 2 ,. .. . ., x p ]
t
Definición: La primera C.P se define por 1 1 donde el vector contiene
las p variables aleatorias originales
Similarmente la segunda, tercera, cuarta C.P se definen de manera similar por

Y 2 =⃗ Y 3 =⃗ Y 4 =⃗
t t t
e 2 ⃗x e 3 ⃗x e 4 ⃗x ,….
Y λ Y i=⃗
e t ⃗x
La varianza de la C.P i corresponde al valor propio i ,en efecto, si i
Proposición:
Var(Y i )=V ( ⃗
e i ⃗x )=⃗
e i S ⃗e i= ⃗
t t t
ei λ i ⃗ei =λi‖⃗ei‖= λi .
p p p p
∑ Sii =∑ var ( x i )=∑ Y i=∑ λi
Además la varianza total es VTotal= I =1 i =1 i=1 i=1
λi∗100
p
∑ λi
La proporción de varianza total explicada por la i-ésima C.P es dada por i =1
Observación:
cov(Y i ,Y j )=⃗ e j =⃗
eit S ⃗ ei t λ j e⃗j=0
Nota: Los vectores propios para éste caso particular son ortogonales y por lo tanto su producto
punto es nulo
La magnitud de las componentes del vector propio miden la importancia de la variable original en
la C.P, éste hecho, lo describe el siguiente resultado
e ik √ λi
Definición: r Y ,x =
i k
√ S kk Y
caracteriza al coeficiente de correlación lineal entre la C.P i y la
x
variable aleatoria k
Cuando los valores de las entradas de la matriz son muy disímiles, es conveniente normalizar los
datos de la matriz de muestreo usando el siguiente resultado
( )
i= p
1
diag(S−1/2 )=
−1/2 s
Z =H n Xdiag (S ) donde ii
0. 5 i=1
es una matriz diagonal
Los cálculos para determinar las C.P en un contexto de normalización es análogo a los cálculos
previos o en forma equivalente en lugar de calcular los valores propios y vectores propios de la
matriz de v-c S se usa la matriz de correlación R de la matriz X
Proposición: Si X es la matriz de muestreo y T es la matriz cuyas columnas son los vectores propios
ordenados de acuerdo a la magnitud de los valores propios en forma decreciente. Entonces la
matriz de componentes principales es
[ ][ ]
x 11 x 12 . . x1 p e 11 e 12 . . e1 p
x 21 x 22 . . x2 p e 21 e 22 . . e2 p
Y = XT= . . . . . . . . . .
. . . . . . . . . .
x n1 xn 2 . . x np e p1 e p2 . . e pp
[ ]
3 36 0 .1
X= 4 48 0. 02
2 51 0.35
Ejemplo: Considere la matriz de muestreo
1 64 0. 46
a) Determine el porcentaje de información de cada C.P y la varianza total
b) Determine las dos primeras C.P y la variable que contiene mayor información en la
Primera C.P
c) Normalice los datos de la matriz y responda nuevamente a) y b)
Solución: a)
[ ]
1 .25 −7 . 875 −0. 19625
1
S X = X t H 4 X = −7 . 875 99. 1875 1 . 39563 ⇒
4
−0 . 19625 1. 39563 0 . 032069
3
Var( X )=1. 25+99. 1875+0 . 032069=100 . 47=∑ λi
i=1
Los valores propios son

λ1 =99 . 8365 λ2 =0 . 632332 λ 3=0. 0007323
Porcentaje de información de la C.P ordenadas en forma decreciente son dadas po :
Primera C.P 99.3699% Segunda C.P 0.6294% Tercera C.P 0.0007%

t
⃗x =[ x 1 , x 2 , x 3 ]
b) Denotemos el vector aleatorio por
t
el vector propio asociado a
λ1 es
e 1= [−0 . 079645 , 0 .996724 ,0 . 014094 ]
⃗
t
y para el valor propio
e 2= [ 0 . 987549 , 0 .080821 ,−0. 134959 ]
λ2 el vector propio es ⃗
Y 1 =⃗
e t ⃗x =−0. 079645 x 1 +0 . 996724 x 2 +0 . 014094 x 3
luego la primera C.P 1
Y 2 =⃗
e t ⃗x =0. 987549 x 1 +0 . 080821 x 2 −0 .134959 x 3
y la segunda C.P 2 .
Para determinar la importancia de las variables aleatorias en las C.P se calcula el coeficiente
de correlación de Pearson
−0. 079645 √ 99 .8365 0.996724 √ 99.8365

r Y 1 ,x1 = =−0.711784 r Y 1 , x2 = =0.999949
√1.25 √99 .1875
0.014094 √ 99 .8365
r Y 1 , x3 = =0.786363
√0.032069
Luego la variable aleatoria más importante en la primera C.P es
x2
c) La matriz Z que tiene entradas normalizadas tiene matriz de v-c
[ ] [ ]
0 . 447215 −1 . 38062 −0 .739905
1 −0. 707239 −0 . 980197
1 . 34165 −0 . 175715 −1. 18664
Z= ⇒ S Z = −0.707239 1 0. 782526
−0. 447215 0. 125511 0 . 656142
−0 .980197 0 .782526 1
−1 .34165 1. 43082 1. 2704
los valores propios son

λ1 =2 .65225 λ 2=0. 334639 λ3 =0 . 013099
E( ⃗z )= ⃗0 Var (⃗z )=I 3

t
⃗z =[ z 1 , z 2 , z 3 ]
En éste contexto el vector aleatorio tiene
Porcentaje de información de la C.P ordenadas: 84.4087% 11.1547 % 0.4366%
Y 1 =⃗
e t ⃗x =−0. 588397 z 1 +0 . 537815 z 2 +0. 603775 z 3
La primera componente es 1
−0.588397 √ 2.65225 0 .537815 √ 2.65225

r Y 1 ,z 1= =−0. 958236 r Y 1 , z 1= =0. 875871
1 1
0.603775 √ 2. 65225
rY = =0 . 983292
1 , z1 1
Conclusión: La finalidad es obtener variables incorrelacionadas que permiten una mejor
interpretación y también minimizar las dimensiones en los cálculos, idealmente en dimensión uno,
dos o tres con una mínima pérdida de información y con la posibilidad de hacer gráficos. En el
ejemplo se puede reemplazar la matriz de muestreo X por los valores de la primera C.P con una
pérdida de información igual 0.6301%, en lugar de calcular en dimensión 3 se hace solo en
dimensión 1 con muy poco pérdida de información

Apte7 - Métodos Multivariados - Prof Fraancisco Gómez - v1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apte7 - Métodos Multivariados - Prof Fraancisco Gómez - v1

Cargado por

Copyright:

Formatos disponibles

Componentes Principales: Variables cuantitativas

Introducción: En el contexto multivariado, en muchas situaciones, es difícil determinar

Las C.P solo dependen de la matriz de v-c S o de la matriz de correlación R, no se requiere

Consideremos que el vector aleatorio

matriz de v-c muestral S y 1

Similarmente la segunda, tercera, cuarta C.P se definen de manera similar por

a) Determine el porcentaje de información de cada C.P y la varianza total

c) Normalice los datos de la matriz y responda nuevamente a) y b)

Los valores propios son

Porcentaje de información de la C.P ordenadas en forma decreciente son dadas po :

Primera C.P 99.3699% Segunda C.P 0.6294% Tercera C.P 0.0007%

−0. 079645 √ 99 .8365 0.996724 √ 99.8365

c) La matriz Z que tiene entradas normalizadas tiene matriz de v-c

los valores propios son

E( ⃗z )= ⃗0 Var (⃗z )=I 3

Porcentaje de información de la C.P ordenadas: 84.4087% 11.1547 % 0.4366%

−0.588397 √ 2.65225 0 .537815 √ 2.65225

También podría gustarte