Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Supongamos que de una población multivariada se extrae una muestra aleatoria e independiente
e idénticamente distribuida representada por una matriz X donde las filas representan las
mediciones y las columnas las variables
[ ]
x11 x 12 . . x1 p
x 21 x 22 . . x2 p
X= . . . . .
. . . . .
x n1 xn 2 . . x np
Definición: Las Componentes principales son una combinación lineal de las variables aleatorias
primitivas que corresponden a las componentes del vector aleatorio.
Observación: La finalidad es que se pueda percibir en dimensión uno las relaciones funcionales
que en dimensiones mayores permanecen ocultas. Estas nuevas variables son incorrelacionadas,
lo que permite mejorar la interpretación de los datos
S ⃗ei =λ i ⃗ei
λ ⃗e
Supongamos que 1 es el valor propio mayor y 1 su vector propio asociado (todos los valores
propios de la matriz S son positivos, ya que, ésta matriz es positiva definida),
Y = ⃗
e t
x
⃗ ⃗x =[ x 1 , x 2 ,. .. . ., x p ]
t
Definición: La primera C.P se define por 1 1 donde el vector contiene
las p variables aleatorias originales
Y λ Y i=⃗
e t ⃗x
La varianza de la C.P i corresponde al valor propio i ,en efecto, si i
Proposición:
Var(Y i )=V ( ⃗
e i ⃗x )=⃗
e i S ⃗e i= ⃗
t t t
ei λ i ⃗ei =λi‖⃗ei‖= λi .
p p p p
∑ Sii =∑ var ( x i )=∑ Y i=∑ λi
Además la varianza total es VTotal= I =1 i =1 i=1 i=1
λi∗100
p
∑ λi
La proporción de varianza total explicada por la i-ésima C.P es dada por i =1
Observación:
cov(Y i ,Y j )=⃗ e j =⃗
eit S ⃗ ei t λ j e⃗j=0
Nota: Los vectores propios para éste caso particular son ortogonales y por lo tanto su producto
punto es nulo
La magnitud de las componentes del vector propio miden la importancia de la variable original en
la C.P, éste hecho, lo describe el siguiente resultado
e ik √ λi
Definición: r Y ,x =
i k
√ S kk Y
caracteriza al coeficiente de correlación lineal entre la C.P i y la
x
variable aleatoria k
Cuando los valores de las entradas de la matriz son muy disímiles, es conveniente normalizar los
datos de la matriz de muestreo usando el siguiente resultado
( )
i= p
1
diag(S−1/2 )=
−1/2 s
Z =H n Xdiag (S ) donde ii
0. 5 i=1
es una matriz diagonal
Los cálculos para determinar las C.P en un contexto de normalización es análogo a los cálculos
previos o en forma equivalente en lugar de calcular los valores propios y vectores propios de la
matriz de v-c S se usa la matriz de correlación R de la matriz X
Proposición: Si X es la matriz de muestreo y T es la matriz cuyas columnas son los vectores propios
ordenados de acuerdo a la magnitud de los valores propios en forma decreciente. Entonces la
matriz de componentes principales es
[ ][ ]
x 11 x 12 . . x1 p e 11 e 12 . . e1 p
x 21 x 22 . . x2 p e 21 e 22 . . e2 p
Y = XT= . . . . . . . . . .
. . . . . . . . . .
x n1 xn 2 . . x np e p1 e p2 . . e pp
[ ]
3 36 0 .1
X= 4 48 0. 02
2 51 0.35
Ejemplo: Considere la matriz de muestreo
1 64 0. 46
b) Determine las dos primeras C.P y la variable que contiene mayor información en la
Primera C.P
Solución: a)
[ ]
1 .25 −7 . 875 −0. 19625
1
S X = X t H 4 X = −7 . 875 99. 1875 1 . 39563 ⇒
4
−0 . 19625 1. 39563 0 . 032069
3
Var( X )=1. 25+99. 1875+0 . 032069=100 . 47=∑ λi
i=1
t
y para el valor propio
e 2= [ 0 . 987549 , 0 .080821 ,−0. 134959 ]
λ2 el vector propio es ⃗
Y 1 =⃗
e t ⃗x =−0. 079645 x 1 +0 . 996724 x 2 +0 . 014094 x 3
luego la primera C.P 1
Y 2 =⃗
e t ⃗x =0. 987549 x 1 +0 . 080821 x 2 −0 .134959 x 3
y la segunda C.P 2 .
Para determinar la importancia de las variables aleatorias en las C.P se calcula el coeficiente
de correlación de Pearson
[ ] [ ]
0 . 447215 −1 . 38062 −0 .739905
1 −0. 707239 −0 . 980197
1 . 34165 −0 . 175715 −1. 18664
Z= ⇒ S Z = −0.707239 1 0. 782526
−0. 447215 0. 125511 0 . 656142
−0 .980197 0 .782526 1
−1 .34165 1. 43082 1. 2704
Y 1 =⃗
e t ⃗x =−0. 588397 z 1 +0 . 537815 z 2 +0. 603775 z 3
La primera componente es 1