Está en la página 1de 21

Anlisis de Componentes Principales

ANLISIS DE COMPONENTES PRINCIPALES


Introduccin
El objetivo del Anlisis de Componentes Principales lo podemos plantear como:
dadas las observaciones de n objetos para p variables, se pretende representar
adecuadamente esta informacin con un nmero q p de variables,
construidas como combinaciones lineales incorrelacionadas de las variables
originales, que estn ordenadas en orden decreciente de importancia de acuerdo a la
varianza. En el objetivo planteado se pueden destacar dos aspectos:
- Representar los datos en espacio de dimensin menor al generado por los datos y
al que estos se ajusten lo mejor posibles. Puede entenderse entonces como la
bsqueda del subespacio de mejor ajuste de la nube de puntos, en el sentido de los
mnimos cuadrado, y por otro lado como la identificacin de variables latentes o no
observadas que se generan en los datos.
-

Transformar las variables originales, en general correlacionadas, en nuevas


variables, incorrelacionadas, y ordenadas en orden de importancia de acuerdo a la
variabilidad y que llamaremos las Componentes Principales.

El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien


en 1901 propuso la bsqueda de un subespacio que mejor se ajusta a los datos, para
esto utiliz el mtodo de los de mnimos cuadrados, esto es minimizando la
suma de los cuadrados de las distancias de cada punto al subespacio. Hotelling en
1933 propuso hallar las componentes principales como las combinaciones lineales de las
variables que maximizan la variabilidad.
Otra
propuesta es la formulada por Gower (1966), minimizando la discrepancia entre los
puntos calculados en el espacio original y en el espacio de baja dimensin.
El ACP se aplica fundamentalmente a datos con un nivel de medicin de intervalo
y por tanto de razn, sin embargo algunos autores han planteado la posibilidad de
aplicarlo a otro tipo de datos tales como: datos con nivel de medicin ordinales o
de rangos como lo describe Lebart et al (1985), o incluso datos nominales conocido
como Anlisis de componentes principales categrico (CATPCA); este procedimiento se
encuentra descrito en Young (1981), Kuhfeld, Sarle, y Young, (1985), Saporta, (1983),
Young, Takane, y de Leeuw, J. (1978, 1985). En este captulo se presentar el ACP para
datos cuyo nivel de medicin es como mnimo de intervalo.

Definicin de las componentes principales poblacionales


Sea X = (X1, . . . , Xp)t un vector aleatorio p-dimensional y sean y su esperanza y covarianza
E[X] = = 0

Cov[X] = = (ij )

Sea = (1, . . . , p) Rp tal que = 1. Se consideran combinaciones lineale


s

x1

.
.

p
iXi

x p

1
X = (1,. . ., p)
= 1X1 + + pXp =

cuya varianza vendr dada por


2

Var [X] = E (X) = E XX =


De entre todas las combinaciones lineales se selecciona la que verifique el problema

MaximizarL

Sujeto

Var LX LL
LL 1

El problema de optimizacin planteado se resuelve mediante la tcnica de Multiplicadores de


Lagrange. Se considera la Funcin de Lagrange

2
li ijl j li 1

1 (L; ) = LL (LL 1) = ij

El vector de derivadas parciales de la funcin de Lagrange es

1 (L; )
L

= 2L 2L

Que, igualando a cero, da lugar a


( I) = 0 (1)
ecuacin que tiene solucin si

| I |= 0(2)

La funcin | I | es un polinomio en de orden p y la ecuacin (2) tiene p races


1 p
las races caractersticas se , de vectores caractersticos asociados
1 = (11, . . . ,

. . . , p = (p1, . . . ,
pp)

1p),

Multiplicando (1) a la izquierda por se tiene


= =
Por tanto, se concluye que si con = 1 verifica (1),
Var [X] = =
Siendo la raz caracterstica de correspondiente a .
Para
maximizar
[X] se elige Si
1 = , mayor raz caracterstica de , y 1 = , el vector
caracterstico
de Var
correspondiente.
el rango de 1I es p 1, la solucin es nica.
La combinacion lineal normalizada
p

U = X = 1iXi

i=1

con 1 vector caracterstico normalizado de correspondiente a la mayor raz caracterstica, 1 , se


denomina primera componente principal de X.
Para obtener una nueva componente principal, se busca una combinacin lineal normalizada
x1

.
.

p
iXi

x p

1
X = (1,. . ., p)
= 1X1 + + pXp =

Con varianza mxima entre todas las combinaciones lineales LX normalizadas (unicidad)
X / Var [ X] = max Var [LX]
LRp

LL = 1

e incorreladas con U1

Cov [L X, U1] = 0 = E [L XU1] = E [L X ] = E [L XX1]


1

= L 1 = L11 = 1L1
Se sigue que los vectores L y 1 son ortogonales. Se
plantea el problema de optimizacin

Var LX
LL 1
L1 0

MaximizarL

Sujeto

La funcin de Lagrange es ahora:


2(L; ; v) = L L (L L 1) 2v(L 1)
El vector de derivadas parciales es
2 ( L ; ; v )

= 2L 2L 2v1 (4)

L
Si denota la solucin de este problema, multiplicando (4) a la izquierda por , deber
1 satisfacer
1

1 v 1 1 = 0

Puesto que de (3) se sigue que

1=0
11 = 1
se llega a

v1 = 0
y, al ser 1

0, ha de ser v = 0. Como consecuencia, de (4) se concluye

( I) = 0
| I |= 0
Los coeficientes de la segunda componente principal de X se obtienen a partir del vector
caracterstico normalizado 2 de correspondiente a su segunda raz caracterstica 2.
La combinacion lineal normalizada
p

U2 =

X = 2iXi

i=1

con 2 vector caracterstico normalizado de correspondiente a la segunda raz caracterstica, 2 ,


se denomina segunda componente principal de X.

El proceso continua hasta llegar al paso r + 1. Se busca ahora una combinacin lineal
x1

.
.

p
iXi

x p
= 1X1 + + pXp = i 1
X = (1,. . ., p)

con varianza mxima entre todas las combinaciones lineales normalizadas que sean incorreladas con
U 1 , . . . , Ur
X / Var [ X] = max Var [L X]
LRp

L L = 1,

Cov [L X, Ui] = 0, i = 1, . . . , r

En este caso,
Cov [L X, Ui ] = E [L XUi ] = E [L XX i ] = L E[XX]i
= L i = L ii = i L i = 0,

i = 1, . . . , r

El problema que se plantea ahora es

max
L

S.a

Var LX
LL 1
L1 0

i = 1, . . . , r

La funcin de Lagrange asociada a este problema es

r+1 (L; ; v1 , . . . , vr ) = L L (L L 1) 2

r
vi Li
i 1

El vector de derivadas parciales asociado


r
r 1 L;; v,...v r )
2L 2L 2 vii
L
i 1

Igualando a cero, se obtiene que el vector que sea solucin de este problema ha de verificar
r
2 2 2 vi i 0
i 1

Puesto que de esto y de que


i i = i se sigue
r
i i vii 0
i 1

se obtiene
Si i 0

Si i = 0

vi i 0

i ii 0

vi 0

Li 0

Por tanto,

( I) = 0,

| I |= 0

Llegados a este punto si r+1 = 0


= r+1 autovalor de ,

r+1

autovector normalizado de

La combinacin lineal normalizada


Ur+1 =

r+1

con r+1 vector caracterstico normalizado de correspondiente a la raz caracterstica r+1


se denomina r+1-esima componente principal de X.
Si ocurre
r+1 = 0,

i = 0, i = r + 1

i r 1 0

i r 1 0

r+1

combinacin lineal de

r+1

r+1

y i / i = 0

ortogonal a i , i = 1, . . . , r

Este procedimiento contina hasta el paso m tal que


Paso m + 1 :

incorrelado

U1 . . . Um

Puesto que es de dimensin p p y 1, . . . , m deben ser linealmente independientes


m=p

m<p

Se comprueba (Giri, 1977) que la unica solucion posible es


m=p
Sea
1 0

0 2
.
.

. .

. .
0

0
...
.
...


... p 1 2 p , i /

i I = 0

matriz de races caractersticas ordenadas de y sea


= (1 p),

i/ ( iI)i = 0, i =
i 1 matriz

de los correspondientes vectores caractersticos normalizados.

Puesto que
=I
se concluye
t =

Si

r+1 = r+2 = = r+m =


entonces
|| = | |
Se tiene as el siguiente resultado.

Adems, el vector
Rango [ I ] = p m.

Existe una transformacin ortogonal


U = (U1, . . . , Up)t = tX
t
tal
que Cov[U]
= E[UU
, columna
una matriz
con elementos
1 =0.2
componentes
p races
ordenadas
de |
I |= ]0.= La
i diagonal
de satisface
( I)
Las

de U estn incorreladas y tienen varianza mxima entre todas las combinaciones lineales
incorreladas con U1, . . . , Ui1.
El vector U es el vector de componentes principales de X.

En caso de races mltiples se tiene el segundo resultado.


Teorema 2.2

Del Teorema 2.1 se sigue

Lo mismo es cierto para la suma de componentes de X y U


Traza[ ]

Traza[ ]

Suma de varianzas de

Suma de varianzas de

las componentes de X

las componentes de U

Ejemplo 2.1
Sea X = (X1, X2, X3)t un vector aleatorio con matriz de covarianzas

1 2

2 5
0

0
2

Obtener las componentes principales asociadas a este vector aleatorio

(1 )(5 )(2 ) 4(2 ) = 0

(2 ) [(1 )(5 ) 4] = 0
(2 ) = 0
(1 )(5 ) 4 = 0

2

3

= 5.83
=2
= 0.17

( 1I)1 = 0
X

Y
Z

0

0
0

4.83x 2y = 0
3.83z
9

= 0

*
1 2.42 , 1*
0

1*1* 2.61

0.38

1* 0.92
0

( 2I)2 = 0
X

Y
Z

0

0
0

x 2y = 0

2x + 3y = 0
0


*2 0 , *2 1
1

0

2 0
1

( 3I)3 = 0

X

Y
Z

0

0
0

0.83x 2y = 0
1.83z = 0
10

Var
UE[
= Var1 [X31]) =+ 20.38(X
= 2 2 2) ]2
Var [ U3 ] = Var [ 0.92X1 + 0.38X
2 ][ =
2 ] 0.92(X
= E [ (0.92)2(X1 1)2 ] + E [ (0.38)2(X2 2)2 ] +
+2E [ (0.92)(0.38)(X1 1)(X2 2) ]
= (0.92)2Var [ X1 ] + (0.38)2Var [ X2 ] + 2(0.92)(0.38)Cov [ X1X2 ]
U3 = 3X = 0.92X1 + 0.38X2
= 0.17 = 3
Var [ U1 ] = Var [ 0.38X1 0.92X2 ] = E[0.38(X1 1) 0.92(X2 2) ]2
= E [ (0.38)2(X1 1)2 ] + E [ (0.92)2(X2 2)2 ]

2E [ (0.38)(0.92)(X1 1)(X2 2) ]

*
3 0.42 , *3 1.08
0

0.92

3 0.38
0

U1 = 1 X = 0.38X1 0.92X2
.
.
Cov [ U1, U2 ] = E (U1 E[U1])(U2 E[U2])

U12=
X =2 X3 2)}{X3 3} ]
= E[ {0.38(X
1)
20.92(X
= E[ 0.38(X1 1)(X3 3) ] E[ 0.92(X2 2)(X3 3) ]
= 0.38Cov [ X1, X3 ] 0.92Cov [ X2, X3 ] = 0

11

.
.
Cov [ U1, U3 ] = E (U1 E[U1])(U3 E[U3])
= E [ {0.38(X1 1) 0.92(X2 2)}

{0.92(X1 1) + 0.38(X2 2)} ]


= (0.38)(0.92)Var [ X1 ] + (0.38)2Cov [ X1, X2 ]

(0.92)2Cov [ X1, X2 ] (0.92)(0.38)Var [ X2 ] 0

.
.
Cov [ U2, U3 ] = E (U2 E[U2])(U3 E[U3])
= E[ (X3 3){0.92(X1 1) + 0.38(X2 2)} ]
= 0.92Cov [ X3, X1 ] + 0.38Cov [ X3, X2 ] 0

Traza [ ] = 1 + 5 + 2 = 8
Traza [ t ] = 1 + 2 + 3 = 5.83 + 2 + 0.17 = 8

Estimacion del analisis de componentes principales


En la prctica la covarianza de X,
es desconocida. Por ello no podrn usarse las componentes
principales poblacionales y la seleccin del nmero de componentes principales a considerar en el
estudio debe hacerse en base a observaciones mustrales de X.
Sea X = (X1, X2,, XP) un vector aleatorio p dimensional y sean
esperanza y covarianza. Para tratar el problema de
tiene una distribucin

su

desconocida se asume que X

. 1 2
5
0

Sea
muestra aleatoria de tamao N de X(N > p).

una

Sean:

El estimador verosmil de

y el estimador mximo verosmil de

respectivamente.

TEOREMA 3
Los estimadores mximo verosmiles de las races caractersticas de
son las races ordenadas de

Y los estimadores mximo verosmiles de los vectores caractersticos de

, 1, 2,, p son

los vectores solucin de

Con el anlisis de componentes principales se pretende, partiendo de una muestra


aleatoria de tamao N del vector X de variables que inicialmente pueden estar correladas,
obtener un numero k < p de variables incorreladas, que sean combinacin lineal de las
variables iniciales y que expliquen la mayor parte de su variabilidad.
La i-esima componente principal muestral se expresa como combinacin lineal de las
variables originales

Para las N observaciones muestrales se tiene la ecuacin matricial

El vector caracterstico de
asociado al i-esimo valor caracterstico,
denominar tambin i-esimo eje principal.
La estimacin de la varianza total el sistema, Traza

se suele

, vienes dada por

y se denomina Varianza muestral total


Se verifica que la suma de las varianzas de las variables (inercia total de la nube de puntos)
es igual a la suma de las varianzas de las componentes principales

La contribucin a la varianza muestral total i-esima componente principal es

que expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza


muestral de la i-esima componente principal o porcentaje de la inercia explicada por la iesima componente principal
La contribucin a la varianza muestral total de las k primeras componentes principales es

que, expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza


muestral de las k primeras componentes principales o porcentaje de inercia explicada por la
k primeras componentes principales.
Si los estimadores de las componentes principales se obtienen a partir de la matriz de
correlacin muestral.

1. DETERMINACIN DEL NMERO DE COMPONENTES PRINCIPALES

Al utilizar la tcnica de componentes principales para fines de reduccin o simplificacin


de los datos, surge la necesidad de decidir sobre el nmero de componentes principales
que se deben retener.
En el caso de usar S, hay dos mtodos:
1.- retener solamente aquellos componentes
significativamente diferentes de cero.

cuyas

races

caractersticas

son

2.- emplear como criterio el porcentaje acumulado de variancia total explicado por los
varios componentes principales sucesivos. Es decir, retener m < p componentes si:

Alcanza un valor grande, determinado arbitrariamente, digamos entre 0.80 y 0.90.

Cuando se factoriza la matriz R, la significancia estadstica de las races caractersticas no


es posible evaluarla debido a problemas tericos en el desarrollo de las pruebas
estadsticas correspondientes. Dos reglas prcticas que se utilizan son:
Retener solamente aquellos componentes cuyas races caractersticas i son mayores que
1. La justificacin que se da es que cualquier componente merezca ser retenido, debe
explicar ms variancia que cualquiera de las variables estandarizadas (que tienen iguales
a 1).

Emplear la prueba grafica que consiste en contruir un grafico cuyas ordenadas son las
raices caracteristicas de los componentes y las abcisas el rden sucesivo de edxtyraccion
de los componentes. Se trata luego de ubicar un punto o codo , donde la curva
descendente se convierta en una recta descendente. Se retienen entonces un numero de
componentes al igual que a la abcisa donde comienza el codo.
Este mtodo tiene la desventaja de que no siempre existe un codo y, a veces, puede
hablar ms de uno

caracterstico correspondiente, x = ( r+1 r+2 r+m ),


salvo multiplicaciones a derecha por matriz ortogonal.

est unvocamente determinado

.Anlisis de Componentes Principales


ANLISIS DE COMPONENTES PRINCIPALES SOBRE LA MATRIZ DE
CORRELACIONES
Para determinar el componente principal asociado al vector de direccin principal
a, se debe maximizar la funcin:

M = atSa
Sujeta a la condicin = 1. La funcin M puede escribirse como:

2
Supongamos que, a modo de ejemplo, la varianza
1 s es mucho mayor que las
dems varianzas, una manera de maximizar M es sencillamente es hacer tan grande
como se pueda la coordenada a1 asociada a esta variable x1. Si una variable
original tiene una varianza mucho mayor que las dems, el primer componente
coincidir muy aproximadamente con esta variable, en efecto recuerde que el
primer componente satisface para cada observacin i:

z1i = xi1 a1 + + xip ap


De modo que si una variable tiene una varianza mucho mayor que las dems, el
primer componente principal coincidir con esta variable.
De tal modo que esta propiedad depender del tamao de escala que est utilizando
una determinada variable, de tal manera que la maximizacin de (1) depender
decisivamente de la escala a usar en cada variables. Es decir las escalas con
valores ms grandes tendrn mayor peso en el anlisis. Una manera de evitar este
riesgo consiste en estandarizar las variables antes de calculas los componentes
principales. Una vez estandarizadas las variables, se tiene que la funcin que se
debe maximizar es:

Siendo
el coeficiente de correlacin lineal entre las variables i y j. En
consecuencia, la solucin depende de las correlaciones y no de las varianzas.
Los componentes principales normados se obtienen calculando los vectores y valores
propios de la matriz R, de coeficientes de correlacin. Llamando
a las races
caractersticas de esa matriz, que suponemos no singular, se verifica que:

(3)
Las propiedades de los componentes extrados de R son:
1. La proporcin de variacin explicada por

ser:

(4)

2. Las correlaciones entre cada componente


vienen dados directamente por

y las variables X originales


siendo

Cuando las variables originales de X estn en distintas unidades conviene


aplicar el anlisis de los componentes principales emanados de la matriz R
de correlacin. Cuando las variables originales tienen las mismas unidades
ambas alternativas son posibles. Si las diferencias entre las variables son
informativas y queremos considerar este hecho en el anlisis no conviene
estandarizar las variables. Por el contrario, si las diferencias entre las
varianzas no son relevantes, simplemente se elimina del anlisis
considerando la matriz de correlaciones.

1.

MATRIZ DE CORRELACIONES DE LA MUESTRA