Está en la página 1de 15

Universidad Nacional de Piura- Facultad de Economa

1



Introduccin


El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de
la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un
banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero
perdiendo la menor cantidad de informacin posible.

Iniciando con los COMPONENTES PRINCIPALES POBLACIONALES donde se
estudiar la estimacin de los principales componentes, luego la DETERMINACIN
DEL NMERO DE COMPONENTES PRINCIPALES para luego pasar al ANLISIS
DE COMPONENTES PRINCIPALES SOBRE LA MATRIZ DE CORRELACIN
calculando los eigen valores y eigen vectores de la matriz de correlaciones. Antes de
DETERMINAR EL NMERO DE COMPONENTES PRINCIPALES, donde se aplica
un tercer mtodo el cual, se buscan eigen valores que sean mayores que 1 y se estima
que la dimensionalidad del espacio muestral es el nmero de eigen valores que sean
mayores que 1; brevemente se conceptualizar LA MATRIZ DE CORRELACIN DE
LA MUESTRA. Finalmente se realizarn PRUEBAS RESPECTO A LA
INDEPENDENCIA DE LAS VARIABLES ORIGINALES.

El anlisis de componentes principales esta concerniente con la explicacin de la
estructura de la varianza-covarianza a travs de pocas combinaciones lineales de las
variables originales. Su objetivo general es reducir la dimensin del conjunto de datos e
identificar nuevas variables significativas subyacentes. Un aspecto clave es la
interpretacin de los factores, ya que sta no viene dada a priori, sino que ser deducida
tras observar la relacin de los factores con las variables iniciales.






Universidad Nacional de Piura- Facultad de Economa
2



Contenido

1. Componentes principales poblacionales 3
1.1. Estimacin de componentes principales 8
2. Determinacin del nmero de componentes principales 9
3. Anlisis de componentes principales sobre la matriz de correlacin 12
4. Matriz de correlacin de la muestra 14
5. Determinacin del nmero de componentes principales 14
6. Pruebas respecto a la independencia de las variables 15












Universidad Nacional de Piura- Facultad de Economa
3

1. Componentes principales poblacionales.

Algebraicamente, los componentes principales son combinaciones lineales particulares
de las p variables aleatorias X
1
, X
2
, ..., X
p
. Geomtricamente, estas combinaciones
lineales representan la seleccin de un nuevo sistema de coordenadas obtenido por
rotacin del sistema original con X
1
, X
2
, ..., X
p
como los ejes de coordenadas. Los
nuevos ejes representan las direcciones con variabilidad mxima y proporciona una
sencilla y mayor descripcin de la estructura de la covarianza.

Los componentes principales depende slo de la matriz de varianzas-covarianzas (o
de la matriz de correlacin ) de las variables X
1
, X
2
, ..., X
p
. Su desarrollo no requiere
la suposicin de normal multivariante.

Sea el vector aleatorio | |
p 2 1
X , ... , X , X X = ' que tiene la matriz de covarianza con
eigen valores
1
>
2
> >
p
> 0.
Consideremos las combinaciones lineales:

p pp 2 2p 1 1p p p
p p2 2 22 1 12 2 2
p p1 2 21 1 11 1 1
X X X X Y
X X X X Y
X X X X Y



+ + + = ' =
+ + + = ' =
+ + + = ' =
(1.1)

Usando la propiedad:
i i i
) V(Y ' = i = 1,2, . . . , p
k i k i
) Y , Cov(Y ' = i, k = 1,2, . . . , p (1.2)

Las componentes principales son aquellas combinaciones lineales incorrelacionadas
Y
1
, Y
2
. ..., Y
p
cuyas varianzas en (1.2) son los ms grandes posibles. La primera
componente principal es la combinacin lineal con varianza mxima. Es decir, que
maximiza a la varianza
1 1 1
) V(Y ' = . Es conveniente restringir a que los coeficientes
de los vectores tengan de longitud la unidad.

Por lo tanto, tenemos:
Universidad Nacional de Piura- Facultad de Economa
4


Primera componente principal = combinacin lineal X
1
' que maximice X) ) V(Y
1 1
' = ( V
sujeto a 1 = '
1 1
.

Segunda componente principal = combinacin lineal X
2
' que maximice X) ) V(Y
2 2
' = ( V
sujeto a 1 = '
2 2
.y 0 X) X, Cov(
2 1
= ' '

i-simo componente principal = combinacin lineal X
i
' que maximice X) ) V(Y
i i
' = ( V
sujeto a 1 = '
i i
.y 0 X) X, Cov(
k i
= ' ' para k < i.

Teorema 1.1. Sea la matriz de covarianza asociada con el vector aleatorio
| |
p 2 1
X , ... , X , X X = ' . Sea la matriz que tiene los pares de eigenvalores-eigenvectores
(
1
, e
1
), (
2
, e
2
), .... , (
p
, e
p
) donde
1
>
2
> >
p
> 0. El primer componente
principal es dado por:
p pi 2 2i 1 1i i i
X e X X X Y + + + = ' = e e e , i = 1,2, . . . , p (1.3)

con estas opciones:

i i i i
e e ) V(Y = ' = i = 1,2, . . . , p
0 = ' =
k i k i
e ) Y , Cov(Y e i = k (1.4)

Del teorema anterior, los componentes principales son incorrelacionados y tienen
varianzas iguales a los eigenvalores de .


Teorema 1.2. Sea el vector aleatorio | |
p 2 1
X , ... , X , X X = ' que tiene matriz de
covarianza , con pares de eigenvalores-eigenvectores (
1
, e
1
), (
2
, e
2
), .... , (
p
, e
p
)
donde
1
>
2
> >
p
> 0.
Sea X Y
1 1
e' = , X e
2 2
Y ' = ,..., X Y
p p
e' = los componentes principales. Entonces

= =
= + + + = = + + +
p
i
i
p
i
p i pp
Y V X V
1 1
2 1 22 11
) ( ) ( o o o (1.5)

Del teorema 1.2, tenemos que:
p pp
tr + + + = o + + o + o =
2 1 22 11
) (
Universidad Nacional de Piura- Facultad de Economa
5

Por tanto, ) ( tr en cierto sentido, mide la variacin total en las variables originales.
y como consecuencia, la proporcin de la variacin total debido a (explicada por) la
k-sima componente principal es:

p
k
+ + +

=
|
|
.
|

\
|

2 1
principal componente sima k la por explicada
total l poblaciona n variacio la de Proporcin
(1.6)

Si ms de la variacin total poblacional (80 o 90%), para p grande, pueden ser
atribuible por una, dos o tres componentes, entonces estos componentes pueden
reemplazar a las p variables originales sin mucha perdida de informacin.

Teorema 1.3. Si X Y
1 1
e' = , X e
2 2
Y ' = ,..., X Y
p p
e' = son los componentes principales
obtenidos de la matriz de covarianza , entonces
kk
i ki
Xk , Yi
e
o

= i, k = 1, 2, ..., p (1.7)

son los coeficientes de correlacin entre los componentes Y
i
y las variables X
k
. Aqu
los (
1
, e
1
), (
2
, e
2
), .... , (
p
, e
p
) son los pares de eigenvalores-eigenvectores de .


La expresin (1.4) puede ser demostrado. Por ejemplo,
1
2 1 2
2
1
2
2 1 1
83 . 5
) 2 ( 708 . 0 ) 5 )( 854 . 0 ( ) 1 ( 147 . 0
) X , X ( Cov ) 924 . 0 )( 383 . 0 ( 2 ) X ( V ) 924 . 0 ( ) X ( V ) 383 . 0 (
) 0.924X - X 383 . 0 ( V ) V(Y
= =
+ =
+ + =
=


Cov(Y
1
, Y
2
) = Cov(0.383X
1
0.924X
2
, X
3
)
= 0.383Cov(X
1
,X
3
) 0.924 Cov(X
2
, X
3
)
= 0.383(0) 0.924(0) = 0

Tambin se cumple que:

8 17 . 0 0 . 2 83 . 5 2 5 1
3 2 1 33 22 11
= + + = + + = + + = o + o + o
Universidad Nacional de Piura- Facultad de Economa
6


lo que valida la expresin (1.5) para nuestro ejemplo ilustrativo. La proporcin de la
variacin total explicada por la primera componente principal es
73 . 0 8 / 83 . 5 ) /(
3 2 1 1
= = + + . Las dos primeras componentes principales explican
una proporcin de 98 . 0 8 / ) 2 83 . 5 ( ) /( ) (
3 2 1 2 1
= + = + + + de la variacin
poblacional. En este caso los componentes Y
1
y Y
2
pueden reemplazar a las tres
variables originales con poca perdida de informacin.

Finalmente usando el resultado (1.7) del teorema 1.3,

925 . 0
1
83 . 5 383 . 0
e
11
1 11
1 X , 1 Y
= =
o

=
998 . 0
5
83 . 5 924 . 0
e
22
1 21
2 X , 1 Y
=

=
o

=
0
2
83 . 5 0 . 0
e
33
1 31
3 X , 1 Y
=

=
o

=

Se concluye que las variables X
1
y X
2
son individualmente, aproximadamente iguales
de importante como los primeros componentes principales. Tambin para segunda
componente

00 . 0
1
00 . 2 0 . 0
e
11
2 12
1 X , 2 Y
=

=
o

=
0
5
00 . 2 0 . 0
e
22
2 22
2 X , 1 Y
=

=
o

=
1
2
00 . 2 1
e
33
2 32
3 X , 2 Y
=

=
o

= (debera ser)

Finalmente para el tercer componente,
38 . 0
1
17 . 0 924 . 0
e
11
3 13
1 X , 3 Y
=

=
o

=
Universidad Nacional de Piura- Facultad de Economa
7

07 . 0
5
17 . 0 383 . 0
e
22
3 23
2 X , 3 Y
=

=
o

=
0
2
17 . 0 0 . 0
e
33
3 33
3 X , 3 Y
=

=
o

=

Se observa que las correlaciones pueden ser ignoradas puesto que el tercer componentes
es poco importante.


Ejemplo:
Consideremos la matriz de covarianza

(

=
100 4
4 1


La obtencin de los componentes principales obtenidos de las matrices de covarianza y
correlacin, se explica a continuacin:

Los pares eigen valores-eigen vectores de E son
16 . 100
1
= , | | 999 . 0 040 . 0
1
= ' e
84 . 0
2
= , | | 040 . 0 999 . 0
2
= ' e

Los componentes principales resultan ser:

Y
1
= 0.040X
1
+ 0.999X
2

Y
2
= 0.999X
1
- 0.040X
2


Debido a su varianza grande, X
2
completamente domina el primer componente principal
determinado de E. Sin embargo, este primer componente principal explica una
proporcin 992 . 0
0 . 101
6 . 100
2 1
1
= =
+

del total de la variacin poblacional.

Universidad Nacional de Piura- Facultad de Economa
8


1.1. Estimacin de componentes principales.

En el desarrollo anterior se supuso que se conocan tanto y E . Esto difcilmente puede
ocurrir, por lo que y E necesitarn estimarse a partir de los datos de la muestra.
Denotaremos a los componentes principales muestrales por
p
y y y , , ,
2 1
y a los
coeficientes componentes del vector por
i
e y las varianzas componentes por
i

.

El siguiente resultado es concerniente a componentes principales muestrales:

Si S ={s
ik
} es la matriz de covarianza muestral de orden p x p con pares de eigen valores-eigen
vectores ) ,

( ),..., ,

( ), ,

(
2 2 1 1 p p
e e e , el i-simo componente principal muestral es dado por:


p pi i i i i
x e x e x e x e y ...
2 2 1 1
+ + + = ' = , i = 1, 2,..., p.

Donde 0

2 1
> > > >
p
y x es alguna observacin sobre las variables X
1
, X
2
,..., X
p
.
Tambin:
Varianza muestral (
k
y ) =
k

, k = 1, 2, ..., p (1.8)
covarianza muestral (
k i
y y , ) = 0 , i = k
Adems,
Varianza muestral total =
p
p
i
ii
s + + + =

=

2 1
1
y

kk
i ki
x y
s
e
r
k i

,
, i , k = 1, 2, ..., p













Universidad Nacional de Piura- Facultad de Economa
9

2. Determinacin del nmero de componentes principales.

Cuando se lleva a cabo un anlisis de componentes principales, se necesita determinar la
dimensionalidad real del espacio en el que caen los datos; es decir, el nmero de
componentes principales que tienen varianzas mayores que cero. Si varios de los eigen
valores de

son cero o estn suficientemente cercanos a cero, entonces la


dimensionalidad real de los datos es la del nmero de eigen valores diferentes de cero.

Existen dos mtodos para ayudar a elegir el nmero de componentes principales a usar
cuando se est aplicando un anlisis de componente principales a

. Los dos mtodos


se basan en los eigen valores de

. Sea d la dimensionalidad del espacio en el cual se


encuentran en realidad los datos al leer acerca de estos dos mtodos.








Primer Mtodo
Suponga que se desea tomar en cuenta de la variacin total en las variables
originales. En uno de los mtodos para estimar d se considera
para valores sucesivos de k

=

1,2, ..., p. Entonces d se
estima por el menor de los valores de k en el que, por primera vez, sobrepasa .
cunta variacin depende a menudo del tipo de poblacin de la que est tomando la
muestra?.-
Para datos del tipo de laboratorio, puede ser bastante fcil explicar ms de 95% de la
variacin total con slo dos o tres componentes principales. Por otra parte, para datos
del tipo de personas es posible que se requieran cinco o seis componentes
principales
Para explicar ms de 70 al 75% de la variacin total. Lamentablemente, entre ms
componentes principales se requieran, menos til se vuelve cada una de ellas.

Universidad Nacional de Piura- Facultad de Economa
10




En la prctica, casi siempre se consideran en forma simultnea los mtodos presentados

.

70
E
i 60 o
g
e 50
n

v 40
a o
l 30
o
r 20 o

10
o o o o o o
0
0 1 2 3 4 5 6 7 8 9 10
Nmero de componentes.

Figura 1.1. Una grfica SCREE






Segundo Mtodo
Un segundo mtodo para estimar d se utiliza una grfica SCREE de los eigen valores,
que se construye situando las parejas . Cuando los puntos en
la grfica tienden a nivelarse, estos eigen valores suelen estar suficientemente
cercanos a cero como para que puedan ignorarse. Por tanto, por este mtodo se supone
que la dimensionalidad del espacio de datos es la que corresponde al eigen valor
grande ms pequeo. En la figura 6.1 se muestra una grfica SCREE. Esta grfica
SCREE sugerira que la dimensionalidad real del espacio en el que se encuentran los
datos es tres y, como consecuencia, el nmero apropiado de componentes principales
que tiene que utilizarse es de tres.

Universidad Nacional de Piura- Facultad de Economa
11

Observaciones

El anlisis de componentes principales transforma un conjunto de variables
correlacionadas en un nuevo conjunto de variables no correlacionadas. Si las
variables ya estn casi no correlacionadas, entonces nada se puede ganar al
llevar a cabo un anlisis de componentes principales. En este caso , la
dimensionalidad real de los datos es igual al nmero de variables respuestas
medidas y no es posible examinar los datos en un espacio con un nmero
reducido de dimensiones.

Aunque el anlisis de componente principal permite usar un nmero
reducido de variables en los anlisis consecuentes, en general no se puede
emplear ese anlisis para eliminar variables debido a que se necesitan todas
las variables originales para calificar o evaluar las variables componentes
principales para cada uno de los individuos en un conjunto de datos.

El anlisis de componentes principales slo es apropiado en aquellos casos
en donde todas las variables surgen sobre un fundamento igual. Esto
significa:
a. Todas las variables deben estar medidas en las mismas unidades o ,
por lo menos, en unidades comparables,
b. Las variables deben tener varianzas que tengan tamaos
aproximadamente muy semejantes.
c. Cuando no parezca que las estn ocurriendo sobre un fundamento
igual, muchos aplican el anlisis de componentes principales a la
matriz de correlacin de las respuestas, en lugar de la matriz de
varianzas-covarianzas E.






Universidad Nacional de Piura- Facultad de Economa
12

3. Anlisis de componentes principales sobre la matriz de correlacin .

Como se mencion anteriormente, cuando las variables no presentan fundamentos
iguales, es necesario aplicar mtodos de anlisis de componentes principales a los datos
estandarizados (calificaciones Z), lo que se hace al calcular los eigen valores y eigen
vectores de la matriz de correlaciones.

Consideremos las variables estandarizadas:
11
1 1
1
) X (
Z
o

= ,
22
2 2
2
) X (
Z
o

= , ...,
pp
p p
p
) X (
Z
o

=
En notacin matricial ( ) ( ) =

X V Z
1
2 / 1
(1.9)
donde V
1/2
es la matriz desviacin estndar, definido en la expresin (1.40) , capitulo 1.

Adems tenemos que:
0 ) ( = Z E y = =
1 2 / 1 1 2 / 1
) ( ) ( ) ( V V Z Cov (6.10)

Los componentes principales de Z pueden ser obtenidos de los eigenvectores de la
matriz de correlacin de X. Continuaremos usando la notacin de Y
i
para referirnos al
i-simo componente principal y (
i
, e
i
) para los vectores pares de eigenvalores-
eigenvectores. Sin embargo, estas cantidades derivadas de E, en general, no son los
mismos como los derivados de .


Teorema 1.4. El i-simo componentes principales de la variable estandarizada
Z= [Z
1
, Z
2
, ..., Z
p
] , con Cov(Z)= , es dado por

) ( ) (
1 2 / 1
' = ' =

X V e Z e Y
i i
, i

=

1, 2,..., p
Sin embargo,

= =
= =
p
i
i
p
i
i
p Z V Y V
1 1
) ( ) ( (1.11)
y
i ki Z Y
e
k i
=
,
i, k= 1, 2, ..., p

Universidad Nacional de Piura- Facultad de Economa
13

en este caso, ) , ( , ), , ( ), , (
2 2 1 1 p p
e e e son los pares de eigen valores y eigen vectores
de con 0
2 1
> > > >
p
.


Podemos ver de la expresin (6.11) que la variacin total poblacional (de las variables
estandarizadas) es simplemente p, la suma de los elementos de la diagonal de la matriz
. Usando la expresin (6.6) con Z en lugar de X, la proporcin de la varianza total
explicada por la k-sima componente principal de Z es,

p
k
p
k

=
+ + +

=
|
|
.
|

\
|

2 1
principal componente sima k la por
explicada l poblaciona n variaci la de Proporcin
(6.12)
k = 1, 2, ..., p
donde los
k
s son los eigen valores de .

Ejemplo
Consideremos la matriz de correlacin

(

=
1 4 . 0
4 . 0 1


Los pares eigenvalores-eigenvectores de son
4 . 1
1
= , | | 707 . 0 707 . 0
1
= ' e
6 . 0
2
= , | | 707 . 0 707 . 0
2
= ' e

Los respectivos componentes principales resultan ser:

) ( 0707 . 0 ) ( 707 . 0
)
10
( 707 . 0 )
1
( 707 . 0 707 . 0 707 . 0
2 2 1 1
2 2 1 1
2 1 1


+ =

= + =
X X
X X
Z Z Y


) ( 0707 . 0 ) ( 707 . 0
)
10
( 707 . 0 )
1
( 707 . 0 707 . 0 707 . 0
2 2 1 1
2 2 1 1
2 1 2


=

= =
X X
X X
Z Z Y


Universidad Nacional de Piura- Facultad de Economa
14

Cuando las variables X
1
y X
2
estn estandarizadas sin embargo, las variables resultantes
contribuyen igual a los componentes principales determinados por .

Usando el teorema (6.4),

8365 . 0 4 . 1 707 . 0
1 11 ,
1 1
= = = e
Z Y

y
8365 . 0 4 . 1 707 . 0
1 21 ,
2 1
= = = e
Z Y

En este caso, el primer componente principal explica una proporcin de 7 . 0
2
4 . 1
1
= =
p


del total (estandarizado) de la variacin poblacional.




4. Matriz de correlacin de la muestra

Si se aplica el anlisis de componente principales a la matriz de correlacin de la
muestra
, los estimadores de
i
y e
i
se denotan por
i

y
i
e , respectivamente, en donde
los
i

s y los
i
e s son los eigen valores y eigen vectores de
.

Si el anlisis se realiza sobre
, las calificaciones de componentes principales se
calculan a partir de los valores Z, segn la expresin

j i ij
Z e y ' = para i = 1, 2, ..., p ; j = 1, 2, ..., n


5. Determinacin del nmero de componentes principales.
Los dos mtodos descritos en la seccin (2) para determinar la dimensionalidad del
espacio en el cual en realidad se encuentran los datos estandarizados tambin se pueden
aplicar cuando se est realizando un anlisis de componentes principales sobre una
Universidad Nacional de Piura- Facultad de Economa
15

matriz de correlacin. Se puede usar un tercer mtodo cuando se analiza la matriz de
correlacin.


Cuando analiza una matriz de correlaciones, un buen investigador suele emplear
simultneamente los tres mtodos. En todos los casos, la decisin por o que a cuntas
componentes principales considerar es subjetiva.


6. Pruebas respecto a la independencia de las variables originales.

Si se cree que los datos provienen de una distribucin normal multivariante, puede
(probablemente sea necesario) probarse si las variables respuestas son independientes
(es decir, no correlacionadas), antes de realizar un anlisis de componentes principales.
Esto se puede llevar a cabo al probar que = I o, lo que es equivalente, al probar que E
es una matriz diagonal.
Un estadstico de prueba de relacin de probabilidad para probar H
0
: = I se expresa
por = V . Para valores grandes de n, se rechaza H
0
si
| |
2
2 / ) 1 ( , 1
log
6
5 2
1
o
_ >
(

+

p p
V
p
n
Si no se puede rechazar H
0
, no se puede realizar un anlisis de componentes principales.
Tercer Mtodo

Se buscan eigen valores que sean > 1 y se estima que la dimensionalidad del
espacio muestral es el nmero de eigen valores que sean mayores que 1. La razn
de comparar los eigen valores con 1 es que, cuando se est realizando el anlisis
sobre datos estandarizados (es decir, matriz de correlaciones), la varianza de cada
variable estandarizada es igual a 1. La creencia es que si una componente
principal no puede explicar ms variacin que una sola variable por si misma,
entonces es probable que no sea importante, por lo que frecuentemente se ignoran
componentes cuyos eigen valores son < 1. Nunca debe considerarse la
comparacin de los eigen valores con 1 cuando se analizan los datos en bruto o, lo
que es equivalente, la matriz de varianzas-covarianzas de la muestra.