Analisis de Componentes Principales: José Luis Vicente Villardón Departamento de Estadística

1
X
1
X
2
F
1
F
2
e
2
e
1
v
1
v
2
ANALISIS DE COMPONENTES
PRINCIPALES
Jos Luis Vicente Villardn
Departamento de Estadstica
2
1.- EJEMPLO INICIAL..............................................................................................................................3
2.- DEFINICIONES BASICAS ................................................................................................................13
3.- OBTENCION DE LA COMPONENTES PRINCIPALES..............................................................15
3.1.- OBTENCIN DE LAS CP MEDIANTE LA MAXIMIZACIN DE LA VARIABILIDAD. .....................15
3.2.- OBTENCIN A PARTIR DEL SUBESPACIO DE MEJOR AJUSTE...................................................20
3.2.1.- Ajuste por un subespacio vectorial en R
p
. ......................................................................21
3.2.2.- Clculo del mximo. .......................................................................................................23
3.3.- COORDENADAS PRINCIPALES.....................................................................................25
4.- MEDIDAS DE LA BONDAD DEL AJUSTE....................................................................................26
5.- PROPIEDADES ...................................................................................................................................27
6.- NMERO DE EJES A RETENER....................................................................................................27
7.- ESCALAS DE MEDIDA.....................................................................................................................28
8.- INTERPRETACIN DE RESULTADOS.........................................................................................28
9.- CORRELACIONES DE LAS COMPONENTES Y LAS VARIABLES........................................29
10.- EJEMPLO...........................................................................................................................................30
10.1.- DATOS................................................................................................................................30
10.2.- REPRESENTACIN DE LOS INDIVIDUOS SOBRE EL PRIMER PLANO PRINCIPAL........................31
10.3.- SALIDA TIPICA DE ORDENADOR................................................................................32
3
1.- EJEMPLO INICIAL
Supongamos que deseamos conocer cuales son los factores relacionados con el
riesgo de enfermedad coronaria. Del conoocimiento previo sabemos que el
riesgo la presin arterial, la edad, la obesidad, el tiempo que se ha sido
hipertenso, el pulso, y el stress.
Para la investigacin seleccionamos al azar 20 pacientes hipertensos en los que
medimos las siguientes variables:
X
1
: Presin arterial media (mm Hg)
X
2
: Edad (aos) X
3
: Peso (Kg). X
4
: Superficie corporal (m
2
)
X
5
: Duracin de la Hipertensin (aos) X
6
: Pulso (pussaciones/minuto)
X
7
: Medida del stress.
Tratamos de estudiar la situacin del grupo de pecientes en relacin a los
factores de riesgo y las posibles interrelacions entre las distintas variables.
Iniicialmente queremos describir el conjunto de pacientes utilizando
simultneamente todas las variables
Los datos obtenidos se muestran en la tabla siguiente:
X
1
X
2
X
3
X
4
X
5
X
6
X
7
1 105 47 85,4 1,75 5,1 63 33
2 115 49 94,2 2,10 3,8 70 14
3 116 49 95,3 1,98 8,2 72 10
4 117 50 94,7 2,01 5,8 73 99
5 112 51 89,4 1,89 7,0 72 95
6 121 48 99,5 2,25 9,3 71 10
7 121 49 99,8 2,25 2,5 69 42
8 110 47 90,9 1,90 6,2 66 8
9 110 49 89,2 1,83 7,1 69 62
10 114 48 92,7 2,07 5,6 64 35
11 114 47 94,4 2,07 5,3 74 90
12 115 49 94,1 1,98 5,6 71 21
13 114 50 91,6 2,05 10,2 68 47
14 106 45 87,1 1,92 5,6 67 80
15 125 52 101,3 2,19 10,0 76 98
16 114 46 94,5 1,98 7,4 69 95
17 106 46 87,0 1,87 3,6 62 18
18 113 46 94,5 1,90 4,3 70 12
19 110 48 90,5 1,88 9,0 71 99
20 122 56 95,7 2,09 7,0 75 99
La dimensin inicial es 7, pero Ser posible describir el conjunto de datos
utilizando un nmero menor de dimnsiones, aprovechando las interrelaciones
4
entre las variables?
Es posible definir un ndice general que cuantifique la situacin de riesgo?
Si consideramos solamente dos variables, los resultados se pueden presentar
mediante un diagrama de dispersin como el que aparece en la figura siguiente.
Sobre el diagrama se han incluidos los nmeros de orden de cada uno de los
pacientes.
Sobre la figura es posible interpretar la posible relacin entre las variables, pero
tambin las similitudes entre los individuos. Dos individuos prximos en el
grfico tendrn caractersticas similares, mientras que dos individuos alejados
tendrn caractersticas diferentes. Se pueden buscar tambin grupos de puntos
cercanos con caractersticas similares.
edad By presion
e
d
a
d
42,5
45,0
47,5
50,0
52,5
55,0
57,5
1
2 3
4
5
6
7
8
9
10
11
12
13
14
15
16 17 18
19
20
100 105 110 115 120 125 130
presion
5
Si consideramos las tres primras variables, aun es posible representarlas en tres
dimensiones sobre el papel como se muestra en la figura siguiente. Las
representaciones tridimensionales sobre el papel son difciles de interpretar ya
que no se tiene una referencia visual clara. La interpretacin puede realizarse
mediante un programa de ordenador que permita el movimiento de la figura
para ver las posiciones relativas de los puntos.
Representacin tridimensional de las variables presin, edad y peso.
Si movemos la figura resultante, observaremos que los puntos estn
prcticamente sobre un plano. Esto se pone de manifiesto en la figura siguiente
en la que se ha conseguido un punto de vista desde el que los puntos parecen
estar sobre una lnea recta.
Este hecho pone de manifiesto que no son necesarias tres dimensiones para
describir el conjunto de datos, sino solamente dos.
Component s
X presion
Y edad
Z peso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x
y
z
6
1 2
3
4
5
6
7 8
9
10
11
12
13
14
15
16
17
18
19
20
x
y
z
Rotacin de la representacin tridimensional que muestra que los puntos se
encuentran aproximadamente en un plano.
Tenemos entonces que buscar un sistema de referencia para el plano
(subespacio) ms cercano a la nube de puntos de forma que, al proyectarlos
todos sobre dicho plano, la prdida de informacin sea mnima. La prdida de
informacin puede entenderse en trminos de variabilidad del conjunto de
puntos o en trminos de la similitud entre las interdistancias entre los puntos,
calculadas en el espacio original y las calculadas en la proyeccin del
subespacio.
El subespacio quedar definido mediante un sistema de referencia para el
mismo, es decir, mediante dos vectores perpendiculares dentro del subespacio.
El primero lo situaremos en la direccin en la que ms varan los datos, el
7
segundo, perpendicular al primero recogiendo la mayor parte de la variabilidad
restante y as sucesivamente.
Los vectores del sistema de referencia definen nuevas variables, que son
combinaciones lineales de las variables de partida y se denominan componentes
principales. De esta forma, podemos reducir la dimensin seleccionando
solamente las primeras componentes. La reduccin de la dimensin se deriva
del hecho de que las variables estn relacionadas entre si y, por tanto, tienen
informacin comn, de alguna manera, la informacin comn a todas ellas se
extrae en las componentes principales.
La representacin de las dos primeras componentes, para los datos anteriores y
con slo tres variables aparece en la figura siguiente. Las dos primeras
componentes absorben el 99% de la variabilidad de los datos.
P
r
i
n

C
o
m
p

2
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Pri n Comp 1
Espacio de las componentes con las tres primeras variables
Sobre el diagrama de dispersin es posible interpretar las distancias entre los
puntos en trminos de similitud, buscar conjuntos de individuos similares, etc,
con la garanta de que la prdida de informacin es mnima y de que hemos
recogido las fuentes de variabilidad ms importantes en el conjunto de datos.
8
Cuando el nmero de variables es mayor, ya no es posible la representacin
directa de las variables en ms de tres dimensiones, pero aun sigue siendo
posible la reduccin de la dimensin, teniendo en cuenta las iterrelaciones entre
las variables.
La figura siguiente muestra las dos primeras componentes principales para el
conjunto de las 7 variables. Las componentes se denotan con x e y. Se han
superpuesto sobre el grfico vectores que representan a las variables originales
y que interpretaremos ms tarde. Tambin se han suprimido las escalas ya que,
en este contexto son menos importantes.
Espacio de las componentes con todas las variables.
En este caso, las dos primeras componentes recogen aproximadamente el 77%
de la variabilidad, ms aun recogen las fuentes de variabilidad ms importantes
de los datos.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
17
18
19
20
presion
edad
peso
superf i
duracio
pulso
st ress
x
y
z
9
Si prescindimos, por el momento, de los vectores que representan a las
variables, podemos interpretar las distancias entre puntos y buscar grupos, tal y
como hacamos en el diagrama de dispersin inicial.
Como las componentes son variables compuestas calculadas a partir de las
originales, solamente queda por determinar cual es la informacin que han
recogido las componentes, es decir, que variables explican la similitud de los
individuos en el subespacio de representacin final. La interpretacin se hace a
partir de las correlaciones entre las variables observadas y las componentes.
Dichas correlaciones se muestran en la tabla siguiente. (las componentes se
denominan factores en la tabla).
,965 -,230
,723 ,304
,884 -,403
,804 -,473
,434 ,525
,844 ,284
,355 ,764
Fact or 1 Fact or 2
presion
edad
peso
supcorp
Durac.
pulso
st ress
Unrot at ed Fact ors
Correlaciones entre las componentes principales y las variables observadas
Observamos como la primera componente est altamente correlacionada con
todas las variables salvo Duracin y Stress, es decir, la primera componente
muestra, fundamentalmente aspectos relacionados con el aumento de la presin
arterial y de las variables determinantes del riesgo de enfermedad coronaria,
por tanto la primera componente sera un ndice del riesgo de enfermedad de
forma que, los individuos que se siten a la derecha en la proyeccin sobre el
eje del grfico sern los que tienen riesgo ms alto de enfermedad y los que se
sitan a la izquierda, riesgo ms bajo.
La segunda componente est ms correlacionada con el stress y algo menos con
la duracin, por lo que mostrar las diferencias en el ndice de stress.
Sobre el grfico habamos superpuesto tambin vectores que representaban a
cada una de las variables originales. Los vectores representan la direccin de
mejor ajuste para cada una de las variables, en el sentido de que, si proyectamos
los puntos que representan a los individuos sobre uno de los vectores, las
puntuaciones obtenidas estaran ms correlacionadas con la variable original
10
que las proyecciones en cualquier otra direccin. El coseno del ngulo que
forma cada vector con el eje, mide aproximadamente la correlacin con el
mismo y los cosenos de los ngulos entre dos vectores aproximan la correlacin
entre las variables a las que representan, es decir, a menor ngulo menor
correlacin.
La representacin con las variables aadidas se denomina representacin
biplot.
A las correlaciones al cuadrado entre la variable y el eje se le denomina tambien
contribucin relativa del factor al elemento, y mide la parte de la variabilidad
de la variable que explica cada uno de los ejes. Las variables con contribuciones
altas en uno de los ejes y bajas en los dems son las que han de interpretarse
para cada eje ya que son caractersticas exclusivas del mismo.
Como las componentes son incorreladas, tienen informacin independiente por
lo que la suma de las correlaciones al cuadrado es 1. La parte explicada por un
plano, se calcula simplemente sumando la parte explicada (contribucin) por
los ejes que lo componen, a esta cantidad se la denomina tambin calidad de la
representacin.
La calidad de representacin puede interpretarse tambien como la correlacin
al cuadrado entre los valores de la variable original y las proyecciones de los
puntos sobre la direccin que representa a la variable.
De la misma manera que hemos hecho para las variables es posible definir
calidades de representacin para los individuos. Veamos una interpretacin
diferente de la misma ms adecuada para el estudio de los individuos.
La figura siguiente muestra la proyeccin de uno de los puntos de la nube en
un espacio bidimensional. Supongamos que se trata de la proyeccin de uno de
los vectores que representa a una variable.
11
Vect or
proyeccin en
el espacio
bidimensional
Vect or real en el
espacio
t ridimensional
Si observamos el espacio tridimensional que aparece en la figura, la variable
representada y el eje horizontal forman un ngulo de casi 90 por lo que pueden
considerarse independientes; sin embargo en la proyeccin sobre el espacio
bidimensional, el ngulo es muy pequeo, hecho que se podra traducir en una
fuerte relacin. Esto es debido a que la calidad de la representacin del vector
sobre el plano es baja.
La figura siguiente muestra la situacin esquematizada. El coseno al cuadrado
del ngulo se puede tomar como medida de la relacin entre la variable y el eje.
ngulo
i
eje 1
C
proy( i, 1)
cos
2
() || C , proy(i, 1) || / ||C, i||
A esta medida la denominaremos CALIDAD DE LA REPRESENTACION del
punto i sobre el eje factorial. (CLR
il
).
Esta cantidad puede calcularse tambien a partir del producto escalar entre el
12
vector i y un vector cualquiera en la direccin del eje.
La calidad de la representacin es una medida relativa, ya que la suma de las
calidades de la representacin de cada elemento sobre todos los ejes factoriales
es 1.
El grfico siguiente muestra una representacin sobre tres ejes factoriales,
donde se especifican los cosenos de los ngulos con los tres ejes que, como es
sabido, su suma de cuadrados es la unidad.
1
2
3
eje 1
eje 2
eje 3
cos + cos + cos = 1

1 2 3
2 2 2
cos = cos + cos
1 2
2 2 2
La calidad de la representacin con respecto a un plano se mide de la misma
manera, es decir, como el coseno al cuadrado del ngulo que forman el vector y
el plano. Este coseno al cuadrado es la suma de los cosenos al cuadrado de los
ngulos con los ejes que forman el plano.
cos
2
(
lk
) = cos
2
(
l
) + cos
2
(
k
)
Por tanto, la calidad de la representacin del elemento es una medida aditiva
que puede calcularse para la proyeccin en cualquier plano factorial, sin ms
que sumar las calidades de representacin con respecto a los ejes factoriales que
lo forman.
13
2.- DEFINICIONES BASICAS
DATOS
Disponemos de una matriz X
nxp
que contiene las medidas de p variables
tomadas sobre n individuos. Para simplificar el resto de la exposicin
supondremos, sin prdida de generalidad, que las columnas de X tienen media
cero, es decir que se le ha restado la media.
Todas las variables tienen el mismo papel, es decir, el conjunto no se divide en
variables dependientes e independientes como en el caso de la regresin.
DEFINICION
El Anlisis de Componentes principales consiste en encontrar transformaciones
ortogonales de las variables originales para conseguir un nuevo conjunto de
variables incorreladas, denominadas Componentes Principales, que se obtienen
en orden decreciente de importancia.
Las componentes son combinaciones lineales de las variables originales y se
espera que, solo unas pocas (las primeras) recojan la mayor parte de la
variabilidad de los datos, obtenindose una reduccin de la dimensin en los
mismos. Luego el propsito fundamental de la tcnica consiste en la reduccin
de la dimensin de los datos con el fin de simplificar el problema en estudio.
Se trata de una tcnica orientada a las variables, suponemos que las p columnas
de X generan un espacio p dimensional, de forma que los n individuos pueden
representarse en dicho espacio en lo que llamaremos una hipernube. La
transformacin es, de hecho, una rotacin en el espacio p-dimensional. El
espacio generado por las primeras q componentes es entonces, un subespacio
vectorial q-dimensional del espacio p-dimensonal original.
14
Cuando el valor de q es pequeo, por ejemplo 2, es posible una representacin
grfica directa de los individuos que nos ayudar ainterpretar las similitudes
entre los mismos.
El ACP puede entenderse tambin como la bsqueda del subespacio de mejor
ajuste.
Una de las diferencias fundamentales con el Anlisis Factorial es que el ACP
explica variabilidad en lugar de correlaciones, aunque para obtener una
reduccin efectiva de la dimensin es necesario que las variables estn
correlacionadas. En otras palabras, si las variables estn altamente
correlacionadas, tienen informacin comn y la dimensin real de los datos es
menor que p.
En muchas ocasiones es difcil encontrar el significado de las componentes,
como variables compuestas, por lo que el uso principal de la tcnica es la
reduccin de la dimensin como paso previo a la aplicacin de otros anlisis
posteriores, por ejemplo, un diagrama de dispersin de las primeras
componentes con el objeto de encontrar clusters en los datos o con el objeto
de contrastar similitudes o diferencias entre los individuos.
El ACP es una tcnica que no necesita que se especifique un modelos concreto
para explicar el error, en particular, no se hace ninguna suposicin sobre la
distribucin de probabilidad de las variables originales, aunque si se supone
que es normal multivariante es posible obtener algunos resultados inferenciales
adicionales.
En algunos textos se hacen diferencias entre las CP poblacionales y muestrales,
aqu entenderemos la tcnica como un mtodo descriptivo, libre de
distribucin, y trabajaremos directamente con los datos muestrales.
15
3.- OBTENCION DE LA COMPONENTES
PRINCIPALES
La obtencin de las CP puede realizarse por varios mtodos alternativos:
1.- Buscando aquella combinacin lineal de las variables que maximiza la
variabilidad. (Hottelling).
2.- Buscando el subespacio de mejor ajuste por el mtodo de los mnimos
cuadrados. (Minimizando la suma de cuadrados de las distancias de cada punto
al subespacio). (Pearson).
3.- Minimizando la discrepancia entre las distancias eucldeas entre los puntos
calculadas en el espacio original y en el subespacio de baja dimensin.
(Coordenadas principales, Gower).
4.- Mediante regresiones alternadas (mtodos Biplot)
3.1.- OBTENCIN DE LAS CP MEDIANTE LA MAXIMIZACIN
DE LA VARIABILIDAD.
Denotaremos con X
1
, , X
p
las variables originales y con Y
1
, , Y
p
las
componentes. En principio, podemos obtener tantas componentes como
variables originales. X denotar el vector de variables originales e Y el de
componentes.
X es la matriz de datos originales, que supondremos centrada por columnas, y S
es la matriz de covarianzas entre las variables.

S
1
n1
X X
16
Buscamos combinaciones lineales de las variables observadas que sean
incorreladas y con varianzas progresivamente decrecientes

Y
j
v
1j
X
1
+K+ v
pj
X
p
Y
j
Xv
j
yj Xvj
Y XV
Donde Y es la matriz que contiene las puntuaciones de cada uno de los
individuos sobre las componentes y V es la matriz que contiene los coeficientes
de las combinaciones lineales en columnas.
Y
1
ser aquella componente que explique la mayor parte de la variabilidad, Y
2
ser ortogonal a Y
1
y explicar la mayor parte de la variabilidad restante y as
sucesivamente.
En las ecuaciones tenemos un factor de escala arbitraria por lo que imponemos
la restriccin

v
kj
2
1
k 1
P
v j vj 1 V V I
Buscamos Y
1
que haga mxima la varianza

Var(Y1) Var(Xv1) v 1Sv1
Utilizando el mtodo de los multiplicadores de Lagrange para tener en cuenta
la restriccin, podemos escribir

L(v1 ) v 1Sv1 ( v 1v1 1)
Derivando e igualando a cero

L(v1 )
v
1
2Sv1 2v1
17
es decir

Sv1 v1
lo que quiere decir que v
1
debe ser un vector propio de S de valor propio ,
pero S tiene p valores propios
1
,
p
que supondremos distintos y ordenados en orden decreciente
1

p
0.
Teniendo en cuenta que

Var(Xv1 ) v 1Sv1 v 1 v1
debe ser
1
el primer valor propio y v
1
el vector propio asociado.
La segunda componente principal Y
2
= Xv
2
, se obtiene con un procedimiento
anlogo pero aadiendo la restriccin adicional de que Y
1
e Y
2
son incorreladas.

cov(Y1, Y2 ) v 2Sv1 0
o una condicin equivalente ms simple

v 2v1 0 ya que

Sv1 v1
Utilizando de nuevo el mtodo de los multiplicadores de Lagrange, podemos
escribir

L(v2 ) v 2Sv2 ( v 2v2 1) v 2v1
Derivando e igualando a cero se obtiene

L(v2 )
v
2
2Sv2 2v2 v1 0
premultiplicando por v
1
,
18

2 v 1Sv2 2 v 1v2 v 1v1 0
2 v 1Sv2 0
como

v 1Sv2 0, entonces = 0 en el punto estacionario, de forma que ,

Sv2 v2
con lo que es el segundo valor propio
2
y v
2
es el segundo vector propio.
Siguiendo con el mismo argumento, podemos obtener las sucesivas componentes
principales a partir de los correspondientes valores y vectores propios.
Entonces, si

S V V
diag(
1
,K,
p
)
V V I

'

es la descomposicin espectral de la matriz de covarianzas S, los coeficientes de
las combinaciones lineales que definen las componentes principales son las
columnas de V, es decir los vectores propios de la matriz de covarianzas.
Seleccionando q componentes, las puntuaciones de los individuos en las componentes
estn dadas por

Yq XVq
donde V
q

est formada por las q primeras columnas de V, y suponiendo X
centrada.
Ahora

Var(Yj )
j 1
p
j traza()
j 1
p
y
19

traza( ) traza( V SV) traza(S V V)
traza(S) Var(X
j
)
j 1
p
Este resultado nos permite calcular la proporcin de varianza absorbida por

cada componente como

j
i
i 1
p
o acumulada para un subespacio de dimensin q

j
j 1
q
i
i 1
p
- Nota: las componentes principales pueden calcularse tambin a partir de X'X

con X centrada ya que

S
1
n1
X X
se obtienen los mismos vectores propios aunque los correspondientes valores
propios aparecieran multiplicados por n-1, lo cual no influye en la variabilidad
absorbida.
20
Obtencin a partir del subespacio de mejor ajuste
Una aproximacin diferente que produce los mismos resultados es la que trata
de minimizar la suma de cuadrados de las distancias de cada punto a la
componente, entendiendo que buscamos el subespacio, en dimensin reducida,
que mejor se ajusta a la nube de puntos.
El procedimiento de ajuste se basa en el mtodo de los mnimos cuadrados.
Sea X una matriz rectangular de datos con n filas y p columnas y con trmino
general x
ij
. Abordaremos el siguiente problema:
es posible reconstruir los np valores x
ij
, y por tanto las interdistancias entre
individuos, a partir de un nmero mas pequeo de valores numricos?
Trataremos ahora la solucin relacionada con los mtodos factoriales.
Supongamos que existe un vector columna y
1

de n componentes y un vector
columna v
1
de p componentes de modo que X = y
1

v
t
1
.
Se habrn reconstruido los np valores de X con n + p valores nicamente (en
este caso la matriz es de rango 1).
En general no es posible obtener una descomposicin tan simple. Buscaremos
una aproximacin de rango q para X, es decir
X = y
1

v
t
1
+ y
2

v
t
2
+ ............ + y
q

v
t
q
+ E
E es una matriz residual con trminos muy pequeos para que la
reconstruccin sea satisfactoria. Reconstruimos X entonces, con q(n+p) valores
de los vectores u
i

v
t
i
.
Resolveremos el problema mediante representaciones geomtricas vinculadas
a los mtodos factoriales. X dar lugar a dos representaciones; las n filas pueden
considerarse como n puntos en un espacio de p dimensiones R
p
; y las p
columnas pueden representar las coordenadas de p puntos en un espacio de n
dimensiones R
n
21
Ajuste por un subespacio vectorial en R
p
.
Si la nube de n puntos que representan a las filas de la matriz X est contenida
en un subespacio de dimensin q < p ser posible reconstruir las posiciones de
los n puntos a partir de las coordenadas de q nuevos ejes y de las componentes
de estos nuevos ejes.
Por lo tanto vamos a intentar ajustar la nube de n puntos por un subespacio
vectorial de R
p
dotado de la distancia eucldea ordinaria. Buscaremos la recta F
l
que pasa por el origen y se ajusta lo mejor posible a nube. Sea v un vector
unitario de esa recta, es decir, v
t
v = 1 Como cada fila de X representa un punto
de R
p
,las n filas de vector Xv son las n longitudes de las proyecciones de los
puntos de la nube sobre F
1
.
Para cada punto, el cuadrado de la distancia a origen se descompone en el
cuadrado de su proyeccin sobre F
1
y el cuadrado de su distancia a F
1
. Como
las distancias al origen estn fijadas, minimizar la suma de cuadrados de las
distancias a F
1
es equivalente a maximizar la suma de cuadrados de las
proyecciones.
F
1
P
d
p
d
1
d
2
= p
2
+ d
2
1
22
X
1
X
2
F
1
F
2
e
2
e
1
v
1
v
2
Buscamos v que haga mxima la cantidad
(Xv)
t
Xv = v
t
X
t
X v
con la restriccin v
t
v = 1. El subespacio resultante se designar por v
1
.
El subespacio vectorial de dos dimensiones que mejor se ajusta a la nube de
puntos contendr a v
1
. Se hallar buscando el vector unitario v
2
ortogonal
respecto a v
1

que haga mxima la forma cuadrtica
v
2
t
X
t
X v
2
con las restricciones v
2
t
v
1
= 0; v
2
t
v
2
= 1.
As sucesivamente buscamos el subespacio engendrado por q vectores v
1
,
v
2
, ... , v
q
(ortogonales dos a dos) que mejor se ajustan a la nube de puntos.
23
Clculo del mximo.
Sea un multiplicador de Lagrange.
Derivamos la cantidad v
t
X
t
X v - (v
t
v - 1) con respecto a las componentes de
v y obtenemos
2 X
t
X v - 2 v = 0
es decir,
X
t
X v = v
Entonces, v
l
es un vector propio de la matiz X
t
X de valor propio .
Concretamente el mayor valor propio.
Puede verse que, v
1
, v
2
, ... , v
q
son vectores propios de X
t
X asociados a valores
propios
1
,
2
, ... ,
q
respectivamente y que
1

2
...
q
.
La matriz X
t
X es semidefinida positiva por lo que todos los valores propios
son mayores que cero
Es posible otra interpretacin en trminos de la variablidad. Como es bien
sabido, si los datos estn centrados, la matriz X
t
X es, salvo un factor de escala
dependiente del tamao muestral, coincide con la matriz de varianzas-
covarianzas entre las variables.
S = (1/n) X
t
X
Dado un vector v en R
p
, la varianza de las proyecciones sobre Xv dicho vector,
es v
t
S v.
Si buscamos el vector v unitario en aquella direccin con mxima varianza se
trata de hacer mxima la cantidad v
t
S v con la restriccin v
t
v = 1.
El subespacio resultante se designar por v
1
.
Sea un multiplicador de Lagrange.
24
Derivamos la cantidad v
t
S v - (v
t
v - 1) con respecto a las componentes de u
y obtenemos
2 S v - 2 v = 0
es decir,
S v = v
Entonces, v
l
es un vector propio de la matiz X
t
X de valor propio / n.
Luego la direccin buscada es la que maximiza la varianza y es, por tanto, la
direccin en la que pueden examinarse las diferencias entre los individuo con
prdida de informacin mnima.
Los vectores directores de los q nuevos ejes se obtienen a partir de la
descomposicin en valores y vectores propios de S (o X
t
X) en la forma
S = V D V
t
y se corresponden con las q primeras columnas de la matriz de vectores propios
V.
Las coordenadas de los individuos en el espacio generado por las q primeras
componentes principales, es decir, las proyecciones de los puntos en el espacio
original sobre el subespacio de las componentes principales, son
Y = X V
(q)
donde el subndice (q) significa "las q primeras columnas".
Las componentes principales son nuevas variables, combinacin lineal de las
variables originales, con varianza progresivamente decreciente.
25
3.2.- COORDENADAS PRINCIPALES
El tercer procedimiento de obtencin se basa en hacer minima la discrepancia
entre las distancias observadas en el espacio original y las distancias estimadas
en el espacio de la aproximacin.
ij
P
i
L
P
j
P'
i
P'
j
ij

Min (
ij

ij
)
2
ij
ij (xik xjk )
2
k1
p

ij
(y
ik
y
jk
)
2
k1
q
(Coordenadas principales)
26
4.- MEDIDAS DE LA BONDAD DEL AJUSTE
Como se trata de una aproximacin en dimensin reducida es necesario decidir
si la aproximacin es satisfactoria.
- Las coordenadas de las proyecciones sobre el subespacio de las componentes
en el sistema de referencia original son
X* = Y V
t
(q)
= X V
(q)
V
t
(q)
La discrepancia con los valores originales en X con los valores esperados en el
subespacio se puede medir como la suma de cuadrados de (X - X*), es decir,
como
traza[(X - X*)
t
(X - X*)]
o en forma relativa
traza[(X - X*)
t
(X - X*)] / traza[X
t
X]
luego, una medida de la bondad del ajuste puede ser
(1 - (traza[(X - X*)
t
(X - X*)] / traza[X
t
X])) x 100
que puede interpretarse como el porcentaje de la variabilidad de los datos
explicado por las componentes principales.
Teniendo en cuenta las propiedades de la traza, la bondad del ajuste puede
escribirse tambin como

i
i 1
q
i
i 1
q
x100
27
5.- PROPIEDADES
- La matriz de vectores propios V define un cambio de base del espacio R
p
en el
que se ha representado la matriz de datos originales.
- Las q primeras columnas de V definen la proyeccin de los puntos en R
p
sobre
el subespacio q-dimensional de mejor ajuste.
- Los elementos de V son los cosenos de los ngulos que forman las variables
originales y las componentes principales.
- Las coordenadas de los individuos en el nuevo sistema de referencia son de la
forma Y = X V.
- Las coordenadas las primeras componentes principales permiten interpretar
las similaridades entre individuos con prdida de informacin mnima.
- El ACP utiliza la informacin redundante, a travs de las correlaciones entre
las variables, para reducir la dimensin.
- La matriz de covarianzas entre las componentes es D ().
- Las componentes principales son variables incorreladas y, por tanto con
informacin independiente.
- La varianza de las componentes principales es
i
.
- Si se trabaja con datos brutos, la primera componente principal suele mostrar
la traslacin de la nube de puntos con respecto al origen.
- Si las variables estn centradas, las componentes se calculan a partir de la
matriz de covarianzas y las componentes estarn dominadas por las
variables con escala de medida mayores.
- Si se trabaja con datos estandarizados, las componentes principales se
obtienen de la diagonalizacin de la matriz de correlaciones. Se utilizarn
datos estandarizados cuando las escalas de medida de las variables sean
muy diferentes.
6.- NMERO DE EJES A RETENER
- Prueba de Anderson: Si los datos son normales, es posible realizar un test para
contrastar si las ltimas (p-q) races son iguales a cero.
28

2
(n 1) ln(i )
I q+1
p
+ (n1)(p q)ln
i
I q+1
p
p q

_
,

sigue una ji-cuadrado con (1/2) (p-q) (p-q+1) - 1 grados de libertad.
-Scree Plot: Grfico de los valores propios. Se seleccionan ejes hasta que se vea
un decrecimiento brusco en la magnitud de los valores propios.
- Seleccionar las componentes necesarias para explicar un determinado
porcentaje de la varianza.
7.- ESCALAS DE MEDIDA
Si las escalas de medida de las variables son muy diferentes, la variabilidad
estara dominada por las variables con magnitudes mayores de forma que las
primeras componentes pueden mostrar simplemente las diferencias en la
escala. En este caso conviene tomar la matriz x estandarizada por columnas y
centrando y dividiendo por la desviacin tpica. En este caso las componentes
estaran colocadas sobre la matriz de correlaciones.
8.- INTERPRETACIN DE RESULTADOS
- Diagramas de dispersin que representan los valores de los individuos en
las primeras componentes principales.
- Interpretacin de distancias en trminos de similitud.
- Bsqueda de clusters (grupos) y patrones.
- Interpretacin de las componentes utilizando las correlaciones con las
variables originales. Las posiciones de los individuos se interpretan despus
en relacin a la interpretacin dada a las componentes.
29
9.- CORRELACIONES DE LAS COMPONENTES
Y LAS VARIABLES
A los vectores escalados de la forma:

v
j
*

j
1/2
v
j
C V
1/2
se les denomina factores de carga (C)
Cuando las componentes principales se calculan usando la matriz de
correlaciones, la matriz C contiene las correlaciones entre las variables
originales y las componentes.
Para las componentes calculadas a partir de la matriz de covarianzas, los
factores de carga dependen de la escala de medida de las variables por lo que
son difciles de interpretar.
Los factores de carga suelen representarse en un grfico que permite la
interpretacin visual de las relaciones.
En cualquiera de los casos podemos calcular tambin la correlacin al cuadrado
entre las componentes y las variables y las componentes. A dichas correlaciones
al cuadrado se las denomina contribuciones relativas del factor al elemento y
miden la proporcin de la variabilidad de las variables explicadas por cada
componente. Esta cantidad puede utilizarse para interpretar las componentes.
30
10.- EJEMPLO
10.1.- DATOS
La tabla de datos siguiente muestra los porcentajes de personas empleadas en 9
sectores distintos para 26 pases europeos (antes de los ltimos cambios
polticos). En este caso, el Anlisis Multivariante puede ser til para aislar
grupos de pases con distribuciones de empleo similares y en general para
intentar comprender mejor las relaciones existentes entre los pases y las
variables.
SECTORES:
AGR: Agricultura, MIN: Minera, MAN: Manufacturas, ENER: Energa,
CON: Construccin, SER: Industrias de servicios, FIN: finanzas, SSP:
Servicios sociales y personales, TC: Transportes y comunicaciones.
PAISES AGR MIN MAN ENER CON SER FIN SSP TC
BLGICA 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
DINAMARCA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
FRANCIA 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
RFA 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
IRLANDA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
ITALIA 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
LUXEMBURGO 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
HOLANDA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
U.K. 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
AUSTRIA 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
FINLANDIA 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
GRECIA 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
NORUEGA 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
PORTUGAL 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7
ESPAA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
SUECIA 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
SUIZA 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
TURQUA 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
BULGARIA 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
CHECOSLOVAQUIA 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
RDA 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
HUNGRA 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
POLONIA 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
RUMANIA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0
URSS 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
YUGOSLAVIA 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
31
10.2.- REPRESENTACIN DE LOS INDIVIDUOS SOBRE EL
PRIMER PLANO PRINCIPAL
- 4 - 3 - 2 - 1 0 1
- 2
- 1
0
1
2
BEL
DI N
F RA
RF A
I RL
I TA
L UX
HOL
UK
AUS
F I N
GRE
NOR
POR
ESP
SUE
SUI
TUR
BUL
CHE
RDA
HUN
POL
RUM
URS
YUG
- 1. 0 - 0. 5 0. 0 0. 5 1. 0
- 1. 0
- 0. 5
0. 0
0. 5
1. 0
AGRI C
MI NERI A
MANUF
ENERG
CONSTR
SERVI CI O
FI NANZAS
SERVSOC
TRANSP
Representacin grfica de los factores de carga.
32
10.3.- SALIDA TIPICA DE ORDENADOR
LATENT ROOTS ( EI GENVALUES)
1 2 3 4 5
3. 487 2. 130 1. 099 0. 994 0. 543
6 7 8 9
0. 383 0. 226 0. 137 0. 000
COMPONENT LOADI NGS
1 2
AGRI C - 0. 978 0. 078
MI NERI A - 0. 002 0. 902
MANUF 0. 649 0. 518
ENERG 0. 478 0. 381
CONSTR 0. 607 0. 075
SERVI CI O 0. 708 - 0. 511
FI NANZAS 0. 139 - 0. 662
SERVSOC 0. 723 - 0. 323
TRANSP 0. 685 0. 296
VARI ANCE EXPLAI NED BY COMPONENTS
1 2
3. 487 2. 130
PERCENT OF TOTAL VARI ANCE EXPLAI NED
1 2
38. 746 23. 669
FACTOR SCREE PLOT
EI GENVALUES
- +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +-
4 + +
| |
| A |
| |
3 + +
| |
| |
| A |
2 + +
| |
| |
| A |
1 + A +
| A |
| A |
| A A A |
0 + +
- +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +- - - - - - - - - - - +-
0 2 4 6 8 10

Analisis de Componentes Principales: José Luis Vicente Villardón Departamento de Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Componentes Principales: José Luis Vicente Villardón Departamento de Estadística

Cargado por

Copyright:

Formatos disponibles

1

cos + cos + cos = 1

Este resultado nos permite calcular la proporcin de varianza absorbida por

o acumulada para un subespacio de dimensin q

- Nota: las componentes principales pueden calcularse tambin a partir de X'X

También podría gustarte