Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Componentes principales
1
La reducción de muchas variables a pocas componentes puede simplificar la aplicación
sobre estas últimas de otras técnicas multivariantes (regresión, clusters,…)
Estas técnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y
posteriormente fueron estudiadas por Hotelling en los años 30 del siglo XX. Sin embargo,
hasta la aparición de los ordenadores no se empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables correlacionadas (que miden
información común) se puede transformar el conjunto original de variables en otro conjunto
de nuevas variables incorreladas entre sí (que no tenga repetición o redundancia en la
información) llamado conjunto de componentes principales.
Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo
según el orden de importancia en cuanto a la variabilidad total que recogen de la muestra.
De modo ideal, se buscan m < p variables que sean combinaciones lineales de las p
originales y que estén incorreladas, recogiendo la mayor parte de la información o
variabilidad de los datos.
Si las variables originales están incorreladas de partida, entonces no tiene sentido realizar
un análisis de componentes principales.
El análisis de componentes principales es una técnica matemática que no requiere la
suposición de normalidad multivariante de los datos, aunque si esto último se cumple se
puede dar una interpretación más profunda de dichos componentes.
es decir:
y j a j 1 x 1 a j 2 x 2 a jp x p a j x
'
2
x1
x
xp
Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una forma
simple podría ser aumentar los coeficientes a ij . Por ello, para mantener la ortogonalidad de
a ja j a 1
' 2
jk
k 1
a1 a1 1 :
'
Var y 1 Var a 1 x a 1 a 1
' '
El método habitual para maximizar una función de varias variables sujeta a restricciones es
el método de los multiplicadores de Lagrange.
El problema consiste en maximizar la función a 1' a 1 sujeta a la restricción a 1' a 1 1 . Se
puede observar que la incógnita es precisamente a 1 (el vector desconocido que nos da la
combinación lineal óptima).
Así, construyo la función L:
L a1 a1 a1 a1 a1 1
'
'
y busco el máximo, derivando e igualando a 0:
3
L
2 a 1 2 Ia 1 0 I a 1 0
a1
entonces,
Var y 1 Var a 1 x a 1 a 1 a 1 Ia 1 a 1 a 1 .
' ' ' '
Luego, para maximizar la varianza de y 1 se tiene que tomar el mayor valor propio, digamos
En realidad, a 1 es un vector que nos da la combinación de las variables originales que tiene
y 1 a 11 x 1 a 12 x 2 a 1 p x p a 1 x
'
C ov y 2 , y1 C ov a 2 x , a1 x a 2 E x x ' a1 a 2 a1 0
' ' ' '
a 2 a1 a 2 a1 a 2 a1 0
' ' '
esto equivale a que a 2' a 1 0 , es decir, que los vectores sean ortogonales.
4
De este modo, tendremos que maximizar la varianza de y 2 , es decir, a 2' a 2 , sujeta a las
siguientes restricciones
a2a2 1
'
a 2 a1 0
'
Se toma la función:
L a 2 a 2 a 2 a 2 a 2 1 a 2 a1
' '
'
y se deriva:
L
2 a 2 2 a 2 a1 0
a 2
2 a1 a 2 0
'
Porque
a1 a1 1
'
a 2 a1 a1 a 2 0
' '
Luego
2 a1 a 2 2 a 2 a1 0
' '
ya que Cov y 2 , y 1 0 .
De este modo,
L
2 a 2 2 a 2 a1 2 a 2 2 a 2 0
a 2
I a 2 0
Usando los mismos razonamientos que antes, elegimos λ como el segundo mayor valor
propio de la matriz Σ con su vector propio asociado a 2 .
Los razonamientos anteriores se pueden extender, de modo que al j -ésimo componente le
correspondería el j -ésimo autovalor.
Entonces todos los componentes de y (en total p) se pueden expresar como el producto de
una matriz formada por los vectores propios, multiplicada por el vector x que contiene las
variables originales x 1 , x 2 ,..., x p :
y Ax
5
donde
y1 a 11 a 12 a1 p x1
y2 a 21 a 22 a2p x2
y , A , x
y p a a p2 a pp x
p1 p
Como
Var y 1 1
Var y 2 2
Var y p p
o bien A A ' , ya que A es una matriz ortogonal (porque a i' a i 1 para todas sus
columnas) por lo que AA ' I .
Ejemplo 1
Veamos cómo se aplica la transformación de componentes principales a un conjunto de
datos que presentan cierta correlación. En la siguiente tabla mostramos los datos sobre los
que se va a efectuar la transformación.
x1 x2
2 2
2 3
3 4
4 3
5 4
6
5 5
3 .5 1 .9 1 .1
.
3 .5 1 .1 1 . 1
Calculamos los valores propios de Σ. Como p = 2 habrá dos valores propios asociados a la
particular,
o lo que es igual,
3 0.88 0
2
1 .9 1 .1 1 0 a 11 0 . 77 1 . 1 a 11
2 . 67 0 0
1 .1 1 a 12 1 . 57 a 12
1 .1 0 1 .1
o lo que es igual,
0 . 77 a 11 1 . 1a 12 0
1 . 1a 11 1 . 57 a 12 0
Como nos hemos restringido a vectores con longitud 1 a 1' a 1 1 , imponemos también que
7
a 11 1 . 43 a 12
a 11 a 12 1
2 2
0 . 82
y su solución a 1 .
0 . 57
0 . 57
a 2 .
0 . 82
a 1 1 a 12 0 . 82 0 . 57 1
2 2 2 2
a 2 1 a 22 ( 0 . 57 ) 0 . 82 1
2 2 2 2
' 1 x1
x
y 1 a 1 0 . 82 0 . 57 0 . 82 x 1 0 . 57 x 2
x2 x2
x1
y 2 0 . 57 0 . 82 0 . 57 x 1 0 . 82 x 2
x2
x1 x2 y1 y2
2 2 2.78 0.50
2 3 3.35 1.32
3 4 4.74 1.57
4 3 4.99 0.18
5 4 6.38 0.43
5 5 6.95 1.25
8
Por último, observemos que la matriz de covarianza Λ es diagonal y contiene los valores
propios asociados a Σ:
2 . 67 0
0 0 . 33
1 .9 1 .1 2 . 67 0
Al comparar las dos matrices de covarianza: ;
1 .1 1 . 1 0 0 . 33
observamos que:
Si sumamos todos los valores propios, tendremos la varianza total de los componentes, es
decir:
p p
Var y
i i
traza
i 1 i 1
9
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas de
las componentes son iguales. Esto permite hablar del porcentaje de varianza total que
recoge un componente principal:
i i
p
p
i Var ( x i
)
i 1 i 1
i
i 1
p
Var ( x i
)
i 1
donde m < p.
En la práctica, al tener en principio p variables, nos quedaremos con un número mucho
p
Ejemplo 2
Continuando con el ejemplo anterior, vemos que la transformación realizada preserva la
varianza global:
p
Var x traza ( ) 1 . 9 1 . 1 3
i
i 1
p
Var y traza ( ) 2 . 67 0 . 33 3
i
i 1
En este caso la primera componente podría reemplazar a las dos variables originales con
una pequeña perdida de información.□
10
(C) Cálculo de las covarianzas y correlaciones entre las variables originales y las
componentes principales
Como se tiene que
1
y Ax x A y x A ' y
A es ortogonal
entonces
p
Cov y j , x i Cov y j , a ik y k a ij Var y j j a ij
k 1
Ejemplo 3
Siguiendo el ejemplo anterior tenemos:
11
b. En Analizar elegimos la Matriz de correlaciones o la Matriz de covarianza
c. En Visualización elegimos Solución factorial sin rotar
Una vez realizadas las especificaciones se pulsa en el botón Aceptar.
Estadísticos descriptivos
Desviación
Media típica N del análisis
VAR00001 3,5000 1,37840 6
VAR00002 3,5000 1,04881 6
Matriz de componentes(a)
Bruta Reescalada
Componente Componente
1 1
VAR00001 1,338 ,971
VAR00002 ,938 ,894
Método de extracción: Análisis de componentes principales.
a 1 componentes extraídos
Esta salida del SPSS (Matriz de componentes-columna bruta) presenta los vectores propios
que forman las componentes seleccionadas pero multiplicadas previamente por j (su
12
valor propio correspondiente). Esto se hace para reescalar todas las componentes del mismo
modo. Así, la componente bruta sería:
aj jaj
*
Entonces, para obtener los coeficientes a1 de la primera componente (que es la que explica
el 89,016% de la varianza) hay que dividir los números de la tabla de Matriz de
componentes, columna Bruta, entre la raiz cuadrada del valor propio de la componente:
1, 338
a11 0, 82
2, 67
0, 938
a12 0, 57
2, 67
a1 k 1
variables originales, ry x
1 k
, por tanto es igual a la columna Bruta dividida por la
V ar ( x k )
x1 1 x2 2 x p
p
z1 ; z2 ; ; zp
V ar ( x1 ) V ar ( x 2 ) V ar ( x p )
13
Así, los componentes se obtienen de los vectores propios de la matriz de correlaciones y
son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a
todas las variables originales.
En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las
variables originales están tipificadas, esto implica que su matriz de covarianzas es igual a la
de correlaciones, con lo que la variabilidad total (la traza) es igual al número total de
variables que hay en la muestra. La suma total de todos los valores propios es p y la
j
proporción de varianza recogida por la j-esima componente es .
p
Ejemplo 5
1 4
Consideremos la matriz de covarianzas y la matriz de correlación derivada
4 100
1 0 .4
de ella R .
0 .4 1
2 0 . 84 a 2 0 . 999 0 . 040
'
14
a 11 1 0 . 040 100 . 16
r y 1 x1 0 .4
s 11 1
a 12 1 0 . 999 100 . 16
r y1 x 2 0 . 999
s 22 100
Cuando las variables están estandarizadas, las variables resultantes contribuyen de igual
forma a las componentes principales determinadas a partir de R . Veámoslo:
r y1 z1 a 11 1 0 . 707 1 . 4 0 . 837
r y1 x 2 a 12 1 0 . 707 1 . 4 0 . 837
1 1.4
En este caso, la primera componente explica una proporción de 0.7 de la
p 2
varianza total.
Vemos entonces que la importancia relativa de las variables sobre, por ejemplo, la primera
componente principal está muy afectada por la estandarización. Cuando la primera
componente obtenida a partir de R se expresa en términos de x1 y x2, las magnitudes
relativas de las ponderaciones 0.707 y 0.0707 están en directa oposición con las
ponderaciones 0.040 y 0.999 conseguidas en las componentes principales de Σ.□
15
Las variables deberían ser estandarizadas si son medidas en escalas con rangos muy
diferentes. Por ejemplo, si x1 representa las ventas anuales en el rango 10.000€ y 350.000€
y x2 es la razón ingresos anuales netos / valores totales, que caen en el rango 0.01 y 0.6,
entonces la variación total será dada casi exclusivamente por los euros de las ventas. En
este caso, podríamos esperar una única componente principal con una ponderación muy
fuerte de la primera variable. Alternativamente, si las dos variables están estandarizadas,
sus magnitudes subsecuentes estarán en el mismo orden y x2 (o z2) jugará un papel
importante en la construcción de las componentes. Este comportamiento fue observado en
el ejemplo anterior.
16
“codo” en el gráfico, es decir, un punto a partir del cual los valores propios son
aproximadamente iguales. El criterio es quedarse con un número de componentes que
excluya los asociados a valores pequeños y aproximadamente del mismo tamaño.
2. Seleccionar componentes hasta cubrir una proporción determinada de varianza, como el
80 o el 90 por 100. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,
es posible que un único componente recoja el 90 por 100 de la variabilidad y, sin embargo,
pueden existir otros componentes que sean muy adecuados para explicar otras
características de las variables.
3. Desechar aquellos componentes asociados a valores propios inferiores a una cota, que
suele fijarse como la varianza media i
/ p . En particular, cuando se trabaja con la
17