Material Apoyo Componentes Principales

Material de repaso
Componentes principales
1 Componentes Principales. Definición y obtención

El análisis de componentes principales (ACP) es un método estadístico multivariante de
simplificación o reducción de la dimensión de una tabla de variables cuantitativas,
obteniendo otra de menor número de variables, combinación lineal de las primitivas, que se
denominan componentes principales. Su aplicación es directa sobre cualquier conjunto de
variables sin que el investigador haya previamente establecido jerarquías entre ellas (var.
dependientes o independientes), normalidad de su distribución, ...
Podría decirse que el objetivo principal que persigue el ACP es la representación de las
medidas numéricas de varias variables en un espacio de pocas dimensiones donde nuestros
sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en
dimensiones superiores. Dicha representación debe ser tal que al desechar dimensiones
superiores la pérdida de información sea mínima.
La utilidad de la técnica de componentes principales es doble:
1. Por un lado, el análisis de componentes principales permite resumir de forma óptima
la información proporcionada por las variables originales mediante las
componentes.
El número total de posibles componentes coincide con el número total de variables.
Quedarse con todas las componentes no simplificaría el problema, por lo que el
investigador deberá seleccionar el número de ellas que expliquen una proporción
aceptable de la información global (o varianza de la nube de puntos).
2. Permite transformar las variables originales, en general correladas (solapamiento en la
información), en nuevas variables incorreladas, facilitando la interpretación de los
datos. Un análisis de componentes principales a menudo revela relaciones que
previamente no se sospechaban y permiten interpretaciones que no resultan de forma
ordinaria.
1
La reducción de muchas variables a pocas componentes puede simplificar la aplicación
sobre estas últimas de otras técnicas multivariantes (regresión, clusters,…)
Estas técnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y
posteriormente fueron estudiadas por Hotelling en los años 30 del siglo XX. Sin embargo,
hasta la aparición de los ordenadores no se empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables correlacionadas (que miden
información común) se puede transformar el conjunto original de variables en otro conjunto
de nuevas variables incorreladas entre sí (que no tenga repetición o redundancia en la
información) llamado conjunto de componentes principales.
Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo
según el orden de importancia en cuanto a la variabilidad total que recogen de la muestra.
De modo ideal, se buscan m < p variables que sean combinaciones lineales de las p
originales y que estén incorreladas, recogiendo la mayor parte de la información o
variabilidad de los datos.
Si las variables originales están incorreladas de partida, entonces no tiene sentido realizar
un análisis de componentes principales.
El análisis de componentes principales es una técnica matemática que no requiere la
suposición de normalidad multivariante de los datos, aunque si esto último se cumple se
puede dar una interpretación más profunda de dichos componentes.
(A) Cálculo de los Componentes Principales

Se considera una serie de variables  x 1 , x 2 ,..., x p  sobre un grupo de objetos o individuos y
se trata de calcular, a partir de ellas, un nuevo conjunto de variables y 1

, y 2 ,..., y p 
incorreladas entre sí, cuyas varianzas vayan decreciendo progresivamente.

Cada y j (donde j = 1, . . . , p) es una combinación lineal de las  x 1 , x 2 ,..., x p  originales,
es decir:
y j  a j 1 x 1  a j 2 x 2    a jp x p  a j x
'
siendo a 'j  a j 1 , a j 2 ,..., a jp  un vector de constantes, y
2
 x1 
 
x   
 
xp 
Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una forma
simple podría ser aumentar los coeficientes a ij . Por ello, para mantener la ortogonalidad de
la transformación y para que la maximización tenga solución se impone, sin pérdida de

generalidad, que el módulo del vector a 'j  a j 1 , a j 2 ,..., a jp  sea 1. Es decir,
p
a ja j  a 1
' 2
jk
k 1
El primer componente se calcula eligiendo a 1 de modo que y 1 tenga la mayor varianza
posible, sujeta a la restricción de que a 1' a 1  1 . El segundo componente principal se calcula
obteniendo a 2 de modo que la variable obtenida, y 2 esté incorrelada con y 1 .

Del mismo modo se eligen  y 1 , y 2 ,..., y p  , incorrelados entre sí, de manera que las variables
aleatorias obtenidas vayan teniendo cada vez menor varianza.
Proceso de extracción de factores:

Obtención de la primera componente y1
Queremos elegir a 1 de modo que maximice la varianza de y 1 sujeta a la restricción de que
a1 a1  1 :
'
 
Var  y 1   Var a 1 x  a 1  a 1
' '
El método habitual para maximizar una función de varias variables sujeta a restricciones es
el método de los multiplicadores de Lagrange.
El problema consiste en maximizar la función a 1'  a 1 sujeta a la restricción a 1' a 1  1 . Se
puede observar que la incógnita es precisamente a 1 (el vector desconocido que nos da la
combinación lineal óptima).
Así, construyo la función L:
 
L a1  a1  a1   a1 a1  1
'
 '

y busco el máximo, derivando e igualando a 0:
3
L
 2  a 1  2  Ia 1  0     I a 1  0
a1
Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roché-Frobenius,

para que el sistema tenga una solución distinta de 0 la matriz (Σ − λI) tiene que ser singular.
Esto implica que el determinante debe ser igual a cero:
|Σ − λI| = 0
y de este modo, λ es un valor propio de Σ. La matriz de covarianzas Σ es de orden p y si
además es definida positiva, tendrá p valores propios distintos, λ1, λ2, . . . , λp tales que, por
ejemplo, λ1 > λ2 > · · · > λp.
Se tiene que, desarrollando la expresión anterior,
    I  a1  0
 a1   Ia1  0
 a1   Ia1 ( a1 es el vector propio de  )
entonces,
 
Var  y 1   Var a 1 x  a 1  a 1  a 1  Ia 1   a 1 a 1   .
' ' ' '
Luego, para maximizar la varianza de y 1 se tiene que tomar el mayor valor propio, digamos
λ1, y el correspondiente vector propio a 1 .
En realidad, a 1 es un vector que nos da la combinación de las variables originales que tiene
mayor varianza, esto es, si a 1'  a 11 , a 12 ,..., a 1 p  , entonces
y 1  a 11 x 1  a 12 x 2    a 1 p x p  a 1 x
'
El segundo componente principal, digamos y 2  a 2' x , se obtiene mediante un argumento
parecido. Además, se quiere que y 2 esté incorrelado con el anterior componente y 1 , es
decir, Cov  y 2 , y 1   0 . Por lo tanto:
C ov  y 2 , y1   C ov  a 2 x , a1 x   a 2 E   x     x    '  a1  a 2  a1  0
' ' ' '
Como se tenía que  a 1   a 1 , lo anterior es equivalente a
a 2  a1  a 2  a1   a 2 a1  0
' ' '
esto equivale a que a 2' a 1  0 , es decir, que los vectores sean ortogonales.
4
De este modo, tendremos que maximizar la varianza de y 2 , es decir, a 2'  a 2 , sujeta a las
siguientes restricciones
a2a2  1
'
a 2 a1  0
'
Se toma la función:
  
L a 2  a 2  a 2   a 2 a 2  1  a 2 a1
' '
 '
y se deriva:
L
 2  a 2  2  a 2  a1  0
a 2
si se multiplica por a 1' , entonces
2 a1  a 2    0
'
Porque
a1 a1  1
'
a 2 a1  a1 a 2  0
' '
Luego
  2 a1  a 2  2 a 2  a1  0
' '
ya que Cov  y 2 , y 1   0 .
De este modo,
L
 2  a 2  2  a 2  a1  2  a 2  2  a 2  0
a 2
    I a 2  0
Usando los mismos razonamientos que antes, elegimos λ como el segundo mayor valor
propio de la matriz Σ con su vector propio asociado a 2 .
Los razonamientos anteriores se pueden extender, de modo que al j -ésimo componente le
correspondería el j -ésimo autovalor.
Entonces todos los componentes de y (en total p) se pueden expresar como el producto de
una matriz formada por los vectores propios, multiplicada por el vector x que contiene las
variables originales  x 1 , x 2 ,..., x p  :
y  Ax
5
donde
 y1   a 11 a 12  a1 p   x1 
     
 y2   a 21 a 22  a2p   x2 
y  , A , x 
        
     
 y p  a a p2  a pp  x 
  p1  p 
Como
Var  y 1    1
Var  y 2    2

Var  y p    p
la matriz de covarianzas de y será

 1 0  0 
 
 0 2  0 
 
    
 
 0 0   p 

porque y 1 ,..., y p se han construido como variables incorreladas.
Además, se tiene que

  Var  y   A ' Var ( x ) A  A '  A
o bien   A A ' , ya que A es una matriz ortogonal (porque a i' a i  1 para todas sus
columnas) por lo que AA '  I .
Ejemplo 1
Veamos cómo se aplica la transformación de componentes principales a un conjunto de
datos que presentan cierta correlación. En la siguiente tabla mostramos los datos sobre los
que se va a efectuar la transformación.
x1 x2
2 2
2 3
3 4
4 3
5 4
6
5 5
Calculamos el vector medio y de la matriz de covarianza de los datos:
 3 .5   1 .9 1 .1 
       .
 3 .5   1 .1 1 . 1 
Calculamos los valores propios de Σ. Como p = 2 habrá dos valores propios asociados a la
matriz de covarianza (  1 ,  2 ), que serán las soluciones de la ecuación    I  0 . En
particular,
 1.9 1.1  1 0 1.9   1.1

   0 0
 1.1 1.1  0 1 1.1 1.1  
o lo que es igual,
  3   0.88  0
2
y las soluciones son:  1 = 2.67 y  2 = 0.33.
Calculamos los vectores propios asociados a esos valores. El vector propio a 1 ,
correspondiente a  1 = 2.67 se calcula como sigue. El vector propio a 1 es la solución a

   1 I a 1  0 Esto es,
  1 .9 1 .1  1 0    a 11    0 . 77 1 . 1   a 11 
   2 . 67      0      0
  1 .1 1    a 12  1 . 57   a 12
 1 .1  0   1 .1 
o lo que es igual,
 0 . 77 a 11  1 . 1a 12  0
1 . 1a 11  1 . 57 a 12  0
Tomando cualquiera de ellas se deduce que a 11  1 . 43 a 12 .
Como nos hemos restringido a vectores con longitud 1 a 1' a 1  1 , imponemos también que
a 1 1  a 12  1 , por lo que el sistema de ecuaciones a resolver es:

2 2
7
a 11  1 . 43 a 12
a 11  a 12  1
2 2
 0 . 82 
y su solución a 1    .
 0 . 57 
El vector propio a 2 , correspondiente a  2  0.33 se calcula de manera similar:
  0 . 57 
a 2    .
 0 . 82 
Como hemos impuesto, los vectores propios son de longitud 1. Efectivamente,
a 1 1  a 12  0 . 82  0 . 57 1
2 2 2 2
a 2 1  a 22  (  0 . 57 )  0 . 82 1
2 2 2 2
Calculamos las componentes principales.
' 1   x1 
x
y 1  a 1    0 . 82 0 . 57    0 . 82 x 1  0 . 57 x 2
 x2   x2 
 x1 
y 2    0 . 57 0 . 82     0 . 57 x 1  0 . 82 x 2
 x2 
Aplicando esta transformación a los datos, obtenemos:
x1 x2 y1 y2
2 2 2.78 0.50
2 3 3.35 1.32
3 4 4.74 1.57
4 3 4.99 0.18
5 4 6.38 0.43
5 5 6.95 1.25
8
Por último, observemos que la matriz de covarianza Λ es diagonal y contiene los valores
propios asociados a Σ:
 2 . 67 0 
   
 0 0 . 33 
 1 .9 1 .1   2 . 67 0 
Al comparar las dos matrices de covarianza:    ;    
 1 .1 1 . 1   0 0 . 33 
observamos que:
a) Las variables y 1 e y 2 están incorreladas  C ov ( y1 , y 2 )  0  mientras que las
variables x 1 y x 2 están (fuertemente) correladas:

C ov ( x1 , x 2 ) 1.1
rx1 x 2    0.76
V ar ( x1 )V ar ( x 2 ) 1.9 1.1
b) La transformación aplicada ha tenido el efecto de maximizar la varianza. La

varianza de la primera componente y 1 , es 2.67, bastante mayor que en x 1 , 1.9.
(B) Porcentajes de variabilidad

Vimos antes que, en realidad, cada valor propio correspondía a la varianza del componente
y i que se definía por medio del vector propio a i , es decir, Var ( y i )   i .
Si sumamos todos los valores propios, tendremos la varianza total de los componentes, es
decir:
p p
 Var  y    
i i
 traza   
i 1 i 1
ya que la matriz Λ es diagonal.

Pero, por las propiedades del operador traza,
traza     traza  A '  A   traza  A ' A   traza  
Porque AA '  I al ser A ortogonal, con lo cual

p
traza     traza     Var  x  i

i 1
9
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas de
las componentes son iguales. Esto permite hablar del porcentaje de varianza total que
recoge un componente principal:
i i
p
 p
 i  Var ( x i
)
i 1 i 1
(si multiplicamos por 100 tendremos el %).

Así, también se podrá expresar el porcentaje de variabilidad recogido por los primeros m
componentes:
m
 i
i 1
p
 Var ( x i
)
i 1
donde m < p.
En la práctica, al tener en principio p variables, nos quedaremos con un número mucho
p
menor de componentes que recoja un porcentaje amplio de la variabilidad total  Var ( x i

).
i 1
Ejemplo 2
Continuando con el ejemplo anterior, vemos que la transformación realizada preserva la
varianza global:
p
 Var  x   traza (  )  1 . 9  1 . 1  3
i
i 1
p
 Var  y   traza (  )  2 . 67  0 . 33  3
i
i 1
Además, la proporción de la varianza total explicada por la primera componente es

1 2.67
  0.89
1   2 3
En este caso la primera componente podría reemplazar a las dos variables originales con
una pequeña perdida de información.□
10
(C) Cálculo de las covarianzas y correlaciones entre las variables originales y las
componentes principales
Como se tiene que
1
y  Ax  x  A y    x  A ' y
A es ortogonal
entonces
 p

Cov  y j , x i   Cov  y j ,  a ik y k   a ij Var  y j    j a ij
 k 1 
donde yj es el factor j -ésimo y xi es la variable original i-ésima. Y la correlación entre

ambas variables es
C ov  y j , x i   j a ij  j a ij
ry j xi   
V ar  y j  V ar  x i   j V ar  x i  V ar  x i 
Ejemplo 3
Siguiendo el ejemplo anterior tenemos:
1 a11 2.67 0.82

ry1 x1    0.97
V ar ( x1 ) 1.9
1 a12 2.67 0.57

ry1 x 2    0.89
V ar ( x 2 ) 1.1
Y concluimos que x1 y x2 son importantes en la primera componente principal. Las

correlaciones con la segunda componente no se calculan porque ésta componente no es
importante.□
Para la obtención de las componentes principales mediante el paquete estadístico SPSS se

realiza con los comandos del análisis factorial (Ver práctica). Los pasos a seguir son:
1. Elije en los menús Analizar→Reducción de dimensiones→Factor y selecciona las
variables y las especificaciones para el análisis.
2. En el botón Descriptivos podemos:
a. Elegir los Estadísticos: Descriptivos univariados
b. Elegir en Matriz de correlaciones, la opción Coeficientes.
3. En el botón Extracción:
a. En Método elegimos Componentes principales
11
b. En Analizar elegimos la Matriz de correlaciones o la Matriz de covarianza
c. En Visualización elegimos Solución factorial sin rotar
Una vez realizadas las especificaciones se pulsa en el botón Aceptar.
Ejemplo 4 (con SPSS)

Las salidas que nos interesan del SPSS con los datos del ejemplo anterior son las
siguientes:
Estadísticos descriptivos
Desviación
Media típica N del análisis
VAR00001 3,5000 1,37840 6
VAR00002 3,5000 1,04881 6
Varianza total explicada
Componente Autovalores iniciales(a)

% de la
Total varianza % acumulado
Bruta 1 2,670 89,016 89,016
2 ,330 10,984 100,000
Método de extracción: Análisis de Componentes principales.
En la tabla anterior encontraremos los valores propios de la matriz de covarianza y el

porcentaje de varianza total explicado por las dos componentes.
Matriz de componentes(a)
Bruta Reescalada
Componente Componente
1 1
VAR00001 1,338 ,971
VAR00002 ,938 ,894
Método de extracción: Análisis de componentes principales.
a 1 componentes extraídos
Esta salida del SPSS (Matriz de componentes-columna bruta) presenta los vectores propios
que forman las componentes seleccionadas pero multiplicadas previamente por  j (su
12
valor propio correspondiente). Esto se hace para reescalar todas las componentes del mismo
modo. Así, la componente bruta sería:
aj  jaj
*
Entonces, para obtener los coeficientes a1 de la primera componente (que es la que explica
el 89,016% de la varianza) hay que dividir los números de la tabla de Matriz de
componentes, columna Bruta, entre la raiz cuadrada del valor propio de la componente:
1, 338
a11   0, 82
2, 67
0, 938
a12   0, 57
2, 67
La columna Reescalada nos da las correlaciones entre la primera componente y las
a1 k 1
variables originales, ry x 
1 k
, por tanto es igual a la columna Bruta dividida por la
V ar ( x k )
desviación típica de la variable x k . Por ejemplo, 1.338/1.378=0,971. Los mayores valores

de esta columna indican una mayor importancia a la hora de definir una componente.
NOTA: Cuando trabajamos con la matriz de correlación (como haremos a continuación) de

las variables x k , SPSS sólo da una columna por componente. La Bruta y la Reescalada
coinciden y los coeficientes dados son las correlaciones entre las componentes y las
variables originales.
1.1 Componentes principales a partir de variables estandarizadas

Habitualmente, se calculan los componentes sobre variables originales estandarizadas, es
decir, variables con media 0 y varianza 1:
 x1   1   x2   2  x p
 p
z1  ; z2  ; ; zp 
V ar ( x1 ) V ar ( x 2 ) V ar ( x p )
Esto equivale a tomar los componentes principales, no de la matriz de covarianzas sino de

la matriz de correlaciones (en las variables estandarizadas coinciden las covarianzas y las
correlaciones).
13
Así, los componentes se obtienen de los vectores propios de la matriz de correlaciones y
son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a
todas las variables originales.
En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las
variables originales están tipificadas, esto implica que su matriz de covarianzas es igual a la
de correlaciones, con lo que la variabilidad total (la traza) es igual al número total de
variables que hay en la muestra. La suma total de todos los valores propios es p y la
j
proporción de varianza recogida por la j-esima componente es .
p
Las componentes construidas a partir de la matriz de correlaciones y la matriz de

covarianzas no son las mismas, pero será claro, según el contexto, la matriz usada. En el
siguiente ejemplo se pone de manifiesto la importancia de la estandarización.
Ejemplo 5
1 4 
Consideremos la matriz de covarianzas     y la matriz de correlación derivada
 4 100 
 1 0 .4 
de ella R   .
 0 .4 1 
Se van a obtener las componentes principales utilizando estas dos matrices.

(a) Componentes principales con matriz de covarianzas.
Los valores y vectores propios de Σ son
 1  100 . 16 a 1  0 . 040 0 . 999 
'
 2  0 . 84 a 2  0 . 999  0 . 040 
'
Por tanto, las componentes principales son:

y 1  0 . 040 x 1  0 . 999 x 2
:
y 2  0 . 999 x 1  0 . 040 x 2
Ya que su varianza es mayor, x2 domina completamente la primera componente

determinada por Σ. Además la primera componente explica una proporción de
1 100.16
  0.992 de la varianza total.
1   2 101
Veamos la correlación de las componentes y las variables originales:
14
a 11 1 0 . 040 100 . 16
r y 1 x1    0 .4
s 11 1
a 12 1 0 . 999 100 . 16
r y1 x 2    0 . 999
s 22 100
(b) Componentes principales con matriz de correlación.

Los valores y vectores propios de R son
1  1 .4 a 1  0 . 707 
'
0 . 707
 2  0 .6 a  0 . 707  0 . 707 
'
2
y las componentes principales utilizando la matriz de correlación son:

x  1   x2   2 
y 1  0 . 707 z 1  0 . 707 z 2  0 . 707  1   0 . 707    0 . 707  x 1   1   0 . 0707  x 2   2 
R:  1   10 
x  1   x2   2 
y 2  0 . 707 z 1  0 . 707 z 2  0 . 707  1   0 . 707    0 . 707  x 1   1   0 . 0707  x 2   2 
 1   10 
Cuando las variables están estandarizadas, las variables resultantes contribuyen de igual
forma a las componentes principales determinadas a partir de R . Veámoslo:
r y1 z1  a 11  1  0 . 707 1 . 4  0 . 837
r y1 x 2  a 12  1  0 . 707 1 . 4  0 . 837
1 1.4
En este caso, la primera componente explica una proporción de   0.7 de la
p 2
varianza total.
Vemos entonces que la importancia relativa de las variables sobre, por ejemplo, la primera
componente principal está muy afectada por la estandarización. Cuando la primera
componente obtenida a partir de R se expresa en términos de x1 y x2, las magnitudes
relativas de las ponderaciones 0.707 y 0.0707 están en directa oposición con las
ponderaciones 0.040 y 0.999 conseguidas en las componentes principales de Σ.□
El ejemplo anterior demuestra que las componentes principales derivadas de Σ son

diferentes de las derivadas de R . Esto sugiere que la estandarización no es intrascendente.
15
Las variables deberían ser estandarizadas si son medidas en escalas con rangos muy
diferentes. Por ejemplo, si x1 representa las ventas anuales en el rango 10.000€ y 350.000€
y x2 es la razón ingresos anuales netos / valores totales, que caen en el rango 0.01 y 0.6,
entonces la variación total será dada casi exclusivamente por los euros de las ventas. En
este caso, podríamos esperar una única componente principal con una ponderación muy
fuerte de la primera variable. Alternativamente, si las dos variables están estandarizadas,
sus magnitudes subsecuentes estarán en el mismo orden y x2 (o z2) jugará un papel
importante en la construcción de las componentes. Este comportamiento fue observado en
el ejemplo anterior.
2 Identificación de las componentes principales

Si las variables originales x 1 ,..., x p están incorreladas, entonces carece de sentido calcular
unos componentes principales. Si se hiciera, se obtendrían las mismas variables pero

reordenadas de mayor a menor varianza. Para saber si x 1 ,..., x p están correlacionadas, se
puede calcular la matriz de correlaciones aplicándose posteriormente el test de esfericidad

de Barlett (se verá en practicas).
Uno de los objetivos del cálculo de componentes principales es la identificación de los
mismos, es decir, averiguar qué información de la muestra resumen. Sin embargo este es un
problema difícil que a menudo resulta subjetivo. Habitualmente, se conservan sólo aquellos
componentes que recogen la mayor parte de la variabilidad, hecho que permite representar
los datos según dos o tres dimensiones si se conservan dos o tres ejes factoriales,
pudiéndose identificar entonces grupos naturales entre las observaciones.
Se han sugerido distintas reglas para seleccionar el número de componentes:
1. Realizar un gráfico de sedimentación (se verá en prácticas). Es un gráfico que enfrenta a
los valores propios de las componente i frente a la componente i. Uniendo estos puntos se
obtiene una figura que, en general, se parece al perfil de una montaña con una pendiente
fuerte hasta llegar a la base, formada por una meseta con una ligera inclinación.
Continuando con el simil de la montaña, en esa meseta es donde se acumulan los guijarros
caidos desde la cumbre, es decir, donde se sedimentan. Se retienen todas aquellas
componentes previas a la zona de sedimentación. Es decir, se seleccionan componentes
hasta que los restantes tengan aproximadamente el mismo valor de λi. La idea es buscar un
16
“codo” en el gráfico, es decir, un punto a partir del cual los valores propios son
aproximadamente iguales. El criterio es quedarse con un número de componentes que
excluya los asociados a valores pequeños y aproximadamente del mismo tamaño.
2. Seleccionar componentes hasta cubrir una proporción determinada de varianza, como el
80 o el 90 por 100. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,
es posible que un único componente recoja el 90 por 100 de la variabilidad y, sin embargo,
pueden existir otros componentes que sean muy adecuados para explicar otras
características de las variables.
3. Desechar aquellos componentes asociados a valores propios inferiores a una cota, que
suele fijarse como la varianza media  i
/ p . En particular, cuando se trabaja con la
matriz de correlación, el valor medio de los componentes es 1, y esta regla lleva a

seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria:
una variable que sea independiente del resto suele llevarse un componente principal y
puede tener un valor propio mayor que la unidad. Sin embargo, si está incorrelada con el
resto puede ser una variable poco relevante para el análisis, y no aportar mucho a la
comprensión del fenómeno global.
17

Material Apoyo Componentes Principales

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Apoyo Componentes Principales

Cargado por

Copyright:

Formatos disponibles

Material de repaso

1 Componentes Principales. Definición y obtención

(A) Cálculo de los Componentes Principales

se trata de calcular, a partir de ellas, un nuevo conjunto de variables y 1

incorreladas entre sí, cuyas varianzas vayan decreciendo progresivamente.

siendo a 'j  a j 1 , a j 2 ,..., a jp  un vector de constantes, y

la transformación y para que la maximización tenga solución se impone, sin pérdida de

El primer componente se calcula eligiendo a 1 de modo que y 1 tenga la mayor varianza

posible, sujeta a la restricción de que a 1' a 1  1 . El segundo componente principal se calcula

obteniendo a 2 de modo que la variable obtenida, y 2 esté incorrelada con y 1 .

aleatorias obtenidas vayan teniendo cada vez menor varianza.

Proceso de extracción de factores:

Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roché-Frobenius,

λ1, y el correspondiente vector propio a 1 .

mayor varianza, esto es, si a 1'  a 11 , a 12 ,..., a 1 p  , entonces

El segundo componente principal, digamos y 2  a 2' x , se obtiene mediante un argumento

parecido. Además, se quiere que y 2 esté incorrelado con el anterior componente y 1 , es

decir, Cov  y 2 , y 1   0 . Por lo tanto:

Como se tenía que  a 1   a 1 , lo anterior es equivalente a

si se multiplica por a 1' , entonces

la matriz de covarianzas de y será

porque y 1 ,..., y p se han construido como variables incorreladas.

Además, se tiene que

Calculamos el vector medio y de la matriz de covarianza de los datos:

matriz de covarianza (  1 ,  2 ), que serán las soluciones de la ecuación    I  0 . En

 1.9 1.1  1 0 1.9   1.1

y las soluciones son:  1 = 2.67 y  2 = 0.33.

Calculamos los vectores propios asociados a esos valores. El vector propio a 1 ,

correspondiente a  1 = 2.67 se calcula como sigue. El vector propio a 1 es la solución a

Tomando cualquiera de ellas se deduce que a 11  1 . 43 a 12 .

a 1 1  a 12  1 , por lo que el sistema de ecuaciones a resolver es:

El vector propio a 2 , correspondiente a  2  0.33 se calcula de manera similar:

Como hemos impuesto, los vectores propios son de longitud 1. Efectivamente,

Calculamos las componentes principales.

Aplicando esta transformación a los datos, obtenemos:

a) Las variables y 1 e y 2 están incorreladas  C ov ( y1 , y 2 )  0  mientras que las

variables x 1 y x 2 están (fuertemente) correladas:

b) La transformación aplicada ha tenido el efecto de maximizar la varianza. La

(B) Porcentajes de variabilidad

ya que la matriz Λ es diagonal.

Porque AA '  I al ser A ortogonal, con lo cual

traza     traza     Var  x  i

(si multiplicamos por 100 tendremos el %).

menor de componentes que recoja un porcentaje amplio de la variabilidad total  Var ( x i

Además, la proporción de la varianza total explicada por la primera componente es

donde yj es el factor j -ésimo y xi es la variable original i-ésima. Y la correlación entre

1 a11 2.67 0.82

1 a12 2.67 0.57

Y concluimos que x1 y x2 son importantes en la primera componente principal. Las

Para la obtención de las componentes principales mediante el paquete estadístico SPSS se

Ejemplo 4 (con SPSS)

Varianza total explicada

Componente Autovalores iniciales(a)

En la tabla anterior encontraremos los valores propios de la matriz de covarianza y el

La columna Reescalada nos da las correlaciones entre la primera componente y las

desviación típica de la variable x k . Por ejemplo, 1.338/1.378=0,971. Los mayores valores

NOTA: Cuando trabajamos con la matriz de correlación (como haremos a continuación) de

1.1 Componentes principales a partir de variables estandarizadas

Esto equivale a tomar los componentes principales, no de la matriz de covarianzas sino de

Las componentes construidas a partir de la matriz de correlaciones y la matriz de

Se van a obtener las componentes principales utilizando estas dos matrices.

Por tanto, las componentes principales son: