Está en la página 1de 16

Anlisis de Componentes

Principales en R Commander

Facebook

Twitter

Google+1

WhatsApp

Telegram

ndice de contenidos [hide]


o

0.0.1 Recomendamos leer la siguiente entrada de estadstica bsica:


Anlisis estadsticos multivariantes en R Commander (adsbygoogle =
window.adsbygoogle || []).push({});

0.1 Tipos de datos

0.2 Ejemplo:

1 Paso 1. Cargamos los datos en R Commander

2 Paso 2. Ejecutar el Anlisis de Componentes Principales (PCA)


o

2.1 2.1. Estandarizacin, qu es y cmo usarlo en R Commander?

2.2 2.2. Resultados e interpretacin

2.3 2.3. Con cuntos Componentes Principales nos quedamos?

2.4 2.4. Cmo se interpreta todo esto en nuestro ejemplo?

2.4.1 2.4.1. Representacin grfica de los dos primeros componentes

2.5 2.5. Aadir los componentes principales al conjunto de datos

2.6 2.6. Reduccin del nmero de variables, objetivo del Anlisis de


Componentes Principales

2.6.1 Referencias

2.6.2 Relacionado

Recomendamos leer la siguiente entrada de estadstica


bsica:

Anlisis estadsticos multivariantes en R


Commander
El Anlisis de Componentes Principales (ACP, o de sus siglas en ingls
PCA, Principal Component Analysis) consiste en generar nuevas variables que sean
resultado de combinanciones lineales de las originales, consiguiendo agrupar la
mayor variacin posible reduciendo su nmero. La primera componente agrupa la
mayor parte de variacin, la segunda algo menos, y as sucesivamente. De esta
forma, en vez de tener muchas variables tenemos solo unas pocas que agrupan la
mayor parte de la variacin observada.
En algunos casos, este menor nmero de variables o componentes principales
(normalmente dos) pueden ser usadas para realizar regresiones lineal mltiples.

Tipos de datos

Un conjunto de variables cuantitativas medidas sobre una muestra de

individuos.
Distribucin normal multivariante

Ejemplo:
Para nuestro ejemplo de Anlisis de Componentes Principales
tomamos 8 variables numricas a 14 recin nacidos con poco peso
(descargar datos):
V1 = edad de la madre (aos)
V2 = nmero de cigarrillos fumados por la madre al da
V3 = altura de la madre (pulgadas)
V4 = peso de la madre (libras)
V5 = edad del padre (aos)
V6 = nivel de estudios del padre
V7 = nmero de cigarrillos fumados por el padre al da
V8 = altura del padre (pulgadas)
Se puede reducir el nmero de variables agrupando la mayor
variacin posible?

Paso 1. Cargamos los datos


en R Commander
Una vez descargados los datos del ejemplo, los introducimos en R
Commander siguiendo la siguiente ruta:

Datos Cargar conjunto de datos


Y los visualizamos dando a Visualizar conjunto de datos:

Paso 2. Ejecutar el Anlisis


de Componentes Principales
(PCA)

Para realizar el Anlisis de Componentes Principales a los datos del ejemplo,


seguimos la siguiente ruta en R Commander:

Estadsticos Anlisis dimensional Anlisis de componentes principales


Nos aparece ahora la siguiente ventana en la que tenemos que seleccionar las 8
variables de nuestro ejemplo, pinchando y arrastrando desde la V1 hasta la V8:

Antes de dar a Aceptar, vamos a la pestaa de Opciones, y determinamos si


queremos Estandarizar los datos o no.

2.1. Estandarizacin, qu es y cmo


usarlo en R Commander?
En el Anlisis de Componentes Principales es importante, dependiendo de la
naturaleza de nuestros datos,estandarizarlos o no:
1. Estandarizar: cuando las variables en el estudio tengan escalas o unidades de
medida diferentes. Se calcula a partir de la matriz de correlaciones (que
tengan varianza = 1).
2. No estandarizar: cuando las variables en el estudio tengan escalas o unidades
de medida iguales. Se calcula a partir de la matriz de covarianzas.

Como los datos del ejemplo tienen diferentes escalas y medidas (aos, alturas,
pesos, etc), tenemos que Estandarizar seleccionando Analizar la matriz de
correlaciones.

2.2. Resultados e interpretacin


Los resultados aparecen como se ve a continuacin en R Commander:

Pero veamos qu significan todos esos datos:

>
+
+
+
+
+
+
+
+

local({
.PC <- princomp(~V1+V2+V3+V4+V5+V6+V7+V8, cor=TRUE, data=Datos)
cat("nComponent loadings:n")
print(unclass(loadings(.PC)))
cat("nComponent variances:n")
print(.PC$sd^2)
cat("n")
print(summary(.PC))
})

Component loadings:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Comp.7
Comp.8
V1 0.45927632 -0.3300700 0.42221491 -0.06912846 0.014058950 0.09484631
-0.08936572 0.692744662
V2 -0.42975751 -0.2662236 0.08772638 -0.32688585 0.445127021 -0.45333765
0.43955233 0.181724713
V3 -0.06900791 -0.6387247 -0.16726543 0.11575498 -0.186804457 0.52531263
0.45973313 -0.153908871
V4 0.03880912 -0.5597814 -0.41999034 0.27503283 0.007091408 -0.44997788
-0.48008663 -0.009493601
V5 0.48981256 -0.1997337 0.44528178 -0.07725784 0.091430449 -0.27164575
0.10749267 -0.649799865
V6 0.38390014 0.1163544 -0.37150886 0.14717175 0.782395703 0.24418386
0.08728867 0.003984449
V7 -0.43872101 -0.1867023 0.42200008 0.02548362 0.378383648 0.38241113
-0.52162403 -0.180079334
V8 -0.13540205 0.1027849 0.30869124 0.87809277 0.055148344 -0.16553023
0.25632827 0.092836342

Interpretacin de los resultados (Component loadings):


Tambin conocidos como loading factors, autovectores, o eigenvectors), son los
coeficientes de la ecuacin de cada componente principal.
Por ejemplo, el componente principal 1 (Comp. 1), presenta la siguiente ecuacin:

CP1 = 0.45927632 * Z1 0.42975751 * Z2 0.06900791 * Z3 +


0.03880912 * Z4 + 0.48981256 * Z5 + 0.38390014 * Z6 0.43872101
* Z7 0.13540205 * Z8
Ntese que en la ecuacin, las variables originales (V1-V8) han sido sustituidas por Z
(Z1-Z8), ya que son las variables Estandarizadas.
Component variances:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Comp.7
Comp.8
2.68616770 1.86196171 1.11240271 1.03044187 0.61920451 0.36727816 0.27738461
0.04515874

Interpretacin de los resultados (Component variances):


Se conocen como autovalores. El valor de cada componente es el cuadrado de su
desviacin estndar (ver la interpretacin siguiente). La suma total da 8, ya que son 8
componentes principales y estn estandarizados.
Importance of components:

Comp.1 Comp.2 Comp.3 Comp.4


Comp.5
Comp.6
Comp.7
Comp.8
Standard deviation
1.638953 1.3645372 1.0547050 1.0151068 0.78689549
0.60603478 0.52667315 0.212505858
Proportion of Variance 0.335771 0.2327452 0.1390503 0.1288052 0.07740056
0.04590977 0.03467308 0.005644842
Cumulative Proportion 0.335771 0.5685162 0.7075665 0.8363717 0.91377231
0.95968208 0.99435516 1.000000000

Interpretacin de los resultados (Importance of components):


Standard deviation: muestra las desviaciones estndar de cada componente
principal. Se calcula a partir de los datos obtenidos sustituyendo los valores de cada
recin nacido en la ecuacin cada componente principal.
Proportion of Variance: es la proporcin de la varianza que explica cada
componente principal. Su suma es igual a 1. Esta fila es realmente la importante de
nuestros resultados.
Cumulative proportion: es la proporcin acumulada, calculada sumndolas
progresivamente.
Observamos que las dos primeras componentes agrupan un 56.9% de la
variacin, o lo que es lo mismo, hay un 43.1% de variacin que no se explica.
Por lo tanto, con cuntos componentes principales nos quedamos?

2.3. Con cuntos Componentes


Principales nos quedamos?
Un mtodo informal de determinar con cuntos componentes nos quedamos se basa
en elegir las componentes principales que agrupen

ms del 70% de la variacin total, y


si proceden de datos estandarizados, que sus autovalores asociados sean

mayores que 1.
Los autovalores de cada componente principal se pueden visualizar grficamente. El
nombre que recibe este grfico se denomina grfico de desmoronamiento o de
sedimentacin (scree diagram). En R Commander:

Siguiendo la ruta descrita anteriormente para realizar el ACP, seleccionamos la


pestaaOpciones, y presionamos sobre Grfica de sedimentacin.
El grfico que sale con los autovalores (eigenvalues) de cada componente principal
es el siguiente:

Copiando a continuacin parte de los resultados previos, observamos que los 3


primeros componentes agrupan el70.8% de la variacin
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Comp.5
Comp.6
Comp.7
Comp.8
Standard deviation
1.638953 1.3645372 1.0547050 1.0151068 0.78689549
0.60603478 0.52667315 0.212505858
Proportion of Variance 0.335771 0.2327452 0.1390503 0.1288052 0.07740056
0.04590977 0.03467308 0.005644842

Cumulative Proportion 0.335771 0.5685162 0.7075665 0.8363717 0.91377231


0.95968208 0.99435516 1.000000000

y que hasta el cuarto componente principal tiene ms de 1 en sus autovalores:


Component variances:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Comp.7
Comp.8
2.68616770 1.86196171 1.11240271 1.03044187 0.61920451 0.36727816 0.27738461
0.04515874

Por lo tanto, nos quedamos con los 4 primeros componentes principales.

2.4. Cmo se interpreta todo esto en


nuestro ejemplo?
Hemos decidido finalmente quedarnos con los 4 primeros componentes principales,
porque son los que cumplen los requisitos establecidos en el apartado anterior. Pero..
qu significa? Copiemos los coeficientes de las ecuaciones de los componentes y
observemos cules son los valores absolutos ms altos en cada uno de ellos:
Component loadings:
Comp.1
Comp.2
Comp.3
Comp.4
V1 0.45927632 -0.3300700 0.42221491 -0.06912846
V2 -0.42975751 -0.2662236 0.08772638 -0.32688585
V3 -0.06900791 -0.6387247 -0.16726543 0.11575498
V4 0.03880912 -0.5597814 -0.41999034 0.27503283
V5 0.48981256 -0.1997337 0.44528178 -0.07725784
V6 0.38390014 0.1163544 -0.37150886 0.14717175
V7 -0.43872101 -0.1867023 0.42200008 0.02548362
V8 -0.13540205 0.1027849 0.30869124 0.87809277

El componente 1 agrupa un 33.6% de variacin, y los valores absolutos ms

elevados de sus coeficientes son los presentes en V1, V2, V5 y V7. Esto
significa que esas variables son las que agrupan esa variacin en mayor
medida. En nuestro ejemplo, esas variables se corresponden con la Edad de
los padres y Nmeros de cigarrillos fumados diariamente por ellos. Por lo
tanto, parece que tienen relacin con que los nios nazcan con poco peso.
El componente 2 agrupa un 23.3% de la variacin, y los valores absolutos

ms elevados de sus coeficientes son los presentes en V3 y V4, que se


corresponden con la Forma de la madre (altura y peso).
Los otros dos componentes son algo ms difusos de interpretar, pero no son
necesarios para realizar un correcto anlisis de componentes principales.

2.4.1. Representacin grfica de los dos primeros


componentes
Teniendo en cuenta lo que se ejecut al inicio del anlisis (a continuacin un
copia/pega), copiamos la lnea destacada ennegrita y subrayada y le quitamos el
punto inicial (.PC)

>
+
+
+
+
+
+
+
+

local({
.PC <- princomp(~V1+V2+V3+V4+V5+V6+V7+V8, cor=TRUE, data=Datos)
cat("nComponent loadings:n")
print(unclass(loadings(.PC)))
cat("nComponent variances:n")
print(.PC$sd^2)
cat("n")
print(summary(.PC))
})

tal que quede as, escribiendo debajo biplot (PC):

PC <- princomp(~V1+V2+V3+V4+V5+V6+V7+V8, cor=TRUE, data=Datos)


biplot(PC)

Esto lo copiamos y pegamos en R Commander (en la pestaa R Script).


Seleccionamos ambas lneas y damos aEjecutar. El resultado es el siguiente:

Vemos que en el eje de abscisas se representa el Componente Principal 1 y en el


de ordenadas el Componente Principal 2.
Cuanto ms largas sean las flechas rojas, ms alto es el valor del coeficiente de esa
variable en ese componente. Observamos que tenemos perfectamente la
representacin grfica de lo observado en el punto 2.4.
Por ejemplo, vemos que en el Componente Principal 1, las flechas ms largas son V5
y V1 (en valor positivo) y V7 y V2 (en valor negativo), que se corresponden con los

coeficientes ms altos obtenidos en el punto 2.4 para ese componente. Por otro lado,
el Componente Principal 2 presenta dos variables (V3 y V4) con mayor longitud, que
se corresponden nuevamente con las dos variables escogidas en el punto 2.4.
Si queris obtener grficos ms elaborados, hacer click en la siguiente imagen, que os
llevar a una entrada fabulosa donde se explica otro modo de generar estos grficos.

2.5. Aadir los componentes


principales al conjunto de datos
Hemos decidido finalmente quedarnos con los 4 primeros componentes
principales. Cmo los aadimos al conjunto de datos para poder continuar la
estadstica con ellos?

Siguiendo la ruta descrita anteriormente para realizar el ACP, seleccionamos la


pestaaOpciones, y presionamos sobre Aadir componentes principales al
conjunto de los datos.
Nos aparecer la siguiente ventana en la que diremos que queremos 4 componentes:

Al Visualizar conjunto de datos, veremos los 4 componentes aadidos a


continuacin de las 8 variables iniciales:

2.6. Reduccin del nmero de


variables, objetivo del Anlisis de
Componentes Principales
Si en vez de generar nuevas variables (como en el caso anterior), queremos
desecharnos de las menos informativas entre las originales de nuestro estudio,
algunos autores han propuesto mtodos para ello.
Joliffe (1972, 1973) propone reducir directamente las variables originales al nmero de
ellas que cumplan con los siguientes requisitos:
1. Elegir los componentes principales cuyos autovalores sean mayores que 0.7.
2. De las componentes principales escogidas, seleccionar la variable con mayor
valor absoluto (que no haya sido seleccionada previamente).

En nuestro ejemplo tenemos 4 componentes principales cuyos autovalores estn por


encima de 0.7 (ver previamente). Los autovectores de cada componente se muestran
a continuacin:
Component loadings:
Comp.1
Comp.2
Comp.3
Comp.4
V1 0.45927632 -0.3300700 0.42221491 -0.06912846
V2 -0.42975751 -0.2662236 0.08772638 -0.32688585
V3 -0.06900791 -0.6387247 -0.16726543 0.11575498
V4 0.03880912 -0.5597814 -0.41999034 0.27503283
V5 0.48981256 -0.1997337 0.44528178 -0.07725784
V6 0.38390014 0.1163544 -0.37150886 0.14717175
V7 -0.43872101 -0.1867023 0.42200008 0.02548362
V8 -0.13540205 0.1027849 0.30869124 0.87809277

En Comp. 1 el valor absoluto ms alto de sus coeficientes (0.4898) se

corresponde con V5.


En Comp. 2 se corresponde con V3.
En Comp. 3 se corresponde con V5, pero como ya est seleccionado en el

Comp. 1, seleccionamos el siguiente con ms valor, V1.


En Comp. 4 se corresponde con V8.

Por lo tanto, nos quedaramos exclusivamente con las variables V1, V3, V5 y V8.
Viva el Software Libre!

Referencias

Garca Prez, A., 2005. Mtodos avanzados de estadstica aplicada. Tcnicas


avanzadas, 1st ed. Universidad Nacional de Educacin a Distancia, Madrid.

También podría gustarte