Está en la página 1de 12

Taller # 5: Análisis Componentes Principales

ACP
Maestrı́a en Estadı́stica - UnalMed
Mariluz Trilleras Mota
Paola Ahumada Riaño
Marzo 20 2020

El análisis de Componentes Principales comprende un procedimiento ma-


temático que transforma un conjunto de variables correlacionadas de respuesta
en un conjunto menor de variables no correlacionadas.

Interpretación del ACP

Algebraicamente, las CPs son combinaciones lineales (CLs) particulares de


las p-variables aleatorias X1 , X2 , ..., XP originales.
Geométricamente, las componentes principales representan la selección de un
nuevo sistema de coordenadas (o ejes) que se obtienen al rotar el sistema de
coordenadas original generado por X1 , X2 , ..., XP , hasta obtener las direc-
ciones ortogonales ( o componentes principales ) con máxima variabilidad y
cuyas direcciones proporcionan una dispersión simple y más parsimoniosa de
la estructura de covarianza de los P datos. Las CPs dependen solamente de la
matriz de varianzas-covarianzas (o de la matriz de correlación ) del vector
x = (X1 , X2 , ..., XP )τ

A continuación, presentaremos los resultados de las pruebas saber 11 2018-2


para la ciudad de Medellı́n, Mediante análisis descriptivo y un ánalisis de com-
ponentes principales entre las variables de interés.

Código: Análisis descriptivo


mean sd IQR 0% 25 % 50 % 75 % 100 % n
LECTURA CRITICA 54.75000 10.11841 14 0 48 55 62 100 25772
PUNT C NATURALES 49.93043 10.88457 17 24 41 50 58 100 25772
PUNT GLOBAL 257.69785 51.24940 77 126 218 256 295 454 25772
PUNT INGLES 52.90385 12.53388 16 0 44 52 60 100 25772
PUNT MATEMATICAS 50.87758 12.20814 18 15 42 51 60 100 25772
PUNT SOCIALES CIUDADANAS 50.14469 12.00854 18 18 41 50 59 100 25772

Se observa que los valores de la mediana y la media en las variables de referencia

1
indican que sus distribuciones siguen una normal. Por esta razón sus valores son
aproximadamente iguales.
Asimismo se evidencia que la puntuación media más alta de las asignaturas
evaluadas en la ciudad de Medellı́n fue LECTURA CRITICA (54.75) y la pun-
tuación más baja fue CIENCIAS NATURALES (49.93), de ahı́ que el PUNTAJE
GLOBAL medio fue de 257.69
Finalmente, en estos resultados, el PUNTAJE GLOBAL tienen la mayor desvia-
ción estándar ( 51.24940), seguida PUNTAJE INGLES (52.90385). Esto indica
que estas dos puntuaciones presentan la mayor variabilidad. La LECTURA CRI-
TICA tiene la menor desviación estándar (10.11841) y la menor variabilidad.

Matriz de correlaciones muestral


LECTURA_CRITICA PUNT_MATEMATICAS PUNT_C_NATURALES
LECTURA_CRITICA 1.000 0.735 0.752
PUNT_MATEMATICAS 0.735 1.000 0.801
PUNT_C_NATURALES 0.752 0.801 1.000

2
PUNT_SOCIALES_CIUDADANAS 0.801 0.739 0.796
PUNT_INGLES 0.677 0.685 0.717
PUNT_GLOBAL 0.894 0.903 0.919
PUNT_SOCIALES_CIUDADANAS PUNT_INGLES PUNT_GLOBAL
LECTURA_CRITICA 0.801 0.677 0.894
PUNT_MATEMATICAS 0.739 0.685 0.903
PUNT_C_NATURALES 0.796 0.717 0.919
PUNT_SOCIALES_CIUDADANAS 1.000 0.693 0.916
PUNT_INGLES 0.693 1.000 0.800
PUNT_GLOBAL 0.916 0.800 1.000

En la gráfica anterior se observa que entre más grandes sean las bolas ma-
yor correlación hay entre las variables originales. Ahora bien, los resultados
de la correlación vemos que existe correlaciones significativas entre PUNTAJE
CIENCIAS NATURALES y PUNTAJE GLOBAL se tiene un valor de 0,91 de
correlación de estas dos variables, podemos ver una correlación significativa muy
importante también entre las variables PUNTAJE MATEMATICAS y PUNTA-
JE GLOBAL, LECTURA CRITICA y PUNTAJE GLOBAL.
Recordemos que la correlación es una matriz simétrica es decir los valores aij
son iguales a los valores aji . De este modo, se evidencia que existe correlación

3
entre las variables y por lo tanto se puede explicar la variabilidad original.

Coeficientes de los Componentes Principales (loadings-Vectores Propios)

PC1 PC2 PC3 PC4


LECTURA_CRITICA -0.4010267 -0.31061178 -0.51700830 -0.56186453
PUNT_MATEMATICAS -0.4013415 -0.11050252 0.68092140 -0.41419865
PUNT_C_NATURALES -0.4118214 -0.05852376 0.32301578 0.50505909
PUNT_SOCIALES_CIUDADANAS -0.4085233 -0.24928005 -0.36652013 0.50245223
PUNT_INGLES -0.3749953 0.90340774 -0.17107327 -0.07126823
PUNT_GLOBAL -0.4483224 -0.09797141 0.03325954 0.01120934
PC5 PC6
LECTURA_CRITICA 0.34471389 -0.20219037
PUNT_MATEMATICAS -0.36336784 -0.24385151
PUNT_C_NATURALES 0.64824748 -0.21755326
PUNT_SOCIALES_CIUDADANAS -0.57143591 -0.24007066
PUNT_INGLES -0.04389819 -0.08343077
PUNT_GLOBAL -0.02110217 0.88754237

La primera CP es:

Y1 = −0,4010267X1∗ −0,4013415X2∗ −0,4118214X3∗ −0,4085233X4∗ −0,3749953X5∗ −0,4483224X6∗

La segunda CP es:

Y2 = −0,31061178X1∗ −0,11050252X2∗ −0,05852376X3∗ −0,24928005X4∗ +0,90340774X5∗ −0,09797141X6∗

La tercera CP es:

Y3 = −0,51700830X1∗ +0,68092140X2∗ +0,32301578X3∗ −0,36652013X4∗ −0,17107327X5∗ +0,03325954X6∗

Proporción de varianzas explicadas por cada uno de las componentes a partir


de ellos decidir con cuantos de ellos nos vamos a quedar para el análisis.

Importance of components:

PC1 PC2 PC3 PC4 PC5 PC6


Standard deviation 2.226 0.5991 0.5443 0.4670 0.4130 0.00497
Proportion of Variance 0.826 0.0598 0.0493 0.0363 0.0284 0.00000
Cumulative Proportion 0.826 0.8858 0.9352 0.9715 1.0000 1.00000

4
En el primer componente principal explica el 82, 6 % de la variabilidad to-
tal, mientras que el componente principal dos explica el 5, 98 %, el componente
principal tres explica el 4, 93 %, el componente principal cuatro 3, 63 % y el
componente principal cinco el 2, 84 % fı́jese que cada vez va explicando menos
proporción porque la primera CP parece ser esencialmente un promedio ponde-
rado de las primeras tres variables. mientras que el componente principal dos
explica la variabilidad no explicada por el componente uno, el componente tres
explica la variabilidad no explicada por el componente principal dos y el com-
ponente principal uno y ası́ sucesivamente. Bien, podemos ver que la proporción
de la varianza acumulada para los tres primeros componentes principales es de
93, 51 %. Por lo tanto, la variación muestral puede ser resumida adecuadamente
por medio de las tres primeras componentes principales..

Componentes de Varianzas de cada uno de los componentes principales

Component variances:

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6


4.9559 0.3590 0.2963 0.2181 0.1706 0.0000

De estas componentes observamos cuales son las componentes que nos sirven.
En este caso observamos los componentes de las varianzas, todos los valores y
todos los componentes superiores o cercanos a 1 nos sirven para nuestro análisis.
Se observa que los tres primeros componente principales presentan componentes
principales mayores mientras que el resto presentan una varianza inferior. No
obstante, para hacer un poco más dinámico el ejercicio nos quedamos con los
tres primeros componentes principales y nos aseguramos de que, pues vamos a
explicar la mayor variabilidad posible de manera que se pierda la mı́nima infor-
mación.

Tenemos los tres componentes principales

> cp1
LECTURA_CRITICA PUNT_MATEMATICAS PUNT_C_NATURALES
-0.4010267 -0.4013415 -0.4118214
PUNT_SOCIALES_CIUDADANAS PUNT_INGLES PUNT_GLOBAL
-0.4085233 -0.3749953 -0.4483224
> cp2
LECTURA_CRITICA PUNT_MATEMATICAS PUNT_C_NATURALES
-0.31061178 -0.11050252 -0.05852376
PUNT_SOCIALES_CIUDADANAS PUNT_INGLES PUNT_GLOBAL
-0.24928005 0.90340774 -0.09797141
> cp3
LECTURA_CRITICA PUNT_MATEMATICAS PUNT_C_NATURALES
-0.51700830 0.68092140 0.32301578
PUNT_SOCIALES_CIUDADANAS PUNT_INGLES PUNT_GLOBAL

5
-0.36652013 -0.17107327 0.03325954
Se observa los tres primeros componente principales almacenados en cada
uno de los objetos. Por lo tanto podemos decir que esos tres primeros compo-
nentes principales podrı́an explicar el modelo.

Tenemos los tres componentes principales


cp1 cp2 cp3
LECTURA_CRITICA -0.4010267 -0.31061178 -0.51700830
PUNT_MATEMATICAS -0.4013415 -0.11050252 0.68092140
PUNT_C_NATURALES -0.4118214 -0.05852376 0.32301578
PUNT_SOCIALES_CIUDADANAS -0.4085233 -0.24928005 -0.36652013
PUNT_INGLES -0.3749953 0.90340774 -0.17107327
PUNT_GLOBAL -0.4483224 -0.09797141 0.03325954
Se evidencia que el componente principal 1 le da mayor valor a los puntajes:
global, ciencias naturales y sociales. El puntaje de ingles presenta el menor valor
en este primer componente principal. Mientras que en el componente principal
2 explica muy bien los puntajes de ingles, lectura crı́tica y sociales. el puntaje de
ciencias naturales presenta el menor valor en este segundo componente principal.
Finalmente, el componente principal 3 explica mejor la variable correspondien-
te al puntaje de matemáticas. Cabe recordar que se realiza una transformación
ortogonal a la matriz de correlación, por lo tanto no vamos a tener en cuenta
el valor como tal sino la magnitud, el peso que le de cada componente a las
variables, motivo por el cual no se tienen en cuenta los signos.
Una vez que ya tengamos cuales son los componentes principales, cuales son los
autovalores y cuales son los individuos entonces vamos a interpretar los resul-
tados a partir de los gráficos.

6
Se observa el circulo de correlaciones que nos muestra la correlación que
existe entre mi componente principal que en este caso es el eje de las x y el
segundo componente principal que es el eje de las y. De este modo, se evidencia
que el CP1 explica mucho mejor las variables Puntaje global, Ciencias Natura-
les y Sociales. Mientras que el CP2 explica mucho mejor el puntaje de ingles,
Puntaje lectura crı́tica y Sociales.

Coordenadas de los tres componentes principales en el plano

PC1 PC2 PC3


[1,] -5.7475686820 -6.904172e-01 1.786181e+00
[2,] -5.6243791059 1.537163e-01 1.031660e-01
[3,] -5.3519245427 5.631571e-01 -4.365067e-01
[4,] -5.1706524905 3.945991e-01 -7.014219e-02
[5,] -4.9141059986 2.257607e-01 -3.227459e-02
[6,] -4.6579009345 -7.892080e-02 4.924563e-01
[7,] -4.5734050484 -7.210303e-01 -3.857514e-02
[8,] -4.6714178502 -1.222131e-01 2.787128e-01
[9,] -4.5599240944 -6.131492e-01 -2.765218e-01
[10,] -4.7037976277 2.598877e-01 -8.467079e-01
[11,] -4.5037396903 -8.312855e-02 -1.881289e-01
[12,] -4.2411411119 -5.439458e-01 -7.796057e-02
[13,] -4.4505756027 3.817584e-01 4.848313e-02
[14,] -4.2703741360 1.359461e-01 1.224348e+00
[15,] -4.2232669172 -2.786318e-01 2.631762e-01
[16,] -4.1733935760 -7.158035e-01 -1.970832e-01
[17,] -4.0911291873 -7.992333e-01 -5.403922e-02
[18,] -4.0400040472 -6.630922e-01 6.338651e-01
[19,] -4.1263562821 -5.192274e-01 -2.020862e-01
[20,] -4.1142716220 -4.326441e-01 8.918593e-01
[21,] -4.1598653902 6.333142e-02 -5.054570e-01
[22,] -3.9629146754 -7.793384e-01 -1.266901e-01
[23,] -4.2012857557 2.146293e-01 1.697507e-01
[24,] -3.9489272572 -8.476032e-01 3.697712e-01
[25,] -4.1313733180 2.092644e-01 -5.546077e-03
[26,] -4.1089379437 1.393707e-01 2.676454e-01
[27,] -3.9048595781 -8.632545e-01 3.429932e-01
[28,] -3.9426003005 -4.584897e-01 4.705163e-01
[29,] -4.0225300342 1.323014e-01 1.001227e-01
[30,] -3.7960608696 -1.004809e+00 -4.104625e-02
[31,] -4.0699447981 2.701174e-01 -4.092632e-01
[32,] -3.7780384576 -1.045309e+00 -2.660655e-01
[33,] -3.9585837651 -8.924366e-02 2.442433e-01
[34,] -3.9111476361 -2.440152e-01 1.775447e-01
[35,] -4.2636840471 7.668270e-01 -5.174852e-01
[36,] -3.6826607361 -6.519495e-01 3.788404e-01

7
[37,] -3.6301353335 -1.035624e+00 3.405879e-01
[38,] -3.6013546771 -1.053859e+00 3.135391e-01
[39,] -3.7763375521 1.684092e-01 5.748764e-01
[40,] -3.8286517650 -4.403000e-02 -6.890338e-01
[41,] -3.6296322676 -4.108581e-01 3.498334e-01
[42,] -3.6867992123 -4.618566e-01 -9.688023e-01
[43,] -3.4853617258 -6.470244e-01 4.626793e-01
[44,] -3.8232702158 5.441067e-01 -4.396716e-01
[45,] -3.4406913917 -1.165606e+00 -3.706948e-01
[46,] -3.5835971554 4.592012e-02 -2.549777e-01
[47,] -3.6872244161 3.575642e-01 -6.635664e-01
[48,] -3.4802958369 -1.875955e-01 -9.123229e-02
[49,] -3.6388116480 3.014937e-01 5.526232e-01
[50,] -3.6495097348 3.446839e-02 -8.133119e-01
[ reached getOption("max.print") -- omitted 25439 rows ]

Se menciona las coordenadas de los individuos en el plano que es la multipli-


cación de cada componente principal por cada una de las variables y obtenemos
25772 individuos.

Vemos como R nos arroja las coordenadas de los invividuos, anteriormente


tenemos el circulo de las correlaciones que nos muestra los pesos que le dan cada
uno de los componentes principales en este caso CP1 y CP2 a mis variables
originales y en este otro grafico nos muestra las coordenadas de los individuos
en el plano, se puede observar que los individuos que se encuentran en la parte
más negativa del segundo componente principal que corresponde al eje y son los
individuos con puntaje más altos de ingles, lectura crı́tica y Sociales. Lo mismo
sucede con los individuos de componente principal del eje de las x, CP1 son los

8
estudiante con más alto en puntaje global, Ciencias Naturales y Sociales

Se observa nuestro circulo de correlación para el componente principal 1 que


sigue siendo el eje de las x y el componente principal 3 que corresponde al eje
de las y. Uno de los puntajes que mejor explica el CP1 es el ingles y en el CP2
Matemáticas.

Ahora procedemos a graficar las coordenadas de los individuos en el plano


para esos componentes.

Tenemos las coordenadas de los individuos que en este caso son los de más

9
alto puntaje en cada uno de los componentes, en este caso CP1 y CP3.

Ahora bien, procedemos a graficar las coordenadas de los CP2 y CP3.

Vemos que el circulo de correlación entre el CP2 y CP3 es muy distinto al


resto ya que el CP3 estarı́a en el eje de las y y el CP2 en el eje de las x entonces
vemos que el CP2 explica mejor las variables de los puntajes de Ingles y Lectura
y el CP explica mejor las variables Matemáticas y lectura crı́tica. se observa que
no se explica muy bien la variable de puntaje global.

Ahora vamos a evidenciar las coordenas de los individuos en el plano.

10
Se puede observar puntajes muy agrupados en el centro de los ejes esto nos
indica que esos puntajes en mayor medida se encuentran ubicados en esas coor-
denadas.

Código R

DATOSMED2018.2 <- read.csv("C:/Users/mary/Desktop/DATOSMED2018-2.csv", sep=";")


View(DATOSMED2018.2)
datos=DATOSMED2018.2
attach(datos)
head(datos)
str(datos)

#preprocesamiento de los datos

cor(datos[,5:10]) # matriz de correlacion variables originales


round(cor(datos[,5:10]),3) # que me tome 3 digitos
scaledatos=scale(datos[,5:10])
acp=prcomp(scaledatos)
acp
summary(acp)
biplot(acp, scale = 0)
desv_stand=acp[[1]]
desv_stand
varianza=desv_stand^2
round(varianza,4)
cp1=acp[[2]][,1] # primer componente principal

11
cp1
cp2=acp[[2]][,2] # segundo componente principal
cp2
cp3=acp[[2]][,3] # tercero componente principal
cp3
com_prin=cbind(cp1, cp2, cp3 ) # guarda los CP y los ordene mediante columnas
com_prin
individuos=acp$x[,1:3] # toma las primeras 3 coordenadas de los individuos
individuos
install.packages("ade4")
library(ade4)
x11() # ventana emergente
s.corcircle(com_prin[,-3], sub = "Componente Principal 1 y componente Principal 2",
possub="topright") # permite graficar la correlacion de los CP 1 y CP2
# se omite CP3#
x11()
s.label(individuos [,-3], label="DATOSMED2018.2", sub="Coordenada de los individuos",
possub="topright") # Grafica de las coordenada de los individuos.

x11() # ventana emergente


s.corcircle(com_prin[,-2], sub = "Componente Principal 1 y componente Principal 3",
possub="topright") # permite graficar la correlacion de los CP 1 y CP3
# se omite CP2#
x11()
s.label(individuos [,-2], label="DATOSMED2018.2", sub="Coordenada de los individuos",
possub="topright") # Grafica de las coordenada de los individuos.

x11() # ventana emergente


s.corcircle(com_prin[,-1], sub = "Componente Principal 2 y componente Principal 3",
possub="topright") # permite graficar la correlacion de los CP 2 y CP3
# se omite CP2#
x11()
s.label(individuos [,-1], label="DATOSMED2018.2", sub="Coordenada de los individuos",
possub="topright") # Grafica de las coordenada de los individuos.

12

También podría gustarte