Está en la página 1de 5

ESTADISTICA II

Análisis de componentes principales para conjunto de variables relacionadas con las


características de Bienes inmuebles

PRESENTADO POR:

JUAN CAMILO VEGA SIERRA

PROFESOR:

PEDRO ROCHA

BOGOTA, D.C

2019
ANALISIS DE COMPONENTES PRINCIPALES

1. Calcule la matriz de correlaciones


Determine cuales variables se encuentran altamente correlacionadas
MATRIZ DE CORRELACIONES
Metros
Metros No. No. Distancia Área
Vetustez Precio(m^2) Acabados zona
cuadrados Alcobas Pisos parques garaje
verde
Metros
0,0099 0,0331 0,0322 0,0309 0,0107 -0,003 -0,0266 -0,0094
cuadrados
No. Alcobas 0,0099 -0,0278 -0,0315 0,0067 -0,0251 -0,0214 0,0129 -0,0238

No. Pisos 0,0331 -0,0278 -0,0137 -0,0176 0,0145 0,0016 -0,0325 0,0382
Distancia
0,0322 -0,0315 -0,0137 0,0178 -0,0102 0,0112 -0,0023 -0,0154
parques
Vetustez 0,0309 0,0067 -0,0176 0,0178 0,0465 0,0332 -0,0328 0,0495
Precio
metro 0,0107 -0,0251 0,0145 -0,0102 0,0465 0,0073 0,0055 -0,0226
cuadrado
Acabados -0,003 -0,0214 0,0016 0,0112 0,0332 0,0073 0,0489 -0,0249
Metros zona
-0,0266 0,0129 -0,0325 -0,0023 -0,0328 0,0055 0,0489 -0,0145
verde
Área
-0,0094 -0,0238 0,0382 -0,0154 0,0495 -0,0226 -0,0249 -0,0145
garaje

Como se puede evidenciar en la matriz de correlaciones, los valores allí presentes no superan el
0.05 lo cual indica que las variables están muy poco correlacionadas, ya que para esto es
necesario que los valores absolutos sean superiores o iguales a 0.8.
Adicionalmente, la prueba de esfericidad de Barlett, que permite contrastar la hipótesis de que
la matriz de correlaciones es una matriz identidad, arroja un Valor-P = 0,95814, lo cual indica la
práctica inexistencia de correlación entre las variables.

2. Realice el análisis de componentes principales


Determine en cuantas componentes va a agrupar las variables dependiendo de la cantidad de
variación explicada
La siguiente tabla muestra el porcentaje de variación que explica cada variable:
PORCENTAJE DE VARIACION

Numero de Valor Porcentaje Porcentaje


componentes propio de varianza acumulado

1 1,10694 12,299 12,299


2 1,07404 11,934 24,233
3 1,03739 11,527 35,76
4 1,02956 11,44 47,199
5 1,01407 11,267 58,467
6 0,992926 11,033 69,499
7 0,953489 10,594 80,094
8 0,922159 10,246 90,34
9 0,869426 9,66 100

Como se puede observar los primeros cinco componentes tienen todos varianzas
(autovalores) mayores que 1 y entre los tres recogen el 58.467 % de la varianza de las
variables originales, es por esto por lo que se agruparan en 5 componentes.

3. Determine las combinaciones lineales para cada una de las componentes principales

Tabla de pesos de componentes


Componente Componente Componente Componente Componente
1 2 3 4 5

Metros cuadrados 0,372668 0,141591 -0,472812 -0,255174 0,193711

No. Alcobas -0,256665 -0,177095 -0,545156 0,398928 0,143041


No. Pisos 0,40217 -0,205545 0,335373 -0,29111 0,355333

Distancia parques 0,132256 0,344145 -0,256779 -0,488074 -0,475473

Vetustez 0,436488 0,36255 -0,168819 0,54014 -0,201985

Precio metro
0,216293 0,38346 0,106579 0,205098 0,596357
cuadrado

Acabados -0,0929197 0,585969 0,273701 0,0190985 -0,0559701

Metros zona verde -0,466539 0,305434 0,262155 0,0667399 -0,0183211

Área garaje 0,3904 -0,269762 0,34256 0,337854 -0,435627


Teniendo en cuenta la tabla de los pesos, podemos obtener las siguientes combinaciones lineales o funciones
para las cinco componentes principales de la siguiente manera:

𝑭𝟏 = 0,372668 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 0.256665 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 + 0.40217 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 + 0.132256


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 + 0.43648 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.216293 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
− 0.0929197 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 − 0.466539 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 + 0.3904 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

𝑭𝟐 = 0,141591 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 0.177095 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 − 0.205545 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 + 0.344145


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 + 0.36255 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.38346 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
+ 0.585969 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 + 0.305434 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 − 0.269762 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

𝑭𝟑 = −0.472812 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 0.545156 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 + 0.335373 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 − 0.256779


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 − 0.168819 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.106579 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
+ 0.273701 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 + 0.262155 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 + 0.34256 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

𝑭𝟒 = −0,255174 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 + 0.398928 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 − 0.29111 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 − 0.488074


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 + 0.54014 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.205098 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 + 0.0190985
∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 + 0.0667399 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 + 0.337854 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

𝑭𝟓 = 0,193711 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 + 0.143041 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 + 0.355333 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 − 0.475473


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 − 0.201985 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.596357 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
− 0.0559701 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 − 0.0183211 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 − 0.435627 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒
4. Interprete utilizando la anterior información y las correspondientes graficas el comportamiento de las
componentes principales.

Interpretación de resultados:
El propósito del análisis es obtener un número reducido de combinaciones lineales de las 9 variables
que expliquen la mayor variabilidad en los datos. Para esto se toma como referencia la gráfica de
sedimentación:

Gráfica de Sedimentación

1,2

0,8
Eigenvalor

0,6

0,4

0,2

0
0 2 4 6 8 10
Componente

Esta grafica muestra el número del componente principal versus su valor propio correspondiente.
La gráfica de sedimentación ordena los valores propios desde el más grande hasta el más pequeño.
Para este caso se evidencia que los 5 primeros componentes principales tienen valores propios
mayores que 1, y estas 5 componentes explican el 58,4667% de la variación de los datos. La gráfica
de sedimentación muestra que los valores propios comienzan a formar una línea recta después del
quinto componente principal. Si 58,4667% es una cantidad adecuada de variación explicada en los
datos, entonces se deben utilizar los cinco primeros componentes principales.

Ahora bien, para interpretar cada componente principal, se examina la magnitud y la dirección de
los coeficientes de las variables originales. Cuanto mayor sea el valor absoluto del coeficiente, más
importante será la variable correspondiente en el cálculo del componente.

Este análisis se facilita por medio de la gráfica de pesos del componente donde se grafica los
coeficientes de cada variable para el primer componente versus los coeficientes para el segundo
componente.
Gráfica de Pesos del Componente

0,73
Acabados
0,53
Precio metro cuadrado
Componente 2

Vetustez
0,33 Distancia parques
Metros zona verde
Metros cuadrados
0,13

-0,07
No. Alcobas
No. Pisos
Area garaje
-0,27
-0,47 -0,27 -0,07 0,13 0,33 0,53
Componente 1

En esta grafica las variables metros cuadrados, N° de pisos y Área garaje tienen una influencia
positiva grande en la componente 1, mientras que las variables N° Alcobas y Metros zona verde
tienen una influencia negativa para esta componente. Del mismo modo para la componente 2 se
evidencia una influencia positiva bastante grande con las variables Acabados, Distancia parques y
Precio metro cuadrado.
Esto se hace evidente en las respectivas combinaciones lineales de las componentes, donde
podemos evidenciar que el valor de las variables mencionadas en cada componente tiene una
magnitud grande en consideración con las demás:

𝑭𝟏 = 0,372668 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 0.256665 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 + 0.40217 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 + 0.132256


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 + 0.43648 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.216293 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
− 0.0929197 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 − 0.466539 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 + 0.3904 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

𝑭𝟐 = 0,141591 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 0.177095 ∗ 𝑁° 𝐴𝑙𝑐𝑜𝑏𝑎𝑠 − 0.205545 ∗ 𝑁° 𝑃𝑖𝑠𝑜𝑠 + 0.344145


∗ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑝𝑎𝑟𝑞𝑢𝑒𝑠 + 0.36255 ∗ 𝑉𝑒𝑡𝑢𝑠𝑡𝑒𝑧 + 0.38346 ∗ 𝑃𝑟𝑒𝑐𝑖𝑜 𝑚𝑒𝑡𝑟𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
+ 0.585969 ∗ 𝐴𝑐𝑎𝑏𝑎𝑑𝑜𝑠 + 0.305434 ∗ 𝑀𝑒𝑡𝑟𝑜𝑠 𝑧𝑜𝑛𝑎 𝑣𝑒𝑟𝑑𝑒 − 0.269762 ∗ Á𝑟𝑒𝑎 𝑔𝑎𝑟𝑗𝑒

Del mismo modo se podrán realizar las comparaciones entre las diferentes componentes y así
determinar la relación existente entre las variables y dichas componentes.

También podría gustarte