Está en la página 1de 39

COMPONENTES

PRINCIPALES
LOGRO ESPERADO
Resuelve problemas utilizando la técnica de componentes principales a partir de las
referencias teóricas en problemas de contexto profesional/científico.

INDICADORES DE LOGRO

• Obtiene las componentes principales a partir de las referencias teóricas


considerando las características del problema.
• Explica el significado delos resultados obtenidos en problemas contextualizados.
¿Cuanta información estamos dispuestos a perder para
ganar facilidad de interpretación?
Un problema central en el análisis de datos
multivariados es la reducción de la dimensión: si es
posible describir con precisión los valores de p
variables por un pequeño subconjunto r < p de ellas, se
habrá reducido la dimensión del problema a cambio de
una pequeña pérdida de información.
INTRODUCCIÓN
El objetivo del método de componentes principales es transformar un conjunto de p
variables (variables originales) correlacionadas entre sí en un nuevo conjunto de p
variables incorrelacionadas (componentes principales). El análisis de un conjunto
de variables correlacionadas impide evaluar el aporte de cada variable en el
fenómeno estudiado.
Las componentes principales pueden ordenarse de acuerdo a la cantidad de
información que llevan incorporadas. Como medida de la cantidad de información
que incorporan las variables, se utilizará la varianza. Cabe indicar que la suma de
las varianzas de las componentes principales es igual a la suma de las varianzas
de las variables originales.
El método de componentes principales es un método de reducción de datos debido
a que permite reducir la dimensión de la matriz original de datos, debido a que se
puede pasar de trabajar con p variables originales a trabajar con m componentes,
m<p.
VARIABLES TIPIFICADAS
Para obtener las componentes principales, se trabajará con las variables tipificadas, de esta manera
se evitará problemas derivados de escala.

X1 X2 X1-tipificada X2-tipificada
785.104 33.795 1.2575 0.5565
785.218 68.778 1.2584 1.9275
710.963 11.531 0.6975 -0.3160
684.063 -2.756 0.4943 -0.8759
641.003 24.729 0.1691 0.2012
547.744 19.059 -0.5353 -0.0210
499.155 22.541 -0.9023 0.1155
458.465 23.495 -1.2097 0.1529
455.853 -24.824 -1.2294 -1.7408

Las variables tipificadas se obtienen al restarle la media a los datos, y luego dividir tal diferencia
entre la desviación estándar.
SCATTER PLOT DE LAS VARIABLES
ORIGINALES Y TIPIFICADAS
¿CÓMO SE OBTIENEN LOS COMPONENTES
PRINCIPALES?
Los componentes principales son combinaciones lineales de las
variables originales. Para obtener los componentes principales se
necesitan calcular los autovalores y autovectores de la matriz de
covarianzas. Los coeficientes de las combinaciones lineales son las
componentes de los autovectores asociados a la matriz de covarianzas
de las variables originales.
El primer componente se obtiene de manera que su varianza sea
máxima sujeta a la restricción de que la suma de los cuadrados de los
coeficientes sea igual a uno. El resto de componentes se calcula de
manera similar al primero, pero imponiendo la condición de que el
componente a calcular sea ortogonal a los componentes ya calculados.
SISTEMA DE ECUACIONES
Consideremos una muestra de tamaño n de las siguientes p variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 . El sistema de
ecuaciones que representa los componentes principales como combinaciones lineales de las
variables originales es el siguiente:

𝑍1𝑖 = 𝜇11 𝑋1𝑖 + 𝜇12 𝑋2𝑖 + ⋯ + 𝜇1𝑝 𝑋𝑝𝑖


𝑍2𝑖 = 𝜇21 𝑋1𝑖 + 𝜇22 𝑋2𝑖 + ⋯ + 𝜇2𝑝 𝑋𝑝𝑖
𝑍3𝑖 = 𝜇31 𝑋1𝑖 + 𝜇32 𝑋2𝑖 + ⋯ + 𝜇3𝑝 𝑋𝑝𝑖

𝑍𝑝𝑖 = 𝜇𝑝1 𝑋1𝑖 + 𝜇𝑝2 𝑋2𝑖 + ⋯ + 𝜇𝑝𝑝 𝑋𝑝𝑖

Donde 𝑖 = 1, 2, … , 𝑛 y los 𝜇𝑗𝑘 ; 𝑗 = 1,2, … , 𝑝 𝑦 𝑘 = 1, 2, … , 𝑝 son los componentes de los autovectores.


REPRESENTACIÓN MATRICIAL
La notación matricial para el primer componente, de la misma manera que el resto,
es la siguiente:

𝑍11 𝑋11 𝑋21 ⋯ 𝑋𝑝1 𝜇11


𝑍12 𝑋 𝑋22 ⋯ 𝑋𝑝2 𝜇
= 12 = 12
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
𝑍1𝑛 𝑋1𝑛 𝑋2𝑛 ⋯ 𝑋𝑝𝑛 𝜇1𝑝

𝑍1 = 𝑋𝜇1
Si las p variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 están tipificadas, la media del componente 𝑍1 es
cero. Lo mismo ocurre con el resto de componentes.
¿CÓMO SE OBTIENE EL PRIMER
COMPONENTE PRINCIPAL?
El primer componente se obtiene de manera que su varianza sea máxima sujeta a la
restricción de que la suma de los cuadrados de los coeficientes sea igual a uno.
La varianza del primer componente está dada por:

𝑛 2
𝑍
𝑖=1 1𝑖 1 𝑡 1 𝑡
𝑉 𝑍𝑖 = = 𝑍1 𝑍1 = 𝜇1 𝑋 𝑋 𝜇1 = 𝜇1𝑡 𝑅𝜇1
𝑡
𝑛 𝑛 𝑛

donde R es la matriz de correlación de las variables originales tipificadas.


La restricción se expresa de la siguiente manera:
𝑝
2
𝜇1𝑘 = 𝜇1𝑡 𝜇1 = 1
𝑘=1
La función a maximizar es la siguiente:

𝐿 = 𝜇1𝑡 𝑅𝜇1 − 𝜆(𝜇1𝑡 𝜇1 − 1)

Derivando con respecto a 𝜇1 , se obtiene:

𝑅 − 𝜆𝐼 𝜇1 = 0

Al resolver está ecuación se obtienen p raíces características (autovalores). El mayor


autovalor 𝜆1 esta asociado al autovector 𝜇1 .

De manera general el autovector 𝜇𝑗 está asociado al autovalor 𝜆𝑗 , una vez ordenados de


mayor a menor.
De esta manera, los coeficientes de las combinaciones lineales son las componentes de
los autovectores asociados a la matriz de correlación de las variables originales
tipificadas.
MATRIZ ORTOGONAL
Los j autovectores forman una matriz ortogonal. A continuación se presenta la matriz
compuesta por los autovectores del ejemplo de aplicación que veremos más adelante:

Una matriz es ortogonal cuando sus columnas son ortogonales y tienen longitud 1.
VARIANZAS DE LOS COMPONENTES

La varianza del componente h-ésimo es igual al autovalor al cual está asociado, es decir:

𝑉 𝑍ℎ = 𝜆ℎ

La suma de las varianzas de las variables originales tipificadas es igual a la suma de las
varianzas de las componentes principales ; es decir:
𝑝

𝜆ℎ
ℎ=1
PROPORCIÓN DE LA VARIANZA EXPLICADA
POR EL COMPONENTE H-ÉSIMO
La proporción de la varianza explicada por el componente h-ésimo es :

𝜆ℎ
𝑝
ℎ=1 𝜆ℎ
CORRELACIÓN ENTRE LAS VARIABLES ORIGINALES
TIPIFICADAS Y LAS COMPONENTES PRINCIPALES

La correlación entre la variable 𝑋𝑗 tipificada y la componente 𝑍ℎ (carga factorial) se


obtiene de la siguiente manera:

𝑟𝑗ℎ = 𝜇ℎ𝑗 𝜆ℎ
PUNTUACIONES DE CADA COMPONENTE

Las puntuaciones se obtienen de la siguiente manera:

𝑍ℎ𝑖 = 𝜇ℎ1 𝑋1𝑖 + ⋯ + 𝜇ℎ𝑝 𝑋𝑝𝑖 ; ℎ = 1, … , 𝑝 𝑖 = 1, 2, … , 𝑛


NÚMERO DE COMPONENTES A RETENER
El objetivo al aplicar componentes principales es reducir el
número de variables originales. Se asocia a cuanta
varianza se esta dispuesto a sacrificar para ganar una
facilidad de interpretación. Los criterios con los que
trabajaremos son los siguientes:
• Criterio de la media aritmética
• Gráfico de sedimentación (screen plot)
CRITERIO DE LA MEDIA ARITMÉTICA
Según este criterio, se seleccionan aquellas componentes
cuyo autovalor (varianza) excede al promedio de los
autovalores (promedio de la varianzas).
𝜆ℎ > 𝜆
Si las variables se encuentran tipificadas, se tiene:

𝜆ℎ > 1
GRÁFICO DE SEDIMENTACIÓN (screen plot)
Se representan los autovalores en el eje Y y los componentes en
el eje X. Según este criterio, se seleccionan aquellos
componentes hasta el momento en que la línea comienza a
nivelarse.
EJEMPLO DE APLICACIÓN 1

La siguiente tabla contiene información del grado de desarrollo de algunos


países del mundo:

Y1: Tasa de mortalidad infantil por cada 1000 nacidos vivos


Y2: Porcentaje de mujeres en la población activa.
Y3: Producto nacional bruto (PNB) per cápita en 1995 (en $)
Y4: Producción de electricidad (en millones de kw/h)
Y5: Promedio sw líneas telefónicas por cada 1000 habitantes.
Y6: Consumo de agua per cápita en m3 (de 1980 a 1995)
Y7: Consumo de energía per cápita en 1994.
Y8: Emisión de CO2 per cápita en 1992 (en Tm)
DATA
País Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8
Albania 30 41 670 3903 12 94 341 1.2
Angola 124 46 410 955 6 57 89 0.5
Benín 95 48 370 6 5 26 20 0.1
Congo 90 43 680 435 8 20 331 1.6
Etiopía 112 41 100 1293 2 51 22 0.1
Ghana 73 51 390 6115 4 35 93 0.2
Haití 72 43 250 362 8 7 29 0.1
Honduras 45 30 600 2672 29 294 204 0.6
Kenia 58 46 280 3539 9 87 110 0.2
Mozanbique 113 48 80 490 3 55 40 0.1
Nepal 91 40 200 927 4 150 28 0.1
Nicaragua 46 36 380 1688 23 367 300 0.6
Senegal 62 42 600 1002 10 202 97 0.4
Sudán 77 28 260 1333 3 633 66 0.1
Tanzania 82 49 120 1913 3 40 34 0.1
Yemen 100 29 260 2159 12 335 206 0.7
Zambia 109 45 400 7785 8 186 149 0.3
Zimbawe 55 44 540 7334 14 136 438 1.8
VARIABLES TIPIFICADAS
PAÍS X1 X2 X3 X4 X5 X6 X7 X8
Albania -1.8560 -0.0973 1.5930 0.6110 0.4104 -0.3690 1.5142 1.3386
Angola 1.6567 0.6325 0.2301 -0.6198 -0.4259 -0.5960 -0.4255 0.0209
Benín 0.5730 0.9244 0.0204 -1.0160 -0.5653 -0.7861 -0.9566 -0.7320
Congo 0.3861 0.1946 1.6455 -0.8369 -0.1471 -0.8229 1.4372 2.0915
Etiopía 1.2083 -0.0973 -1.3950 -0.4787 -0.9835 -0.6328 -0.9412 -0.7320
Ghana -0.2491 1.3623 0.1252 1.5346 -0.7047 -0.7309 -0.3947 -0.5438
Haití -0.2865 0.1946 -0.6087 -0.8674 -0.1471 -0.9027 -0.8873 -0.7320
Honduras -1.2954 -1.7028 1.2261 0.0971 2.7801 0.8577 0.4597 0.2092
Kenia -0.8097 0.6325 -0.4514 0.4591 -0.0077 -0.4120 -0.2638 -0.5438
Mozanbique 1.2456 0.9244 -1.4998 -0.8140 -0.8441 -0.6083 -0.8026 -0.7320
Nepal 0.4235 -0.2433 -0.8708 -0.6315 -0.7047 -0.0256 -0.8950 -0.7320
Nicaragua -1.2581 -0.8271 0.0728 -0.3138 1.9437 1.3055 1.1986 0.2092
Senegal -0.6602 0.0487 1.2261 -0.6002 0.1316 0.2934 -0.3639 -0.1673
Sudán -0.0996 -1.9947 -0.5563 -0.4620 -0.8441 2.9370 -0.6025 -0.7320
Tanzania 0.0872 1.0703 -1.2902 -0.2198 -0.8441 -0.7003 -0.8488 -0.7320
Yemen 0.7598 -1.8488 -0.5563 -0.1171 0.4104 1.1092 0.4751 0.3974
Zambia 1.0961 0.4865 0.1777 2.2319 -0.1471 0.1953 0.0363 -0.3556
Zimbawe -0.9218 0.3406 0.9116 2.0436 0.6892 -0.1114 2.2608 2.4680
MATRIZ DE CORRELACIÓN

1.00000 0.24576 -0.52687 -0.25092 -0.63354 -0.23358 -0.53049 -0.36233


0.24576 1.00000 -0.11042 0.16799 -0.50104 -0.84012 -0.23059 -0.11582
-0.52687 -0.11042 1.00000 0.27116 0.54132 0.02696 0.70608 0.72511
-0.25092 0.16799 0.27116 1.00000 0.17919 0.01709 0.45102 0.32443
-0.63354 -0.50104 0.54132 0.17919 1.00000 0.34676 0.60642 0.41844
-0.23358 -0.84012 0.02696 0.01709 0.34676 1.00000 0.14871 -0.03414
-0.53049 -0.23059 0.70608 0.45102 0.60642 0.14871 1.00000 0.93465
-0.36233 -0.11582 0.72511 0.32443 0.41844 -0.03414 0.93465 1.00000
AUTOVALORES Y AUTOVECTORES
Análisis de los valores y vectores propios de la matriz de correlación

Valor propio 3,7540 1,9286 0,8359 0,7230 0,3405 0,3050 0,0991 0,0140
Proporción 0,469 0,241 0,104 0,090 0,043 0,038 0,012 0,002
Acumulada 0,469 0,710 0,815 0,905 0,948 0,986 0,998 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8


x1 -0,373 0,046 0,032 0,705 -0,420 -0,407 0,119 0,063
x2 -0,222 0,611 -0,045 -0,240 0,049 -0,013 0,702 -0,148
x3 0,414 0,200 0,270 -0,025 0,365 -0,753 -0,049 0,114
x4 0,215 0,286 -0,883 0,039 -0,084 -0,159 -0,235 -0,059
x5 0,411 -0,184 0,091 -0,346 -0,754 -0,183 0,190 -0,175
x6 0,177 -0,605 -0,299 0,206 0,320 -0,088 0,573 -0,178
x7 0,472 0,169 0,014 0,279 -0,090 0,345 0,257 0,691
x8 0,413 0,271 0,215 0,450 0,041 0,288 -0,071 -0,646
En los resultados se observa que los 2 primeros componentes principales tienen valores propios mayores que
1. Estos 2 componentes explican 71% de la variación en los datos.
GRÁFICO DE SEDIMENTACIÓN (screen plot)

La gráfica muestra que los valores propios comienzan a formar una línea recta a partir del tercer componente
principal. Si 81.5% es una cantidad aceptable de variación explicada en los datos, entonces con el gráfico de
sedimentación se podrían utilizar los 3 primeros componentes principales.

En este problema se utilizará el criterio de la media aritmética. De esta manera, se trabajará con los 2 primeros
componentes.
GRÁFICO DE INFLUENCIAS
El gráfico de influencias permite identificar las variables que tienen el mayor efecto en cada componente.
Las influencias varían entre -1 y 1. Las influencias que más se aproximan a -1 o 1 indican que el efecto
de la variable sobre el componente es considerable.

En el gráfico se observa que X3, X4, X5, X7 y X8 tienen influencias positivas grandes en el primer
componente; mientras que, X1 tiene influencias negativas en este componente. Además, se observa que
X2 tiene influencias positivas grandes en el segundo componente; mientras que, X6 tiene influencias
GRÁFICO DE PUNTUACIONES
Si los 2 primeros componentes explican la mayor parte de la varianza en los datos, se puede utilizar el
gráfico de puntuaciones para evaluar la estructura de los datos y detectar conglomerados.
CORRELACIÓN ENTRE LAS VARIABLES ORIGINALES Y LOS
COMPONENTES PRINCIPALES (CARGAS FACTORIALES)
C1 C2
𝑟11 = 𝜇11 𝜆1
x1 -0.7234781 0.06452752 𝑟11 = −0.373 3.754 = −0.722697
x2 -0.43094396 0.84908952
x3 0.80178522 0.27752843 𝑟12 = 𝜇21 𝜆2
𝑟12 = 0.046 1.9286 = 0.063882
x4 0.41659066 0.39780376
x5 0.79577503 -0.25499285
x6 0.34292317 -0.84062526
x7 0.9146838 0.23421364
x8 0.80058008 0.37636475
Las diferencias observadas entre lo obtenido con el programa y la fórmula se debe al
redondeo.
PUNTUACIONES DE CADA COMPONENTE
País C1 C2 C3 C4 C5 C6 C7 C8
Albania 2.876463145 1.113833559 0.292479991 -0.494813455 0.795661377 0.323909628 -0.350618968 0.220027632
Angola -1.26998506 0.70500037 0.772533688 0.90197528 -0.359618138 -0.76717795 0.242408613 -0.05376428
Benín -1.75496972 0.524784956 0.892159274 -0.420470111 0.128583782 -0.46717868 0.202616681 0.01225343
Congo 1.65011968 1.560404557 1.890232701 1.375624079 0.321355413 -0.06946936 0.019909709 0.047551965
Etiopía -2.37245623 -0.21274861 0.018097385 0.509749275 -0.386476028 0.336477311 -0.482565792 0.066431369
Ghana -0.65801307 1.643853411 -1.35874451 -0.707522982 0.399148834 -0.35349254 -0.055459625 0.038959073
Haití -1.31624778 -0.03904152 0.670053712 -0.979443974 -0.14649681 0.299216196 -0.385764008 -0.018754972
Honduras 2.987788661 -1.72393539 0.329381631 -1.095435742 -0.955578224 -0.75495396 -0.310564522 -0.152195882
Kenia -0.35179206 0.449306514 -0.5802724 -1.094305481 0.043820992 0.378097909 -0.00515721 0.020838191
Mozanbique -2.60213067 0.279596276 0.247935893 0.275777502 -0.472126844 0.460208169 0.398918672 -0.007726639
Nepal -1.61911197 -0.68844002 0.120241851 0.01393655 0.119852313 0.198774835 -0.255772683 -0.017428856
Nicaragua 2.298048022 -1.52777473 0.141770408 -0.678602749 -0.606853238 0.520424388 0.749798993 0.190389341
Senegal 0.479092098 -0.23632099 0.720926285 -0.693003215 0.79774428 -0.78335117 0.147290763 -0.091900165
Sudán -0.26240578 -3.39061355 -0.77736466 0.804990133 1.380309583 0.037586225 0.144208706 -0.06683425
Tanzania -2.0255982 0.575010061 -0.23719629 -0.590018376 0.023173143 0.669362401 0.148761771 -0.128412742
Yemen 0.625480196 -1.79873157 -0.14103777 1.386791585 -0.584268747 0.258215558 -0.344409028 0.066462669
Zambia -0.11975207 0.841817753 -2.05666899 0.679855376 -0.404346467 -1.01951055 0.058400345 0.131091207
Zimbawe 3.435470806 1.923998933 -0.94452819 0.804916306 -0.09388522 0.732861579 0.077997581 -0.25698709
Media 0 0 0 1.11022E-15 -1.30451E-15 0 1.94289E-16 1.11022E-15

Una vez obtenidos los componentes, se procede a nombrarlos, de acuerdo a las variables que lo conforman. En
adelante, el análisis del problema se realiza a partir de los componentes obtenidos.
EJEMPLO DE APLICACIÓN 2
Los datos que se muestran en la data Humedal corresponden a la medición de 17 humedales en determinada época del año. Las
variables medidas son:

X1 = Conductividad eléctrica
X2 = Contenido en bicarbonatos
X3 = Contenido en cloruros
X4 = Contenido en sulfatos
X5 = Contenido en calcio
X6 = Contenido en magnesio
X7 = Contenido en sodio
X8 = Contenido en potasio
X9: Contenido en fosfatos
DATA
Humedal X1 X2 X3 X4 X5 X6 X7 X8 X9
Caja 0.315 1.6694 5 86 55 4 4 2 1.8082
Camuñas 8 3.7282 2388 7638 2123 972 1757 5 0.3228
Capacete 3.41 4.0642 732 881 218 122 379 41 74.588
Cerero 3.94 1.4585 1359 772 251 96 710 14 0.0968
Chica 2.8 4.4862 220 2510 572 20 458 7 0.0968
Dulce 1.56 2.4745 269 495 157 38 162 9 0.3228
FP Salinas 11 1.2206 3038 923 233 226 1488 11 0.0645
Fp Vicaria 8.75 2.6384 4325 456 234 229 2371 11 1.1947
Grande 2.6 3.3251 840 2270 609 86 284 7 0.5166
Guadal. May 6.37 2.5483 2320 1040 1294 192 485 23 0.4843
Hoyos1 1.18 5.1966 13 499 202 20 5 18 6.7807
Lobón 0.57 1.7494 110 42 21 12 60 6 0.5812
Marcela 3.4 2.1189 1121 866 157 115 643 4 0.7426
Ratosa 3.48 1.7207 1484 554 151 151 708 7 0.1291
Redonda 4.62 1.0357 472 2964 752 160 652 34 0.1291
Salada 3.8 0.8685 1023 2274 1946 360 430 23 0.5489
Viso 0.3 1.8567 7 15 39 3 4 2 4.4882
VARIABLES TIPIFICADAS

Humedal X1 X2 X3 X4 X5 X6 X7 X8 X9
Caja -1.1642 -0.6382 -0.9418 -0.7299 -0.7295 -0.6999 -0.9339 -0.9951 -0.2042
Camuñas 1.3398 0.9827 1.0007 3.3759 2.4450 3.5069 1.7086 -0.7280 -0.2872
Capacete -0.1557 1.2472 -0.3492 -0.2977 -0.4793 -0.1871 -0.3686 2.4772 3.8609
Cerero 0.0170 -0.8042 0.1619 -0.3569 -0.4286 -0.3001 0.1303 0.0733 -0.2998
Chica -0.3545 1.5794 -0.7665 0.5880 0.0641 -0.6304 -0.2495 -0.5499 -0.2998
Dulce -0.7585 -0.0043 -0.7266 -0.5075 -0.5729 -0.5522 -0.6957 -0.3718 -0.2872
FP Salinas 2.3173 -0.9915 1.5305 -0.2748 -0.4563 0.2648 1.3031 -0.1938 -0.3016
Fp Vicaria 1.5842 0.1247 2.5796 -0.5287 -0.4547 0.2779 2.6341 -0.1938 -0.2385
Grande -0.4196 0.6653 -0.2611 0.4575 0.1209 -0.3436 -0.5118 -0.5499 -0.2764
Guadal. May 0.8087 0.0538 0.9453 -0.2112 1.1724 0.1171 -0.2088 0.8746 -0.2782
Hoyos1 -0.8823 2.1387 -0.9352 -0.5054 -0.5039 -0.6304 -0.9324 0.4295 0.0735
Lobón -1.0811 -0.5752 -0.8562 -0.7538 -0.7817 -0.6652 -0.8495 -0.6389 -0.2728
Marcela -0.1590 -0.2843 -0.0321 -0.3058 -0.5729 -0.2176 0.0294 -0.8170 -0.2637
Ratosa -0.1329 -0.5978 0.2638 -0.4755 -0.5821 -0.0611 0.1273 -0.5499 -0.2980
Redonda 0.2385 -1.1370 -0.5611 0.8348 0.3404 -0.0220 0.0429 1.8540 -0.2980
Salada -0.0287 -1.2687 -0.1120 0.4597 2.1733 0.8472 -0.2917 0.8746 -0.2746
Viso -1.1690 -0.4907 -0.9401 -0.7685 -0.7541 -0.7043 -0.9339 -0.9951 -0.0545
MATRIZ DE CORRELACIÓN

1.00000 -0.11515 0.90710 0.38809 0.38016 0.59903 0.88253 0.15955 -0.08143


-0.11515 1.00000 -0.12016 0.23113 0.02291 0.05536 -0.05039 0.06562 0.36149
0.90710 -0.12016 1.00000 0.19570 0.25525 0.50761 0.91750 0.00281 -0.12356
0.38809 0.23113 0.19570 1.00000 0.79643 0.86554 0.40249 0.03627 -0.10589
0.38016 0.02291 0.25525 0.79643 1.00000 0.79940 0.27442 0.21213 -0.14998
0.59903 0.05536 0.50761 0.86554 0.79940 1.00000 0.62460 0.01018 -0.07562
0.88253 -0.05039 0.91750 0.40249 0.27442 0.62460 1.00000 -0.04277 -0.12960
0.15955 0.06562 0.00281 0.03627 0.21213 0.01018 -0.04277 1.00000 0.63040
-0.08143 0.36149 -0.12356 -0.10589 -0.14998 -0.07562 -0.12960 0.63040 1.00000
AUTOVALORES Y AUTOVECTORES

Análisis de los valores y vectores propios de la matriz de correlación

Valor propio 3.9862 1.8403 1.5486 0.9624 0.3426 0.1804 0.0839 0.0407 0.0148
Proporción 0.443 0.204 0.172 0.107 0.038 0.020 0.009 0.005 0.002
Acumulada 0.443 0.647 0.819 0.926 0.964 0.985 0.994 0.998 1.000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
X1 0.435 -0.115 0.319 -0.006 0.178 -0.165 0.750 -0.088 -0.258
X2 -0.010 0.426 -0.051 0.792 0.408 0.070 -0.016 -0.120 -0.057
X3 0.398 -0.234 0.370 0.115 0.121 0.394 -0.127 0.078 0.666
X4 0.367 0.272 -0.406 0.040 -0.150 -0.548 0.103 0.329 0.427
X5 0.353 0.258 -0.361 -0.312 0.278 0.536 -0.014 0.372 -0.279
X6 0.448 0.149 -0.227 -0.016 -0.393 0.156 -0.113 -0.730 -0.043
X7 0.430 -0.186 0.268 0.202 -0.119 -0.266 -0.550 0.257 -0.463
X8 0.031 0.507 0.392 -0.464 0.404 -0.280 -0.264 -0.231 0.091
X9 -0.084 0.544 0.431 0.063 -0.596 0.227 0.160 0.271 -0.036

En los resultados se observa que los 3 primeros componentes principales tienen valores propios mayores que 1.
Estos 3 componentes explican 81.9% de la variación en los datos.
GRÁFICO DE SEDIMENTACIÓN (screen plot)

La gráfica muestra que los valores propios comienzan a formar una línea recta a partir del quinto componente
principal. Los primeros 5 componentes explican el 96.4% de la variación en los datos.

En este problema se utilizará el criterio de la media aritmética. De esta manera, se trabajará con los 3 primeros
componentes.
PUNTUACIONES DE CADA COMPONENTE
Humedal C1 C2 C3 C4 C5 C6 C7 C8 C9
Caja -2.1280 -0.8502 -0.6977 -0.1371 -0.5694 0.1576 0.0149 0.0392 -0.0208
Camuñas 5.3788 1.2593 -2.2529 0.8655 -0.7692 -0.0701 -0.0135 -0.1670 0.0295
Capacete -0.9878 3.8229 2.6281 0.1089 -0.8339 0.1334 0.0713 0.0775 0.0088
Cerero -0.2532 -0.7850 0.4092 -0.5203 -0.0603 -0.1990 -0.1311 -0.0151 0.0861
Chica -0.6181 0.5798 -1.0086 1.3638 0.6521 -0.3672 0.1720 0.4411 -0.1727
Dulce -1.5410 -0.3280 -0.4289 0.0985 0.0126 -0.0519 -0.0233 -0.1373 -0.0233
FP Salinas 2.0631 -1.7050 1.7182 -0.1612 -0.0495 -0.2629 0.7937 -0.1212 -0.1334
Fp Vicaria 2.6309 -1.6720 2.2995 1.1112 0.2384 0.1510 -0.6562 0.1583 -0.0367
Grande -0.4500 0.1632 -0.8883 0.6195 0.2686 0.0006 0.1746 0.3038 0.2696
Guadal. May 1.0765 0.3022 0.4085 -0.6954 1.1362 0.7531 0.2725 -0.0540 0.1826
Hoyos1 -1.8169 1.3008 -0.2579 1.3552 1.0258 -0.0198 -0.1393 -0.4640 -0.0973
Lobón -2.0172 -0.7403 -0.4893 -0.2155 -0.3684 0.0350 -0.0919 -0.1008 0.0100
Marcela -0.4811 -0.9220 -0.0935 0.3107 -0.3527 -0.0187 0.0483 0.0154 -0.0046
Ratosa -0.2910 -1.0545 0.1935 -0.0162 -0.3621 0.0755 -0.1298 -0.1454 0.1073
Redonda 0.4084 0.7017 0.0795 -1.9096 0.4115 -1.2155 -0.2101 -0.0096 0.0523
Salada 1.1951 0.6505 -1.0031 -2.1734 0.2187 0.6881 -0.1816 0.1352 -0.2159
Viso -2.1683 -0.7233 -0.6162 -0.0045 -0.5985 0.2106 0.0295 0.0440 -0.0417

La tabla anterior contiene las nuevas coordenadas de los 17 humedales en términos de los 3 primeros componentes
principales, los mismos que pueden ser utilizados en análisis posteriores.
RESUMEN

• Las componentes principales son combinaciones lineales de las variables originales.


• Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos
asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de
componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz
simétrica.
• La primera componente se asocia a la mayor raíz característica a que va asociada.
• Si se tipifican las variables originales, la proporción de variabilidad total captada por una componente es
igual a su raíz característica dividida por el número de variables originales.
• La correlación entre una componente y una variable original se determina con la raíz característica de la
componente y el correspondiente elemento del vector característico asociado, si las variables originales
están tipificadas.
METACOGNICIÓN

• ¿Que aspectos le han parecido interesantes?


• ¿Que contenido considera más importante del tema trabajado?
• ¿Qué competencias del tema podría aplicar en su vida diaria?
PARA REFORZAR LO APRENDIDO

RESUELVA LOS PROBLEMAS PROPUESTOS

También podría gustarte