Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRINCIPALES
LOGRO ESPERADO
Resuelve problemas utilizando la técnica de componentes principales a partir de las
referencias teóricas en problemas de contexto profesional/científico.
INDICADORES DE LOGRO
X1 X2 X1-tipificada X2-tipificada
785.104 33.795 1.2575 0.5565
785.218 68.778 1.2584 1.9275
710.963 11.531 0.6975 -0.3160
684.063 -2.756 0.4943 -0.8759
641.003 24.729 0.1691 0.2012
547.744 19.059 -0.5353 -0.0210
499.155 22.541 -0.9023 0.1155
458.465 23.495 -1.2097 0.1529
455.853 -24.824 -1.2294 -1.7408
Las variables tipificadas se obtienen al restarle la media a los datos, y luego dividir tal diferencia
entre la desviación estándar.
SCATTER PLOT DE LAS VARIABLES
ORIGINALES Y TIPIFICADAS
¿CÓMO SE OBTIENEN LOS COMPONENTES
PRINCIPALES?
Los componentes principales son combinaciones lineales de las
variables originales. Para obtener los componentes principales se
necesitan calcular los autovalores y autovectores de la matriz de
covarianzas. Los coeficientes de las combinaciones lineales son las
componentes de los autovectores asociados a la matriz de covarianzas
de las variables originales.
El primer componente se obtiene de manera que su varianza sea
máxima sujeta a la restricción de que la suma de los cuadrados de los
coeficientes sea igual a uno. El resto de componentes se calcula de
manera similar al primero, pero imponiendo la condición de que el
componente a calcular sea ortogonal a los componentes ya calculados.
SISTEMA DE ECUACIONES
Consideremos una muestra de tamaño n de las siguientes p variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 . El sistema de
ecuaciones que representa los componentes principales como combinaciones lineales de las
variables originales es el siguiente:
𝑍1 = 𝑋𝜇1
Si las p variables 𝑋1 , 𝑋2 , … , 𝑋𝑝 están tipificadas, la media del componente 𝑍1 es
cero. Lo mismo ocurre con el resto de componentes.
¿CÓMO SE OBTIENE EL PRIMER
COMPONENTE PRINCIPAL?
El primer componente se obtiene de manera que su varianza sea máxima sujeta a la
restricción de que la suma de los cuadrados de los coeficientes sea igual a uno.
La varianza del primer componente está dada por:
𝑛 2
𝑍
𝑖=1 1𝑖 1 𝑡 1 𝑡
𝑉 𝑍𝑖 = = 𝑍1 𝑍1 = 𝜇1 𝑋 𝑋 𝜇1 = 𝜇1𝑡 𝑅𝜇1
𝑡
𝑛 𝑛 𝑛
𝑅 − 𝜆𝐼 𝜇1 = 0
Una matriz es ortogonal cuando sus columnas son ortogonales y tienen longitud 1.
VARIANZAS DE LOS COMPONENTES
La varianza del componente h-ésimo es igual al autovalor al cual está asociado, es decir:
𝑉 𝑍ℎ = 𝜆ℎ
La suma de las varianzas de las variables originales tipificadas es igual a la suma de las
varianzas de las componentes principales ; es decir:
𝑝
𝜆ℎ
ℎ=1
PROPORCIÓN DE LA VARIANZA EXPLICADA
POR EL COMPONENTE H-ÉSIMO
La proporción de la varianza explicada por el componente h-ésimo es :
𝜆ℎ
𝑝
ℎ=1 𝜆ℎ
CORRELACIÓN ENTRE LAS VARIABLES ORIGINALES
TIPIFICADAS Y LAS COMPONENTES PRINCIPALES
𝑟𝑗ℎ = 𝜇ℎ𝑗 𝜆ℎ
PUNTUACIONES DE CADA COMPONENTE
𝜆ℎ > 1
GRÁFICO DE SEDIMENTACIÓN (screen plot)
Se representan los autovalores en el eje Y y los componentes en
el eje X. Según este criterio, se seleccionan aquellos
componentes hasta el momento en que la línea comienza a
nivelarse.
EJEMPLO DE APLICACIÓN 1
Valor propio 3,7540 1,9286 0,8359 0,7230 0,3405 0,3050 0,0991 0,0140
Proporción 0,469 0,241 0,104 0,090 0,043 0,038 0,012 0,002
Acumulada 0,469 0,710 0,815 0,905 0,948 0,986 0,998 1,000
La gráfica muestra que los valores propios comienzan a formar una línea recta a partir del tercer componente
principal. Si 81.5% es una cantidad aceptable de variación explicada en los datos, entonces con el gráfico de
sedimentación se podrían utilizar los 3 primeros componentes principales.
En este problema se utilizará el criterio de la media aritmética. De esta manera, se trabajará con los 2 primeros
componentes.
GRÁFICO DE INFLUENCIAS
El gráfico de influencias permite identificar las variables que tienen el mayor efecto en cada componente.
Las influencias varían entre -1 y 1. Las influencias que más se aproximan a -1 o 1 indican que el efecto
de la variable sobre el componente es considerable.
En el gráfico se observa que X3, X4, X5, X7 y X8 tienen influencias positivas grandes en el primer
componente; mientras que, X1 tiene influencias negativas en este componente. Además, se observa que
X2 tiene influencias positivas grandes en el segundo componente; mientras que, X6 tiene influencias
GRÁFICO DE PUNTUACIONES
Si los 2 primeros componentes explican la mayor parte de la varianza en los datos, se puede utilizar el
gráfico de puntuaciones para evaluar la estructura de los datos y detectar conglomerados.
CORRELACIÓN ENTRE LAS VARIABLES ORIGINALES Y LOS
COMPONENTES PRINCIPALES (CARGAS FACTORIALES)
C1 C2
𝑟11 = 𝜇11 𝜆1
x1 -0.7234781 0.06452752 𝑟11 = −0.373 3.754 = −0.722697
x2 -0.43094396 0.84908952
x3 0.80178522 0.27752843 𝑟12 = 𝜇21 𝜆2
𝑟12 = 0.046 1.9286 = 0.063882
x4 0.41659066 0.39780376
x5 0.79577503 -0.25499285
x6 0.34292317 -0.84062526
x7 0.9146838 0.23421364
x8 0.80058008 0.37636475
Las diferencias observadas entre lo obtenido con el programa y la fórmula se debe al
redondeo.
PUNTUACIONES DE CADA COMPONENTE
País C1 C2 C3 C4 C5 C6 C7 C8
Albania 2.876463145 1.113833559 0.292479991 -0.494813455 0.795661377 0.323909628 -0.350618968 0.220027632
Angola -1.26998506 0.70500037 0.772533688 0.90197528 -0.359618138 -0.76717795 0.242408613 -0.05376428
Benín -1.75496972 0.524784956 0.892159274 -0.420470111 0.128583782 -0.46717868 0.202616681 0.01225343
Congo 1.65011968 1.560404557 1.890232701 1.375624079 0.321355413 -0.06946936 0.019909709 0.047551965
Etiopía -2.37245623 -0.21274861 0.018097385 0.509749275 -0.386476028 0.336477311 -0.482565792 0.066431369
Ghana -0.65801307 1.643853411 -1.35874451 -0.707522982 0.399148834 -0.35349254 -0.055459625 0.038959073
Haití -1.31624778 -0.03904152 0.670053712 -0.979443974 -0.14649681 0.299216196 -0.385764008 -0.018754972
Honduras 2.987788661 -1.72393539 0.329381631 -1.095435742 -0.955578224 -0.75495396 -0.310564522 -0.152195882
Kenia -0.35179206 0.449306514 -0.5802724 -1.094305481 0.043820992 0.378097909 -0.00515721 0.020838191
Mozanbique -2.60213067 0.279596276 0.247935893 0.275777502 -0.472126844 0.460208169 0.398918672 -0.007726639
Nepal -1.61911197 -0.68844002 0.120241851 0.01393655 0.119852313 0.198774835 -0.255772683 -0.017428856
Nicaragua 2.298048022 -1.52777473 0.141770408 -0.678602749 -0.606853238 0.520424388 0.749798993 0.190389341
Senegal 0.479092098 -0.23632099 0.720926285 -0.693003215 0.79774428 -0.78335117 0.147290763 -0.091900165
Sudán -0.26240578 -3.39061355 -0.77736466 0.804990133 1.380309583 0.037586225 0.144208706 -0.06683425
Tanzania -2.0255982 0.575010061 -0.23719629 -0.590018376 0.023173143 0.669362401 0.148761771 -0.128412742
Yemen 0.625480196 -1.79873157 -0.14103777 1.386791585 -0.584268747 0.258215558 -0.344409028 0.066462669
Zambia -0.11975207 0.841817753 -2.05666899 0.679855376 -0.404346467 -1.01951055 0.058400345 0.131091207
Zimbawe 3.435470806 1.923998933 -0.94452819 0.804916306 -0.09388522 0.732861579 0.077997581 -0.25698709
Media 0 0 0 1.11022E-15 -1.30451E-15 0 1.94289E-16 1.11022E-15
Una vez obtenidos los componentes, se procede a nombrarlos, de acuerdo a las variables que lo conforman. En
adelante, el análisis del problema se realiza a partir de los componentes obtenidos.
EJEMPLO DE APLICACIÓN 2
Los datos que se muestran en la data Humedal corresponden a la medición de 17 humedales en determinada época del año. Las
variables medidas son:
X1 = Conductividad eléctrica
X2 = Contenido en bicarbonatos
X3 = Contenido en cloruros
X4 = Contenido en sulfatos
X5 = Contenido en calcio
X6 = Contenido en magnesio
X7 = Contenido en sodio
X8 = Contenido en potasio
X9: Contenido en fosfatos
DATA
Humedal X1 X2 X3 X4 X5 X6 X7 X8 X9
Caja 0.315 1.6694 5 86 55 4 4 2 1.8082
Camuñas 8 3.7282 2388 7638 2123 972 1757 5 0.3228
Capacete 3.41 4.0642 732 881 218 122 379 41 74.588
Cerero 3.94 1.4585 1359 772 251 96 710 14 0.0968
Chica 2.8 4.4862 220 2510 572 20 458 7 0.0968
Dulce 1.56 2.4745 269 495 157 38 162 9 0.3228
FP Salinas 11 1.2206 3038 923 233 226 1488 11 0.0645
Fp Vicaria 8.75 2.6384 4325 456 234 229 2371 11 1.1947
Grande 2.6 3.3251 840 2270 609 86 284 7 0.5166
Guadal. May 6.37 2.5483 2320 1040 1294 192 485 23 0.4843
Hoyos1 1.18 5.1966 13 499 202 20 5 18 6.7807
Lobón 0.57 1.7494 110 42 21 12 60 6 0.5812
Marcela 3.4 2.1189 1121 866 157 115 643 4 0.7426
Ratosa 3.48 1.7207 1484 554 151 151 708 7 0.1291
Redonda 4.62 1.0357 472 2964 752 160 652 34 0.1291
Salada 3.8 0.8685 1023 2274 1946 360 430 23 0.5489
Viso 0.3 1.8567 7 15 39 3 4 2 4.4882
VARIABLES TIPIFICADAS
Humedal X1 X2 X3 X4 X5 X6 X7 X8 X9
Caja -1.1642 -0.6382 -0.9418 -0.7299 -0.7295 -0.6999 -0.9339 -0.9951 -0.2042
Camuñas 1.3398 0.9827 1.0007 3.3759 2.4450 3.5069 1.7086 -0.7280 -0.2872
Capacete -0.1557 1.2472 -0.3492 -0.2977 -0.4793 -0.1871 -0.3686 2.4772 3.8609
Cerero 0.0170 -0.8042 0.1619 -0.3569 -0.4286 -0.3001 0.1303 0.0733 -0.2998
Chica -0.3545 1.5794 -0.7665 0.5880 0.0641 -0.6304 -0.2495 -0.5499 -0.2998
Dulce -0.7585 -0.0043 -0.7266 -0.5075 -0.5729 -0.5522 -0.6957 -0.3718 -0.2872
FP Salinas 2.3173 -0.9915 1.5305 -0.2748 -0.4563 0.2648 1.3031 -0.1938 -0.3016
Fp Vicaria 1.5842 0.1247 2.5796 -0.5287 -0.4547 0.2779 2.6341 -0.1938 -0.2385
Grande -0.4196 0.6653 -0.2611 0.4575 0.1209 -0.3436 -0.5118 -0.5499 -0.2764
Guadal. May 0.8087 0.0538 0.9453 -0.2112 1.1724 0.1171 -0.2088 0.8746 -0.2782
Hoyos1 -0.8823 2.1387 -0.9352 -0.5054 -0.5039 -0.6304 -0.9324 0.4295 0.0735
Lobón -1.0811 -0.5752 -0.8562 -0.7538 -0.7817 -0.6652 -0.8495 -0.6389 -0.2728
Marcela -0.1590 -0.2843 -0.0321 -0.3058 -0.5729 -0.2176 0.0294 -0.8170 -0.2637
Ratosa -0.1329 -0.5978 0.2638 -0.4755 -0.5821 -0.0611 0.1273 -0.5499 -0.2980
Redonda 0.2385 -1.1370 -0.5611 0.8348 0.3404 -0.0220 0.0429 1.8540 -0.2980
Salada -0.0287 -1.2687 -0.1120 0.4597 2.1733 0.8472 -0.2917 0.8746 -0.2746
Viso -1.1690 -0.4907 -0.9401 -0.7685 -0.7541 -0.7043 -0.9339 -0.9951 -0.0545
MATRIZ DE CORRELACIÓN
Valor propio 3.9862 1.8403 1.5486 0.9624 0.3426 0.1804 0.0839 0.0407 0.0148
Proporción 0.443 0.204 0.172 0.107 0.038 0.020 0.009 0.005 0.002
Acumulada 0.443 0.647 0.819 0.926 0.964 0.985 0.994 0.998 1.000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
X1 0.435 -0.115 0.319 -0.006 0.178 -0.165 0.750 -0.088 -0.258
X2 -0.010 0.426 -0.051 0.792 0.408 0.070 -0.016 -0.120 -0.057
X3 0.398 -0.234 0.370 0.115 0.121 0.394 -0.127 0.078 0.666
X4 0.367 0.272 -0.406 0.040 -0.150 -0.548 0.103 0.329 0.427
X5 0.353 0.258 -0.361 -0.312 0.278 0.536 -0.014 0.372 -0.279
X6 0.448 0.149 -0.227 -0.016 -0.393 0.156 -0.113 -0.730 -0.043
X7 0.430 -0.186 0.268 0.202 -0.119 -0.266 -0.550 0.257 -0.463
X8 0.031 0.507 0.392 -0.464 0.404 -0.280 -0.264 -0.231 0.091
X9 -0.084 0.544 0.431 0.063 -0.596 0.227 0.160 0.271 -0.036
En los resultados se observa que los 3 primeros componentes principales tienen valores propios mayores que 1.
Estos 3 componentes explican 81.9% de la variación en los datos.
GRÁFICO DE SEDIMENTACIÓN (screen plot)
La gráfica muestra que los valores propios comienzan a formar una línea recta a partir del quinto componente
principal. Los primeros 5 componentes explican el 96.4% de la variación en los datos.
En este problema se utilizará el criterio de la media aritmética. De esta manera, se trabajará con los 3 primeros
componentes.
PUNTUACIONES DE CADA COMPONENTE
Humedal C1 C2 C3 C4 C5 C6 C7 C8 C9
Caja -2.1280 -0.8502 -0.6977 -0.1371 -0.5694 0.1576 0.0149 0.0392 -0.0208
Camuñas 5.3788 1.2593 -2.2529 0.8655 -0.7692 -0.0701 -0.0135 -0.1670 0.0295
Capacete -0.9878 3.8229 2.6281 0.1089 -0.8339 0.1334 0.0713 0.0775 0.0088
Cerero -0.2532 -0.7850 0.4092 -0.5203 -0.0603 -0.1990 -0.1311 -0.0151 0.0861
Chica -0.6181 0.5798 -1.0086 1.3638 0.6521 -0.3672 0.1720 0.4411 -0.1727
Dulce -1.5410 -0.3280 -0.4289 0.0985 0.0126 -0.0519 -0.0233 -0.1373 -0.0233
FP Salinas 2.0631 -1.7050 1.7182 -0.1612 -0.0495 -0.2629 0.7937 -0.1212 -0.1334
Fp Vicaria 2.6309 -1.6720 2.2995 1.1112 0.2384 0.1510 -0.6562 0.1583 -0.0367
Grande -0.4500 0.1632 -0.8883 0.6195 0.2686 0.0006 0.1746 0.3038 0.2696
Guadal. May 1.0765 0.3022 0.4085 -0.6954 1.1362 0.7531 0.2725 -0.0540 0.1826
Hoyos1 -1.8169 1.3008 -0.2579 1.3552 1.0258 -0.0198 -0.1393 -0.4640 -0.0973
Lobón -2.0172 -0.7403 -0.4893 -0.2155 -0.3684 0.0350 -0.0919 -0.1008 0.0100
Marcela -0.4811 -0.9220 -0.0935 0.3107 -0.3527 -0.0187 0.0483 0.0154 -0.0046
Ratosa -0.2910 -1.0545 0.1935 -0.0162 -0.3621 0.0755 -0.1298 -0.1454 0.1073
Redonda 0.4084 0.7017 0.0795 -1.9096 0.4115 -1.2155 -0.2101 -0.0096 0.0523
Salada 1.1951 0.6505 -1.0031 -2.1734 0.2187 0.6881 -0.1816 0.1352 -0.2159
Viso -2.1683 -0.7233 -0.6162 -0.0045 -0.5985 0.2106 0.0295 0.0440 -0.0417
La tabla anterior contiene las nuevas coordenadas de los 17 humedales en términos de los 3 primeros componentes
principales, los mismos que pueden ser utilizados en análisis posteriores.
RESUMEN