Está en la página 1de 21

Anlisis Multivariante I

Componentes Principales

Ing. Luis Alberto Snchez Alvarado


Universidad Nacional de Ingeniera
2014-II

Anlisis de Componentes Principales

6.1 Anlisis de Componentes Principales:


Johnson define al anlisis de componentes principales como el estudio de la estructura de la
matriz de varianza y covarianza de un conjunto de variables a travs de combinaciones lineales de
stas. Si bien es cierto la variabilidad total de los datos se lograr al tomar todas las variables, en
muchas ocasiones la mayor parte de esta variabilidad puede representarse con un pequeo
conjunto de variables, este pequeo grupo de denomina Componentes Principales.
Se puede plantear los siguientes objetivos para este tipo de anlisis:
a) Interpretacin: Forma variables que no estn correlacionadas lo cual facilita su
interpretacin.
b) Reduccin de data: Al tomar los componentes principales se pasa de un espacio de p
variables a un espacio de k nuevas variables, donde k<p.
c) Eliminar variables que no aportan muy poca informacin.
Ejercicio 1:
A continuacin se presenta un trabajo de investigacin, trate de deducir cmo se us la tcnica de
componentes principales.

Desarrollo de Productos:
(Villaroel, Alvarez, Maldonado)
Se ha llevado a cavado un estudio de prueba de
producto de tal forma que se pretenda
establecer el posicionamiento de una
formulacin de mermelada de mora Don
Serafn, de acuerdo a sus caractersticas
sensoriales definidas como sabor, aroma, color,
textura, frente a 4 prototipos.
Solucin:
En este tipo de estudio se har uso de las tcnicas ce componentes principales pero con el fin de
lograr una mejor interpretacin de los datos y reduccin de los datos, tras hacer el anlisis de
componentes principales se logra ver que variables estn correlacionadas y formar como una
especie de variables latentes, as se tendr o se seleccionar 2 componentes: el primero formado
por las variables color y textura y el segundo componente formado por el sabor y el aroma tal
como se puede apreciar en el siguiente grfico, as tras hallar graficar el mapa de individuos nos
daremos cuenta a que caractersticas est ms cercana cada una de las mermeladas evaluadas;
como se puede ver al tener estas dos nuevas variables

Anlisis Multivariante I

Luego al posicionarla las observaciones se tendr:

Como se ve la mermelada Don Serafin se caracteriza por su buen sabor y aroma, la mermelada 3
es la que ms se acerca a ella no obstante est an muy alejada. La mermelada 4 tiene buena
textura y color pero tiene un aroma y sabor malo, la mermelada 5 y 1 son similares pero son muy
malas en todos los aspectos; todo lo mencionado nos indica que Don Serafin tiene un buen perfil
sensorial y no presenta ningn riesgo competitivo.

Anlisis de Componentes Principales


6.2 Definicin operativa:
Dado las variables las p variables aleatorias 1 , 2 , , ; con matriz de varianza y covarianza , se
tendr que los componentes principales sern combinaciones lineales de estas variables originales
que formarn un nuevo sistema de coordenadas cuyos ejes representan la direccin con mxima
variabilidad.
Estas combinaciones lineales son:

Donde se cumple:

Ejercicio 2:
Demostrar la expresin:

6.3 Interpretacin geomtrica:


La interpretacin geomtrica puede partir de la idea de las observaciones como una nube de puntos que
forman elipsoides, y que pueden seguir su orientacin siguiendo la direccin de los ejes; as los ejes
principales de estas figuras corresponden a los componentes principales con centro de gravedad de la nube,
recogiendo la mayor inercia o dispersin de las proyecciones de la nube original de los datos. El primer
componentes hace mxima la dispersin de la nube de puntos proyectadas sobre l, el segundo hace
mxima la inercia proyectada sobre l y no sobre el primero , puesto que son perpendiculares.

Anlisis Multivariante I

6.4 Algunas consideraciones Algebraicas:


En el desarrollo del tema se usarn propiedades algebraicas de valores y vectores caractersticos
como:
a) La ecuacin de valor caracterstico:

| | = 0

Esto para una matriz A n x n, la cual tiene n valores propios o caractersticos: 1 , 2 , , .


Tambin se cumple: ( ) = 0 o lo que es lo mismo = ; donde x es un vector
caractersticos, si es normalizado se cumplir: xx=1.
b) Toda matriz simtrica tiene valores caractersticos reales y vectores caractersticos ortogonales.
c) Si q(x) es la forma cuadrtica definida como xAx donde x= (x1, x2, , xp) y A es una
matriz simtrica de constantes. Entonces,

q
= 2x
x

Ejercicio 3:
Determinar los valores y vectores caractersticos normalizados de A:
1 2
=(
)
1 4
Ejercicio 4:
Dada la matriz A, hallar los valores y vectores caractersticos normalizados y verificar si estos
ltimos son ortogonales (propiedad b)
5 3
=(
)
3 5
6.5 Proceso iterativo de Maximizacin:
De acuerdo a la definicin de componentes principales hecha en los puntos anteriores, se debe
lograr que cada componente abarca la mayor cantidad de variabilidad posibles, siendo el primero
de stos el que guarda la mayor varianza, para ello se debe maximizar los valores de a (en la
grfica es L) ya que esto puede ampliar el valor de la varianza, luego para poner cierta restriccin
haremos que a1a1=1 es decir sobre su mdulo; este mismo procedimiento se hace para el
segundo componente pero ahora la restriccin se hace sobre a1a1=1 y luego sobre a2a2=1 y as
sucesivamente; dado que es un proceso de maximizacin con restricciones los multiplicadores de
Lagrange pueden usados en este punto . As el algoritmo a seguir es el siguiente:

Anlisis de Componentes Principales

Ejercicio 5:
Determinar a que es igual el primer componente usando el proceso iterativo.
6.6 Propiedades de componentes principales:
a) Los componentes son no correlacionados, dado que como se vio en la interpretacin
geomtrica forman nuevos ejes los cuales son perpendiculares
b) La correlacin entre una variable X un componente principal Y, es proporcional al coeficiente de
esa variable en la definicin del componente y el cociente entre la desviacin del componente y la
variable:
, =

c) Conservan la variabilidad inicial:

1 + 2 + = ( ) = 1 + 2 + = ( )
=1

=1

d) La proporcin de varianza explicada por un componente es igual al cociente de su varianza


(valor propio asociado a su vector caracterstico), sobre la suma de todos los valores propios. Esta
claro que si se toma todos los componentes obtendremos el 100% de la varianza.
Ejercicio 6:
Demostrar que Cov(Yi,Yk)=0

Anlisis Multivariante I

Ejercicio 7:
Demostrar:
, =
Ejercicio 8:
Demostrar:

1 + 2 + = ( ) = 1 + 2 + = ( )
=1

=1

6.7 Seleccin del nmero de componentes


Existen varios criterios para la seleccin del nmero de componentes con los que se va a trabajar,
lo que se recomienda por lo general comparar los resultados de diferentes criterios y usar uno de
ello, esta decisin deber ir acompaado del conocimiento del investigador sobre el tema o
problema estudiado. Entre los criterios ms usados se tiene:
a) Mtodo de Inercia Total:
Se seleccionan las p variables que explican el 100r% de la varianza explicada de la variabilidad
total; en la prctica se busca tener por lo menos un 50%, aunque lo ms aconsejables es alrededor
de 80%.
b) Mtodo de Arcos:
O tambin conocido con el nombre de grfico de sedimentacin y sirve para determinar el
nmero ptimo de componentes, y consiste simplemente en una representacin grfica del
tamao de los autovalores en forma descendente, formando un tipo de planicie, as el nmero
ptimo de componentes lo determinar un punto de inflexin marcado, o donde se forma el
primer arco.
c) Mtodo de Inercia Promedio:
Este criterio indica que se deben retener los componentes cuyos autovalores sean mayores que el
valor promedio, por lo general suele tomarse los que estn por encima de la unidad; esto porque
si las variables fueran estandarizadas la suma de varianzas de todas las variables seran igual a p,
tambin se tendra que la suma de valores propios va a ser igual a p; por lo tanto el promedio sera
igual a 1.
Ejercicio 9:
En el artculo Uso del mtodo de anlisis de componentes principales para la caracterizacin de
fincas agropecuarias (Demey, Adams, Fretites se puede encontrar la publicacin en
http://sian.inia.gob.ve/repositorio/revistas_ci/Agronomia%20Tropical/at4403/Arti/demey_j.htm);
se seleccionan las siguientes 24 variables: sector donde est ubicada la finca (X1); superficie total
de la finca (ha) (X3); superficie cultivada de arroz (ha) (X4); variedad utilizada en la siembra (X8);
rendimiento en kg/ha (X9); preparacin del terreno (X10); fecha de siembra (X11), cmo se realiza
la siembra (X12); fuente de nitrgeno (X13); dosis aplicada de nitrgeno (X14); fuente de fsforo
(X15); dosis aplicada de fsforo (X16); fuente de potasio (X17); dosis aplicada de potasio (X18);
forma de aplicacin de N-P-K (X19); limitaciones por plagas (X22); limitaciones por enfermedades
(X24); limitaciones por malezas (X26); tipo de aplicacin de agroqumicos (X27), tipo de riego
utilizado (X28); limitaciones: equipos y maquinarias (X29); limitaciones por cosechadora (X30);
7

Anlisis de Componentes Principales


asistencia tcnica (X34); tipo de mano de obra utilizada (X39); del total de 41, consideradas como
representativas de los diversos aspectos que caracterizan la produccin de arroz.
Los resultados componentes que se tienen y sus respectivos autovalores son:

Componentes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

Proporcin de la Varianza Total


Explicada
Valor Propio Absoluta
Acumulada
5.98141
0.249226
0.24923
2.01365
0.083902
0.33313
1.51101
0.062959
0.39609
1.28012
0.053338
0.44942
1.17971
0.049154
0.49858
1.12616
0.046923
0.5455
1.06617
0.044424
0.58993
0.97593
0.040664
0.63059
0.91322
0.038051
0.66864
0.85341
0.035559
0.7042
0.83847
0.034936
0.73914
0.77152
0.032147
0.77128
0.76135
0.031723
0.80301
0.71068
0.029612
0.83262
0.67879
0.028283
0.8609
0.63156
0.026315
0.88721
0.50505
0.021044
0.90826
0.4802
0.020008
0.92827
0.42292
0.017622
0.94589
0.38066
0.015861
0.96175
0.35453
0.014772
0.97652
0.2808
0.0117
0.98822
0.18024
0.00751
0.99573
0.10245
0.004269
1

Con esta informacin establezca cual sera el nmero ptimo de componentes a seleccionar, para
ello se debe hacer uso de todos los criterios conocidos.
Solucin:
a) Criterio de Inercia Total:
Este es una aplicacin real, por ello con un 50% est bien y es aceptable esto lo lograremos
teniendo a 6 componentes como mnimo, en este punto es importante el costo beneficio de tomar
un componte mas, as si deseamos tomar un componentes ms y nos puede ayudar a la
interpretacin de los mismo lo podramos hacer; pero por el contrario si desearemos llegar al 80%
deberamos pasar de 6 a 13 complicando mucho la interpretacin. Por ella nos quedamos con 6 o
7 componentes.
8

Anlisis Multivariante I

b) Mtodo de arcos:
Para llegar al grfico colocamos los valores propios en orden descendente y los graficamos y luego
comenzamos a trazar arcos basndonos en los puntos de inflexin, tal como se observa con este
criterio se tendra que seleccionar 7 componentes.

c) Mtodo de Inercia Promedio:


El promedio de todos los valores propios es igual a 1, siguiendo el criterio debemos quedarnos con
todos aquellos que estn por encima de este valor, al igual que el resto de criterios tendremos que
seleccionar 7 componentes.
Con los tres anlisis se concluy que se debe trabajar con 7 componentes, el paso final para validar
esto ser que tan bien pueden ser interpretados y si tienen algn sentido para el investigador.
6.8 Uso de la matriz de Correlaciones para el clculo de componentes principales:
De acuerdo al proceso de generacin de componentes principales se ha concluido que se tratar
de explicar la mayor cantidad de variabilidad, teniendo que el primer componente explica la
mayor cantidad de varianza, luego el segundo y as sucesivamente; al trabajar con la matriz de
varianza y covarianza esto puede tener ciertos problemas si se trabajan con variables con
diferentes escalas, ya que podra llevar a dar un peso grande a una variable slo por esta
diferencias de escala.
En estos casos se recomienda estandarizar las variables o en todo caso usar la matriz de
correlaciones. Si las variables todas tienen las mismas escalas ambas alternativas (matriz de
varianzas o la de correlaciones) se pueden usar. Finalmente Pea recomienda no estandarizar las
variables si las diferencias de las variables son informativas, como por ejemplo plantea dos ndices
con la misma base pero uno flucta mas que el otro es casi constante, en este caso si el
investigador deseara conservar esta parte informtica de tal forma que el primer ndice tenga
mayor peso deber no estandarizarse.

Anlisis de Componentes Principales


Ejercicio 10:
Se tienen 4 variables las varianzas de cada una de ellas son:
Variable
X1
X2
X3
X4

Varianza
30
3000
40
100

Con esta informacin, cul de las siguientes expresiones puede representar el primer componente
principal:
a) y1=0.25x1+0.25x2+0.25x3+0.25x4
b) y1=0.2x1+0.8x2+0.2x3+0.25x4
c) y1=0.9x1+0.1x2+0.9x3+0.2x4
Solucin:
Dado que la segunda variable tiene la mayor varianza y est muy por encima del resto, x2 tendr
el mayor peso tanto as que puede llegar a influir completamente sobre el primero componente. SI
Se deseara evitar este problema se debera estandarizar las variables.
6.9 Supuestos para efectuar el anlisis de componentes principales:
Si bien es cierto no existe supuestos para el anlisis de componentes principales, existen criterios
que nos ayudan a justificar la eleccin de esta tcnica, estos van por el lado de uno de los
objetivos del anlisis de componentes principales es decir formar nuevas variables las cuales
deben ser no correlacionadas, por lo tanto si al inicio se ve que todas las variables son
independientes entre si el anlisis no tendra razn de ser, ya que al procesar los componentes se
tendr que estos sern los mismos que las variables iniciales.
a) Determinante de la matriz de correlaciones
b) Correlacin Parcial
c) Prueba de esfericidad de Bartlett
d) Medida de adecuacin muestral KMO
Ejercicio 11: Determinante de la matriz de Correlaciones
Uno de los primeros criterios a tomar en cuenta es el determinante de la matriz de
correlaciones, tras observar los siguientes escenarios A qu valor deber tender el
determinante para poder llevar a cabo el anlisis de componentes principales?

10

Anlisis Multivariante I

Solucin:
En el primer caso se tiene un determinante es igual a 1, y tal como se puede apreciar en la matriz
las variables son independientes, en este caso el anlisis no tendra sentido, en este caso las
columnas son independientes. Luego en resto de casos el determinante va tendiendo a cero
conforme las correlaciones entre las variables va aumentando. De todo ello concluimos que el
anlisis ser adecuado cuando el determinante de la matriz de correlaciones tienda a cero.
Ejercicio 12: Correlacin Parcial
Se sabe que la correlacin parcial expresa el grado de relacin entre dos variables pero tras
eliminar el efecto del resto de variables que participan en la investigacin. Para el anlisis de
componentes principales este valor debe ser pequeo?
Solucin:
Nuevamente se recuerda el concepto del anlisis de componentes, las variables deben estar lo
ms correlacionadas posibles es decir deben tener informacin en comn, por lo tanto podemos
tomar el caso extremo el cual consiste que todas las variables comparten la misma cantidad de
informacin (lo ideal para el anlisis) con esto quiere decir que si tomamos dos variables y le
calculamos la correlacin parcial se tendr que ser igual a cero ya que est totalmente
influenciado por el resto de variables. Por lo tanto siguiendo este criterio se tendr que la
correlacin parcial debe ser lo ms pequeo posible.
Ejercicio 13: Prueba de esfericidad de Bartlett
Una prueba de esfericidad se usa para contrastar los supuestos de homogeneidad y no
correlacin, si cumple ambos se dice que se cumple la esfericidad. La hiptesis nula para la prueba
de esfericidad de Bartlett es la siguiente: = 2 , usando el nivel de significancia se rechazara si
Sig<Nivel de significancia. Si se rechaza se tendr que el anlisis es justificable. El estadstico de
prueba es el siguiente, probar la siguiente exprexin:

11

Anlisis de Componentes Principales


Ejercicio 14: Medida de adecuacin muestral KMO
Es un ndice que compara la magnitud de los coeficientes de correlacin observadas con la
magnitud de los coeficientes de correlacin parcial:

Donde rij es la correlacin simple entre i y j, rij.m son las correlaciones parciales de ij.
Qu valor deber tener para que el anlisis sea justificable?
Solucin:
Del ejercicio anterior se ha dicho que los coeficientes de correlacin parcial deben ser lo ms
pequeos posibles por lo tanto en la expresin podemos hacerlo tender a cero para que el anlisis
sea factible, en este caso el KMO deber tender a 1.
6.10 Diferencias entre el anlisis de Componentes principales y el anlisis factorial:
El anlisis Factorial busca factores que buscan explicar la mayor variabilidad comn, mientras que
el anlisis de componentes principales busca explicar la mayor variabilidad total. En el Anlisis
Factorial se distingue entre varianza comn y varianza nica. La varianza comn es la parte de la
variacin de la variable que es compartida con las otras variables. La varianza nica es la parte de
la variacin de la variable que es propia de esa variable. El Anlisis de Componentes Principales no
hace esa distincin entre los dos tipos de varianza, se centra en la varianza total. Mientras que el
Anlisis de Componentes Principales busca hallar combinaciones lineales de las variables originales
que expliquen la mayor parte de la variacin total, el Anlisis Factorial pretende hallar un nuevo
conjunto de variables, menor en nmero que las variables originales, que exprese lo que es comn
a esas variables.

6.9 Representacin de variables e individuos:


Se puede representar las variables e individuos esto permitir el comportamiento de cada uno de
los componentes, ver porque variables tan influenciadas y finalmente ver como las observaciones
se relacionan con los componentes.

12

Anlisis Multivariante I

Ejercicio 15:
Usando la base de datos Ejercicio15, llevar a cabo un anlisis completo de componentes
principales, incluyendo la representacin de las variables e individuos. La base tiene informacin
de 30 personas sobre evaluacin a 6 caractersticas de pastas dentales, los niveles socio
econmicos incluidos en el anlisis son del ABCD.
Solucin:
Todo el anlisis se trabajar con el SPSS, lo primero ser seleccionar todas las variables a introducir
en el anlisis, para ello se sigue la ruta: Anlisis>>Reduccin de dimensin>>Factor:

Luego ir a la parte de descriptivos y seleccionar los criterios aprendidos con el fin de justificar el
uso de este anlisis:

En primer lugar se tiene la matriz de correlaciones, en ella se puede ver correlaciones altas (por
encima de 0.5) lo que es el primer indicio para poder hacer un anlisis de componentes
principales, tambin se puede ver en la parte inferior del grfico el valor del determinante que
tiende a cero:

13

Anlisis de Componentes Principales

El segundo punto a analizar es el KMO, donde se plantea: La hiptesis nula para la prueba de
esfericidad de Bartlett es la siguiente: = 2 , si se observa el Sig. Se tiene que es igual a 0.0 lo
que indica que la hiptesis nula se rechaza (existe correlaciones entre las variables).

La matriz de la covarianza anti imagen contiene los negativos de las covarianza parciales y la de
correlaciones anti imagen contiene las correlaciones parciales pero con signo cambiado; en la
diagonal la matriz de correlaciones anti imagen se encuentran las medidas de adecuacin muestral
para cada variable, por ello para que el anlisis sea factible los elementos de la diagonal deben ser
cercanos a uno y el resto de elementos deben tender a cero, en este caso cumple.

14

Anlisis Multivariante I

El paso a seguir es ver el nmero de componentes a seleccionar, para ello se solicita el grfico de
arcos:

15

Anlisis de Componentes Principales

Al observar el grfico se tiene que el primer arco se tiene con los dos primeros componentes.

Luego por el mtodo de inercia promedio se tiene que tomar los componentes con valores propios
mayores a uno, siguiendo este criterio nos debemos quedar con los dos primeros, luego por la
inercia total se tiene que con los dos primeros se logra explicar un 82% valor que es muy
aceptable. Por lo tanto de los resultados de todos los criterios se puede tomar los dos primeros.

16

Anlisis Multivariante I

Lo que toca en este punto es comenzar a revisar los resultados, lo primero que se analizar es
cuadro de comunalidades, la comunalidad es la proporcin de la varianza de una variable que
puede ser explicada por el modelo obtenido; en el caso de componentes principales las
comunalidades. Este cuadro nos puede dar una idea para ver que variables pueden ser mejor
explicadas y cules no de tal manera de poder ver si se debera retirar algunas variables sin
importancia. Por ejemplo en el cuadro se aprecia que la variable que se logra explicar mejor es
Importante comprar una pasta de dientes . Con un 0.926.

El segundo punto es revisar la matriz de componentes, en ella se encontrar las correlacione de


las variables con los componentes seleccionados; en este caso se aprecia que el primer
componente est muy correlacionado con las variables v1, v3, v5, todas ellas relacionados con la
Salud, por lo tanto podramos asignar el nombre de Preocupacin por la salud dental; en
cambio para el segundo componentes las variables que ms correlacionan con l son la v2, v4, v6
todas ellas relacionadas con la esttica, as se le puede asignar el nombre de Preocupacin por la
esttica dental.

17

Anlisis de Componentes Principales

Hasta el momento ya se ha logrado colocar nombres a los dos componentes seleccionados, el


siguiente paso es poder una grfica de las variables, esto se construye con los valores de la matriz
de componentes, en SPSS tiene el nombre de grfico de saturaciones:

18

Anlisis Multivariante I

SPSS tambin da la opcin de obtener las puntuaciones de los componentes para cada uno de los
registros, para ello se debe solicitar los coeficientes:

Por lo tanto las ecuaciones para el primer componente ser:


1 = 0.3401 0.112 + 0.3433 0.1254 + 0.3185 0.0656
El SPSS da la opcin de calcular estas puntuaciones para cada individuo pero para ello estandariza
cada una de las variables previamente y luego aplica la ecuacin mostrada anteriormente. Luego
se puede realizar un grfico de individuos para ver su relacin con cada uno de los componentes,
esto en base a las puntuaciones factoriales y usando un grfico de dispersin:

19

Anlisis de Componentes Principales

A partir del grfico se puede llegar a conclusiones como por ejemplo, las personas del NSE AB
prefieren las pastas dentales que cuidan ms la esttica (pastas que por lo general tienen un
mayor precio y no est al alcance de las personas con menos recursos), las personas del NSE C se
preocupan por la salud, y las del NSE D no les importa ni la salud ni la esttica lo nico que les
interesa es tener una pasta dental.
6.11 Uso del anlisis de componentes principales para la ubicacin de outliers:
La tcnica de componentes principales puede ser usada para la identificacin de outliers, puede
considerarse a esta forma de ubicar outliers como multivariada debido a que cada componente
traer informacin de las variables del estudio. El procedimiento es bastante simple, slo se
deber hacer el clculo de los componentes y luego hacer grficos de dispersin con el fin de
ubicar puntos que se alejen de la nube puntos para luego as ser catalogados como atpicos
multivariados.
6.12 Uso del anlisis de componentes principales para analizar la normalidad de los datos
Para demostrar esto nos vamos a valer de: xNp(,) si y slo si cualquier combinacin lineal aX
Np(a,aa).Por ello tendremos que demostrar que los componentes se distribuyen o no con
una distribucin normal usando cualquiera de los mtodos univariados.
6.13 Componentes principales como predictores de la matriz de datos:
Se puede reconstruir la matriz de datos X (nxp) de manera aproximada a partir de los q (q<p)
primeros valores y vectores caractersticos si la tasa de inercia (q) tiende a 1.

20

Anlisis Multivariante I

Verificacin.-

Se sabe que:
u=kXv

(i)

premultiplicando (i) por u , sabiendo adems que, es el valor caracterstico asociado a V se


obtiene:

k 1

(ii)

Reemplazando (ii) en (i):

v u ' X u u '

v u ' X

Como q 1, entonces, (p-q) 0. Por lo tanto,


q

X v u '

21

(iii)
(iv)

También podría gustarte