Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Componentes Principales
Desarrollo de Productos:
(Villaroel, Alvarez, Maldonado)
Se ha llevado a cavado un estudio de prueba de
producto de tal forma que se pretenda
establecer el posicionamiento de una
formulacin de mermelada de mora Don
Serafn, de acuerdo a sus caractersticas
sensoriales definidas como sabor, aroma, color,
textura, frente a 4 prototipos.
Solucin:
En este tipo de estudio se har uso de las tcnicas ce componentes principales pero con el fin de
lograr una mejor interpretacin de los datos y reduccin de los datos, tras hacer el anlisis de
componentes principales se logra ver que variables estn correlacionadas y formar como una
especie de variables latentes, as se tendr o se seleccionar 2 componentes: el primero formado
por las variables color y textura y el segundo componente formado por el sabor y el aroma tal
como se puede apreciar en el siguiente grfico, as tras hallar graficar el mapa de individuos nos
daremos cuenta a que caractersticas est ms cercana cada una de las mermeladas evaluadas;
como se puede ver al tener estas dos nuevas variables
Anlisis Multivariante I
Como se ve la mermelada Don Serafin se caracteriza por su buen sabor y aroma, la mermelada 3
es la que ms se acerca a ella no obstante est an muy alejada. La mermelada 4 tiene buena
textura y color pero tiene un aroma y sabor malo, la mermelada 5 y 1 son similares pero son muy
malas en todos los aspectos; todo lo mencionado nos indica que Don Serafin tiene un buen perfil
sensorial y no presenta ningn riesgo competitivo.
Donde se cumple:
Ejercicio 2:
Demostrar la expresin:
Anlisis Multivariante I
| | = 0
q
= 2x
x
Ejercicio 3:
Determinar los valores y vectores caractersticos normalizados de A:
1 2
=(
)
1 4
Ejercicio 4:
Dada la matriz A, hallar los valores y vectores caractersticos normalizados y verificar si estos
ltimos son ortogonales (propiedad b)
5 3
=(
)
3 5
6.5 Proceso iterativo de Maximizacin:
De acuerdo a la definicin de componentes principales hecha en los puntos anteriores, se debe
lograr que cada componente abarca la mayor cantidad de variabilidad posibles, siendo el primero
de stos el que guarda la mayor varianza, para ello se debe maximizar los valores de a (en la
grfica es L) ya que esto puede ampliar el valor de la varianza, luego para poner cierta restriccin
haremos que a1a1=1 es decir sobre su mdulo; este mismo procedimiento se hace para el
segundo componente pero ahora la restriccin se hace sobre a1a1=1 y luego sobre a2a2=1 y as
sucesivamente; dado que es un proceso de maximizacin con restricciones los multiplicadores de
Lagrange pueden usados en este punto . As el algoritmo a seguir es el siguiente:
Ejercicio 5:
Determinar a que es igual el primer componente usando el proceso iterativo.
6.6 Propiedades de componentes principales:
a) Los componentes son no correlacionados, dado que como se vio en la interpretacin
geomtrica forman nuevos ejes los cuales son perpendiculares
b) La correlacin entre una variable X un componente principal Y, es proporcional al coeficiente de
esa variable en la definicin del componente y el cociente entre la desviacin del componente y la
variable:
, =
1 + 2 + = ( ) = 1 + 2 + = ( )
=1
=1
Anlisis Multivariante I
Ejercicio 7:
Demostrar:
, =
Ejercicio 8:
Demostrar:
1 + 2 + = ( ) = 1 + 2 + = ( )
=1
=1
Componentes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Con esta informacin establezca cual sera el nmero ptimo de componentes a seleccionar, para
ello se debe hacer uso de todos los criterios conocidos.
Solucin:
a) Criterio de Inercia Total:
Este es una aplicacin real, por ello con un 50% est bien y es aceptable esto lo lograremos
teniendo a 6 componentes como mnimo, en este punto es importante el costo beneficio de tomar
un componte mas, as si deseamos tomar un componentes ms y nos puede ayudar a la
interpretacin de los mismo lo podramos hacer; pero por el contrario si desearemos llegar al 80%
deberamos pasar de 6 a 13 complicando mucho la interpretacin. Por ella nos quedamos con 6 o
7 componentes.
8
Anlisis Multivariante I
b) Mtodo de arcos:
Para llegar al grfico colocamos los valores propios en orden descendente y los graficamos y luego
comenzamos a trazar arcos basndonos en los puntos de inflexin, tal como se observa con este
criterio se tendra que seleccionar 7 componentes.
Varianza
30
3000
40
100
Con esta informacin, cul de las siguientes expresiones puede representar el primer componente
principal:
a) y1=0.25x1+0.25x2+0.25x3+0.25x4
b) y1=0.2x1+0.8x2+0.2x3+0.25x4
c) y1=0.9x1+0.1x2+0.9x3+0.2x4
Solucin:
Dado que la segunda variable tiene la mayor varianza y est muy por encima del resto, x2 tendr
el mayor peso tanto as que puede llegar a influir completamente sobre el primero componente. SI
Se deseara evitar este problema se debera estandarizar las variables.
6.9 Supuestos para efectuar el anlisis de componentes principales:
Si bien es cierto no existe supuestos para el anlisis de componentes principales, existen criterios
que nos ayudan a justificar la eleccin de esta tcnica, estos van por el lado de uno de los
objetivos del anlisis de componentes principales es decir formar nuevas variables las cuales
deben ser no correlacionadas, por lo tanto si al inicio se ve que todas las variables son
independientes entre si el anlisis no tendra razn de ser, ya que al procesar los componentes se
tendr que estos sern los mismos que las variables iniciales.
a) Determinante de la matriz de correlaciones
b) Correlacin Parcial
c) Prueba de esfericidad de Bartlett
d) Medida de adecuacin muestral KMO
Ejercicio 11: Determinante de la matriz de Correlaciones
Uno de los primeros criterios a tomar en cuenta es el determinante de la matriz de
correlaciones, tras observar los siguientes escenarios A qu valor deber tender el
determinante para poder llevar a cabo el anlisis de componentes principales?
10
Anlisis Multivariante I
Solucin:
En el primer caso se tiene un determinante es igual a 1, y tal como se puede apreciar en la matriz
las variables son independientes, en este caso el anlisis no tendra sentido, en este caso las
columnas son independientes. Luego en resto de casos el determinante va tendiendo a cero
conforme las correlaciones entre las variables va aumentando. De todo ello concluimos que el
anlisis ser adecuado cuando el determinante de la matriz de correlaciones tienda a cero.
Ejercicio 12: Correlacin Parcial
Se sabe que la correlacin parcial expresa el grado de relacin entre dos variables pero tras
eliminar el efecto del resto de variables que participan en la investigacin. Para el anlisis de
componentes principales este valor debe ser pequeo?
Solucin:
Nuevamente se recuerda el concepto del anlisis de componentes, las variables deben estar lo
ms correlacionadas posibles es decir deben tener informacin en comn, por lo tanto podemos
tomar el caso extremo el cual consiste que todas las variables comparten la misma cantidad de
informacin (lo ideal para el anlisis) con esto quiere decir que si tomamos dos variables y le
calculamos la correlacin parcial se tendr que ser igual a cero ya que est totalmente
influenciado por el resto de variables. Por lo tanto siguiendo este criterio se tendr que la
correlacin parcial debe ser lo ms pequeo posible.
Ejercicio 13: Prueba de esfericidad de Bartlett
Una prueba de esfericidad se usa para contrastar los supuestos de homogeneidad y no
correlacin, si cumple ambos se dice que se cumple la esfericidad. La hiptesis nula para la prueba
de esfericidad de Bartlett es la siguiente: = 2 , usando el nivel de significancia se rechazara si
Sig<Nivel de significancia. Si se rechaza se tendr que el anlisis es justificable. El estadstico de
prueba es el siguiente, probar la siguiente exprexin:
11
Donde rij es la correlacin simple entre i y j, rij.m son las correlaciones parciales de ij.
Qu valor deber tener para que el anlisis sea justificable?
Solucin:
Del ejercicio anterior se ha dicho que los coeficientes de correlacin parcial deben ser lo ms
pequeos posibles por lo tanto en la expresin podemos hacerlo tender a cero para que el anlisis
sea factible, en este caso el KMO deber tender a 1.
6.10 Diferencias entre el anlisis de Componentes principales y el anlisis factorial:
El anlisis Factorial busca factores que buscan explicar la mayor variabilidad comn, mientras que
el anlisis de componentes principales busca explicar la mayor variabilidad total. En el Anlisis
Factorial se distingue entre varianza comn y varianza nica. La varianza comn es la parte de la
variacin de la variable que es compartida con las otras variables. La varianza nica es la parte de
la variacin de la variable que es propia de esa variable. El Anlisis de Componentes Principales no
hace esa distincin entre los dos tipos de varianza, se centra en la varianza total. Mientras que el
Anlisis de Componentes Principales busca hallar combinaciones lineales de las variables originales
que expliquen la mayor parte de la variacin total, el Anlisis Factorial pretende hallar un nuevo
conjunto de variables, menor en nmero que las variables originales, que exprese lo que es comn
a esas variables.
12
Anlisis Multivariante I
Ejercicio 15:
Usando la base de datos Ejercicio15, llevar a cabo un anlisis completo de componentes
principales, incluyendo la representacin de las variables e individuos. La base tiene informacin
de 30 personas sobre evaluacin a 6 caractersticas de pastas dentales, los niveles socio
econmicos incluidos en el anlisis son del ABCD.
Solucin:
Todo el anlisis se trabajar con el SPSS, lo primero ser seleccionar todas las variables a introducir
en el anlisis, para ello se sigue la ruta: Anlisis>>Reduccin de dimensin>>Factor:
Luego ir a la parte de descriptivos y seleccionar los criterios aprendidos con el fin de justificar el
uso de este anlisis:
En primer lugar se tiene la matriz de correlaciones, en ella se puede ver correlaciones altas (por
encima de 0.5) lo que es el primer indicio para poder hacer un anlisis de componentes
principales, tambin se puede ver en la parte inferior del grfico el valor del determinante que
tiende a cero:
13
El segundo punto a analizar es el KMO, donde se plantea: La hiptesis nula para la prueba de
esfericidad de Bartlett es la siguiente: = 2 , si se observa el Sig. Se tiene que es igual a 0.0 lo
que indica que la hiptesis nula se rechaza (existe correlaciones entre las variables).
La matriz de la covarianza anti imagen contiene los negativos de las covarianza parciales y la de
correlaciones anti imagen contiene las correlaciones parciales pero con signo cambiado; en la
diagonal la matriz de correlaciones anti imagen se encuentran las medidas de adecuacin muestral
para cada variable, por ello para que el anlisis sea factible los elementos de la diagonal deben ser
cercanos a uno y el resto de elementos deben tender a cero, en este caso cumple.
14
Anlisis Multivariante I
El paso a seguir es ver el nmero de componentes a seleccionar, para ello se solicita el grfico de
arcos:
15
Al observar el grfico se tiene que el primer arco se tiene con los dos primeros componentes.
Luego por el mtodo de inercia promedio se tiene que tomar los componentes con valores propios
mayores a uno, siguiendo este criterio nos debemos quedar con los dos primeros, luego por la
inercia total se tiene que con los dos primeros se logra explicar un 82% valor que es muy
aceptable. Por lo tanto de los resultados de todos los criterios se puede tomar los dos primeros.
16
Anlisis Multivariante I
Lo que toca en este punto es comenzar a revisar los resultados, lo primero que se analizar es
cuadro de comunalidades, la comunalidad es la proporcin de la varianza de una variable que
puede ser explicada por el modelo obtenido; en el caso de componentes principales las
comunalidades. Este cuadro nos puede dar una idea para ver que variables pueden ser mejor
explicadas y cules no de tal manera de poder ver si se debera retirar algunas variables sin
importancia. Por ejemplo en el cuadro se aprecia que la variable que se logra explicar mejor es
Importante comprar una pasta de dientes . Con un 0.926.
17
18
Anlisis Multivariante I
SPSS tambin da la opcin de obtener las puntuaciones de los componentes para cada uno de los
registros, para ello se debe solicitar los coeficientes:
19
A partir del grfico se puede llegar a conclusiones como por ejemplo, las personas del NSE AB
prefieren las pastas dentales que cuidan ms la esttica (pastas que por lo general tienen un
mayor precio y no est al alcance de las personas con menos recursos), las personas del NSE C se
preocupan por la salud, y las del NSE D no les importa ni la salud ni la esttica lo nico que les
interesa es tener una pasta dental.
6.11 Uso del anlisis de componentes principales para la ubicacin de outliers:
La tcnica de componentes principales puede ser usada para la identificacin de outliers, puede
considerarse a esta forma de ubicar outliers como multivariada debido a que cada componente
traer informacin de las variables del estudio. El procedimiento es bastante simple, slo se
deber hacer el clculo de los componentes y luego hacer grficos de dispersin con el fin de
ubicar puntos que se alejen de la nube puntos para luego as ser catalogados como atpicos
multivariados.
6.12 Uso del anlisis de componentes principales para analizar la normalidad de los datos
Para demostrar esto nos vamos a valer de: xNp(,) si y slo si cualquier combinacin lineal aX
Np(a,aa).Por ello tendremos que demostrar que los componentes se distribuyen o no con
una distribucin normal usando cualquiera de los mtodos univariados.
6.13 Componentes principales como predictores de la matriz de datos:
Se puede reconstruir la matriz de datos X (nxp) de manera aproximada a partir de los q (q<p)
primeros valores y vectores caractersticos si la tasa de inercia (q) tiende a 1.
20
Anlisis Multivariante I
Verificacin.-
Se sabe que:
u=kXv
(i)
k 1
(ii)
v u ' X u u '
v u ' X
X v u '
21
(iii)
(iv)