Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MULTIVARIANTES
3.- ANALISIS FACTORIAL
1
1.- OBJETIVO DEL ANALISIS FACTORIAL
El Análisis Factorial tiene como objetivo simplificar las múltiples y complejas
relaciones que pueden existir entre un conjunto de variables observadas X1,
X2,….XP.
2
En consecuencia, el Análisis Factorial es una técnica de reducción de datos
que examina la interdependencia de variables y proporciona conocimiento de
la estructura subyacente de los datos
Las relaciones entre las variables observadas X1, X2,….XP vienen dadas por su
matriz de correlaciones R, de modo que, en el análisis factorial se puede partir
de una serie de coeficientes de correlación para el conjunto de variables
observadas y, a continuación, estudiar si subyace algún patrón de relaciones
tal que los datos puedan ser reordenados a un conjunto menos de factores
que podemos considerar como variables que recogen y resumen las
interrelaciones observadas.
3
2.- Ejemplos
4
2.- Supongamos que estamos interesados en estudiar el desarrollo humano
de los países mundo, y que disponemos de muchas variables económicas,
sociales y demográficas, en general dependientes entre sí, que están
relacionadas con el desarrollo. Podemos preguntarnos si el desarrollo de un
país depende de un pequeño número de factores tales que, conocidos sus
valores, podríamos prever el conjunto de las variables de cada país.
5
Ejemplo gráfico
Como ejemplo ilustrativo, supongamos que tenemos nueve variables observables X1, X2, ……., X9
que se intentan resumir por tres factores no observables F1, F2 y F3. Analizando las relaciones entre
las variables se observa que las variables X1, X3, X4, y X6 están fuertemente correlacionadas con otra
F1 que, por lo tanto, constituirá el primer factor. De manera similar las variables X2 y X7 se agrupan
en el segundo factor F2. Las variables restantes, X5, X8 y X9 se agrupan en el tercer factor F3
6
3.- ANALISIS FACTORIAL COMPONENTES PRINCIPALES
El Análisis Factorial ( AF) está relacionado con los Componentes Principales (CP),
en cuanto a que ambos reducen la cantidad de variables, pero existen ciertas
diferencias.
En primer lugar los CP se construyen para explicar las varianzas (que expliquen
la mayor parte de la variabilidad) , mientras que el AF se construyen para las
covarianzas o correlaciones entre las variables (interrelaciones entre las
variables).
7
8
4.- Modelo Estadístico del AF
El objetivo del Análisis Factorial (AF) es caracterizar las p variables en X en
términos de un número pequeño de k factores comunes F, los cuales impactan
a todas las variables, y un conjunto de errores o factores específicos ε, los
cuales afectan solo a la variable X.
Consideremos las variables observables X1, X2, X3, …….., Xp como variables
tipificadas o estandarizadas (con media cero y varianza igual a 1) y vamos a
formalizar la relación entre variables observables y factores definiendo el
modelo factorial de la siguiente forma:
9
En este modelo, F1, F2, ……, Fk son los factores comunes; e1, e2, …….., ek son los
factores únicos o factores específicos; “ljh” es el peso del factor “h” en la
variable “j”, denominado también carga factorial o saturación de la variable “j”
en el factor “h”.
Según la formulación del modelo, cada una de las “p” variables observables es
una combinación lineal de “k” factores comunes (F) a todas las variables (k < p)
y de un factor único para cada variables (e). Así entonces, todas las variables
originales están influenciadas por todos los factores comunes (F), mientras que
cada para cada variable existe un factor único que es específico para esa
variable.
Tanto los factores comunes como los específicos son variables no
observables.
10
EL MODELO ESCRITO MATRICIALMENTE
11
5.- HIPOTESIS EN EL MODELO FACTORIAL
Considera los factores comunes F1, F2, ……, Fk como variables tipificadas de
media cero y varianza igual a 1.
Los factores F1, F2, ……, Fk no están correlacionados entre sí.
12
También se debe de tener en cuenta que para poder realizar inferencias
que permitan distinguir, para cada variable, entre los factores comunes y el
factor único, es necesario suponer que los factores comunes (F) están
incorrelacionados con el factor único. Es decir, que la matriz de varianzas-
covarianzas entre los factores comunes y los factores únicos es la matriz
cero. (E[F e` ] = 0)
13
6.- TERMINOLOGÍA DERIVADA DE LAS HIPOTESIS:
COMUNALIDAD Y ESPECIFICIDAD
Dado que las variables X son estandarizadas, su matriz de Varianzas-
Covarianzas es igual a la matriz de Correlación poblacional R, matriz que
puede descomponerse de la forma siguiente:
14
En esta descomposición podemos observar que la varianza de “Xj” se puede
expresar como:
15
7.- ALGUNOS METODOS DE OBTENCIÓN DE LOS FACTORES
Una vez obtenidos los pesos (cargas factoriales o saturaciones) del primer
factor, que es el que más contribuye a la varianza de las variables, se elimina
su influencia considerando un nuevo modelo factorial.
16
Se repite el proceso hasta obtener los pesos de todos los factores, es decir,
la matriz factorial, al menos hasta que la varianza total explicada por los
factores comunes sea igual o próxima a la suma de las Comunalidades.
17
METODO DEL CENTROIDE
En este método se elige el primer factor de modo que pase por el centro de
gravedad (centroide) de las variables sin unicidades. Se tiene entonces el
modelo factorial
Si exigimos que el primer factor pase por C, el centroide tendrá todas sus
componentes nulas, excepto la primera
18
METODOS DE LAS COMPONENTES PRINCIPALES
La teoría de Componentes principales estudiada anteriormente puede
utilizarse para la obtención de los factores en el modelo factorial. Es preciso
no confundir la Teoría General de Componentes Principales, con una de sus
aplicaciones para la obtención de factores en el modelo factorial.
19
Pero el sistema de ecuaciones anterior es reversible, siendo posible expresar
las variables Xj en función de las componentes principales Zj de la siguiente
manera:
20
21
8.- ROTACIÓN DE LOS FACTORES
El trabajo en el AF persigue que los factores comunes tangan una interpretación
clara, porque de esa manera se analizan mejor las interrelaciones existentes
entre las variables originales.
22
De esta manera entonces, cada factor tendrá una correlación alta con un grupo
de variables y baja con el resto de variables. Examinando las características de
las variables de un grupo asociado a un determinado factor, se pueden
encontrar rasgos comunes que permitan identificar el factor y darle una
denominación que responda a esos rasgos comunes.
23
Formas básicas de realizar rotación de los Factores:
• Rotación Ortogonal:
Los ejes se rotan de forma que quede preservada la incorrelación entre los
factores. Los ejes rotados quedan perpendiculares entre sí.
• Rotación Oblicua:
En esta rotación los ejes no son perpendiculares y los factores yda no están
incorrelacionados, con lo cual se pierde una propiedad deseable e los factores.
Sin embargo en algunas oportunidades esta pérdida suele compensarse con
una asociación más nítida de cada una de las variables con su factor.
24
ROTACIONES ORTOGONALES
MÉTODO VARIMAX:
Este método obtiene los ejes de los “factores comunes” maximizando la
suma de las varianzas de las cargas factoriales al cuadrado de cada factor.
Maximiza la varianza de las cargas cuadradas en cada columna.
MÉTODO QUARTIMAX
Se hace máxima la suma de las cuartas potencias de todas las cargas
factoriales:
25
MÉTODO EQUIMAX
Intenta alcanzar una posición o balance intermedio entre los dos métodos de
rotación anteriores. En resumen, intenta alcanzar un balance entre filas y
columnas
26
METODOS ESTADISTICOS MULTIVARIANTES
Las relaciones entre las variables observadas X1, X2,….XP vienen dadas por su
matriz de correlaciones R, de modo que, en el análisis factorial se puede partir
de una serie de coeficientes de correlación para el conjunto de variables
observadas y, a continuación, estudiar si subyace algún patrón de relaciones
tal que los datos puedan ser reordenados a un conjunto menos de factores
que podemos considerar como variables que recogen y resumen las
interrelaciones observadas.
2.- Ejemplos
En primer lugar los CP se construyen para explicar las varianzas (que expliquen
la mayor parte de la variabilidad) , mientras que el AF se construyen para las
covarianzas o correlaciones entre las variables (interrelaciones entre las
variables).
Consideremos las variables observables X1, X2, X3, …….., Xp como variables
tipificadas o estandarizadas (con media cero y varianza igual a 1) y vamos a
formalizar la relación entre variables observables y factores definiendo el
modelo factorial de la siguiente forma:
En este modelo, F1, F2, ……, Fk son los factores comunes; e1, e2, …….., ek son los
factores únicos o factores específicos; “ljh” es el peso del factor “h” en la
variable “j”, denominado también carga factorial o saturación de la variable “j”
en el factor “h”.
Según la formulación del modelo, cada una de las “p” variables observables es
una combinación lineal de “k” factores comunes (F) a todas las variables (k < p)
y de un factor único para cada variables (e). Así entonces, todas las variables
originales están influenciadas por todos los factores comunes (F), mientras que
cada para cada variable existe un factor único que es específico para esa
variable.
Tanto los factores comunes como los específicos son variables no
observables.
EL MODELO ESCRITO MATRICIALMENTE
5.- HIPOTESIS EN EL MODELO FACTORIAL
Considera los factores comunes F1, F2, ……, Fk como variables tipificadas de
media cero y varianza igual a 1.
Los factores F1, F2, ……, Fk no están correlacionados entre sí.
COMUNALIDAD Y ESPECIFICIDAD
Dado que las variables X son estandarizadas, su matriz de Varianzas-
Covarianzas es igual a la matriz de Correlación poblacional R, matriz que
puede descomponerse de la forma siguiente:
En esta descomposición podemos observar que la varianza de “Xj” se puede
expresar como:
Una vez obtenidos los pesos (cargas factoriales o saturaciones) del primer
factor, que es el que más contribuye a la varianza de las variables, se elimina
su influencia considerando un nuevo modelo factorial.
Se repite el proceso hasta obtener los pesos de todos los factores, es decir,
la matriz factorial, al menos hasta que la varianza total explicada por los
factores comunes sea igual o próxima a la suma de las Comunalidades.
METODO DEL CENTROIDE
En este método se elige el primer factor de modo que pase por el centro de
gravedad (centroide) de las variables sin unicidades. Se tiene entonces el
modelo factorial
Si exigimos que el primer factor pase por C, el centroide tendrá todas sus
componentes nulas, excepto la primera
METODOS DE LAS COMPONENTES PRINCIPALES
La teoría de Componentes principales estudiada anteriormente puede
utilizarse para la obtención de los factores en el modelo factorial. Es preciso
no confundir la Teoría General de Componentes Principales, con una de sus
aplicaciones para la obtención de factores en el modelo factorial.
Los ejes se rotan de forma que quede preservada la incorrelación entre los
factores. Los ejes rotados quedan perpendiculares entre sí.
• Rotación Oblicua:
En esta rotación los ejes no son perpendiculares y los factores yda no están
incorrelacionados, con lo cual se pierde una propiedad deseable e los factores.
Sin embargo en algunas oportunidades esta pérdida suele compensarse con
una asociación más nítida de cada una de las variables con su factor.
ROTACIONES ORTOGONALES
MÉTODO VARIMAX:
Este método obtiene los ejes de los “factores comunes” maximizando la
suma de las varianzas de las cargas factoriales al cuadrado de cada factor.
Maximiza la varianza de las cargas cuadradas en cada columna.
MÉTODO QUARTIMAX
Se hace máxima la suma de las cuartas potencias de todas las cargas
factoriales:
MÉTODO EQUIMAX
Intenta alcanzar una posición o balance intermedio entre los dos métodos de
rotación anteriores. En resumen, intenta alcanzar un balance entre filas y
columnas
DESARROLLO DE UN EJEMPLO DE “ANALISIS FACTORIAL”,
usando Statgraphics Centurión.
Copie los datos de la planilla Excel en una hoja de Statgraphics Centurión.
Podemos observar que todas las variables presentan datos atípicos, y bastante
severos, con tendencia a valores altos.
La matriz de correlaciones de las variables de entrada es
Puede dejar vacía la ventana (Etiquetas de Puntos), que es una variable cualitativa.
En este caso se colocó en esta ventana la variable “Lithology”. Entonces el análisis
se hará además para todos los niveles de dicha variable categórica.
El presente análisis se hará trabajando con los datos originales. Se dejará como
trabajo de práctica y ejercitación, el rehacer el trabajo en AF eliminando los valores
atípicos de las distintas variables cuantitativas.
Explicación de las ventanas del panel desplegado
Una vez completado el cuadro de diálogo anterior y pulsado “Aceptar” (Enter),
aparecerá el siguiente cuadro de diálogo que a continuación se explica.
Existen también dos botones que acceden a cajas de dialogo adicionales
Botón de Estimación
Cuando en el cuadro de dialogo inicial anterior, se pulsa el “Botón Estimación”, se
accede a:
Estos campos controlan las iteraciones utilizadas en:
Resumen del Análisis: Análisis de Factores.
Pareciera entonces que sería conveniente utilizar el criterio extraer factores, que para
este caso serian tres o bien que el autovalor mínimo sea igual a 0,95. Apliquemos
entonces este criterio. Pulsar lado derecho del mouse y en la ventana de diálogo
seleccionar los que usted decida.
Entonces ahora aproximadamente 2/3 de la varianza es explicado por tres
factores. Por lo tanto las 8 variables las podemos agrupar en estos tres factores
Es usual examinar algunos puntos que están lejos de otros, los cuales tiene un
valor pequeño para el primer factor (-0,054) y muy grande para el segundo factor
(11,025).
Estando desplegado el gráfico y en “opciones de ventana” tomando la opción
“Seleccionar”, en la parte superior de los íconos se muestra un número que donde se
ubica el dato en la Base de Datos. En este caso es el individuo 34.
Una variación interesante de este gráfico es ubicar los puntajes de los individuos
entregados por dos factores comunes (bigráfica) , de acuerdo a otra columna
cualitativa, que en este caso puede ser “Litología” o la “Alteración”.
Este gráfico nos dice que el Factor Común 1, separa muy bien los “Tufo Dacítico” debido
a que quedan a un mismo lado de él (lado izquierdo)
Para producir la gráfica anterior, usted debe:
Otros gráficos posibles de obtener. COMENTAR lo que presentan