T30 Main FA

Análisis Multivariante
Análisis Factorial – Factor Analysis FA
Facultad de Ciencias Matemáticas

Agenda
Ø Introducción al Análisis Factorial FA

Ø Antecedentes y conceptos previos
Ø En qué consiste
Ø Qué es un Factor
Ø Esquema de un análisis factorial
Ø Modelo matemático de FA
Ø Contrastes de adecuación para FA
Ø Extracción de factores
Ø Métodos de extracción y determinación del número de factores
Ø Pruebas de significación
Ø Interpretación de los factores
Ø Técnicas de rotación de factores
Ø Cálculo de puntuaciones factoriales
Ø Validación del modelo
Antecedentes
• En ocasiones, no es posible medir las cantidades de interés directamente.

¿Se os ocurren ejemplos?
• Un ejemplo típico, en Psicología, es la medición de la inteligencia.
• Las puntuaciones en Matemáticas, Lengua y Literatura o test de

comprensión se suelen utilizar para medir la inteligencia en niños.
• Y a partir de ahí, podemos preguntarnos si sería posible determinar una

cierta puntuación para medir la inteligencia de las personas a partir de
dichas mediciones.
Introducción
• El análisis factorial es una técnica de reducción de datos que sirve para encontrar
grupos homogéneos de variables a partir de un conjunto numeroso de variables.
• Los grupos homogéneos se forman con las variables que correlacionan mucho
entre sí y procurando, inicialmente, que unos grupos sean independientes de
otros.
• Cuando se recogen un gran número de variables de forma simultánea (por

ejemplo, en un cuestionario de satisfacción) se puede estar interesado en
averiguar si las preguntas del cuestionario se agrupan de alguna forma
característica.
• Aplicando un análisis factorial a las respuestas de los sujetos se pueden encontrar

grupos de variables con significado común y conseguir de este modo reducir el
número de dimensiones necesarias para explicar las respuestas de los
• sujetos.
Introducción
• El Análisis Factorial es, por tanto, una técnica de reducción de la dimensionalidad

de los datos.
• Su propósito último consiste en buscar el número mínimo de dimensiones

capaces de explicar el máximo de información contenida en los datos.
• A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el

de regresión, en el análisis factorial todas las variables del análisis cumplen el
mismo papel: todas ellas son independientes en el sentido de que no existe a
priori una dependencia conceptual de unas variables sobre otras.
Introducción
• Fundamentalmente lo que se pretende con el Análisis Factorial es simplificar la

información que nos da una matriz de correlaciones para hacerla más fácilmente
interpretable.
• Se pretende responder a:
• ¿Por qué unas variables se relacionan más entre sí y menos con otras?.
Hipotéticamente es porque existen otras variables, otras dimensiones o
factores que explican por qué unos ítems se relacionan más con unos que
con otros.
• En definitiva, ¿se trata de un análisis de la estructura subyacente a una serie de

variables?.
Ejemplo varianza compartida y varianza única
• Un ejemplo concreto de introducción al concepto de varianza compartida y

varianza única:
Sean unos ítems de una escala de actitudes, donde la puntuación de cada sujeto
encuestado es la suma de las respuestas a todos los ítems, según la clave de
corrección diseñada:
1º Me lo paso muy bien en mi casa, con mis padres

Muy de acuerdo = 5
De acuerdo = 4
…………………………..
2º Algunas veces me gustaría marcharme de mi casa
Muy de acuerdo = 1
De acuerdo = 2
……………………………
• La varianza σ2 de cada ítem indica la diferencia que crea en las respuestas. Si

todos respondieran lo mismo la varianza sería cero, no habría diferencias. Si la
mitad estuviera muy a gusto en su casa y la otra mitad muy a disgusto, la
varianza sería máxima.
Esquema de un FA
Formulación del problema
La matriz de correlaciones
Extracción de factores
Análisis Factorial
Determinación del número de factores
Rotación de factores
Interpretación de los factores
Validación del modelo
Calculo de puntuaciones factoriales
Selección de las variables representativas
Análisis posteriores: Regresión, clasificación, ...

El modelo FA
• Sea 𝑋 = (𝑋$ , … 𝑋' )′ una variable aleatoria multivariante con vector de medias 𝜇+ y
matriz de covarianzas Σ+ .
• Observa que no asumimos ninguna distribución específica para la variable

aleatoria X
• Sin embargo, en uno de los métodos de estimación que veremos mas adelante
asumiremos que X es Gaussiana.
El modelo FA
El modelo factorial establece que X puede ser escrito como sigue:
𝑋 = µ. + L f + u
donde:
• µ. = 𝐸[𝑋] es un vector p-dimensional.
• 𝐿 es una matriz p x r de constantes desconocidas llamada matriz de cargas

factoriales (loading matrix).
• f es un vector aleatorio r-dimensional de variables latentes, donde r<p con

vector de medias 0 y matriz de covarianzas 𝐼7 los factores (the factors).
• u es un vector p-dimensional no observado (unobserved) de errores con

vector de medias 09 y matriz de covarianzas diagonal Σ: .
• Se supone que las perturbaciones son incorreladas con los factores, es decir,
Cov f, u = E f u’ = 0 7.' y Cov u, f = E uf A = 0 BC9
El modelo FA
• Como en el modelo de PCA, el elemento clave del modelo factorial es Σ+ .
• Resulta sencillo comprobar del modelo factorial que:
A
Σ+ = 𝐶𝑜𝑣 𝑋 = 𝐸 𝑋 − 𝜇+ 𝑋 − 𝜇+ = 𝐿𝐿A + Σ:
• Por consiguiente, Σ+ , puede ser escrito en términos de 𝐿 y Σ:

El modelo FA
En consecuencia, las varianzas de las variables en X vienen dadas por:
J
• 𝜎.,I = 𝐿IA 𝐿I + 𝜎K,I
J J
= 𝜏II + 𝜎K,I con j=1,…p
• 1 𝜏II se denomina la j-ésima comunalidad

J
• 2 𝜎:,I es la varianza del j-ésimo elemento de u y es denominado la j-ésima
unicidad.
Adicionalmente, las covarianzas de las variables en X vienen dadas por:
• 𝜎.,IM = 𝐿IA 𝐿M = 𝜏IM para j,k=1,…p con j≠k

El modelo FA
• La matriz de cargas factoriales, L, tiene una interpretación simple.
• Observa que:
𝐶𝑜𝑣 𝑋, 𝑓 = 𝐸 𝑋 − 𝜇+ 𝑓′ = 𝐸 𝐿𝑓 + 𝑢 𝑓′ = 𝐿
• Por consiguiente, L, es la covarianza entre X, que es el vector aleatorio de

interés y f que son los factores latentes.
Por lo que son los factores comunes los que explican las relaciones existentes
entre las variables.
Por este motivo, los factores comunes tienen interés y son susceptibles de
interpretación experimental. Los factores únicos se incluyen en el modelo dada
la imposibilidad de expresar, en general, p variables en función de un número
más reducido r de factores.
Ejemplo
• Unos estudiantes son sometidos a diversos test en distintas materias para medir
sus actitudes intelectuales. Como consecuencia, se obtienen una serie de
puntuaciones estandarizadas en Matemáticas (Ma), Física (Fi), Química (Qu),
Inglés (In), Historia (Hi) y Dibujo (Di).
Ejemplo
Ejemplo
Puntuaciones estandarizadas
Matriz de correlaciones
Análisis de la matriz de correlaciones
• La finalidad de analizar la matriz de las correlaciones muestrales R formada

por los elementos 𝑟QI correlación muestral observada entre las
variables 𝑋Q 𝑦 𝑋I es comprobar si sus características son las adecuadas para
realizar un Análisis Factorial.
• Uno de los requisitos que deben cumplirse es que las variables se

encuentran altamente intercorrelacionadas.
• También se espera que las variables que tengan correlación muy alta entre sí
la tengan con el mismo factor o factores.
• En consecuencia, si las correlaciones entre todas las variables son bajas, tal
vez no sea apropiado el Análisis Factorial.
Test de esfericidad de Barlett
Contrasta, bajo la hipótesis de normalidad multivariante, si la matriz de correlación

de las p variables observadas 𝑅' es la identidad.
Si una matriz de correlación es la identidad significa que las intercorrelaciones

entre las variables son cero. Si se confirma la hipótesis nula HU : |𝑅| = 1 o 𝑅' =I,
las variables no están intercorrelacionadas.
El test de esfericidad de Barlett se obtiene mediante una transformación del

determinante de la matriz de correlación. El estadístico del test viene dado por:
donde n es el número de individuos de la muestra y 𝜆I (𝑗 = 1, … , 𝑝) son los valores

propios de R.
Bajo la hipótesis nula, el estadístico se distribuye asintóticamente según una 𝜒'J ']$ /J
Test de esfericidad de Barlett
Contrasta, bajo la hipótesis de normalidad multivariante, si la matriz de correlación

de las p variables observadas 𝑅' es la identidad.
Bajo la hipótesis nula, el estadístico se distribuye asintóticamente según una

𝜒'J ']$ /J
Si la hipótesis nula es cierta, los valores propios valdrán uno, o su logaritmo será
nulo y, por tanto, el estadístico del test valdría cero.
Por el contrario, si con el test de Barlett se obtienen valores altos de 𝜒 J , o un

determinante bajo, hay variables con correlaciones altas (un determinante próximo a
cero indica que una o más variables podrían ser expresadas como combinación
lineal de otras variables).
En definitiva, si el estadístico del test toma valores grandes ( o un determinante

próximo a cero) se rechaza la hipótesis nula con cierto grado de significación. En
caso de aceptarse la hipótesis nula, las variables no están intercorreladas y debería
reconsiderarse la aplicación de un Análisis Factorial.
Medidas de adecuación de la muestra
El coeficiente de correlación parcial es un indicador del grado de relaciones entre

dos variables, eliminando la influencia del resto.
Si las variables comparten factores comunes, el coeficiente de correlación parcial

entre pares de variables es bajo, puesto que se eliminan los efectos lineales de las
otras variables.
Las correlaciones parciales son estimaciones de las correlaciones entre los

factores únicos, debiendo ser próximas a cero cuando el Análisis Factorial es
adecuado, dado que se supone que los factores únicos están incorrelados entre sí.
En definitiva, si existe un número elevado de coeficientes de correlación parcial

distintos de cero, se interpreta que las hipótesis del modelo factorial no son
compatibles con los datos.
Medidas de adecuación de la muestra KMO
Una manera de cuantificar este hecho es con la Media de Adecuación de la

Muestra KMO propuesta por Kaiser-Meyer-Olkin:
El índice KMO se utiliza para comparar las magnitudes de los coeficientes de

correlación parcial, de forma que cuánto más pequeño sea su valor, mayor será
el valor de los coeficientes de correlación parciales 𝑟QI ' y, en consecuencia,
menos apropiado es realizar un Análisis Factorial.
La experiencia práctica aconseja que es precipitado tomar el índice KMO como

única medida de adecuación de la muestra a las hipótesis del modelo de Análisis
Factorial, sobre todo si hay un número pequeño de variables consideradas.
Extracción de factores
• El objetivo del Análisis Factorial (AF) es determinar un número reducido de

factores que puedan representar a las variables originales.
• Una vez que se ha determinado que el AF es una técnica apropiada para

analizar los datos, hay que seleccionar el método adecuado para la extracción
de factores.
• Existen diversos métodos, cada uno de ellos con sus ventajas e

inconvenientes.
• El modelo factorial 𝑋 = µ. + L f + u teniendo que cuantificar la matriz L de

cargas factoriales que explica 𝑋 en función de los factores.
El modelo FA
En el modelo factorial, ni la matriz de cargas factoriales L, ni los factores f, son

observables.
Esto plantea un problema de la indeterminación: si H es una matriz ortogonal r x r,

entonces el modelo factorial se puede escribir como:
𝑋 = µ. + L f + u = µ. +L H H’ f + u= µ. + L∗ f ∗ + u
donde L∗ = 𝐿 𝐻 y f ∗ = 𝐻 A 𝑓.
Ambos modelos contienen factores no correlacionados, con una matriz de

covarianza identidad.
Como consecuencia, en el mejor de los casos, la matriz de carga y los factores son
únicos salvo por una transformación ortogonal porque una transformación ortogonal
de los factores conduce a otros factores, y se mantienen relaciones similares para la
matriz de cargas factoriales.
De hecho, no podemos recuperar de forma única la matriz de carga o los factores

desde el conocimiento de la matriz de covarianza Σ+ .
Ejemplo
Supongamos un modelo de un único factor para una variable aleatoria

bivariante:
A
𝑋 = 𝑋$ , 𝑋J
con vector de medias 0J

1.25 0.5
y matriz de covarianzas Σ+ =
0.5 0.5
El modelo unifactorial es:
𝑋$ 𝐿 𝑢$
𝑋= = $$ 𝑓 + 𝑢
𝑋J 𝐿J$ J
Así que f es una variable aleatoria univariante

Ejemplo
Así que Σ+ puede ser escrita como sigue:
J
1.25 0.5 𝐿$$ 𝜎:$$ 0
Σ+ = = 𝐿$$ 𝐿J$ + =
0.5 0.5 𝐿J$ 0 J
𝜎:JJ
𝐿J$$ 𝐿$$ 𝐿J$ J
𝜎:$$ 0
=
𝐿$$ 𝐿J$ 𝐿JJ$ 0 J
𝜎:JJ
Por consiguiente:
𝐿J$$ + 𝜎:$$
J
= 1.25
𝐿$$ 𝐿J$ = 0.5
𝐿JJ$ + 𝜎:JJ
J
= 0.5
Una solución para L es 𝐿$$ = 1 y 𝐿J$ = 0.5.

Otra opción es 𝐿$$ = 0.76 y 𝐿J$ = 0.66.
Ejemplo
• A menos que haya otra información disponible, no es claro que solución

deberíamos elegir.
• Desde un punto de vista intuitivo, podríamos preferír la solución que tiene

una matriz de covarianzas mas pequeña, como medida por la traza.
• En este caso, la solución para L, 𝐿$$ = 1 y 𝐿J$ = 0.5 sería preferible.
• El criterio Varimax es un método para distinguir entre matrices de carga

factorial que resulten más fácil de calcular e interpretar.
El modelo FA
• Consideremos
• Como vemos, sería algo similar a una varianza muestral con la diferencia que
J
lo aplicamos a las entradas 𝐿IM de L.
• Empezando con la matriz de cargas factoriales L, podemos considerar las

matrices de carga rotadas L∗ = 𝐿 𝐻 , donde H es una matriz ortogonal r x r.
• El criterio Varimax selecciona la matriz ortogonal r x r :
que lleva a la matriz de cargas factoriales L∗ = 𝐿 𝐻 ∗

El modelo FA
• En el ejemplo previo, se puede ver que VC (L) = 0.1406, para la primera

solución y VC (L) = 0.0035, para la segunda solución.
• Entonces la primera solución es la elegida por el criterio Varimax.
• Las 2 formas de elegir la matriz de cargas factoriales, elegir la matriz L

con menor traza de Σ y la que proporciona un mayor VC (L) no son
equivalentes, aunque en este ejemplo ambos resultados proporcionen la
misma solución.
• En este ejemplo, no hemos obtenido la matriz ortogonal óptima,

solamente hemos comparado 2 posibles soluciones.
El modelo FA
• Si las variables univariantes en 𝑋 = (𝑋$ , … 𝑋' )′ tienen diferentes unidades

de medida, es preferible considerar las variables reescaladas.
• La estandarización univariante de las variables en X nos lleva a la variable

f
]
g
aleatoria multivariante 𝑌 = Δ+ (𝑥 − 𝜇+ ) donde Δi es una matriz diagonal
con las varianzas de las variables en X.
• La variable aleatoria multivariante Y tiene media 0B y matriz de covarianzas

𝜌+ que es la matriz de correlación de X.
El modelo FA
• Entonces, tenemos lo siguiente: Si X sigue un modelo factorial dado por

𝑋 = µ. + L f + u
• con las propiedades ya vistas, Y sigue el modelo factorial dado por

$ $
] ]
J J
𝑌 = Δ+ L f +Δ+ u
• Con despomposición de la matriz de covarianzas dada por:
$ $ $ $
] ] ] ]
𝜌+ = Δ+ 𝐿𝐿 Δ+J
J
A J
+ Δ+ Σ: Δ+ J
El modelo FA
Por tanto, el modelo factorial para Y es similar al modelo factorial para X con
las siguientes consideraciones:
f
]
g
• Matriz de carga factorial 𝑀 = Δ+ L
• Un conjunto de factores f (los mismos factores)
f
]
• Un conjunto de errores 𝜀 = Δ+g u con matriz de covarianzas diagonal
f f
] ]
Σm = Δ+g Σ: Δ+g
Así pues, tenemos un nuevo modelo factorial 𝑌 = 𝑀f + ε con matriz de

covarianzas 𝜌+ = 𝑀𝑀A + Σm
y trabajar con 𝜌+ tiene la ventaja de que sus entradas diagonales son 1 y por
tanto la suma de comunalidades y especificidades son 1 y sus
interpretaciones son mas sencillas.
Estimación de la matriz de cargas y puntuaciones factoriales
• En la práctica, tenemos una matriz de datos X con dimensiones n x p, tal

que para cada fila de X, 𝑋Q. para i=1,…,n ha sido generada por el modelo
factorial.
• Así, dada la matriz X, el objetivo es estimar la matriz de cargas factoriales,

L, y la matriz de covarianza de los errores Σ: y el valor de los factores para
cada observación 𝑋Q. , para i=1,…,n que llamaremos puntuaciones
factoriales.
• Tenemos 2 aproximaciones principales para tales objetivos:

• Métodos donde no conocemos la distribución.
• Métodos basados en conocimiento de la distribución.
• Para datos Normales, esperamos que los métodos basados en distribución

que presupongan Gaussianidad de los datos funcione mejor que los
métodos que no están basados en el conocimiento de la distribución.
• De hecho, los métodos basados en supuestos gaussianos todavía

funcionan bien si la distribución de los datos no se desvía demasiado de la
Normalidad.
• De los métodos que no se basan en la distribución tenemos a la vez 2

principales:
• Análisis factorial de componentes principales.

• Análisis factorial de ejes principales.
• Ambos métodos están basados en:
• La descomposición de la matriz de covarianzas dada por:

• Σ+ = 𝐿𝐿A + Σ: si trabajamos con X
• La descomposición de la matriz de correlaciones dada por:
• 𝜌+ = 𝑀𝑀A + Σm si trabajamos con la variable estandarizada Y.
• Por simplificación, revisaremos los métodos para X y la descomposición de

la covarianza y de forma similar obtendríamos para Y y la descomposición
de la correlación.
• Empezaremos por el Análisis factorial de componentes principales.
• En primer lugar, la descomposición espectral de Σ+ viene dada por:

Σ+ = 𝑉' Λ' 𝑉' ′
donde
• 𝑉' es la matriz que contiene los autovectores de Σ+ .
• Λ' es la matriz diagonal que contiene los autovalores de Σ+ .
• Como consecuencia, de la descomposición de la matriz de covarianzas

tenemos:
Σ+ = 𝑉' Λ' 𝑉'A = 𝐿𝐿A + Σ:
• Si suponemos que Σ: = 0'.' , entonces 𝑉' Λ' 𝑉'A = 𝐿𝐿A .
• Ahora como L tiene dimensión p x r, 𝐿𝐿A es una matriz con rango r<p.
• Por tanto, Λ' contiene p-r autovalores iguales a 0 y podemos poner:

$/J
𝐿 = 𝑉7 Λ7
donde
• 𝑉7 es la matriz que contiene los autovectores de Σ+ asociados con los

autovalores de Σ+ diferentes de 0.
• Λ7 es la matriz diagonal r x r que contiene dichos autovalores de Σ+ .
• Ahora, dado que para la matriz X, podemos calcular la matriz de

covarianzas muestral S+ ( o la matriz de correlaciones muestral R+ si los
datos están estandarizados).
• Entonces, los autovectores y autovalores de Σ+ son reemplazados por los

de S+ ó análogamente con las correlaciones.
• La idea es seleccionar r como en PCA, es decir utilizando la varianza

explicada por las componentes principales obtenidas de S+ o R+ .
• Es claro que en la mayoría de las situaciones la suposición de que

Σ: = 0'.' no es realista pero el método utilizado proporciona buenas
estimaciones de la matriz de cargas factoriales.
Ejemplo Analisis factorial componentes principales
• En el Análisis factorial de ejes principales, también empezaremos por la

igualdad:
Σ+ = 𝐿𝐿A + Σ:
• De aquí se deduce que Σ+ − Σ: = 𝐿𝐿A , tiene que ser una matriz con rango
r<p porque L tiene dimensión p x r.
• Por tanto, Σ+ − Σ: tiene p-r autovalores iguales a 0.
• Y la descomposición espectral de Σ+ − Σ: viene dada por:

Σ+ − Σ: = 𝑈7 Ω7 𝑈7 ′
donde
• 𝑈7 es la matriz que contiene los autovectores de Σ+ − Σ: asociados
con los r autovalores distintos de 0 de Σ+ − Σ: .
• Ω7 es la matriz diagonal r x r que contiene dichos autovalores.
• Por tanto podemos escribir:

$/J
𝐿 = 𝑈7 Ω7
• Como en el caso de componentes principales, la matriz de covarianzas de

X o de correlación puede ser sustituida por la matriz de covarianzas
muestral S+ ( o la matriz de correlaciones muestral R+ si los datos están
estandarizados).
• El problema en este método está en que Σ: es desconocida y debería ser

estimada.
• Para realizar dicha estimación podemos utilizar Σ: obtenida del método de

componentes principales.
• Entonces, los autovectores y autovalores de Σ+ − Σ: son reemplazados por

los de S+ − Σu: ó análogamente con las correlaciones.
Ejemplo Analisis factorial ejes principales
• Ahora nos focalizaremos en obtener las puntuaciones factoriales.
• El método de puntuaciones factoriales de Barlett puede ser utilizado con

estos métodos no paramétricos.
• Básicamente, el método de Barlett supone que los factores son parámetros.
• Entonces, del modelo factorial, el vector p x 1 𝑋Q. para i=1,…,n viene dado
por 𝑋Q. = 𝜇+ + 𝐿 𝑓Q . +𝑈Q .
• Por el método de mínimos cuadrados generalizados tenemos:
fvQ. = 𝐿A Σw]$ 𝐿 ]$ 𝐿A Σ ]$
w (xy . −𝜇+ )
• La estimación final se obtiene reemplazando 𝜇+ , L y Σw por sus respectivas

estimaciones.
• Si utilizamos datos estandarizados, las puntuaciones factoriales vendrán

dadas por:
fvQ. = 𝑀A Σm]$ 𝑀 ]$ 𝑀A Σm]$ yy .
• Donde yy . son las observaciones estandarizadas.
• Observa que 𝐿{ y 𝑀
v son reemplazados por 𝐿v∗ y 𝑀
u∗ si hemos utilizado el
método de rotación Varimax.
Ejemplo estimación puntuaciones factoriales
• Los métodos de componentes principales y ejes principales son

procedimientos no paramétricos y por consiguiente pueden ser aplicados a
datos sin requerir ningún conocimiento respecto de la distribución
subyacente de los datos.
• En particular, si nosotros sabemos que los datos proceden de distribuciones

normales o muy próximos a la normal, podemos sacar provecho de este
conocimiento extra para realizar una mejor estimación de la matriz de
cargas factoriales y de las puntuaciones factoriales.
• Consideremos el caso en el que X y U tienen una distribución Gaussiana y

utilicemos el método de máxima verosimilitud de estimación de los
parámetros del modelo.
• Dada una matriz de datos generada de un modelo factorial Gaussiano, la

función logaritmo de la verosimilitud de los parámetros del modelo es como
sigue:
ƒ
𝑛𝑝 𝑛 1
𝑙 𝜇+ , Σ+ 𝑋) = − log 2𝜋 − log Σ+ − • 𝑥Q . −𝜇+ A Σ+]$ (𝑥Q . −𝜇+ )
2 2 2
Q‚$
donde Σ+ = 𝐿𝐿A + Σw
• Como sabemos, el estimador de 𝜇+ viene dado por 𝑋. „

• Reemplazando esta cantidad en 𝑙 𝜇+ , Σ+ 𝑋) nos lleva a:
𝑛𝑝 𝑛 𝑛−1
„ =−
𝑙 Σ+ 𝑋, 𝜇…+ = 𝑋) log 2𝜋 − log Σ+ − 𝑇𝑟 [ Σ+]$ 𝑆+ ]
2 2 2
• Ahora, reemplazamos Σ+ = 𝐿𝐿A + Σ: y tenemos:
𝑛𝑝 𝑛 𝑛−1
„ =−
𝑙 𝐿, Σw 𝑋, 𝜇…+ = 𝑋) log 2𝜋 − log LLA + Σw − 𝑇𝑟 [ 𝐿𝐿A + Σw ]$ 𝑆 ]
+
2 2 2
• No hay expresión explícita de los estimadores MLE de 𝐿 y Σw , salvo que

impongamos algunas restricciones adicionales.
• Por consiguiente, se utilizan métodos numéricos de optimización para

obtener dichas estimaciones.
• En cualquier caso, el MLE es invariante bajo transformaciones lineales de

las variables.
• Así, las soluciones obtenidas utilizando las variables originales o

estandarizadas son equivalentes.
• Los diferentes paquetes estadísticos proporcionan solución a este método.

• Con el objetivo de determinar el número de factores con MLE (suponiendo

normalidad), podemos utilizar el “test de ratio de verosimilitud” para las
siguientes hipótesis:
• HU : el número de factores es r
• H$ : el número de factores no es r
• Este test para estas hipótesis viene dado por:
|𝐿{ 𝐿u
A|
]$
𝜆 = 𝑛 log( ) − np + n − 1 Tr ( 𝐿{ 𝐿vA + Σuw 𝑆+ )
|Σu+ |
donde Σu+ es el MLE de Σ+ y 𝑆+ es la matriz de covarianzas muestral.

• El estadístico 𝜆 bajo la hipótesis nula HU tiene una distribución

𝜒(J ']7 g] 'Œ7 )/J
• La idea es aplicar secuencialmente el test LR, es decir, empezar con r=1, si

el test es rechazado, entonces considerar r=2 y así sucesivamente.
• Observa sin embargo que el número máximo de factores que podemos

considerar debe verificar que r cumpla que 𝑝 − 𝑟 J − 𝑝 + 𝑟 > 0.
• Por tanto, existe una valor máximo de r que puede ser utilizado bajo el
método de MLE.
• El método de regresión para el cálculo de puntuaciones factoriales es el que

se utiliza habitualmente con MLE.
• Este método asume que los factores son variables aleatorias, y busca un
predictor lineal que minimice el error cuadrático medio de la predicción.
• El par 𝑓Q .A , 𝑋Q .A A tiene distribución normal multivariante.
• Por tanto, es posible mostrar que el predictor lineal que minimiza el error
cuadrático medio de la predicción es:
𝐸[𝑓Q .A 𝑋Q .A = 𝐼7 + 𝐿A Σw]$ 𝐿 ]$ A ]$
𝐿 Σw (𝑋Q. − 𝜇+ )
• La estimación final se obtiene después de reemplazar 𝜇+ , 𝐿 y ΣŽ por sus

respectivos estimadores ML
Otros métodos de extracción FA
• Método Mínimos cuadrados no ponderados.‐ Para un número fijo de

factores, genera una matriz de coeficientes que minimiza la suma de las
diferencias al cuadrado entre las matrices de correlación observada R y
reproducida, eliminando en las diferencias los elementos de la diagonal.
• Método Mínimos cuadrados generalizados.‐ Minimiza el mismo criterio. La

suma de las diferencias al cuadrado entre las matrices de correlación
observada R y reproducida, ponderando las correlaciones inversamente por
la varianza del factor específico. Este método permite, además, aplicar
contraste de hipótesis para determinar el número de factores.
• Método de Factorización por imágenes.‐ Consiste en aplicar el método de

componentes principales a la matriz de correlaciones R obtenida a partir de
las partes predichas de las diversas regresiones lineales de cada una de las
variables sobre las demás (dicha parte recibe el nombre de imagen de la
variable).
• Método Alfa.‐ Maximiza el alfa de Cronbach para los factores.

Comparación entre los distintos métodos de extracción FA
• Cuando las comunalidades son altas ( > 0,6) todos los procedimientos
tienen a dar la misma solución.
• Cuando las comunalidades son bajas para algunas de las variables, el

método de componentes principales tiende a dar soluciones muy diferentes
del resto de los métodos, con cargas factoriales mayores.
• Si el número de variables es alto ( > 30), las estimaciones de la

comunalidad tienen menos influencia en la solución obtenida y todos los
métodos tienden a ofrecer el mismo resultado.
• Si el número de variables es bajo, todo depende del método utilizado para

estimar las comunalidades y de si éstas son altas más que del método
utilizado para estimarlas.
• Es más robusto utilizar un método para el modelo de factores comunes. El

único problema puede ser la falta de convergencia del método utilizado.
Otros métodos de rotación FA
• La matriz de cargas factoriales tiene un papel importante para interpretar el

significado de los factores.
• Cuando los factores son ortogonales cuantifican el grado y tipo de la

relación entre éstos y las variables originales.
• En la práctica, los métodos de extracción de factores pueden no

proporcionar matrices de cargas factoriales adecuadas para la
interpretación.
• Para acometer este problema están los procedimientos de Rotación de

Factores que, a partir de la solución inicial, buscan factores cuya matriz de
cargas factoriales los hagan más fácilmente interpretables.
• Estos métodos intentan aproximar la solución obtenida al Principio de

Estructura Simple (Louis Leon Thurstone, 1935), según el cual la matriz de
cargas factoriales debe reunir tres características:
1. Cada factor debe tener unos pocos pesos altos y los demás próximos a
cero.
2. Cada variable no debe estar saturada más que en un factor.
3. No deben existir factores con la misma distribución, esto es, dos factores
distintos deben presentar distribuciones diferentes de cargas altas y bajas.
• De esta manera, dado que hay más variables que factores comunes, cada
factor tendrá una correlación alta con un grupo de variables y baja con el
resto de las variables.
• Al examinar las características de las variables de un grupo asociado a un

determinado factor se pueden encontrar rasgos comunes que permitan
identificar el factor y darle una denominación que responda a esos rasgos
comunes.
• Si se consigue identificar claramente estos rasgos, además de reducir la
dimensión del problema, también se desvela la naturaleza de las
interrelaciones existentes entre las variables originales.
• Existen dos formas básicas de realizar la Rotación de Factores:
• Rotación Oblicua
• Rotación Ortogonal
• Se elige uno u otro procedimiento según que los factores rotados sigan
siendo ortogonales o no.
• Señalar que en ambas rotaciones la comunalidad de cada variable no se
modifica, esto es, la rotación no afecta a la bondad del ajuste de la solución
factorial: aunque cambie la matriz factorial, las especificidades no cambian
y, en consecuencia, las comunidades permanecen invariantes.
• Sin embargo, cambia la varianza explicada por cada factor, por tanto, los
nuevos factores no están ordenados de acuerdo con la información que
contienen, cuantificada mediante su varianza.
• Rotación Ortogonal.‐ Los ejes se rotan de forma que quede preservada la

incorrelación entre los factores. Es decir, los nuevos ejes (ejes rotados) son
perpendiculares de igual forma que lo son los factores sin rotar.
• La rotación se apoya en el problema de falta de identificabilidad de los

factores obtenidos por rotaciones ortogonales.
• Los métodos empleados en la rotación ortogonal de factores son:

• Varimax
• Quartimax
• Equamax
• Y en los métodos oblicuos:
• Oblimin
• Promax.
• Varimax: Es un método de rotación que minimiza el número de variables

con cargas altas en un factor, mejorando así la interpretación de factores.
• El método considera que, si se logra aumentar la varianza de las cargas

factoriales al cuadrado de cada factor consiguiendo que algunas de sus
cargas factoriales tiendan a acercarse a 1 mientras que otras se aproximan
a 0, se obtiene una pertenencia más clara e inteligible de cada variable al
factor.
• Los nuevos ejes se obtienen maximizando la suma para los k factores

retenidos de las varianzas de las cargas factoriales al cuadrado dentro de
cada factor.
• Para evitar que las variables con mayores comunalidades tengan más peso
en la solución final, se efectúa la normalización de Kaiser (dividiendo cada
carga factorial al cuadrado por la comunalidad de la variable
correspondiente).
• Quartimax: El objetivo es que cada variable tenga correlaciones elevadas

con un pequeño número de factores. Para ello, maximiza la varianza de las
cargas factoriales al cuadrado de cada variable en los factores,
• Con ello, se logra que cada variable concentre su pertenencia en un

determinado factor, esto es, presente una carga factorial alta mientras que,
en los demás factores, sus cargas factoriales tienden a ser bajas.
• De este modo, la interpretación gana en claridad por cuanto la comunalidad

total de cada variable permanece constante, quedando más evidente hacia
qué factor se inclina con más fuerza cada variable.
• El método será más clarificador, cuanto mayor número de factores se hayan

calculado. Este método tiende a producir un primer factor general, conocido
con el nombre de tamaño, y el resto de factores presentan ponderaciones
menores que las dadas por el método Varimax.
• Equamax: Trata de maximizar la media de los criterios anteriores. Con un

comportamiento similar al de los métodos anteriores.
• Rotación Oblicua.‐ En este caso la matriz T de rotación no tiene que ser

ortogonal (cuando una matriz multiplicada por su transpuesta es la matriz
identidad T T' =I ) sino únicamente no singular (matriz cuadrado cuyo
determinante no es cero).
• De esta manera, los factores rotados no tienen por qué ser ortogonales y
tener, por tanto, correlaciones distintas de cero entre sí.
• La rotación oblicua puede utilizarse cuando es probable que los factores en

la población tengan una correlación muy fuerte.
• Es necesario ir con mucha atención en la interpretación de las rotaciones

oblicuas, pues la superposición de factores puede confundir la significación
de los mismos.
• De esta forma, el análisis gana más flexibilidad y realismo pero a riesgo de

perder robustez, por lo que conviene aplicar estos métodos si el número de
observaciones por factor es elevada.
Validación del modelo FA
• El último paso en el Análisis Factorial es estudiar la validez del modelo.
• El proceso debe realizarse en dos direcciones: Analizando la bondad de

ajuste y la Generalidad de los resultados.
• Bondad de Ajuste.‐ Una suposición básica subyacente al Análisis Factorial

es que la correlación observada entre las variables puede atribuirse a
factores comunes. Por consiguiente, las correlaciones entre variables
pueden deducirse o reproducirse a partir de las correlaciones estimadas
entre las variables y los factores.
• A fin de determinar el ajuste del modelo, pueden estudiarse las diferencias

(residuos) entre las correlaciones observadas (matriz de correlación de
entrada) y las correlaciones reproducidas (como se estiman a partir de la
matriz factorial).
• El modelo factorial es adecuado cuando los residuos son pequeños. Si hay

un porcentaje elevado de residuos superiores a una cantidad pequeña
prefijada (por ejemplo, 0,05), será un indicador de que el modelo factorial
estimado no se ajusta a los datos.
• Se sabe además que hay más estabilidad en los resultados si el número de

casos por variable es alto.
• Generalidad de los resultados.‐ Es conveniente refrendar los resultados del

primer análisis factorial realizando nuevos análisis factoriales sobre nuevas
muestras extraídas de la población objeto de estudio y, en caso de no ser
posible, sobre submuestras de la muestra original.
• En cada caso habrá que estudiar qué factores de los calculados son
corroborados en los distintos análisis llevados a cabo.
• Otra posibilidad es realizar nuevos análisis factoriales modificando las

variables consideradas, bien sea eliminando aquellas variables que no
tienen relación con ningún factor o eliminando las variables con relaciones
más fuertes tratando de descubrir cómo se comporta el resto de ellas sin su
presencia.
• Otro de los procedimientos metodológicos y estadísticos que complementan

y profundizan las interpretaciones que se deducen del análisis factorial
consiste en la realización de otros análisis factoriales en base, no al
conjunto total de la muestra o población, sino referido a subcolectivos o
grupos que están presentes en la muestra y que pueden formarse utilizando
las categorías de las variables primarias.
• Lo que se desprende de los trabajos e investigaciones que han utilizado

este procedimiento es que generalmente la interpretación que se da y que
es válida para el conjunto total de sujetos debe modificarse, en algunos
casos sustancialmente, cuando se refiere a esos subcolectivos. En caso de
ser así, se deriva una doble conclusión:
• (a) Las variables se comportan en el Análisis Factorial de distinta forma

según de qué muestra se trate.
• (b) No existe el sujeto ‘tipo’ sino que existen diferentes ‘tipos’ de sujetos
en la muestra global.
Resumen FA
• El Análisis Factorial es una técnica estadística multivariante cuya finalidad

es analizar las relaciones de interdependencia existentes entre un conjunto
de variables, calculando un conjunto de variables latentes, denominadas
factores, que explican con un número menor de dimensiones, dichas
relaciones.
• Por este motivo, el Análisis Factorial es una técnica de reducción de datos

con un número menor de variables sin distorsionar dicha información, lo que
aumenta el grado de manejo e interpretación de la misma.

T30 Main FA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T30 Main FA

Cargado por

Copyright:

Formatos disponibles

Análisis Multivariante

Análisis Factorial – Factor Analysis FA

Facultad de Ciencias Matemáticas

Ø Introducción al Análisis Factorial FA

• En ocasiones, no es posible medir las cantidades de interés directamente.

• Un ejemplo típico, en Psicología, es la medición de la inteligencia.

• Las puntuaciones en Matemáticas, Lengua y Literatura o test de

• Y a partir de ahí, podemos preguntarnos si sería posible determinar una

• Cuando se recogen un gran número de variables de forma simultánea (por

• Aplicando un análisis factorial a las respuestas de los sujetos se pueden encontrar

• El Análisis Factorial es, por tanto, una técnica de reducción de la dimensionalidad

• Su propósito último consiste en buscar el número mínimo de dimensiones

• A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el

• Fundamentalmente lo que se pretende con el Análisis Factorial es simplificar la

• En definitiva, ¿se trata de un análisis de la estructura subyacente a una serie de

• Un ejemplo concreto de introducción al concepto de varianza compartida y

1º Me lo paso muy bien en mi casa, con mis padres

• La varianza σ2 de cada ítem indica la diferencia que crea en las respuestas. Si

Formulación del problema

Determinación del número de factores

Interpretación de los factores

Validación del modelo

Calculo de puntuaciones factoriales

Selección de las variables representativas

Análisis posteriores: Regresión, clasificación, ...

• Observa que no asumimos ninguna distribución específica para la variable

El modelo factorial establece que X puede ser escrito como sigue:

• µ. = 𝐸[𝑋] es un vector p-dimensional.

• 𝐿 es una matriz p x r de constantes desconocidas llamada matriz de cargas

• f es un vector aleatorio r-dimensional de variables latentes, donde r<p con

• u es un vector p-dimensional no observado (unobserved) de errores con

• Como en el modelo de PCA, el elemento clave del modelo factorial es Σ+ .

• Resulta sencillo comprobar del modelo factorial que:

• Por consiguiente, Σ+ , puede ser escrito en términos de 𝐿 y Σ:

En consecuencia, las varianzas de las variables en X vienen dadas por:

• 1 𝜏II se denomina la j-ésima comunalidad

Adicionalmente, las covarianzas de las variables en X vienen dadas por:

• 𝜎.,IM = 𝐿IA 𝐿M = 𝜏IM para j,k=1,…p con j≠k

• La matriz de cargas factoriales, L, tiene una interpretación simple.

• Por consiguiente, L, es la covarianza entre X, que es el vector aleatorio de

• La finalidad de analizar la matriz de las correlaciones muestrales R formada

• Uno de los requisitos que deben cumplirse es que las variables se

Contrasta, bajo la hipótesis de normalidad multivariante, si la matriz de correlación

Si una matriz de correlación es la identidad significa que las intercorrelaciones

El test de esfericidad de Barlett se obtiene mediante una transformación del

donde n es el número de individuos de la muestra y 𝜆I (𝑗 = 1, … , 𝑝) son los valores

Contrasta, bajo la hipótesis de normalidad multivariante, si la matriz de correlación

Bajo la hipótesis nula, el estadístico se distribuye asintóticamente según una

Por el contrario, si con el test de Barlett se obtienen valores altos de 𝜒 J , o un

En definitiva, si el estadístico del test toma valores grandes ( o un determinante

El coeficiente de correlación parcial es un indicador del grado de relaciones entre

Si las variables comparten factores comunes, el coeficiente de correlación parcial

Las correlaciones parciales son estimaciones de las correlaciones entre los

En definitiva, si existe un número elevado de coeficientes de correlación parcial

Una manera de cuantificar este hecho es con la Media de Adecuación de la

El índice KMO se utiliza para comparar las magnitudes de los coeficientes de

La experiencia práctica aconseja que es precipitado tomar el índice KMO como

• El objetivo del Análisis Factorial (AF) es determinar un número reducido de

• Una vez que se ha determinado que el AF es una técnica apropiada para

• Existen diversos métodos, cada uno de ellos con sus ventajas e

• El modelo factorial 𝑋 = µ. + L f + u teniendo que cuantificar la matriz L de

En el modelo factorial, ni la matriz de cargas factoriales L, ni los factores f, son

Esto plantea un problema de la indeterminación: si H es una matriz ortogonal r x r,