Análisis Factorial:
Análisis de componentes
principales
Abel Lucena
Ferran Carrascosa
Universitat Pompeu Fabra
22 de febrero de 2013
¿En qué consiste el análisis factorial?
El análisis factorial agrupa una serie de procedimientos de análisis
multivariable que analizan la relación mutua entre variables. En este
sentido, el análisis factorial permite estudiar la interdependencia entre un
conjunto de variables.
En comparación con el análisis de regresión, la finalidad principal del
análisis factorial no es el estudio de relaciones causales, sino la agrupación
de variables en función de la variabilidad que cada variable comparte con
otras variables.
La idea fundamental en el análisis factorial es:
Analizar la correlación existente entre una serie de variables, con el
propósito de descubrir alguna estructura latente (no directamente
observable). Se busca la reducción de la información proporcionada por
“p” variables observadas, con la menor pérdida posible de información,
en un número inferior de “k” variables no observadas.
¿En qué consiste el análisis factorial?
La reducción o agrupación de variables en factores o componentes
principales se caracteriza por:
Aglutinar bajo cada factor o componente variables que estén muy
correlacionadas entre ellas.
Garantizar que variables de agrupadas en distintos factores o
componentes este poco correlacionadas.
De hecho, entre factores o componentes, la correlación será igual a
cero. Esta característica nos indica que cada factor o componente
mide o representa una dimensión distinta en los datos
Tipos de modelos factoriales
• Análisis de componentes principales-análisis de factor común
Componentes principales (ACP): se caracteriza por analizar la
varianza total del conjunto de variables observadas. Se trata de
descubrir las componentes principales que definen al conjunto de
variables observadas
Factor común (AFC): estudia las interrelaciones entre variables
tomando en cuenta la varianza común. Su objetivo es determinar el
conjunto reducido de factores que expresen lo que es común al
conjunto de variables observadas.
Análisis factorial exploratorio-análisis factorial confirmatorio
En este caso, el análisis depende de la finalidad y del conocimiento
previo que se tenga de la realidad que se investiga.
Notación
Considérese que los datos de “p” variables sobre “n” objetos u
observaciones, se agrupa en la siguiente matriz:
X 11 X 12 ... X 1 p
X 21 X 22 ... X 2 p
X n1 X n2 ... X np
Podemos calcular la matriz de varianzas y covarianzas asociada a nuestra
matriz de datos:
s11 s12 ... s1 p
s
21 22s ... s 2p
sn1 sn2 ... snp
Notación II
Objetivo del análisis de componentes principales: dadas las “p” variables de
nuestra matriz de datos, queremos construir “p” nuevas variables que
denominaremos componentes principales.
Las nuevas variables deben contener la misma información que las originales
Las nuevas variables deben estar no correlacionadas y deben tener varianza
igual a “1”.
Las nuevas variables deben estar ordenadas de mayor a menor importancia
Las variables originales pueden ser expresadas como una media
ponderada de los componentes principales, tal que los componentes más
importantes tengan mayor peso:
X j w1 j Z1 w2 j Z 2 ... wpj Z p j 1,2, ... p
Notación III
Podemos ordenar todos los pesos en una matriz:
w11 w12 ... w1 p
w21 w22 ... w2 p
wn1 wn2 ... wnp
De esta matriz, tenemos dos importantes resultados:
Variancia Xi: Suma de cuadrados de las filas
2
wi1 wi2
2
... wip2 si2
Variancia Zj: Suma de cuadrados de las columnas
w12j w22 j ... w2pj j
Ejemplo: Datos del fichero Països
Supongamos que la matriz de datos originales esta conformada por cuatro
variables: Esperanza de vida, % de alfabetización, el PIB per capita y
calorías diarias por habitante.
La idea es buscar los “componentes principales” y la matriz de pesos. De
esta manera, podremos usar las componentes principales para definir los
datos originales.
Por los momentos, la idea de este ejercicio es interpretar los resultados
reportados por el SPSS, y entender la relación entre los datos originales y
las componentes principales. Más adelante, la idea será emplear los
componentes principales para reducir y agrupar variables.
Inspeccionemos los datos empleando para ello el análisis de correlación y
los gráficos de dispersión.
Resultados
Comunalidades
Inicial Extracción
Esperança de v ida (1992) 1,000 1,000
% de d'alf abetització
1,000 1,000
(1992)
Calories diàries / habitant 1,000 1,000
LnPIB 1,000 1,000
Método de extracción: Análisis de Componentes principales.
Porción de las
Varianzas de varianzas
las explicadas por
variables los
originales. componentes
La suma de los elementos de
esta columna
coinciden con la varianza total
Resultados II
Estos valores se corresponden con cada λ
(varianza explicada por la componente “j”)
Varianza total explicada
Sumas de las saturaciones al cuadrado
Autov alores iniciales de la extracción
% de la % de la
Componente Total v arianza % acumulado Total v arianza % acumulado
1 3,257 81,437 81,437 3,257 81,437 81,437
2 ,408 10,188 91,625 ,408 10,188 91,625
3 ,206 5,160 96,785 ,206 5,160 96,785
4 ,129 3,215 100,000 ,129 3,215 100,000
Método de extracción: Análisis de Componentes principales.
La suma de cada λ debe ser
igual a la varianza total. En
este caso, igual a 4
Resultados III
Matri z de componentesa
Component e
1 2 3 4
Esperança de v ida (1992) ,944 -,143 -,069 -,290
% de d'alf abetització
,879 -,409 ,194 ,148
(1992)
Calories diàries / habitant ,859 ,455 ,234 ,005
LnPIB ,925 ,112 -,331 ,151
Método de extracción: Análisis de componentes principales.
a. 4 componentes extraídos
Matriz de pesos. Contiene los elementos
que permiten expresar las variables
originales como una combinación lineal de
los componentes principales
Resultado IV: Puntuaciones factoriales
Podemos calcular la matriz de puntuaciones factoriales. Esta matriz contiene los
coeficientes que nos permiten expresar los valores de cada componente principal en
función de las variables originales:
Z j c j1 X 1 c j2 X 2 ... c jp X p j 1,2, ... p
Matri z de coefi cientes para el cál culo de las puntuaci ones en las
componentes
Component e
1 2 3 4
Esperança de v ida (1992) ,290 -,351 -,336 -2,254
% de d'alf abetització
,270 -1,004 ,940 1,149
(1992)
Calories diàries / habitant ,264 1,117 1,132 ,037
LnPIB ,284 ,275 -1,602 1,173
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.