Articulo Factorial PDF

APLICACIÓN DE ANÁLISIS FACTORIAL
Facultad de Ciencias Exactas y Naturales

Universidad de Antioquia
Gabriel Fernando Franco Calvo
Resumen
El principal objetivo del trabajo es la aplicación de análisis factorial.
Esta metodologı́a será aplicada a una base de datos, las cuales tienen
ocho variables que miden el desarrollo de 18 paı́ses. Deseamos estudiar si
existen uns factores comunes que expliquen el desarrollo de cada paı́s.
1. Introducción
El nivel de desarrollo de un paı́s es importante ya que los paı́ses desarrolla-
dos le ofrecen a su población niveles de vida alto, de acuerdo a Kofi Annan, ex
secreatrio general de las naciones unidas, (( Un paı́s desarrollado como aquel que
provee a sus habitantes una vida libre y saludable en un ambiente seguro )).
En la actualidad, se han agregado nuevas variables para medir el desarrollo

de un paı́s como lo es el ı́ndice de desarrollo humano que se hace con el PIB
(Producto Interno Bruto), Esperanza de vida e ı́ndice de educación. La base con
la que trabajamos refleja la realidad entre los años 1990 y 1996 por lo que no se
ajustan a la realidad actual ni posee la varible anteriormente descrita.
2. Materiales y métodos
2.1. Materiales
Para la aplicación de l método de análisis factorial, se usa una base de datos
del libro 100 Problemas resueltos de estadśtica multivariante (Baillo,A. Grané,
A.).
La base de datos esta compuesta por 18 observaciones y cada observación es

medida en 8 variables, las cuales son:
X1 : Tasa de mortalidad infantil por cada 1000 nacidos vivos.
X2 : Porcentaje de mujeres en la población activa.
1
X3 : Producto Nacional Bruto (PNB) per capita en 1995 (en $)
X4 : Producción de electricidad (en millones de kw/h)
X5 : Promedio de lı́neas telefónicas por cada 1000 habitantes.
X6 : Consumo de agua per capita en m3 (de 1990 a 1995).
X7 : Consumo de energı́a per capita en 1994.
X8 : Emisión de CO2 per capita en 1992 (en Tm).
Los datos se presentan a continuación:
Paı́s X1 X2 X3 X4 X5 X6 X7 X8
Albania 30 41 670 3903 12 94 341 1.2
Angola 124 46 410 955 6 57 89 0.5
Berlı́n 95 48 370 6 5 26 20 0.1
Congo 90 43 680 435 8 20 331 1.6
Etiopı́a 112 41 100 1293 2 51 22 0.1
Ghana 73 51 390 6115 4 35 93 0.2
Haitı́ 72 43 250 362 8 7 29 0.1
Honduras 45 30 600 2672 29 294 204 0.6
Kenia 58 46 280 3539 9 87 110 0.2
Mozambique 113 48 80 490 3 55 40 0.1
Nepal 91 40 200 927 4 150 28 0.1
Nicaragua 46 36 380 1688 23 367 300 0.6
Senegal 62 42 600 1002 10 202 97 0.4
Sudán 77 28 260 1333 3 633 66 0.1
Tanzania 82 49 120 1913 3 40 34 0.1
Yemen 100 29 260 2159 12 335 206 0.7
Zambia 109 45 400 7785 8 186 149 0.3
Zimbawe 55 44 540 7334 14 136 438 1.8
2.2. Métodos
Análisis Factorial
El análisis factorial es un método que se dirige a establecer si las covarianzas

o correlaciones observadas puedes ser explicadas en términos de un número
pequeño de variables latentes, se trata de indagar acerca del siguiente modelo
X = µ + Λf + U (1)
donde Λp×k es una matriz de constantes (ponderaciones o cargas), f es un
vector columna de k componentes (k ≤ p) o también llamados factores y U es
un vector aleatorio de tamaño (p × 1) con distribución independiente de f y U
son los factores únicos o especı́fico de la variable.
2
     
λ11 λ12 ··· λ1k f1 u1
 λ21 λ22 ··· λ2k   f2   u2 
Λ= ,f =  ,U = 
     
.. .. .. .. .. .. 
 . . . .   .   . 
λp1 λp2 ··· λpk fk up
De la ecuación (1) se muestra que:
k
X
Xi = µi + λij fj + ui , i = 1, · · · , p
j=1
por lo que
k
X
var(Xi ) = σii = λ2ij + ψii donde ψ matriz de diagonal y es cov(U )
j=1
Y de igual formas la varianza de Xi se puede descomponer en dos partes;
k
X
λ2i1 + · · · + λ2ik = λ2ij = h2i, Se denomina comunalidad y representa la varianza de Xi compartida
j=1
cov(U ) = E(U U 0 ) = ψ Variabilidad exclusiva de Xi
La estructura que describe los supuestos anteriores se escribe de la forma:
Cabe resaltar que la escritura de las matrices Λ y son iguales que sin estan-
darizar, en general, no coincide en las dos descomposiciones.
2.2.1. Comunalidad
En el modelo propuesto anteriormente se resaltan dos componentes, una
componente común y una especı́fica de la variable. El interés del método es
saber la cantidad de variabilidad que una variable comparte con las demás.
2.2.2. Métodos de estimación

Existen varios métodos para estimar las ponderaciones factoriales λij y las
varianzas ψij , pero se expondrán los tres más comunes:
3
Método de la componente principal: Con el método de la componente
principal para estimar las ponderaciones λij no se obtienen ninguna componente.
A través de una muesta aleatoria X1 , . . . , Xn se obtiene la matriz de covarianzas
y se pretende buscar un estimador de Λ,
S = Λ̂Λ̂0 + Ψ̂ S es el EMV de Σ
Con el método de la componente principal se considera insignificante Ψ̂, por
lo que la ecuación se factoriza de la forma S = Λ̂Λ̂0 y usando la descomposición
espectral
S = P DP 0
Donde la matriz D se define como aquella que contienen los primeros k
valores propios más grandes y la matriz P los respectivos vectores propios. Ası́,
S se puede escribir como S = Λ̂Λ̂ pero la matriz Λ̂ se puede escribir como
1/2 1/2
Λ̂ = P1 D1 Con Pp×k y Dk×k (2)
Método del factor principal: También es conocido como método del eje
principal y se basa en estimar Ψ̂ y la factorización S − Ψ̂ para obtener
S − Ψ̂ = Λ̂Λ̂0 O R − Ψ = Λ̂Λ̂0 (3)

Donde Λ̂ se calcula usando la expresión (2) empleando los valores propios
y vectores propios de S − Ψ̂ o R − Ψ. La diagonal de la matriz S − Ψ̂ son
las comunalidades hˆ2i = sii − ψ̂i y los elementos de la matriz R − Ψ̂ son las
comunalidades hˆ2i = 1 − ψ̂i
En las ecucaciones anteriores no se conoce el valor de las comunalidades hˆ2i ,

entonces para estimarlas en R − Ψ̂ como
1
hˆ2i = 1 − ii
r
donde rii es el i-ésimo elemento sobre la diagonal de la matriz R−1 que es el co-
eficiente de correlación múltiple entre la variable Xi y las demás (p−1) variables.
Para S − Ψ̂ el estimador es
1
hˆ2i = sii − ii
s
donde sii es el i-ésimo elemento de la diagonal S y sii es el i-ésimo elemento
de la diagonal de S −1 .
4
Método de máxima verosimilitud: Si los factores f y los errores U se
puede asumir con distribución normal, entonces es lógico pensar en estimar por
la máxima verosimilitud. El problema esta en encontrar Λ,Ψ y Φ que satisfaga
cov(X) = Σ = ΛΦΛ0 + Ψ
Para esto, se imponen algunas restricciones para asegurar la existencia y
unicidad de las soluciones.Primero, los factores son independientes, además la
matriz Λ0 Ψ−1 Λ = Γ es diagonal.
( n
)
− 12 pn − 12 n 1X 0 −1
L = (2π) |Σ| exp − (Xα − µ) Σ (Xα − µ) (4)
2 α=1
Derivando y maximizando con respecto a Ln(L) la expresión (4), tenemos

que
S Ψ̂−1 Λ̂ = Λ̂(I + Γ̂Ψ̂−1 Γ̂) (5)

diag(S) = diag(Λ̂Λ̂0 + Ψ̂) (6)
Las ecuaciones anteriores se deben resolver a través de métodos iterativos,

como el método de Newton-Raphson entre otros.
2.2.3. Número máximo de factores comunes

El número m de factores comunes está limitado por un valor máximo ma ,
que se puede determinar con
p(p − 1) m(m − 1) 1
d= − (pm − ) = [(p − m)2 − p − m] (7)
2 2 2
2.2.4. Rotación de factores

Dado que el objetivo con el análisis factorial es obtener una estructura simple
de los factores o variables latentes, entonces cuando los modelos para los factores
estimados no revelan su significado, una rotación puede ayudar en este sentido.
Rotación varimax: El objetivo de esta rotación es tener una estructura de

factores, en la cual cada variable pondere altamente un único factor. Y esto se
hace a través de la maximización de la varianza asociada a los cuadrados de las
ponderaciones sobre todas las variables sin que la restricción de comunalidad no
se altere.
Rotación cuartimax: El objetivo de esta ponderación es identificar una es-

tructura en la cual todas las varaibles tengan una fuerte ponderación con el
mismo factor. Esto se logra a través de la maximización de la varianza de las
ponderaciones de los factores.
5
3. Análisis y resultados
Trabajamos con la matriz de correlación, por lo que centramos y escalamos
nuestra matriz original,
X1 X2 X3 X4 X5 X6 X7 X8
X1 1.00 0.25 -0.53 -0.25 -0.63 -0.23 -0.53 -0.36
X2 0.25 1.00 -0.11 0.17 -0.50 -0.84 -0.23 -0.12
X3 -0.53 -0.11 1.00 0.27 0.54 0.03 0.71 0.73
X4 -0.25 0.17 0.27 1.00 0.18 0.02 0.45 0.32
X5 -0.63 -0.50 0.54 0.18 1.00 0.35 0.61 0.42
X6 -0.23 -0.84 0.03 0.02 0.35 1.00 0.15 -0.03
X7 -0.53 -0.23 0.71 0.45 0.61 0.15 1.00 0.93
X8 -0.36 -0.12 0.73 0.32 0.42 -0.03 0.93 1.00
Cuadro 1: Matriz de correlación
Hallemos los valores propios de la matriz R
## [1] 3.75396969 1.92856531 0.83589467 0.72301070 0.34051808 0.30503439

## [7] 0.09905110 0.01395606
Obervando la salida de los valores propios y el gráfico de variabilidad acu-

mulada, podemos ver que con cuatro factores se alcanza alrededor del 90 % de
variabilidad, y al aumentar el número de factores no hay un aumento significa-
tivo en la variabilividad. Es por eso que se escoge cuatro factores para continuar
con el análisis.
6
Varianza acumulada
1.0
0.9
0.8
Varianza explicada
0.7
0.6
0.5
1 2 3 4 5 6 7 8
Variables
Ahora miremos las ponderaciones factoriales con la ecuación (2)
F1 F2 F3 F4
X1 -0.72 -0.06 -0.03 0.60
X2 -0.43 -0.85 0.04 -0.20
X3 0.80 -0.28 -0.25 -0.02
X4 0.42 -0.40 0.81 0.03
X5 0.80 0.25 -0.08 -0.29
X6 0.34 0.84 0.27 0.18
X7 0.91 -0.23 -0.01 0.24
X8 0.80 -0.38 -0.20 0.38
Ahora miremos la comunalidad y la unicidad
Comunalidad:
7
## [,1]
## [1,] 0.8879420
## [2,] 0.9500436
## [3,] 0.7814634
## [4,] 0.9844166
## [5,] 0.7920028
## [6,] 0.9299098
## [7,] 0.9477777
## [8,] 0.9678844
Del resultado anterior, se evidencia que hay una gran parte de la variabili-
dad sı́ es explicada por estos factores, por lo que la variabilidad debido a cada
variable, es decir, la variabilidad debida especı́ficamente a la variable son muy
pequeñas. Lo cual lo confirmaremos a continuación viendo la unicidad de cada
una de las variables
Unicidad:
## [,1]
## [1,] 0.11205803
## [2,] 0.04995635
## [3,] 0.21853655
## [4,] 0.01558341
## [5,] 0.20799720
## [6,] 0.07009015
## [7,] 0.05222230
## [8,] 0.03211563
Para la estimación de los factores, lo haremos con los tres métodos mencio-
nados anteriormente y una rotación varimax.
Factores con el método de componente principal:
##
## Loadings:
## RC1 RC2 RC4 RC3
## X1 -0.900
## X2 -0.937
## X3 0.761
## X4 0.960
## X5 0.715
## X6 0.951
## X7 0.877
## X8 0.971
##
8
## RC1 RC2 RC4 RC3
## SS loadings 2.549 1.954 1.667 1.071
## Proportion Var 0.319 0.244 0.208 0.134
## Cumulative Var 0.319 0.563 0.771 0.905
Método de máxima verosimilitud:
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## X1 -0.548
## X2 -0.936
## X3 0.683
## X4 0.650
## X5 0.905
## X6 0.900
## X7 0.848
## X8 0.974
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 2.353 1.823 1.460 0.767
## Proportion Var 0.294 0.228 0.182 0.096
## Cumulative Var 0.294 0.522 0.704 0.800
De las salidas anteriores podemos ver que con la rotación varimax, se logra
que cada una de las variables tengan un peso muy alto en un solo factor y no
halla una confusión y además que con los dos métodos coincide con la distribu-
ción de las variables.
Método del factor principal: Este es un método iterativo y en este caso,

el método no converge por lo que no se puede calcular los factores con este
método. Una de las razones del por qué el método no converge, puede ser que el
Det(X) es cercano a 0, por lo que hay algunos métodos del análisis no covergen
como en este caso.
4. Conclusiones
Después de realizar el análisis factorial, podemos concluir que:
1 El método de máxima verosimilitud y componentes principales, nos brin-

dan el mismo resultado en cuanto a que cada variable tiene un peso muy
alto en un solo factor.
2 El método de las componentes principales, en este caso, tiene una mayor
proporción de variabilidad explicada del 90 % mientras que el método de
máxima verosimilitud llega a un 80 %
9
3 Debido a que el Det(X) es cercano a 0, por lo que hace que el método
llegue al número máximo de iteracciones.
4 A pesar de que las variables están bien definidas en un único factor, no es
posible darle un nombre a cada factor.
Referencias
[1] SÁNCHEZ, L.E, Anális Factorial. Instituto de Matemáticas. Universidad
de Antioquia.
[2] CUADRAS, C.M. Nuevos Métodos de Análisis Multivariante. CMC Edi-
tions, 2014.
[3] PEÑA, D. Análisis de Datos Multivariantes. 2002.
[4] DÍAZ, M. L,G. Estadśtica multivariada: Inferencia y métodos. Editorial Uni-
versidad Nacional de Colombia. 2012.
10

Articulo Factorial PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Articulo Factorial PDF

Cargado por

Copyright:

Formatos disponibles

APLICACIÓN DE ANÁLISIS FACTORIAL

Facultad de Ciencias Exactas y Naturales

En la actualidad, se han agregado nuevas variables para medir el desarrollo

La base de datos esta compuesta por 18 observaciones y cada observación es

X1 : Tasa de mortalidad infantil por cada 1000 nacidos vivos.

X2 : Porcentaje de mujeres en la población activa.

Los datos se presentan a continuación:

El análisis factorial es un método que se dirige a establecer si las covarianzas

Y de igual formas la varianza de Xi se puede descomponer en dos partes;

cov(U ) = E(U U 0 ) = ψ Variabilidad exclusiva de Xi

La estructura que describe los supuestos anteriores se escribe de la forma:

2.2.2. Métodos de estimación

S − Ψ̂ = Λ̂Λ̂0 O R − Ψ = Λ̂Λ̂0 (3)

En las ecucaciones anteriores no se conoce el valor de las comunalidades hˆ2i ,

Derivando y maximizando con respecto a Ln(L) la expresión (4), tenemos

S Ψ̂−1 Λ̂ = Λ̂(I + Γ̂Ψ̂−1 Γ̂) (5)

Las ecuaciones anteriores se deben resolver a través de métodos iterativos,

2.2.3. Número máximo de factores comunes

2.2.4. Rotación de factores

Rotación varimax: El objetivo de esta rotación es tener una estructura de

Rotación cuartimax: El objetivo de esta ponderación es identificar una es-

Cuadro 1: Matriz de correlación

Hallemos los valores propios de la matriz R

## [1] 3.75396969 1.92856531 0.83589467 0.72301070 0.34051808 0.30503439

Obervando la salida de los valores propios y el gráfico de variabilidad acu-

Ahora miremos las ponderaciones factoriales con la ecuación (2)

Ahora miremos la comunalidad y la unicidad

Factores con el método de componente principal:

Método de máxima verosimilitud:

Método del factor principal: Este es un método iterativo y en este caso,

1 El método de máxima verosimilitud y componentes principales, nos brin-

También podría gustarte