Está en la página 1de 10

APLICACIÓN DE ANÁLISIS FACTORIAL

Facultad de Ciencias Exactas y Naturales


Universidad de Antioquia
Gabriel Fernando Franco Calvo

Resumen
El principal objetivo del trabajo es la aplicación de análisis factorial.
Esta metodologı́a será aplicada a una base de datos, las cuales tienen
ocho variables que miden el desarrollo de 18 paı́ses. Deseamos estudiar si
existen uns factores comunes que expliquen el desarrollo de cada paı́s.

1. Introducción
El nivel de desarrollo de un paı́s es importante ya que los paı́ses desarrolla-
dos le ofrecen a su población niveles de vida alto, de acuerdo a Kofi Annan, ex
secreatrio general de las naciones unidas, (( Un paı́s desarrollado como aquel que
provee a sus habitantes una vida libre y saludable en un ambiente seguro )).

En la actualidad, se han agregado nuevas variables para medir el desarrollo


de un paı́s como lo es el ı́ndice de desarrollo humano que se hace con el PIB
(Producto Interno Bruto), Esperanza de vida e ı́ndice de educación. La base con
la que trabajamos refleja la realidad entre los años 1990 y 1996 por lo que no se
ajustan a la realidad actual ni posee la varible anteriormente descrita.

2. Materiales y métodos
2.1. Materiales
Para la aplicación de l método de análisis factorial, se usa una base de datos
del libro 100 Problemas resueltos de estadśtica multivariante (Baillo,A. Grané,
A.).

La base de datos esta compuesta por 18 observaciones y cada observación es


medida en 8 variables, las cuales son:

X1 : Tasa de mortalidad infantil por cada 1000 nacidos vivos.

X2 : Porcentaje de mujeres en la población activa.

1
X3 : Producto Nacional Bruto (PNB) per capita en 1995 (en $)
X4 : Producción de electricidad (en millones de kw/h)
X5 : Promedio de lı́neas telefónicas por cada 1000 habitantes.
X6 : Consumo de agua per capita en m3 (de 1990 a 1995).
X7 : Consumo de energı́a per capita en 1994.
X8 : Emisión de CO2 per capita en 1992 (en Tm).

Los datos se presentan a continuación:

Paı́s X1 X2 X3 X4 X5 X6 X7 X8
Albania 30 41 670 3903 12 94 341 1.2
Angola 124 46 410 955 6 57 89 0.5
Berlı́n 95 48 370 6 5 26 20 0.1
Congo 90 43 680 435 8 20 331 1.6
Etiopı́a 112 41 100 1293 2 51 22 0.1
Ghana 73 51 390 6115 4 35 93 0.2
Haitı́ 72 43 250 362 8 7 29 0.1
Honduras 45 30 600 2672 29 294 204 0.6
Kenia 58 46 280 3539 9 87 110 0.2
Mozambique 113 48 80 490 3 55 40 0.1
Nepal 91 40 200 927 4 150 28 0.1
Nicaragua 46 36 380 1688 23 367 300 0.6
Senegal 62 42 600 1002 10 202 97 0.4
Sudán 77 28 260 1333 3 633 66 0.1
Tanzania 82 49 120 1913 3 40 34 0.1
Yemen 100 29 260 2159 12 335 206 0.7
Zambia 109 45 400 7785 8 186 149 0.3
Zimbawe 55 44 540 7334 14 136 438 1.8

2.2. Métodos
Análisis Factorial

El análisis factorial es un método que se dirige a establecer si las covarianzas


o correlaciones observadas puedes ser explicadas en términos de un número
pequeño de variables latentes, se trata de indagar acerca del siguiente modelo

X = µ + Λf + U (1)
donde Λp×k es una matriz de constantes (ponderaciones o cargas), f es un
vector columna de k componentes (k ≤ p) o también llamados factores y U es
un vector aleatorio de tamaño (p × 1) con distribución independiente de f y U
son los factores únicos o especı́fico de la variable.

2
     
λ11 λ12 ··· λ1k f1 u1
 λ21 λ22 ··· λ2k   f2   u2 
Λ= ,f =  ,U = 
     
.. .. .. .. .. .. 
 . . . .   .   . 
λp1 λp2 ··· λpk fk up
De la ecuación (1) se muestra que:

k
X
Xi = µi + λij fj + ui , i = 1, · · · , p
j=1

por lo que

k
X
var(Xi ) = σii = λ2ij + ψii donde ψ matriz de diagonal y es cov(U )
j=1

Y de igual formas la varianza de Xi se puede descomponer en dos partes;

k
X
λ2i1 + · · · + λ2ik = λ2ij = h2i, Se denomina comunalidad y representa la varianza de Xi compartida
j=1

cov(U ) = E(U U 0 ) = ψ Variabilidad exclusiva de Xi

La estructura que describe los supuestos anteriores se escribe de la forma:

Cabe resaltar que la escritura de las matrices Λ y son iguales que sin estan-
darizar, en general, no coincide en las dos descomposiciones.

2.2.1. Comunalidad
En el modelo propuesto anteriormente se resaltan dos componentes, una
componente común y una especı́fica de la variable. El interés del método es
saber la cantidad de variabilidad que una variable comparte con las demás.

2.2.2. Métodos de estimación


Existen varios métodos para estimar las ponderaciones factoriales λij y las
varianzas ψij , pero se expondrán los tres más comunes:

3
Método de la componente principal: Con el método de la componente
principal para estimar las ponderaciones λij no se obtienen ninguna componente.
A través de una muesta aleatoria X1 , . . . , Xn se obtiene la matriz de covarianzas
y se pretende buscar un estimador de Λ,

S = Λ̂Λ̂0 + Ψ̂ S es el EMV de Σ
Con el método de la componente principal se considera insignificante Ψ̂, por
lo que la ecuación se factoriza de la forma S = Λ̂Λ̂0 y usando la descomposición
espectral

S = P DP 0
Donde la matriz D se define como aquella que contienen los primeros k
valores propios más grandes y la matriz P los respectivos vectores propios. Ası́,
S se puede escribir como S = Λ̂Λ̂ pero la matriz Λ̂ se puede escribir como
1/2 1/2
Λ̂ = P1 D1 Con Pp×k y Dk×k (2)

Método del factor principal: También es conocido como método del eje
principal y se basa en estimar Ψ̂ y la factorización S − Ψ̂ para obtener

S − Ψ̂ = Λ̂Λ̂0 O R − Ψ = Λ̂Λ̂0 (3)


Donde Λ̂ se calcula usando la expresión (2) empleando los valores propios
y vectores propios de S − Ψ̂ o R − Ψ. La diagonal de la matriz S − Ψ̂ son
las comunalidades hˆ2i = sii − ψ̂i y los elementos de la matriz R − Ψ̂ son las
comunalidades hˆ2i = 1 − ψ̂i

En las ecucaciones anteriores no se conoce el valor de las comunalidades hˆ2i ,


entonces para estimarlas en R − Ψ̂ como
1
hˆ2i = 1 − ii
r
donde rii es el i-ésimo elemento sobre la diagonal de la matriz R−1 que es el co-
eficiente de correlación múltiple entre la variable Xi y las demás (p−1) variables.

Para S − Ψ̂ el estimador es
1
hˆ2i = sii − ii
s
donde sii es el i-ésimo elemento de la diagonal S y sii es el i-ésimo elemento
de la diagonal de S −1 .

4
Método de máxima verosimilitud: Si los factores f y los errores U se
puede asumir con distribución normal, entonces es lógico pensar en estimar por
la máxima verosimilitud. El problema esta en encontrar Λ,Ψ y Φ que satisfaga

cov(X) = Σ = ΛΦΛ0 + Ψ
Para esto, se imponen algunas restricciones para asegurar la existencia y
unicidad de las soluciones.Primero, los factores son independientes, además la
matriz Λ0 Ψ−1 Λ = Γ es diagonal.
( n
)
− 12 pn − 12 n 1X 0 −1
L = (2π) |Σ| exp − (Xα − µ) Σ (Xα − µ) (4)
2 α=1

Derivando y maximizando con respecto a Ln(L) la expresión (4), tenemos


que

S Ψ̂−1 Λ̂ = Λ̂(I + Γ̂Ψ̂−1 Γ̂) (5)


diag(S) = diag(Λ̂Λ̂0 + Ψ̂) (6)

Las ecuaciones anteriores se deben resolver a través de métodos iterativos,


como el método de Newton-Raphson entre otros.

2.2.3. Número máximo de factores comunes


El número m de factores comunes está limitado por un valor máximo ma ,
que se puede determinar con

p(p − 1) m(m − 1) 1
d= − (pm − ) = [(p − m)2 − p − m] (7)
2 2 2

2.2.4. Rotación de factores


Dado que el objetivo con el análisis factorial es obtener una estructura simple
de los factores o variables latentes, entonces cuando los modelos para los factores
estimados no revelan su significado, una rotación puede ayudar en este sentido.

Rotación varimax: El objetivo de esta rotación es tener una estructura de


factores, en la cual cada variable pondere altamente un único factor. Y esto se
hace a través de la maximización de la varianza asociada a los cuadrados de las
ponderaciones sobre todas las variables sin que la restricción de comunalidad no
se altere.

Rotación cuartimax: El objetivo de esta ponderación es identificar una es-


tructura en la cual todas las varaibles tengan una fuerte ponderación con el
mismo factor. Esto se logra a través de la maximización de la varianza de las
ponderaciones de los factores.

5
3. Análisis y resultados
Trabajamos con la matriz de correlación, por lo que centramos y escalamos
nuestra matriz original,

X1 X2 X3 X4 X5 X6 X7 X8
X1 1.00 0.25 -0.53 -0.25 -0.63 -0.23 -0.53 -0.36
X2 0.25 1.00 -0.11 0.17 -0.50 -0.84 -0.23 -0.12
X3 -0.53 -0.11 1.00 0.27 0.54 0.03 0.71 0.73
X4 -0.25 0.17 0.27 1.00 0.18 0.02 0.45 0.32
X5 -0.63 -0.50 0.54 0.18 1.00 0.35 0.61 0.42
X6 -0.23 -0.84 0.03 0.02 0.35 1.00 0.15 -0.03
X7 -0.53 -0.23 0.71 0.45 0.61 0.15 1.00 0.93
X8 -0.36 -0.12 0.73 0.32 0.42 -0.03 0.93 1.00

Cuadro 1: Matriz de correlación

Hallemos los valores propios de la matriz R

## [1] 3.75396969 1.92856531 0.83589467 0.72301070 0.34051808 0.30503439


## [7] 0.09905110 0.01395606

Obervando la salida de los valores propios y el gráfico de variabilidad acu-


mulada, podemos ver que con cuatro factores se alcanza alrededor del 90 % de
variabilidad, y al aumentar el número de factores no hay un aumento significa-
tivo en la variabilividad. Es por eso que se escoge cuatro factores para continuar
con el análisis.

6
Varianza acumulada

1.0
0.9
0.8
Varianza explicada

0.7
0.6
0.5

1 2 3 4 5 6 7 8

Variables

Ahora miremos las ponderaciones factoriales con la ecuación (2)

F1 F2 F3 F4
X1 -0.72 -0.06 -0.03 0.60
X2 -0.43 -0.85 0.04 -0.20
X3 0.80 -0.28 -0.25 -0.02
X4 0.42 -0.40 0.81 0.03
X5 0.80 0.25 -0.08 -0.29
X6 0.34 0.84 0.27 0.18
X7 0.91 -0.23 -0.01 0.24
X8 0.80 -0.38 -0.20 0.38

Ahora miremos la comunalidad y la unicidad

Comunalidad:

7
## [,1]
## [1,] 0.8879420
## [2,] 0.9500436
## [3,] 0.7814634
## [4,] 0.9844166
## [5,] 0.7920028
## [6,] 0.9299098
## [7,] 0.9477777
## [8,] 0.9678844

Del resultado anterior, se evidencia que hay una gran parte de la variabili-
dad sı́ es explicada por estos factores, por lo que la variabilidad debido a cada
variable, es decir, la variabilidad debida especı́ficamente a la variable son muy
pequeñas. Lo cual lo confirmaremos a continuación viendo la unicidad de cada
una de las variables

Unicidad:

## [,1]
## [1,] 0.11205803
## [2,] 0.04995635
## [3,] 0.21853655
## [4,] 0.01558341
## [5,] 0.20799720
## [6,] 0.07009015
## [7,] 0.05222230
## [8,] 0.03211563

Para la estimación de los factores, lo haremos con los tres métodos mencio-
nados anteriormente y una rotación varimax.

Factores con el método de componente principal:

##
## Loadings:
## RC1 RC2 RC4 RC3
## X1 -0.900
## X2 -0.937
## X3 0.761
## X4 0.960
## X5 0.715
## X6 0.951
## X7 0.877
## X8 0.971
##

8
## RC1 RC2 RC4 RC3
## SS loadings 2.549 1.954 1.667 1.071
## Proportion Var 0.319 0.244 0.208 0.134
## Cumulative Var 0.319 0.563 0.771 0.905

Método de máxima verosimilitud:

##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## X1 -0.548
## X2 -0.936
## X3 0.683
## X4 0.650
## X5 0.905
## X6 0.900
## X7 0.848
## X8 0.974
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 2.353 1.823 1.460 0.767
## Proportion Var 0.294 0.228 0.182 0.096
## Cumulative Var 0.294 0.522 0.704 0.800

De las salidas anteriores podemos ver que con la rotación varimax, se logra
que cada una de las variables tengan un peso muy alto en un solo factor y no
halla una confusión y además que con los dos métodos coincide con la distribu-
ción de las variables.

Método del factor principal: Este es un método iterativo y en este caso,


el método no converge por lo que no se puede calcular los factores con este
método. Una de las razones del por qué el método no converge, puede ser que el
Det(X) es cercano a 0, por lo que hay algunos métodos del análisis no covergen
como en este caso.

4. Conclusiones
Después de realizar el análisis factorial, podemos concluir que:

1 El método de máxima verosimilitud y componentes principales, nos brin-


dan el mismo resultado en cuanto a que cada variable tiene un peso muy
alto en un solo factor.
2 El método de las componentes principales, en este caso, tiene una mayor
proporción de variabilidad explicada del 90 % mientras que el método de
máxima verosimilitud llega a un 80 %

9
3 Debido a que el Det(X) es cercano a 0, por lo que hace que el método
llegue al número máximo de iteracciones.
4 A pesar de que las variables están bien definidas en un único factor, no es
posible darle un nombre a cada factor.

Referencias
[1] SÁNCHEZ, L.E, Anális Factorial. Instituto de Matemáticas. Universidad
de Antioquia.
[2] CUADRAS, C.M. Nuevos Métodos de Análisis Multivariante. CMC Edi-
tions, 2014.
[3] PEÑA, D. Análisis de Datos Multivariantes. 2002.
[4] DÍAZ, M. L,G. Estadśtica multivariada: Inferencia y métodos. Editorial Uni-
versidad Nacional de Colombia. 2012.

10

También podría gustarte