Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
El principal objetivo del trabajo es la aplicación de análisis factorial.
Esta metodologı́a será aplicada a una base de datos, las cuales tienen
ocho variables que miden el desarrollo de 18 paı́ses. Deseamos estudiar si
existen uns factores comunes que expliquen el desarrollo de cada paı́s.
1. Introducción
El nivel de desarrollo de un paı́s es importante ya que los paı́ses desarrolla-
dos le ofrecen a su población niveles de vida alto, de acuerdo a Kofi Annan, ex
secreatrio general de las naciones unidas, (( Un paı́s desarrollado como aquel que
provee a sus habitantes una vida libre y saludable en un ambiente seguro )).
2. Materiales y métodos
2.1. Materiales
Para la aplicación de l método de análisis factorial, se usa una base de datos
del libro 100 Problemas resueltos de estadśtica multivariante (Baillo,A. Grané,
A.).
1
X3 : Producto Nacional Bruto (PNB) per capita en 1995 (en $)
X4 : Producción de electricidad (en millones de kw/h)
X5 : Promedio de lı́neas telefónicas por cada 1000 habitantes.
X6 : Consumo de agua per capita en m3 (de 1990 a 1995).
X7 : Consumo de energı́a per capita en 1994.
X8 : Emisión de CO2 per capita en 1992 (en Tm).
Paı́s X1 X2 X3 X4 X5 X6 X7 X8
Albania 30 41 670 3903 12 94 341 1.2
Angola 124 46 410 955 6 57 89 0.5
Berlı́n 95 48 370 6 5 26 20 0.1
Congo 90 43 680 435 8 20 331 1.6
Etiopı́a 112 41 100 1293 2 51 22 0.1
Ghana 73 51 390 6115 4 35 93 0.2
Haitı́ 72 43 250 362 8 7 29 0.1
Honduras 45 30 600 2672 29 294 204 0.6
Kenia 58 46 280 3539 9 87 110 0.2
Mozambique 113 48 80 490 3 55 40 0.1
Nepal 91 40 200 927 4 150 28 0.1
Nicaragua 46 36 380 1688 23 367 300 0.6
Senegal 62 42 600 1002 10 202 97 0.4
Sudán 77 28 260 1333 3 633 66 0.1
Tanzania 82 49 120 1913 3 40 34 0.1
Yemen 100 29 260 2159 12 335 206 0.7
Zambia 109 45 400 7785 8 186 149 0.3
Zimbawe 55 44 540 7334 14 136 438 1.8
2.2. Métodos
Análisis Factorial
X = µ + Λf + U (1)
donde Λp×k es una matriz de constantes (ponderaciones o cargas), f es un
vector columna de k componentes (k ≤ p) o también llamados factores y U es
un vector aleatorio de tamaño (p × 1) con distribución independiente de f y U
son los factores únicos o especı́fico de la variable.
2
λ11 λ12 ··· λ1k f1 u1
λ21 λ22 ··· λ2k f2 u2
Λ= ,f = ,U =
.. .. .. .. .. ..
. . . . . .
λp1 λp2 ··· λpk fk up
De la ecuación (1) se muestra que:
k
X
Xi = µi + λij fj + ui , i = 1, · · · , p
j=1
por lo que
k
X
var(Xi ) = σii = λ2ij + ψii donde ψ matriz de diagonal y es cov(U )
j=1
k
X
λ2i1 + · · · + λ2ik = λ2ij = h2i, Se denomina comunalidad y representa la varianza de Xi compartida
j=1
Cabe resaltar que la escritura de las matrices Λ y son iguales que sin estan-
darizar, en general, no coincide en las dos descomposiciones.
2.2.1. Comunalidad
En el modelo propuesto anteriormente se resaltan dos componentes, una
componente común y una especı́fica de la variable. El interés del método es
saber la cantidad de variabilidad que una variable comparte con las demás.
3
Método de la componente principal: Con el método de la componente
principal para estimar las ponderaciones λij no se obtienen ninguna componente.
A través de una muesta aleatoria X1 , . . . , Xn se obtiene la matriz de covarianzas
y se pretende buscar un estimador de Λ,
S = Λ̂Λ̂0 + Ψ̂ S es el EMV de Σ
Con el método de la componente principal se considera insignificante Ψ̂, por
lo que la ecuación se factoriza de la forma S = Λ̂Λ̂0 y usando la descomposición
espectral
S = P DP 0
Donde la matriz D se define como aquella que contienen los primeros k
valores propios más grandes y la matriz P los respectivos vectores propios. Ası́,
S se puede escribir como S = Λ̂Λ̂ pero la matriz Λ̂ se puede escribir como
1/2 1/2
Λ̂ = P1 D1 Con Pp×k y Dk×k (2)
Método del factor principal: También es conocido como método del eje
principal y se basa en estimar Ψ̂ y la factorización S − Ψ̂ para obtener
Para S − Ψ̂ el estimador es
1
hˆ2i = sii − ii
s
donde sii es el i-ésimo elemento de la diagonal S y sii es el i-ésimo elemento
de la diagonal de S −1 .
4
Método de máxima verosimilitud: Si los factores f y los errores U se
puede asumir con distribución normal, entonces es lógico pensar en estimar por
la máxima verosimilitud. El problema esta en encontrar Λ,Ψ y Φ que satisfaga
cov(X) = Σ = ΛΦΛ0 + Ψ
Para esto, se imponen algunas restricciones para asegurar la existencia y
unicidad de las soluciones.Primero, los factores son independientes, además la
matriz Λ0 Ψ−1 Λ = Γ es diagonal.
( n
)
− 12 pn − 12 n 1X 0 −1
L = (2π) |Σ| exp − (Xα − µ) Σ (Xα − µ) (4)
2 α=1
p(p − 1) m(m − 1) 1
d= − (pm − ) = [(p − m)2 − p − m] (7)
2 2 2
5
3. Análisis y resultados
Trabajamos con la matriz de correlación, por lo que centramos y escalamos
nuestra matriz original,
X1 X2 X3 X4 X5 X6 X7 X8
X1 1.00 0.25 -0.53 -0.25 -0.63 -0.23 -0.53 -0.36
X2 0.25 1.00 -0.11 0.17 -0.50 -0.84 -0.23 -0.12
X3 -0.53 -0.11 1.00 0.27 0.54 0.03 0.71 0.73
X4 -0.25 0.17 0.27 1.00 0.18 0.02 0.45 0.32
X5 -0.63 -0.50 0.54 0.18 1.00 0.35 0.61 0.42
X6 -0.23 -0.84 0.03 0.02 0.35 1.00 0.15 -0.03
X7 -0.53 -0.23 0.71 0.45 0.61 0.15 1.00 0.93
X8 -0.36 -0.12 0.73 0.32 0.42 -0.03 0.93 1.00
6
Varianza acumulada
1.0
0.9
0.8
Varianza explicada
0.7
0.6
0.5
1 2 3 4 5 6 7 8
Variables
F1 F2 F3 F4
X1 -0.72 -0.06 -0.03 0.60
X2 -0.43 -0.85 0.04 -0.20
X3 0.80 -0.28 -0.25 -0.02
X4 0.42 -0.40 0.81 0.03
X5 0.80 0.25 -0.08 -0.29
X6 0.34 0.84 0.27 0.18
X7 0.91 -0.23 -0.01 0.24
X8 0.80 -0.38 -0.20 0.38
Comunalidad:
7
## [,1]
## [1,] 0.8879420
## [2,] 0.9500436
## [3,] 0.7814634
## [4,] 0.9844166
## [5,] 0.7920028
## [6,] 0.9299098
## [7,] 0.9477777
## [8,] 0.9678844
Del resultado anterior, se evidencia que hay una gran parte de la variabili-
dad sı́ es explicada por estos factores, por lo que la variabilidad debido a cada
variable, es decir, la variabilidad debida especı́ficamente a la variable son muy
pequeñas. Lo cual lo confirmaremos a continuación viendo la unicidad de cada
una de las variables
Unicidad:
## [,1]
## [1,] 0.11205803
## [2,] 0.04995635
## [3,] 0.21853655
## [4,] 0.01558341
## [5,] 0.20799720
## [6,] 0.07009015
## [7,] 0.05222230
## [8,] 0.03211563
Para la estimación de los factores, lo haremos con los tres métodos mencio-
nados anteriormente y una rotación varimax.
##
## Loadings:
## RC1 RC2 RC4 RC3
## X1 -0.900
## X2 -0.937
## X3 0.761
## X4 0.960
## X5 0.715
## X6 0.951
## X7 0.877
## X8 0.971
##
8
## RC1 RC2 RC4 RC3
## SS loadings 2.549 1.954 1.667 1.071
## Proportion Var 0.319 0.244 0.208 0.134
## Cumulative Var 0.319 0.563 0.771 0.905
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## X1 -0.548
## X2 -0.936
## X3 0.683
## X4 0.650
## X5 0.905
## X6 0.900
## X7 0.848
## X8 0.974
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 2.353 1.823 1.460 0.767
## Proportion Var 0.294 0.228 0.182 0.096
## Cumulative Var 0.294 0.522 0.704 0.800
De las salidas anteriores podemos ver que con la rotación varimax, se logra
que cada una de las variables tengan un peso muy alto en un solo factor y no
halla una confusión y además que con los dos métodos coincide con la distribu-
ción de las variables.
4. Conclusiones
Después de realizar el análisis factorial, podemos concluir que:
9
3 Debido a que el Det(X) es cercano a 0, por lo que hace que el método
llegue al número máximo de iteracciones.
4 A pesar de que las variables están bien definidas en un único factor, no es
posible darle un nombre a cada factor.
Referencias
[1] SÁNCHEZ, L.E, Anális Factorial. Instituto de Matemáticas. Universidad
de Antioquia.
[2] CUADRAS, C.M. Nuevos Métodos de Análisis Multivariante. CMC Edi-
tions, 2014.
[3] PEÑA, D. Análisis de Datos Multivariantes. 2002.
[4] DÍAZ, M. L,G. Estadśtica multivariada: Inferencia y métodos. Editorial Uni-
versidad Nacional de Colombia. 2012.
10