Está en la página 1de 9

Anlisisfactorial

EliseoMartnez H.
1. Introduccin
Enestaseccinnecesitaremosfuertesherramientasestadsticas. Observequehastaahora,
enlosmtodosdeanlisismultivariantequehemosutilizadohemostrabajadoconlamatriz
Xdedatosparareducir variablesoclasificar observacionesyvariables, queendefinitiva
sonmtodos parareconocer patrones oestructurassubyacentes entrelasobservaciones o
entrelasrespuestasalasvariables. El mtododel anlisisfactorial sirveparaexplicar un
conjunto devariables observadas medianteunpequeo nmero devariables latentes no
observadas (nomedidas). Estasvariableslatenteslasllamaremosfactores.
Intentaremosexplicar cmoestasvariablesobservadaspuedenser explicadaspor fac-
toresnoobservadosmedianteunossencillosejemplos. Supongamosquequeremosmedirla
eficienciadeunaempresa, yparaestoaplicamosunaseriedevariables(preguntas) quenos
daninformacinsobrelaempresaparaintentar medir sueficiencia. Por logeneral ocurre
quedentrodelaseriedevariablesaplicadasalaempresastrasnosonindependientesentre
s, ydetal formaque, conocidaslasqueestnfuertementecorelacionadaspodemosconocer
algunasdeellasparapredecir lasrestantesconpocoerror; yadems, esloqueesperamos,
seformarngruposdealtacorrelacinquedarnaconocer losfactoreslatentesquedarn
sentidoysimplificarnlaseriedevariablesconquemedimoslaeficienciadelaempresa.
Otroejemplo. Supongamosquetomamos unaveintenademediciones del cuerpohu-
mano. Esclaramenteintuitivoquevariasdeesasmedicionesestarnfuertementecorrela-
cionadas, por ejemplolaestaturadeunapersonaestarfuertementecorrelacionadaconla
longituddel pie, etctera. Detal formaque, engeneral lasdimensionesdel cuerpohumano
dependerndeciertosfactores, quesi losdescubrimos, podramosprever lasdimensiones
conmenosvariablesyconerromnimo.
Unltimoejemplo. Supongamos quequeremos estudiar el desarrollo humano enlos
pases del mundo o de un determinado continente, y para esto realizamos una serie de
medicionesquetienenqueseobtienenmedianteaplicacionesdevariableseconmicas, so-
cialesydemogrficas, yquecontodaseguridadmuchasdeellasestarnfuertementecor-
relacionadas, piensepor ejemploenlavariableProductoInternoBrutoqueestarfuerte-
mentecorrelacionadaconlavariablepresupuestoparalainvestigacincientficanacional.
Demodoqueel desarrollodeunpasdependerdeunosciertosfactoresquesi soncono-
cidospodemosprever el conjuntodelasvariablesparacadapas.
Esclaroqueestosfactores, si sondescubiertos, nodebenestar correlacionadosentres.
Esposiblequelabsquedadeestosfactotresseconfundaconlabsquedadelascompo-
nentes principales delas variables. Algodecierto hay enesto, sinembargo, recordemos
quelas componentes principales seconstruyenparaexplicar las varianzas entrelas vari-
1
ables, mientras que, como lo veremos aqu, los factores seconstruirn paraexplicar las
covarianzasocorrelacionesentrelasvariables. Hay otradiferenciamsentrelascompo-
nentes principales y los factores. Las primeras sonunaherramientadescriptivaodetipo
exploratoria, mientras queel anlisisfactorial exigeunmodeloestadsticoformal parala
generacindedatos, ypor lotantoacudealaspruebasdehiptesisyalainferencia.
2. El modelo estadstico para el anlisis factorial
Supongamos quetenemos unaseriedevariablesx
1
, x
2
, ..., x
p
quevamos aaplicar auna
determinadaunidadmuestral queestbajoestudio. Entoncesformamosunvector devari-
ables x = (x
1
, x
2
, ..., x
p
)
t
. La hiptesis bsica es queel vector x admitela siguiente
representacin
x = +f +u (1)
donde:
(1) esunvector constantedep 1
(2) f esunvector dem1 querepresentalasvariableslatentesofactores. Sesuponeque
estevector sigueunadistribucinnormal N
m
(0, I). Es decir cadacomponentetiene
mediacero, independientesentrelascomponentesydevarianza1por componente.
(3) esunamatrizdepmdeconstantesconocidas, conm < p. Contieneloscoeficientes
quedescribencomolosfactoresexplicanodescribenal vector devariablesx. A esta
matrizselellamamatriz de carga.
(4) u esunvector delamismadimensindex, ydescribelasperturbacionesnoexplicadas
por losfactores. Sesuponequeu tienedistribucinN
p
(0, ), dondeesunamatriz
dep p diagonal delaformadiag{
2
1
, . . . ,
2
p
}, yademssupondremosqueu yf no
estncorrelacionados.
Conestashiptesissededuceque:
(a) E[x] =
(b) El vector devariablesx sigueunadistribucinnormal x N(, V) por ser sumade
variablesnormales, y adems lamatriz devarianzasy covarianzasV secalculadela
siguientemanera.
V = E
h
(x ) (x )
t
i
= E
h
(f +u) (f +u)
t
i
= E

f f
t

t
+f u
t
+uf
t

t
+uu
t

= E

f f
t

t
+E

f u
t

+E

uf
t

t
+E

uu
t

=
t
+
puestoqueu yf noestncorrelacionados. Lamatriz devarianzaycovarianzaV esla
sumaentre
t
, queesunamatriz simtricaderangom<p, yestamatriz contienela
partecomnal conjuntodelasvariablesydependedelascovarianzasentrelasvariables
ylosfactores; yentre, quecontienelavariabilidadespecficadecadavariables, que
esindependientedel resto.
2
Laigualdad
V =
t
+
entregabastanteobservacin. Enefecto, laecuacin(1) sedetallacomo
x
1
=
1
+
11
f
1
+
12
f
2
+ +
1m
f
m
+u
1
x
2
=
2
+
21
f
1
+
22
f
2
+ +
2m
f
m
+u
2
.
.
.
x
i
=
i
+
i1
f
1
+
i2
f
2
+ +
im
f
m
+u
i
.
.
.
x
p
=
p
+
p1
f
1
+
p2
f
2
+ +
pm
f
m
+u
p
Luegosi calculamoslavarianzaalavariablex
i
obtenemos
V [x
i
] =
m
X
j=1

2
i j
V [f
j
] +V [u
i
]
ypuestoqueV [f
j
] = 1, paratodoj = 1, ..., p, yademsV [u
i
] =
i
setieneque
V [x
i
] =
2
i
=
m
X
j=1

2
i j
+
2
i
Y estadescomposicindevarianzastienelamismainterpretacinqueladescomposicin
paralaANDEVA, dondeel primer sumandor
P
m
j=1

2
i j
es lapartedelavarianzade
2
i
queesexplicadapor losfactoresyquellamaremoscomunalidad, yel otrosumandoesel
efectodelaperturbacinnoexplicadapor el modelo(1) oruido blanco, oavecesllamada
variabilidad comn. A lacomunalidad delavariablex
i
ladenotaremospor
h
2
i
=
m
X
j=1

2
i j
demaneraque

2
i
= h
2
i
+
2
i
Finalmentepodemosobtener otrapropiedadgeneradapor el modelo(1), yestaesque
E

(x ) f
t

=
Enefecto, delaecuacin(1) tenemosque
(x ) f
t
= f f
t
+uf
t
E
h
(x ) f
t
i
= E

f f
t

+E

uf
t

E
h
(x ) f
t
i
=
puestoqueE

f f
t

= I yE

uf
t

= 0 yaquenocorrelacionan.
Finalmentelaecuacin(1) implicaquedadaunamuestrai alacual leaplicamos la
variablex
j
, estoesx
j
(i) = x
i j
, entonces
x
i j
=
j
+
j1
f
1i
+
j 2
f
2 i
+ +
j m
f
mi
+u
i j
; i = 1, ..., n ; j = 1, ..., p (2)
3
Y estaecuacinestindicandoqueel valor observadopor laisimamuestraenrespuesta
alajsimavariablees causadela mediadelavariable,
j
; delos efectos delos m
factoreslatentes
j1
f
1i
+
j 2
f
2 i
+ +
j m
f
mi
; ydeunruidoblancooperturbacin
especficadecadaobservacinu
i j
.
Luego, paralamatriz dedatosX = (x
i j
), laformamatricial generadapor el modelo
(1) es
X = 1
t
+F
t
+U
donde1 es el vector den 1 deunos, F es unamatriz den m quecontienelos m
factoresparalasn unidaesmuestrales,
t
eslatraspuestadelamatriz decargademp
cuyos coeficientes relacionan las variables y los factores y U es lamatriz n p delas
perturbaciones.
Veamosunejemploparafijar ideas. Supongamosquetenemostresvariablesx
1
, x
2
y
x
3
, ypensamosquehaydosfactoreslatentes, estoes

x
1
x
2
x
3


11

12

21

22

31

32

f
1
f
2

u
1
u
2
u
3

Detal modoquelamatrizdevarianzaycovarianzasdel vector devariablessatiisface


2
1

12

13

21

2
2

23

31

32

2
3


11

12

21

22

31

32



11

21

31

12

22

32


2
1
0 0
0
2
2
0
0 0
2
3

siendodiag{
2
1
,
2
2
,
2
3
} lamatriz devarianzadel vector depertuurbaciones. Lascomu-
nalidadesson
h
2
i
=
2
X
j=1

2
i j
=
2
i1
+
2
i2
; i = 1, 2, 3.
demaneraque

2
i
= h
2
i
+
2
i
; i = 1, 2, 3

i j
=
i 1

j 1
+
i 2

j 2
; i = 1, 2, 3 ; i 6= j
Por otroladosi lamuestraesden = 4 elementos, entonces

x
11
x
12
x
13
x
21
x
22
x
23
x
31
x
32
x
33
x
41
x
42
x
43

1

2

3

1

2

3

1

2

3

1

2

3

f
11
f
21
f
12
f
22
f
13
f
23
f
14
f
24



11

21

31

12

22

32

u
11
u
12
u
13
u
21
u
22
u
23
u
31
u
32
u
33
u
41
u
42
u
43

4
3. La unicidad del modelo
Supongamosquetenemosel modelo
x = +f +u
contodaslashiptesisestablecidasen(1). Por otrolado, sabemosqueesposibleencontrar
matrices

yf

tal que
f =

f
Enefecto, supongamosquetenemosunamatriz Hdem m, nosingular y nodiagonal,
entoncespodemosescribir
x = +HH
1
f +u
ahorahaciendolassiguientestransformaciones

= HyH
1
f = f

, obtenemoslarep-
resentacin
x = +

+u (3)
Sinembargo, ladistribucindevector aleatoriof

tieneunadistribucinnormal multivari-
antetal que
E[f

] = 0
V [f

] = H
1
(H
1
)
t
demodoquelascomponentes def

estncorrelacionadas, violandolahiptesisn
o
2del
modelo. Demodoquelarepresentacindadaen(3) nonossirveparanuestrosintereses.
Sinembargo, si tenemosunvector defactoresf quesigueunadistribucinN(0, V
f
),
dondeV
f
esunamatriznodiagonal ydefinidapositiva, entoncesesposibleencontrar una
matriz A tal queV
f
= AA
t
, y entonces A
1
V
f

A
1

t
= I, demodo quepodemos
escribir
x = + (A)( A
1
f) +u
y definiendo

= A y f

= A
1
f, dondesi estavez el nuevo vector defactores f

tienematriz devarianzas y covarianzas A


1
V
f

A
1

t
= I, es decir sus componentes
nocorrelacionan. Detal modoque, enestesentidolarepresentacindel modeloesnica
si tenemos unvector defactores no correlacionados, puesto queconunatransformacin
lineal adecuadalopodemosnocorrelacionar.
Finalmentesi tenemosel modelo(1), x = +f +u, cumpliendotodaslashiptesis,
ytomamosunamatrizortogonal H, entoncesesclaroquex = +(H)(H
t
f)+u, luego
ambos modelos sonindistinguibles puestoquetantof comoH
t
f sonno correlacionadas
ensuscomponnetes. Detal formaquepodemosasegurar queel modeloesnico salvo
transformacionesortogonales(ancuandoalgunosautoresdicenqueel modeloestinde-
terminadobajotransformacionesortogonales). Lointeresanteque, todavez quetengamos
el modelo(1), podemos efectuar rotaciones ortogonales sobreel vector defactores, rota-
cionesadecuadasimponiendocondicionesalamatrizdecarga(noolvidemosquelamatriz
decargaserH, si decidimosortogonalizar).
5
4. Cuando realizar un anlisis factorial?
Realizar unanlisisfactorial significaaceptarqueel vector devariablessatisfaceel modelo
(1), yestosignificaquex N(, V), deotraformadebenexistir altascorrelacionesentre
las variables, quees cuando podemos suponer queseexplicanpor factores comunes. El
anlisisdelamatrizdecorrelacionesdelamuestra, serpuesel primerpasoadar. Podemos
comprobar el gradodecorrelacinconlassiguientespruebasotest,
Test de esfericidad de Bartlett. Suponiendo normalidad entrelas variables secon-
trastanlassiguienteshiptesis
H
0
: R = I v/s H
c
0
: R6= I
siendo R la matriz decorrelacin del vector x, esto es R = D
1/2
VD
1/2
, con
D= diag{
2
1
, ...,
2
p
}, yel estadsticodepruebaqueseutilizaes
B = (n 1 (2p + 5)/6) ln|R

|
siendoR

lamatriz decorrelacinmuestral, y dondeB, bajoH


0
, sedistribuyesegn
una
2
p (p1) / 2
. Detal formaqueno es aconsejablehacer unanlisis factorial alos
datossi aceptamoslahiptesisH
0
.
Clculo del ndice KMO (Kaiser-Meyer-Olkin). El ndiceKMOsedefinecomo
KMO =
PP
j6=k
r
2
j k
PP
j6=k
r
2
j k
+
PP
j6=k
a
2
j k
donder
j k
midelacorrelacinlineal simpleentrelavariablesobservadasj yk; ya
j k
esel coeficientedecorrelacinparcial entrej yk. Loquetratademedir estendicees
quehayafuertecorrelacinsimpleentrelas variables, por s misma, y queadems el
efector decorrelacinentredosvariablesnosedebaal restodelasotrasvariablesque
esloquemideprcisamenteel coeficientedecorrelacinparcial. Esdecir lasituacin
ideal queesteltimo coeficientenoperturbealos coeficientes lineales, demodoque
unndiceKMOprximoa1esptimo. Estcomnmenteaceptadoque:
(a) Si KMO < 0.5noresultaraaceptableparahacer unanlisisfactorial
(b) Si 0.5< KMO < 0.6grado decorrelacinmedio, y habraaceptacinmediaenlos
resultadosdel anlisisfactorial.
(c) Si KMO>0.7indicaaltacorrelaciny, portanto, convenienciadeunanlisisfactorial.
El ndice MSA para cada variable. Estendicees similar al ndiceKMOpero est
referidoacadavariable, demodoquesudefinicines
MSA(j) =
P
j6=k
r
2
j k
P
j6=k
r
2
j k
+
P
j6=k
a
2
j k
Si el valor del MSA(j) fuerapequeo, no seaconsejarael anlisis factorial. Por el
contrario, valoresprximosa1indicaranquelavariablex
j
esadecuadaparaincluirla
conel restoenunanlisisfactorial. Enmuchasocasiones, seeliminanlasvariablescon
ndiceMSA muybajo.
6
5. Extraccin de los factores
Vamosarealizar algunassimplificacionesal modelo(1). Vamosasuponer quelasvariables
x
j
estnestandarizadas. Detal formaqueel modelo(1) quedacomo
x = f +u
Deotraforma
x
1
=
11
f
1
+
12
f
2
+ +
1m
f
m
+u
1
.
.
.
x
i
=
i1
f
1
+
i2
f
2
+ +
im
f
m
+u
i
.
.
.
x
p
=
p1
f
1
+
p2
f
2
+ +
pm
f
m
+u
p
ypor lotanto
V [x
i
] = 1 =
2
i1
+
2
i2
+ +
2
im
+V [u
i
] (4)

2
ih
representalaproporcindevarianzatotal delavariablex
i
explicadapor el factor
h.

2
i1
+
2
i2
+ +
2
im
eslacomunalidaddelavariablex
i
y representalaproporcin
devarianzaquelosdistintosfactoresensuconjuntoexplicandelavariablex
i
. Es, por
tanto, laparceladeesavariablequeentraencontactoconel restodevariables. Vara
entre0(losfactoresnoexplicannadadelavariable) y1(losfactoresexplicanel 100%
delavariable).
V [u
i
] esloquesellamaespecificidadyrepresentalacontribucindel factor nicoala
variabilidadtotal dex
i
Si sumamosatravesdei = 1, .., p lasecuacionesen(1), obtenemos
p =
p
X
i=1

2
i1
+ +
p
X
i=1

2
i h
+ +
p
X
i=1

2
i m
+
p
X
i=1
V [u
i
] (5)
Lacantidadg
h
=
P
p
i=1

2
i h
representalacapacidaddel factor h paraexplicar lavari-
anzatotal delasvariables. Comolasvariablesoriginalesestnestandarizadas, lavari-
anzatotal esigual ap yg
h
/ p representarael porcentajedevarianzatotal atribuibleal
factor h. Esdecir
1 =
g
1
p
+ +
g
h
p
+ +
g
m
p
+
P
p
i=1
V [u
i
]
p
Los valores g
h
sonlos autovalores delamatriz decorrelacinR delamatriz X. En
efecto, supongamosquequeremoscalcularloscomponentesprincipalesdelasvariables
estandarizadas x
i
, entoncesestos componentes principalesseobtienencalculandolos
vectoresyvalorespropiosdelamatrizdecorrelacinR. Ahorasi lasracescaracters-
7
ticasdeestamatriz lasllamamos
i
, sabemosque
p
X
i=1

i
= traza(R) = p (6)
dondelaproporcindelavariacinexplicadapor
i
es precisamente
i
/ p. Observe
lasecuaciones (5) y (6), dondelaaproximacinesevidentesi los g
h
loexplicantodo
(oequivalentementeV [u
i
] 0).
Deotraforma, conlosautovaloresobtenidospor R, calculamoslosautovectoresaso-
ciados construyendounamatriz ortogonal A, entonces lamatriz delosvaloresdelos
componenteses
Z = XA
ycomoAesortogonal entonces
X = ZA
t
estopermitereconstruir lasvariablesobservadasoriginalescomo
x
1
= a
11
z
1
+ +a
m1
z
m
+ +a
p1
z
p
.
.
.
x
i
= a
1i
z
1
+ +a
mi
z
m
+ +a
pi
z
p
.
.
.
x
p
= a
1p
z
1
+ +a
mp
z
m
+ +a
p p
z
p
sinembargosi consideramos solamentem componentes, el sistemaanterior sepuede
escribir como
x
1
= a
11
z
1
+ +a
m1
z
m
+u
1
.
.
.
x
i
= a
1i
z
1
+ +a
mi
z
m
+u
i
.
.
.
x
p
= a
1p
z
1
+ +a
mp
z
m
+u
p
Y deestaformahemosobtenidoel modelo

x
1
.
.
.
x
i
.
.
.
x
p

a
11
a
m1
.
.
.
.
.
.
a
1i
a
mi
.
.
.
.
.
.
a
1p
a
mp

z
1
.
.
.
z
i
.
.
.
z
m

u
1
.
.
.
u
i
.
.
.
u
p

8
quesi locomparamosconel modelo(1) setieneque
=

a
11
a
m1
.
.
.
.
.
.
a
1i
a
mi
.
.
.
.
.
.
a
1p
a
mp

eslamatriz decarga y
f =

z
1
.
.
.
z
i
.
.
.
z
m

son los factores. Deotra forma, lo quese proponees queal anlisis factorial (que
es laestimacindel modelo 1), sepuederealizar (extraer) medianteel clculo delos
componentesprincipales.
Sinembargo, hay quehacer unaadvertencia. Si bienesciertoquelasvariablesu
i
no
estn correlacionadas con las variables z
1
, ...z
m
, como lo exigeel modelo factorial,
tambinesciertoquelasvariablesu
i
contienenalasvariablesz
m+1
, .., z
p
, detal forma
queenestarepresentacinlasvariablesu
1
, ..., u
p
estarncorrelacionadas.
Noobstanteloanterior, si existenmcomponentesprincipalesqueexplicanunapropor-
cinmuyaltadelavariabilidad, demaneraquelavariabilidadespecficadelasvariable
u
i
espequea, el anlisisfactorial yel anlisisdecomponentesprincipalessobrelama-
triz decorrelacionesdarnresultadossimilares.
9

También podría gustarte