Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LauradelaFuenteCrespo
AnlisisComponentesPrincipales
NDICE
LauradelaFuenteCrespo
ANLISIS EN COMPONENTES PRINCIPALES
Elmtododecomponentesprincipalestieneporobjetotransformarunconjuntodevariables,alas
quesedenominaoriginales,enunnuevoconjuntodevariablesdenominadascomponentes
principales.Estasltimassecaracterizanporestarincorrelacionadasentresy,adems,pueden
ordenarsedeacuerdoconlainformacinquellevanincorporada.
Comomedidadelacantidaddeinformacinincorporadaenunacomponenteseutilizasuvarianza.
Esdecir,cuantomayorseasuvarianzamayoreslacantidaddeinformacinquellevaincorporada
dichacomponente.Porestaraznseseleccionacomoprimeracomponenteaquellaquetenga
mayorvarianza,mientrasquelaltimacomponenteeslademenorvarianza.
Engeneral,laextraccindecomponentesprincipalesseefectasobrevariablestipificadaspara
evitarproblemasderivadosdelaescala,aunquetambinsepuedeaplicarsobrevariables
expresadasendesviacionesrespectoalamedia.
Sipvariablesestntipificadas,lasumadelasvarianzasesp,yaquelavarianzadeunavariable
tipificadaespordefinicin1.
Las componentes principales se expresan como una combinacin lineal de las variables
originales. Desde el punto de vista de su aplicacin, el mtodo de componentes principales
es considerado como un mtodo de reduccin, esto es, un mtodo que permite reducir la
dimensin del nmero de variables originales que se han considerado en el anlisis.
No tiene sentido con todas la componentes principales, advirtase que el mayor nmero
coincide con el nmero total de variables. Quedarse con todas ellas no simplificara el
problema, por lo que el investigador deber seleccionar entre distintas alternativas aqullas
que, siendo pocas e interpretables, expliquen una proporcin aceptable de la varianza
global o inercia de la nube de puntos que suponga una razonable prdida de informacin.
1
OBTENCIN DE LAS COMPONENTES PRINCIPALES
En el anlisis de componentes principales se dispone de una muestra de tamao n acerca
de p variables X1, X2 , , Xp (tipificadas o expresadas en desviaciones respecto a la
media) inicialmente correlacionadas, para posteriormente obtener a partir de ellas un
nmero k p de variables incorrelacionadas Z1, Z2 , , Zk que sean combinacin lineal
de las variables iniciales y que expliquen la mayor parte de su variabilidad.
La varianza de Z1 ser:
n
1 1 ' 1 1
V (Z1 )
n Z
i1
2
1i
n
Z1 Z1 u1' X' Xu1 u1' X' X u1 u1' V u1
n n
1 '
Si las variables estn expresadas en desviaciones respecto a la media, la expresin X X
n
(matriz de inercia) es la matriz de covarianzas muestral a la que se denomina V (caso ms
1 '
general) y para variables tipificadas X X es la matriz de correlaciones R.
n
p
'
Se trata de hallar Z1 maximizando V (Z1 ) u1 V u1 con la restriccin u' u
j1
1 1 1
L u1' V u1 (u1' u1 1)
2
L
2 V u1 2 u1 0 (V I)u1 0
u1
Por tanto, para maximizar V (Z1 ) hay que tomar el mayor valor propio de la matriz V
Z1 Xu1
La varianza de Z2 ser:
n
1 1 ' 1 1
V (Z 2 )
n Z
i1
2
2i
n
Z 2 Z 2 u'2 X' Xu2 u'2 X' X u2 u'2 V u2
n n
3
variable de los pesos o ponderaciones (u21, u22 , ,u2p )' se encuentra normalizada
(u'2 u2 1)
Por otra parte como Z1 y Z2 han de estar incorreladas se tiene que verificar:
Hay que hallar Z2 maximizando V (Z2 ) u'2 V u2 con las restricciones u'2 u2 1 y u'2 V u1 0
L
2 V u2 2 V u1 2 u2 0
u2
De donde:
L
2 V u2 2 u2 0 (V I)u2 0
u2
4
Por lo tanto, para maximizar V (Z2 ) se ha de tomar el segundo mayor valor propio de la
matriz V (el primer mayor valor propio ya lo haba tomado al obtener la primera componente
principal).
V (X ) traza (V)
h 1
h
ya que las varianzas de las variables son los trminos que aparecen en la diagonal de la
matriz de varianzas-covarianzas V.
Ahora bien, como V es una matriz real simtrica, por la teora de diagonalizacin de
matrices, existe una matriz ortogonal P(P1 P' ) tal que P' V P D , donde D es la matriz
diagonal con los valores propios de V ordenados de mayor a menor en la diagonal principal.
p
Por tanto, traza (P' V P) traza (V PP' ) traza (VI) traza (V)
p p p
h 1
h
h 1
h
Se ha comprobado que la suma de las varianzas de las variables (inercia total de la nube
de puntos) es igual a la suma de las varianzas de las componentes principales e igual a la
suma de los valores propios de la matriz de varianzas-covarianzas muestral V.
h h
p
traza (V)
h 1
h
5
Si las variables estn tipificadas, V = R y traza(V) = traza(R) = p , con lo que la proporcin
de la componente h-sima en la variabilidad total ser h
p
h h
h 1
p
h 1
traza (V)
h 1
h
X j1 Z h1
X Z
Xj Zh h2
j2
X jn Zhn
1 '
La covarianza muestral entre X j y Zh viene dada por Cov (X j , Zh ) X j Zh
n
1 ' 1
Cov (X j , Zh ) = X j Zh = ' X' Xuh = ' V uh = ' h uh = h ' uh = h uhj
n n
6
Cov (X j , Zh ) h uhj
r jh
V (X j ) V (Zh ) V (X j ) h
h uhj h uhj
r jh h uhj
V (X j ) h h
Una vez calculados los coeficientes uhj (componentes del vector propio normalizado
X' X
asociado al valor propio h-simo de la matriz V relativo a la componente principal
n
Zh ), se pueden obtener las puntuaciones Zhj , es decir, los valores de las componentes
correspondientes a cada observacin, a partir de la relacin:
Zhj u h1 X1 j u h 2 X2 j u h p Xpj h = 1, 2, , p j = 1, 2, , n
Zh E(Z h ) Zh
Yh h = 1, 2, , p
V (Zh ) h
Zh j u h1 uh2 uh p
X1 j X2 j Xp j h = 1, 2, , p j = 1, 2, , n
h h h h
uh j
Yh j c h1 X1 j c h 2 X2 j c h p Xp j chj h = 1, 2, , p j = 1, 2, , n
h
7
CONTRASTES SOBRE EL NMERO DE COMPONENTES PRINCIPALES A
RETENER
En general, el objetivo de la aplicacin de las componentes principales es reducir las
dimensiones de las variables originales, pasando de p variables originales a m p
componentes principales.
Aunque para la extraccin de las componentes principales no hace falta plantear un modelo
estadstico previo, algunos de los criterios para determinar cul debe ser el nmero ptimo
de componentes a retener requieren la formulacin previa de hiptesis estadsticas.
Analticamente este criterio implica retener todas aquellas componentes que verifiquen:
p
j1
h
h
p
H0 : m1 m 2 p 0
2p 11
p
Q n
6
(p m)Ln pm
jm 1
Ln j 2(pm 2)(p m1)
2
8
La mecnica del estadstico Q : Supongamos que inicialmente se han retenido m races
caractersticas (por ejemplo, las que superan la unidad) al aplicar el criterio de la media
aritmtica.
En el caso de que no se rechace la hiptesis nula H0 esto significa que una o ms races
caractersticas no retenidas es significativa(s). La decisin a tomar en este caso sera
retener una nueva componente, y aplicar de nuevo el contraste a las restantes races
caractersticas.
El proceso continuara hasta que no se rechace la hiptesis nula.
Prueba de Anderson
Si los valores propios son iguales, a partir del valor (m 1) , no hay ejes principales a partir
del eje (m 1) , en el sentido de que no hay direcciones de mxima variabilidad. La
variabilidad en las ltimas (n m) dimensiones es esfrica.
H0 : m1 m 2 p 0
p
p Ln j
(n 1)
2
jm 1
Ln j (p m)(n 1) Ln
jm 1
(p m)
2(p m)(p m 1)
2
1
(p m)(p m 1)
sigue una distribucin Chi-cuadrado con 1 grados de libertad, siempre
2
y cuando el nmero de individuos n sea grande.
Esta prueba slo es vlida s las variables X1, X2 , , Xn son normales con distribucin
conjunta normal.
El grfico de sedimentacin
El grfico de sedimentacin se obtiene al representar en ordenadas las races
caractersticas y en abscisas los nmeros de las componentes principales correspondientes
a cada raz caracterstica en orden decreciente.
Uniendo todos los puntos se obtiene una Figura que, en general, se parece al perfil de una
montaa con una fuerte pendiente hasta llegar a la base, formada por una meseta con una
ligera inclinacin.
9
De acuerdo con el criterio grfico se retienen todas aquellas componentes previas a la zona
de sedimentacin.
Retencin de variables
Si se retiene un nmero determinado de componentes, qu hacer si alguna variable est
correlacionada muy dbilmente con cada una de las componentes retenidas?.
Si se plantea un caso de este tipo, sera conveniente suprimir dicha variable del conjunto de
variables originales, ya que no estara representada por las componentes retenidas. Ahora
bien, si se considera que la variable a suprimir juega un papel esencial en la investigacin,
entonces se deberan retener componentes adicionales en el caso de que algunas de ellas
estuvieran correlacionadas de forma importante con la variable a suprimir.
Sea un modelo lineal general Y X e con las hiptesis clsicas de normalidad de los
residuos, E(e) 0 y V (e) 2 I , pero con problemas de correlacin entre las variables
exgenas del modelo.
' X)
La descomposicin de (X en funcin de vectores y valores propios ser:
p
' X
X
1
u u'
Como (X ' X)
es una matriz simtrica definida positiva. con valores propios relativos a
10
1 0 0 u1
0 0 u
u u
' X up 2
2
X 1 2
0 0 p up
' X
La casi nulidad del menor valor propio p de X puede expresarse:
) 1 (Xu
p V (Zp ) V (Xu )' (Xu
)0
p p p Xup 0
n
p 1 '
' X)
(X 1 X
' y
1
y
u u' X
lo que permite ver que uno o varios valores propios casi nulos hacen impreciso el ajuste.
q 1 '
' X)
(X 1 X
' y
1
y
u u' X
q< p
' X
Diagonalizada la matriz X , el clculo de los coeficientes (u , u , , u ) se realiza
1 2 q
1
z Xu = 1, 2, , q
11
donde Z ( z1 , z2 , , zq ) es la matriz (n,q ) cuyas columnas son los q vectores propios
unitarios y ortogonales z asociados a los mayores valores propios de X ' X
, y donde c es
el vector de los q nuevos coeficientes hallados mediante:
1
n
c (Z' Z)1 Z' y Z' y con V (c) S2 (Z' Z)1 S2 I
n q 1
d I
i1
2
i
Por lo tanto, los coeficientes c estn incorrelacionados y tienen todos la misma varianza,
estimada por S2 .
1 (Xu
V (Z) V (Xu) )' (Xu
) u' Su
p p
n
) 1 (Xu
1 V (Z1 ) V (Xu )' (Xu
) u' Su
1 1 1 1 1
n
) 1 (Xu
p V (Zp ) V (Xu )' (Xu
) u' Su
p p p p p
n
12
observaciones, habiendo definido as el hiperplano de regresin ortogonal (hiperplano de
p - 1 observaciones).
Los vectores propios sucesivos definirn una sucesin de combinaciones lineales de las
variables, incorreladas y de varianza mnima.
Una componente principal es una funcin lineal de todas las variables, puede estar muy
bien correlacionada con algunas de ellas y no tanto con otras.
Las ecuaciones de las variables en funcin de las componentes (factores), traspuestas las
inicialmente planteadas, son de mayor utilidad en la interpretacin de los componentes,
expresndose:
Por las propiedades del coeficiente de correlacin se deduce que la suma en horizontal
de los cuadrados de las cargas factoriales de una variable en todos los factores
(componentes) retenidos es la parte de dispersin total de la variable explicada por el
conjunto de k componentes. Esta suma de cuadrados se denomina comunalidad.
global de la nube original explicada por los k factores retenidos, y coincide con la suma de
los valores propios de estas componentes.
13
La comunalidad proporciona un criterio de la calidad de la representacin de cada variable,
de modo que, variables totalmente representadas tienen de comunalidad la unidad.
De otra parte, la suma en vertical de los cuadrados de las cargas factoriales de todas las
variables en una componente es su valor propio.
Al ser las cargas factoriales los coeficientes de correlacin entre variables y componentes,
su empleo hace comparables los pesos de cada variable en la componente y facilita su
interpretacin. En este sentido, su representacin grfica puede orientar en una primera
aproximacin a la interpretacin de los coeficientes. En el papel (un plano) slo se pueden
representar los factores de dos en dos, por lo que se pueden realizar tantos grficos como
parejas de factores retenidos.
Estos grficos se denominan crculos de correlacin, y estn formados por puntos que
representan cada variable por medio de dos coordenadas que miden los coeficientes de
correlacin de dicha variable con los dos factores o componentes considerados. Todas las
variables estarn contenidas dentro de un crculo de radio unidad.
No tiene por qu coincidir esta mxima inercia del primer factor, que condicionaba el clculo
de los restantes, con la ptima interpretacin de cada uno de los componentes.
Para una fcil interpretacin sera deseable que cada componente estuviera muy bien
relacionada con pocas variables (coeficientes de correlacin r prximos a 1 -1) y mal con
las dems (r prximos a 0). Esta optimizacin se obtiene por una adecuada rotacin de
ejes que definen los componentes principales.
Existen varios tipos de rotaciones. Entre las rotaciones ortogonales, las ms utilizadas
son la rotacin Varimax y la Quartimax.
14
La rotacin Varimax se utiliza para conseguir que cada componente rotado (en vertical, en
la matriz de cargas factoriales) presente altas correlaciones slo con unas cuantas
variables. A sta rotacin se suele aplicarse la conocida normalizacin de Kaiser para evitar
que componentes con mayor capacidad explicativa, que no tienen por qu coincidir con la
mejor interpretabilidad, pesen ms en el clculo y condicionen la rotacin.
Esta rotacin, la ms frecuentemente utilizada, es adecuada cuando el nmero de
componentes es reducido.
La rotacin Quartimax se utiliza para conseguir que cada variable (en horizontal, en la
matriz de cargas factoriales) tenga una correlacin alta con muy pocos componentes
cuando es elevado el nmero de stos.
Las rotaciones oblicuas varan los valores propios y las comunalidades, manteniendo la
varianza explicada por el modelo. La no perpendicularidad entre los ejes produce una
correlacin entre ellos, antes inexistente, por lo que la parte de varianza de una variable
explicada por una componente no es ya independiente de los dems factores.
15
EJERCICIOTERICOPRCTICOCONDOSCOMPONENTES
Enlastresprimerascolumnasdelcuadroserecogenlasempresas,ventasybeneficios.Conla
opcinAnalizar/Estadsticosdescriptivos/Descriptivos...setipificanlasvariables,apareciendoen
elEditorlascolumnasZVentasyZBeneficios.
ConlaopcinGrficos/Interactivos/Diagramadedispersin...seobservaquelosbeneficiosestn
correlacionadospositivamenteconlasventas,aunquelacorrelacinexistentenoesmuyfuerte.De
otraparte,alsermuyreducidalamuestra,noaparececlaramentelaconfiguracindelanubede
puntos.
Cuandolasvariablesestntipificadas,lanubedepuntosapareceunaelipsedeconcentracincomo
laquesedetallaacontinuacin:
16
Cuantamayordependenciahayaentreellas,msalargadaser
lanubedepuntosenalgunadireccinymsestrechaen
algunadireccinperpendicular(suponiendosiemprequela
relacinentreellasfueralineal).
Laelipsedeconcentracinestinscritaenuncuadrado
conlamismaorientacinqueladiagonalprincipal.Es
decir,elejemayordelaelipseformaunngulode 45
conelejedeabscisas.
SeleccionandoAnalizar/Reduccindedatos/Anlisisfactorial...ypulsandoenelbotn
Descriptivos...enmatrizdecorrelacioneslaopcinCorrelaciones
Cuandosetipificanlasobservaciones(ZVentasyZBeneficios)lamatrizdecovarianzaseslamatriz
decorrelaciny,portanto,lavarianzadecadatipificadaesiguala1.
17
Alaplicarelmtododelascomponentesprincipales,lasumadelasvarianzasdetodaslas
componentesprincipales(sunmeroesigualaldevariablesoriginales)esigualalasumadela
varianzasdelasvariablesoriginales.Enconsecuencia,comohaydosvariablestipificadaslasuma
debeser2.
Laprimeracomponenteprincipalseobtienedeformaquesemaximicesuvarianzacondicionadaa
lasrestricciones.Porello,engenerallaprimeracomponenteprincipaltienesuvarianzamayorque
ladecualquiervariableoriginal.Silasvariablesestntipificadas,engeneral,lavarianzadela
primeracomponentesermayorque1.
Enelcasoparticulardequelasvariablesoriginalesestnincorrelacionadasentres,entonceslas
componentesprincipalescoincidirnexactamenteconlasvariablesoriginales.
1,00000 0,59859
Partiendodelamatrizdecorrelacinmuestral: R
0,59859 1,00000
Laaplicacindelprocedimientodecomponentesprincipalesrequierecalcularlasraces
caractersticasylosvectorescaractersticosdelamatrizdecovarianzas.ParalamatrizRlasraces
caractersticasqueseobtienenson:
Lavarianzadecadacomponenteesigualalvalordelarazcaractersticaaqueestasociado.
Cuandosetratade2variablestipificadas,lavarianzadelaprimeracomponenteprincipalesiguala
lavarianzadeunadelasvariables(1)mselcoeficientedecorrelacinlinealentrelasvariables:
1 1 0,59859 1,59859
18
Lasegundacomponente 2 eselrestohastalasumadelasvarianzasdelas2componentes
principales,quees2.
2 2 1 2 1,59859 0,40141
Silasvariablesestntipificadas,comoeselcaso,laproporcindelavariabilidadtotaldelas
variablesoriginalescaptadaporunacomponenteesigualalarazcaractersticacorrespondiente i
divididaporelnmerodevariablesoriginales.Esdecir:
Cadarazcaractersticatieneasociadounvectorcaracterstico:
u u u2 u12
2
1
u1 11 y u2 21 conlasrestricciones 11
u21 u22 1
2 2
u12 u22
Cuandolosdatosestntipificadoslosvectoresqueseobtienen,independientementedelosvalores
quetenganlasracescaractersticas,sonlossiguientes:
0,7071
Losvectores u1 y u2 sonortogonales: u'1 u2 0,7071 0,7071 0
0,7071
Comosetratadevariablestipificadaselnguloderotacinessiemprede45.As:
19
Sepuedeverqueestosdosltimosejesformanunngulode 450 y 1350 ,respectivamente,con
respectoalaje X1 .
Loscoeficientesdelosvectores u1 y u2 sonloscoeficientesquehayqueaplicaralasvariables
originalesparaobtenerloscomponentesprincipales.As,genricamente,lascomponentes
principalessepuedenexpresar:
Z u u X Z u X u X Z u X u X
1 11 12 1 1 11 1 12 2 1 11 1 12 2
Z2 u21 u22 X2 Z2 u21 X1 u22 X2 Z 2 u21 X1 u22 X 2
Comoentodoslocasosdedosvariablestipificadas,lascombinacioneslinealesparalaobtencinde
componentessonlassiguientes:
Enelanlisisdecomponentesprincipalesesimportanteconocerlacorrelacindecadavariablecon
lascomponentes.Parasuobtencinhayquetenerencuentaqueelcoeficientedecorrelacin rhj
entrelacomponentehsimaylavariablejsimavienedadapor:
Loscoeficientesdecorrelacinqueseobtienenentrelasdoscomponentesylasdosvariables
originalesson:
LamatrizformadaporestascargasfactorialesenSPSSsedenominamatrizdecomponentes.
Halladoslosvectorescaractersticossepuedenhallarlosvaloresopuntuaciones(scores)decada
componenteparalasdistintasobservaciones.
Estaspuntuacionessonlosvalorescorrespondientesdeunacomponente Zh paracadaobservacin
delasvariablesoriginales.Lospaquetesestadsticosnosuelenofrecerlaparaelanlisis
multivariante.Ensulugarsesuministranlosvalorestipificadosdelascomponentes.
20
Losvalorestipificadosdelascomponentesseobtienenapartirde:
Z1 u u
11 X1 12 X2
1 1 1
Z2 u u
21 X1 22 X2
2 2 2
Elcoeficientedeponderacindelavariablejenlacomponentehparaobtenerpuntuaciones
u
tipificadases chj hj
h
Deestaforma,lamatrizdeloscoeficientesparaelclculodelaspuntuacionesenlascomponentes:
u11 0,7071
c11 0,55926
1 1,59859
Primeracomponente:
c u12 0,7071
0,55926
12 1 1,59859
u21 0,7071
c 21 1,11607
2 0,40141
Segundacomponente:
c u22 0,7071 1,11607
22 2 0,40141
Utilizandoestamatrizdeloscoeficientes,seobtienenlas
puntuacionestipificadasdelascomponentes,que
aparecenenelEditorconFAC1_1yFAC2_1
Laspuntuacionestipificadasdelaprimeracomponente(FAC1_1)seobtienenalhacer
0,55926 x ZVentas 0,55926 x ZBeneficios
Laspuntuacionestipificadasdelasegundacomponente(FAC2_1)seobtienenalhacer
1,11607 x ZVentas 1,11607 x ZBeneficios
21
AdvirtasequesienlaExtraccin...sehubieraseleccionadoAutovaloresmayoresque1,enlugarde
NmerodeFactores2
LaspuntuacionestipificadasdelacomponenteseguardanenelEditorcomoFAC1_2,quecoinciden
conlasanteriorespuntuacionestipificadasFAC1_1,alobtenersemediantelamismaecuacin:
0,55926 x ZVentas 0,55926 x ZBeneficios
22
Latablaadjuntacontieneinformacinsobreempresasporpasesensectoresde
actividad.Setrataderealizarunanlisisdecomponentesprincipalesdetodaslas
variablesconlafinalidaddereducirlasaunconjuntomenordevariablesconlamenor
prdidadeinformacinposible.
Pas Agri Miner Manuf Energ Constru Ser_Emp Bancos Sec_Serv Trans
Blgica 3,3 0,9 27,6 0,9 8,2 19,1 6,2 26,6 7,2
Dinamarca 9,2 0,1 21,8 0,6 8,3 14,6 6,5 32,2 7,1
Francia 10,8 0,8 27,5 0,9 8,9 16,8 6 22,6 5,7
AlemaniaO 6,7 1,3 35,8 0,9 7,3 14,4 5 22,3 6,1
Irlanda 23,2 1 20,7 1,3 7,5 16,8 2,8 20,8 6,1
Italia 15,9 0,6 27,6 0,5 10 18,1 1,6 20,1 5,7
Luxemburgo 7,7 3,1 30,8 0,8 9,2 18,5 4,6 19,2 6,2
Holanda 6,3 0,1 22,5 1 9,9 18 6,8 28,5 6,8
ReinoUnido 2,7 1,4 30,2 1,4 6,9 16,9 5,7 28,3 6,4
Austria 12,7 1,1 30,2 1,4 9 16,8 4,9 16,8 7
Finlandia 13 0,4 25,9 1,3 7,4 14,7 5,5 24,3 7,6
Grecia 41,4 0,6 17,6 0,6 8,1 11,5 2,4 11 6,7
Noruega 9 0,5 22,4 0,8 8,6 16,9 4,7 27,6 9,4
Portugal 27,8 0,3 24,5 0,6 8,4 13,3 2,7 16,7 5,7
Espaa 22,9 0,8 28,5 0,7 11,5 9,7 8,5 11,8 5,5
Suecia 6,1 0,4 25,9 0,8 7,2 14,4 6 32,4 6,8
Suiza 7,7 0,2 37,8 0,8 9,5 17,5 5,3 15,4 5,7
Turqua 66,8 0,7 7,9 0,1 2,8 5,2 1,1 11,9 3,2
Bulgaria 23,6 1,9 32,3 0,6 7,9 8 0,7 18,2 6,7
Checoslova 16,5 2,9 35,5 1,2 8,7 9,2 0,9 17,9 7
AlemaniaE 4,2 2,9 41,2 1,3 7,6 11,2 1,2 22,1 8,4
Hungra 21,7 3,1 29,6 1,9 8,2 9,4 0,9 17,2 8
Polonia 31,1 2,5 25,7 0,9 8,4 7,5 0,9 16,1 6,9
Rumana 34,7 2,1 30,1 0,6 8,7 5,9 1,3 11,7 5
Rusia 23,7 1,4 25,8 0,6 9,2 6,1 0,5 23,6 9,3
Yugoslavia 48,7 1,5 16,8 1,1 4,9 6,4 11,3 5,3 4
23
EnelEditorseleccionarAnalizar/Reduccindedatos/Anlisisfactorial...
ElcuadroDescriptivos...serellena:
EnelVisorenlasalidadelprocedimiento:
Elprimerelementoqueseobservaeslamatrizdecorrelacionescuyodeterminantees
2,38 x 10 6 ,quealsermuypequeoindicaqueelgradodeintercorrelacinentrelasvariableses
muyalto,condicininicialquedebacumplirelanlisisencomponentesprincipales.
24
Elsegundoelementoqueseobservaenlasalidadelprocedimientoeslapruebadeesfericidad
deBarlettquepermitecontrastarformalmentelaexistenciadecorrelacinentrelasvariables.
ElestadsticoKMOtieneunvalormuypequeo(alejadode1)indicandounamalaadecuacindela
muestraaesteanlisis.
El p valor = 0 conloqueexistecorrelacinsignificativaentrelasvariables.
Elelementoaanalizareslamatrizdecorrelacionesantiimagen,formadaporloscoeficientes
decorrelacinparcialentrecadapardevariablescambiadadesigno.
Loscoeficientesdecorrelacinparcialdebentenerunvalorbajoparaquelasvariablescompartan
factorescomunes.
LoselementosdeladiagonaldeestamatrizsonsimilaresalestadsticoKMOparacadaparde
variableseinteresaqueestncercanosa1.Observandolamatriz,noseobtienenbuenos
resultados.
25
Paraanalizarelnmerodecomponentesqueseseleccionan,queengeneralsonlasrelativasa
valorespropiosmayoresque1,seobservaelgrficodesedimentacinquemuestraqueslohay
trescomponentesconautovalormayorque1.
Enlatabladelavarianzatotalexplicadase
observaquelaprimeracomponenteexplicaun
38,746%delavarianzatotalylasdos
siguientescomponentesexplicanun23,669%y
un12,211%,un74,625%entrelastres
componentes.
26
Losvalorespropiossignificativosson: 1 3,487 2 2,130 3 1,099
Lamatrizdecomponentespermiteexpresarcadaunadelasnuevevariablesoriginalesmediante
lostresfactoresextrados.
TransporteyComunicaciones 0,685 x F1 0,296 x F2 0,393 x F3
Paraverquvariablesseagrupanencadacomponente(factor)hayqueobservarlasvariablescuyas
cargasseanaltasenunfactorybajasenlosotros(valoresmenoresque0,25suelenconsiderarse
bajos).
Enestalnea,enlaprimeracomponenteestrepresentadaAgricultura,enlasegundacomponente
estrepresentadaMinerayenlaterceracomponenteCentralesdeenerga.
ServiciosaempresasyManufacturasestnrepresentadasenlaprimeraysegundacomponente,
Bancosenlasegundayterceracomponente.
Seobservaentoncesqueesdifcilagruparlasvariablesencomponentes,conloqueseradeseable
realizarunarotacin.
Seobservaquelasumadeloscuadradosdeloselementosdelascolumnasdelamatrizde
componentesesigualalosvalorespropiossignificativos:
27
LaComunalidadeslapartedevariabilidaddecadavariableexplicadaporlosfactores.Antesde
laextraccindelosfactores(componentes)lacomunalidaddecadavariableera1,interesaque
despusdelaextraccinsigasiendoalta.
LaComunalidaddecadavariableeslasumadeloscuadradosdesuscargasfactorialesdefinidasen
lamatrizdeloscomponentes
Paraanalizarlabondaddelajustedelmodelofactorialseanalizanloscoeficientesde
correlacinreproducidos,coeficientesdecorrelacinentrecadadosvariablesdespusdequeestn
enfuncindelascomponentes.
28
Loscoeficientesdecorrelacinreproducidosnotienenporqucoincidirconloscoeficientesdela
matrizdecorrelacionesinicial,peronodebendiferenciarseenmsde 0,05 (residuosmenoresque
0,05 ).Encasocontrario,labondaddelajusteserdiscutible.
Losresiduossecalculanentrelascorrelacionesobservadasyreproducidas.Hay22(61,0%)
residualesnoredundantesconvaloresabsolutosmayoresque 0,05 ,indicandoquelabondaddel
modeloesdiscutible.
Laspuntuacionesfactorialessonlosvaloresquetomacadaunodelosindividuosenlastres
componentesseleccionadas.Sontresvariablessustitutasdelasinicialesquerepresentansu
reduccinyquerecogenel74,625%delavariabilidadtotal.
Larelacinentrecomponentesyvariablesser:
Estastresnuevasvariablesseincorporanalconjunto
dedatoscomoFAC1_1,FAC2_1yFAC3_1.
Seutilizarncomosustitutasdelasinicialespara
anlisisposteriores,comoelanlisisdelaregresin
conproblemasdemulticolinealidadyelanlisis
cluster
29
Alrealizarelanlisisdelamatrizdecomponentesseobservqueeradifcilagruparlas
variablesenesascomponentes,porloqueeradeseablerealizarunarotacin.
ConelmtodoVarimaxnocambialavarianzatotalexplicadaporlosfactores,comola
comunalidaddecadaunadelasvariables.
Lanuevamatrizdecomponentesrotadoscorrespondetambinafactoresortogonalesytiendea
simplificarlamatrizfactorialporcolumnas,siendoadecuadocuandoelnmerodefactoreses
pequeo.
30
LavariableConstruccinsesitaenlaprimeracomponente,lavariableCentralesdeenergasesita
enlasegundacomponenteylavariableBancosquedaenlaterceracomponente.Apesardela
rotacin,nosevenclarolosgruposdevariables.
Deotraparte,elgrficodecomponentesenelespaciorotado,tampocoayudaaladeteccindelos
gruposdevariables.
Dosvariablescorreladaspositivamenteformanunngulode0gradosdesdeelorigen,de180
gradossiloestnnegativamenteyde90gradossiestnincorreladas.
31
32