Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TESIS
TESIS
Resum
A bstract
The purpose of this article is to present the Principal Components
Analisys, as a ractical example of its aplication, leauing aside the always
necessaly alge raic and statistical considerations. Indeed, on one hand, we
emphasize on the choice processes of the number of component and axis
inter retations. On the other hand, the Principal Components Analisys is
app zed as the jrst step towards the construction of an stratz>ed sample,
particulary using census data.
((Papers)):Revista de Sociologia
cin, como all se anunci, de otro trabajo aparecido en esta misma revista
con el titulo de La t+ologia en Sociologia, rnas all de la simple taxonomia:
conceptualizaciny clcul2, con vistas a la estratificacin y tipificacin del
univers0 de 10s individuos. Por el10 el presente articulo estaria incompleto
si no se siguiera de un tercero, que aparecer en prximos nmeros, sobre
dicha estratificacin.
Despus de una introduccin sobre la definicin, objetivos y modelo de
anlisis inherente al mtodo (I), se tratarn sucesivamente: la Eleccin del
campo de las variables (2) y el Proceso detallado del ACP (3).
1. DEFINICI~N,OBJETIVOS Y MODELO DE ANALISIS EN ACP
((Papersa:Revista de Sociologia
tener criterios estadisticos pero sobre todo sociolgicos, para elegir el nmero
de ejes y fundamentalmente para dar identidad a 10s mismos, as como para
interpretar y proponer una estructura del conjunt0 de las variables y de las
relaciones o agrupaciones entre ellas.
El ACP aparece como un complemento ~aecesarioa otras tcnicas de categorizacin de individuos ya que su lgica precisamente es la de agrupar variables.
El modelo matemtico que est en la base del mtodo descansa sobre tres
pivotes.
((Papers)):Revista de Sociologia
- El ACP Normado en
Variables Reducidas en el que las variables son previamente centradas y estandarizadas 10 que permitir trabajar sobre la
matriz de correlaciones en lugar de la matriz de varianza/covarianza;
por 10 dems es la transformacin con la que habitualmente se trabaja.
- El ACP sobre
c<Papers)):
Revista de Sociologia
IROTATION=NOROTATE
IPLOT=EIGEN ROTATION (12) (1,3) (23) (1,4)
(3,4)
/ROTATION=VARIMAX
/PLOT=EIGEN ROTATION (1,2) (1,3) (2,3) (1,4) (2,4) (3,4)
/SAVE=REG (ALL FSC)
TABLA
1
Media, desviacin y descripci6n de las variables
utilizadas en la muestra e:stwatificada
Variable
Media
Desviacidn
Descripci6n
ciones censales que alcanzm el nmero de 3.509 extendidas en el rea geogrfka mencionada.
En cuanto a las variables utilizadas en primera instancia como criteri0
para la construccin de la rnuestra estratificada se han tenido en cuenta diferentes componentes. En la Tabla 1 las variables se expresan en porcentajes
de poblacin de la seccin censal que posee las caractersticas mencionadas
sobre la poblacin total de la seccin censal..
Como se observa las variables extradas son de diferentes tipos, tal y como
aparece en la Tabla 1: poblacionales, cultural.-educativas, ocupacionales, ca-
No todas las variables precedentes han sido utilizadas en el anlisis factorial previo y, posteriormente, en el de la estratificacin. Solamente 17 de
las 23, tal y como aparece remarcado en la Tabla 1.
Los estadisticos computados expresan medias y desviaciones de variables
cuya mtrica en nuestro caso se refiere al porcentaje de una caracterstica
dentro de cada seccin censal.
Los criterios de eliminacin de las variables han sido coherentes con la
naturaleza propia del ACP y con 10s objetivos que cumple dentro del proceso
de construccin de la muestra:
- manifiesta
((Papers)):
Revista de Sociologia
VarianzasICovarianzas (o de Correlaciones con variables estandarizadas) de
las variables iniciales que engendran el espacio vectorial (si las variables iniciales estn reducidas 10 indicado ser con la matriz de Correlaciones). Los
valorespropios de la matriz son las sucesivas varianzas incorporados a cada
uno de 10s ejes.
El problema se reduce a hallar U.1, vector de dichos ejes, de tal forma
que,
sea mxima, siendo E . la proyeccin de 10s puntos en dichos ejes. Hacer mP'
xima la expresin anterior equivale a hacer mxima,
klp
k=1
((Papers)):Revista de Sociologia
ZZ rjj"
KMO =
extendiendo el sumatori0 a
j =1,2,..p
j'=1,2,..p con j#j'
ZX rjj? + XZ ajj.2
r..'2
MSAj =
JJ
TABLA
2
Estadisticos iniciales de comunalidad
y valores propios de las variables utilizadas en el ACP
Variable Comunalidad
1.ooooo
1.ooooo
1.ooooo
1.00000
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.ooooo
1.00000
1.ooooo
1.ooooo
* Factor
Valor
Propio
6.11177
2.94263
1.89366
1.15287
.79328
.63969
.60860
.49491
.43712
.fi0398
.34859
.31279
.29592
.26240
.I4077
.I1602
.O4501
3.2. VALORES
PROPIOS O VARIANZA INCORPORADA A CADA EJE Y LA ELECCION DEL NUMERO
DE EJES A RETENER
FACTORES
= X.U.,
Interesa encontrar la relacin que las varialbles primitivas tienen con las
componentes. Dicha relacin permite cubi:ir varios objetivos simultneamente:
ctPapers)):Revista de Sociologia
TABLA
4
Matriz de coeficientes de las puntuaciones factoriales
Factor 1
F ~ c t o r2
Factor 3
Factor 4
a) recomponer las variables originales en 10s nuevos ejes 10 que nos mostrar la estructura del primer espacio de atributos, y
b) dar identidad a las componentes.
Pero antes procederemos por pasos para mejor llenar estos objetivos finales.
X..I] = C Yikajb.
xi. = Y,, A'
X.=YA'.
.I
I.
P15
c<Papersn:Revista de Sociologia
TABLA
5
Matriz factorial o de saturaciones del ACP
Factor 1
Factor 2
Factor 3
Factor 4
.Ei5034
h, = F, a".l
para el factor I y en !general
1
nos da 10s valores propios o varianza explicadia por cada componente en funcin de 10s coeficientes de saturacin. Dichos valores coinciden con 10s primitivos mientras no se realice rotacin de 10s ejes.
El inters mayor de la matriz de saturacisonesestriba, a partir del significado de sus coeficientes, en que puede interpretarse como un nuevo espacio vectorial en el que las variables primitivas son puntos en las cuatro
dimensiones elegidas. La proximidad a uno de 10s ejes de una de las variables significar la gran correlacin positiva (o negativa) de la variable con
dicho eje. La proximidad entre variables indicar la correlacin positiva entre ellas en el espacio de las cuatro dimensiones, o de otras dimensiones tomadas si es el caso. Estas reflexiones dan criterios sencillos para la interpretacin de 10s ejes.
((Papers)):
Revista de Sociologia
Comunalidad
* Factor
Valor
propio
% de
Varianza
Acumulado
En el caso de reduccin de componentes, que es el fin perseguido, el sum a t o r i ~se extiende solamente a 10s ejes tomados 10 que da como expresin,
((Papers)):Revista de Sociologia
Los procedimientos empleados son de dos tipos:
a) La rotacin rectangular
La rotacin se efecta haciendo que 10s ejes permanezcan perpendiculares. Dicha transformacin, al conservar las distancias, deja inalterable la
comunalidad de cada variable 10 que hace que las interpretaciones encontrada~a partir de ellas sean las mismas. No asi el valor propio de cada componente, siendo diferente su importancia relativa en la explicacin de la varianza total.
Hay que recordar que las rotaciones son mis utilizadas para anlisis factoriales confirmatorios, pues para estos anlisis fueron ideadas, pero es ya
prctica habitual utilizarlas tambin para el ACP, en particular la tcnica denominada Varimax.
Tres son, a su vez, 10s procedimientos utilizados en rotacin rectangular:
unos con mis inters que otros desde el punto de vista del ACP.
a. 1) Varimax:
Es la tcnica comunmente usada y 10 es en este estudio. Minimiza el nmero de variables que tienen un factor o componente de saturacin sobre
una variable, acentuando 10s que 10 tienen ms elevado. Las componentes
quedan ms limpias al tener sobre ellas las variables que rns peso tienen, eliminando sobre dicha componente las intermedias.
La expresin a maximizar es, para un eje:
para el conjunto, V
C
V(Y.k)
.
.
a.2) Quartimax
Es una tcnica que minimiza el nmero de factores que corresponden a
una variable. Se trata de que cada variable se proyecte al mximo sobre factores o componentes diferentes, dentro evidentemente de 10s limites del mtodo. La lgica de la reduccin buscada en un anIisis bsicamente exploratorio no va en esta direccin. El supuesto ms adecuado para su aplicacin
consistiria en que las variables introducidas poseyeran determinados grados
de independencia supuesta.
donde
6) La rotacin oblicua.
Los ejes rotados a partir de 10s primeros factores no conservan la ortogonalidad, 10 que tiene como consecuencia que tampoc0 conserven la comunalidad de cada variable, y desde luego rompe con uno de 10s objetivos
que consiste en buscar la incorrelacin de 10s ejes. La tcnica es mis til y
utilizada con modelos previos, esto es con anhlisis factoriales confirmatorios,
por el10 no insistimos.
Evidentemente tanto para tener una idea de la envergadura de la rotacin
realizada, como para saber en qu se han transformado 10s valores propios
o la parte explicada de cada eje, interesa conocer la proyeccin de 10s factores
o componentes primitivos sobre 10s factores rotados es decir, la matriz de
transformacin entre ellos tal y como aparece en la Tabla 7.
3.5.2. La matriz de satzlraciones y 10spesos de cada componente en /os ejes
rotados
La Tabla 8 muestra la matriz de saturaciones para las componentes rotadas segn el procedimiento varimax. Aparecen adems 10s coeficientes distribuidos en grupo segn el orden de importancia en cada uno de 10s ejes,
para facilitar la interpretacin.
Como se ha anunciado anteriormente la rotacin varimax redistribuye diferentemente la varianza entre 10s ejes aunque la cantidad global de 10s cuatro
quede invariante e igual a 12.1 siendo el porcentaje acumulado de 71.2%.
c<Papersn:Revista de Sociologia
Factor 1
Factor 2
Factor 3
Factor 4
Factor I
Factor 2
Factor 3
.99594
-.O1274
-.O1789
-.O8735
-.O4736
.70576
-.44072
-.55266
.O0886
.44054
.88595
-.14468
Factor 4
.O7610
.55468
-.I4330
.81609
TABLA
8
Matriz factorial o de saturaciones del ACP
despus de la rotacin varimax
Factor 1
Factor 2
Factor 3
Factor 4
v.p.= 6.07
% varianza = 50.20%
2do. eje
v.p.= 2.20
% varianza = 18.20%
3er. eje
v.p.= 2.07
% varianza = 17.20%
4to. eje
v.p.= 1.74
% varianza = 14.40%
La distribucin es algo diferente a la dada inicialmente al disminuir minimamente el primer eje, algo mis el segundo y 10s dos ltimos. Dejando
pues la importancia del primero casi inalteriable (conlleva la mitad) se consigue reequilibrar 10s otros tres teniendo entre ellos un peso ms equilibrado
no llegando cada uno a 115 del total.
Factor Vertical: 2
Simbolo Variable
--
Las coordenada~son las valores que aparecen en la matriz factorial rotada (Tabla 8) para las factores 1 y 2.
d) Agrupar las variables por proximidades, sea en todos 10s ejes, sea en
pares de ellos. El10 podr ofrecernos 10s cluster de las mismas. Si al mismo
tiempo se sitan dichos grupos en 10s ejes se contribuye mejor a comprender
la estructura del sistema social tenido en cuenta, ponindonos en el camino
de crear o corroborar tipologias.
e) Establecer agrupaciones de variables segn comunalidades.
Para la interpretacin se ha tenido en cuenta la Tabla 8 y 10s grtficos resultantes de representar las coordenadas de cada par de ejes. Ahorrando el
Factor Vertical: 4
Smbolo Variable
Las coordenadas son 10s vaiores que aparecen en la rnatriz factorial rotada (Tabla 8) para 10s factores 3 y 4.
El primer
eje
((Papersn:Revista de Sociologia
Ambos polos dan contenido a una dimensin cargada por variables que
van en la direccin de categoria socioprofesionaiy nivel formativo 10 que haria intuir que se trata de una dimensin definida como categoria sociocultural.
El hecho de aparecer las variables migratorias o de origen y las ocupacionales hace perfilar mejor an la naturaleza de este eje: aparecen pues particularmente correlativas dichas variables con las de categorias bajas. Por el10
se puede afirmar que se trata de un eje que marca tambin la intepcidn en
el mundo laboraly el origen, fenmenos en estrecha relacin con la categoria
sociocultural.
Se trata pues de una dimensin que atraviesa y estructura la poblacin
considerada segn la categoria social entendindola como un compuesto de
integracin laboral ocupacional, categoria socioprofesionaly culturaly origen inmigrante.
El segundo eje
Tomando solamente como referencia 10s cuatro ejes considerados, ste
no llega al 20% de la varianza de 10s mismos, 10 que es importante tener en
cuenta a la hora del darle el peso explicativo correspondiente. Por el10 y por
el hecho de que algunas de las variables que ms se proyectan en l aparecen
tambin sobre otros ejes, su identidad es algo ms difusa.
Bsicamente se trata de un eje que va de un polo en el que aparecen variables como:
para ir al trabajo,
comercio y hosteleria.
El tercer eje
Conlleva, como el segundo, un peso que no llega al 20% del conjunto
de 10s cuatro considerados, 10 que nos orienta acerca de la importancia relativa de esta dimensin. Aunque el peso de la varianza no es considerable,
sin embargo, la naturaleza del eje aparece bien definida ya que las variables
que sobre al menos uno de 10s polos se proyectan tienen poca incidencia sobre otros ejes.
De uno de 10s lados de la ~olaridadaparecen ntidamente,
- 10s municipios pequefios,
- el sector agropecuario,
poblacional.
El cuarto eje
Como se ha anunciado este eje tiene poc0 peso de varianza en el conjunto
de 10s cuatro elegidos: significa bastante menos del 20% atribuido a 10s dos
anteriores. Uno de 10s polos aparece mis claramente definido que el otro.
c<Papersn:Revista de Sociologia
Asi sobre el primero aparecen claramente variables como:
- nuevos residentes venidos a la seccin entre 10s aiios 81-86,
- mujeres activas de ms de 15 afios,
- jvenes (aunque tambin con proyeccin sobre el segundo eje)
COMENTARIOS FINALES
El objetivo de este articulo se centraba en dar cuenta de uno de 10s mtodos multivariables que en nuestra opinin tienen gran importancia y utilidad en el anlisis sociolgico, a partir de un ejemplo y sin cargar las tintas
en 10s aspectos exclusivamente matemticos y tcnicos. Pensamos que con
el nivel de explicacin dado ser suficiente para que puedan ser comprendidas por el profano las lineas bsicas de esta tcnica. En la seleccin bibliogrfica que aparece al final de la revista se incluyen libros generales y de carcter especifico que desarrollan este mtodo factorial.
Otro de 10s objetivos que nos plantebamos consistia en la utilizacin de
datos secundarios provenientes de otras fuentes que la de la encuesta a fin
de mejor validarla y disefiarla. Aunque esta tcnica ha sido utilizada formando parte de un proceso para construir la muestra estratificada, 10s resultados