Está en la página 1de 66

Direccin Tcnica de Demografa e Indicadores Sociales

DIRECCION TECNICA DE DEMOGRAFIA E


INDICADORES SOCIALES

GUIA PARA LA
APLICACIN
DEL ANALISIS
MULTIVARIADO A
LAS ENCUESTAS
DE HOGARES

Lima, Enero 2002

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 1


Direccin Tcnica de Demografa e Indicadores Sociales

DIRECCIN Y SUPERVISION

Rosario Aquije Valdez


Directora Tcnica de Demografa e Indicadores Sociales

RESPONSABLES DEL ESTUDIO

Econ. Rofilia Ramrez Ramrez


Ing. Estad. Herman Edgar Castillo Ramn

SOPORTE INFORMATICO

Sr. Walter Ayala Godio

Preparado : Direccin Tcnica de Demografa e Indicadores Sociales del


Instituto Nacional de Estadstica e Informtica (INEI)
Impreso : Talleres de la Oficina Tcnica de Administracin del INEI
Diagramacin : Centro de Edicin de la Oficina Tcnica de Difusin del INEI
Tiraje : 500 Ejemplares
Domicilio : A v. General Garzn 658, Jess Mara. Lima - Per
Orden de Impresin : N 170-OTA-INEI
Depsito Legal N : 150113-2002-0155

2 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

PRESENTACION

El Instituto Nacional de Estadstica e Informtica (INEI), en el marco de su


poltica de difusin de las tcnicas multivariadas de uso ms frecuente,
pone a disposicin de las autoridades, investigadores y usuarios en general
el documento "GUIA PARA LA APLICACIN DEL ANALISIS
MULTIVARIADO A LAS ENCUESTAS DE HOGARES".

Los temas que se analizan en el presente documento, aplicando las tcnicas


multivariadas son el desempleo, la fecundidad y el desarrollo humano.
La fuente de informacin que se ha utilizado para este anlisis proviene
de la Encuesta Nacional de Hogares (ENAHO 2000) y la Encuesta
Demogrfica y de Salud Familiar (ENDES 2000).

Las tcnicas multivariadas permiten el estudio interrelacionado de las


variables sociales y demogrficas, a partir de modelos matemticos con
los que se representan las mltiples dimensiones de la realidad, facilitando
al investigador un mayor acercamiento a los fenmenos sociales. Para
una mejor comprensin y utilidad de estas tcnicas se utilizan dos
enfoques. El primero tiene que ver con "las variables y sus interrelaciones"
y el segundo enfoque est relacionado con la evaluacin de "la calidad
de los datos".

En el documento se han aplicado las principales tcnicas del anlisis


multivariado: el anlisis factorial, el anlisis discriminante y el anlisis de
conglomerados . Con el anlisis factorial se estudian los factores
explicativos del desempleo. Con el anlisis discriminante se estudia la
fecundidad, mediante la conformacin de grupos de mujeres de acuerdo
a un conjunto de variables seleccionadas y con el anlisis de conglomerados
se estudia del ndice de desarrollo humano, a partir de la clasificacin de
los departamentos en funcin de un conjunto de variables determinadas.

Esperamos que este documento aporte los instrumentos para el anlisis


de los fenmenos sociales y sea de utilidad para las autoridades y usuarios
en general, a quienes agradeceremos sus opiniones o sugerencias sobre
las tcnicas presentadas.

Lima, Enero 2002

Gilberto Moncada Vigo


Jefe del INEI

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 3


Direccin Tcnica de Demografa e Indicadores Sociales

4 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

INDICE
P R E S E N TA C I O N ............................................................ 3

I. O B J E T I V O S ............................................................... 7

II. A N L I S I S M U LT I VA R I A D O ......................................... 9

2.1 Principios bsicos ......................................................... 10


2.2 Principales aplicaciones a la investigacin social . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Anlisis de la interdependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Anlisis de la dependencia ......................................... 12
2.3 Aplicaciones al anlisis de las encuestas de hogares . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Simplificacin de la estructura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Clasificacin de variables y de unidades de anlisis . . . . . . . . . . . . . . 13
2.3.3 Evaluacin de la consistencia transversal de los datos . . . . . . . . . . 14

III. A N L I S I S FA C T O R I A L C O N F I R M AT O R I O .................... 17

3.1 El anlisis factorial confirmatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17


3.2 El anlisis factorial confirmatorio y su aplicacin a la ENAHO . . . . . 18
3.3 Estudio de los factores explicativos del desempleo abierto . . . . . . . . . . 18

I V. A N A L I S I S D E C O N G L O M E R A D O S ............................... 31

4.1 El anlisis de conglomerados ..... ....................................... 31


4.2 El anlisis de conglomerados y su relacin con la ENAHO . . . . . . . . . 31
4.3 Clasificacin de los departamentos del Per en funcin de las
variables ms relacionadas con el Indice de Desarrollo Humano . . . . 31

V. A N L I S I S D I S C R I M I N A N T E C L A S I F I C A T O R I O ............. 43

5.1 El anlisis discriminante ........... ....................................... 43


5.2 El anlisis discriminante y su relacin con la ENDES . . . . . . . . . . . . . . . . 43
5.3 Estudio del nmero de hijos de las mujeres segn variables
seleccionadas ............................................................... 44

I. C O N C L U S I O N E S ..................................................... 57

V I I . R E C O M E N D A C I O N E S ............................................ 59

R E F E R E N C I A S B I B L I O G R A F C A S ............................... 60

A N E X O S ................................................................. 63

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 5


Direccin Tcnica de Demografa e Indicadores Sociales

6 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

I. OBJETIVOS

1.1 Proponer un enfoque multi- para la investigacin de los problemas


variado para el anlisis de las sociales y el anlisis de los resultados
encuestas de hogares de las encuestas de hogares. Con esto
se pretende ampliar el conocimiento
Las encuestas de hogares captan de los mtodos descriptivos tradicional-
informacin peridica de un conjunto de mente utilizados en los estudios
variables sociales, constituyendo la fuente demogrficos y sociales mostrando el
de datos ms importante para el anlisis aumento de su efectividad cuando estos
de los problemas sociales, el diseo y mtodos son complementados por las
seguimiento de las polticas sociales en el tcnicas multivariadas para el tratamiento
pas. El anlisis multivariado a su vez, es la simultneo de las variables.
herramienta ms apropiada para el estudio
sistemtico y simultneo de dos o ms 1.2 Proporcionar nuevos criterios
variables. Por ello, en este documento se para evaluar la consistencia de los
propone el modo ms adecuado de aplicar datos
las tcnicas multivariadas utilizando la
informacin de las encuestas de hogares. El anlisis multivariado no se ha enfocado
De este modo los investigadores suficientemente para evaluar la
dispondrn de los elementos necesarios consistencia de los datos habindose
para contrastar sus hiptesis planteadas. desarrollado la mayor parte de sus
aplicaciones para la formulacin de
OBJETIVOS ESPECIFICOS modelos causales y no causales y el
contraste de hiptesis. Por ello, en el
1.1 Presentar nuevas herramientas presente documento se explican nuevos
analticas para el anlisis de los criterios e instrumentos para verificar la
problemas sociales consistencia simultnea de dos o ms
variables y as evaluar la base de datos de
En este documento se presenta un las encuestas de hogares.
conjunto de nuevas herramientas analticas

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 7


Direccin Tcnica de Demografa e Indicadores Sociales

8 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

II. ANLISIS MULTIVARIADO

Las investigaciones sociales y demogrficas Multivariado. Para un dominio de este tipo


proporcionan cuantiosa informacin por la de anlisis se requiere del conocimiento
diversidad de temas enfocados en ellas as de las matemticas avanzadas, sin
como por el gran nmero de observaciones embargo, en esta gua se presentan de
que integran las muestras. A ello se agrega un modo didctico las tcnicas
el hecho que las variables investigadas se multivariadas aplicadas a tres casos que se
expresan en diferentes escalas (nominal, generan a partir de las encuestas de
ordinal, de razn e intervlica) Cmo hogares.
analizar toda esa informacin? De qu
manera se puede reducir el nmero Los tres casos prcticos presentados,
de variables y/o datos sin afectar el analizan el problema social, desde su
objeto social en estudio?. La tcnica formulacin, su representacin en
matemtica que permite el anlisis modelos y la interpretacin de los
simultneo de dos o ms variables, la resultados. Se utiliza como fuente de
reduccin de los datos, la descomposicin informacin la Encuesta Nacional de
en factores del fenmeno social, la Hogares (ENAHO) del III trimestre del
clasificacin y el ordenamiento de las 2000 y la Encuesta Demogrfica y de Salud
unidades investigadas, es el Anlisis Familiar (ENDES), 2000.

El Anlisis Multivariado es una tcnica matemtica que permite el estudio


simultneo de las relaciones entre ms de dos variables y de las unidades
de anlisis en un perodo de tiempo determinado.

Las estadsticas univariadas (una sola El avance de la Tecnologa Informtica


variable), son empleadas con frecuencia (hardware y software) hizo posible que en
en los estudios sociales. En estos casos es las investigaciones se apliquen modelos
suficiente conocer la media y la varianza analticos complejos para estudiar los
del objeto en estudio para determinar la fenmenos sociales, dando lugar al uso
distribucin de la variable y de este modo frecuente de las tcnicas multivariadas.
inferir los resultados de la investigacin Esto facilit el estudio simultneo de las
mediante las pruebas de hiptesis y la variables y una mejor aproximacin al
conformacin de intervalos de confianza. conocimiento de la realidad social.
Estos aspectos fueron explicados con Mediante el anlisis multivariado se pueden
mayor detalle en el documento " Gua analizar ms de dos variables en forma
Metodolgica para la Evaluacin de simultnea, generndose por cada variable
Indicadores Sociales de las Encuestas de una media y varianza, dando lugar a la
Hogares ", elaborado por la DTDIS-INEI. formacin de la matriz de covarianzas. La

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 9


Direccin Tcnica de Demografa e Indicadores Sociales

formulacin de un modelo analtico, conceptuales y los diagramas de procesos.


mediante el cual se hacen explcitas las "Los primeros permitirn la presentacin
relaciones entre ms de dos variables, y de los conceptos sociales de un modo
el establecimiento de algunos supuestos estructurado y de fcil comprensin,
previos, facilitarn la interpretacin mientras que los diagramas de procesos
posterior de los resultados. hacen posible identificar las actividades
secuenciales que se siguen en la
Para seguir un procedimiento sistemtico investigacin 1/ ", haciendo posible
y de control de calidad de los procesos, incorporar ms adelante medidas
se recomienda iniciar el anlisis estadsticas de calidad en cada etapa del
multivariado elaborando los mapas proceso.

La tcnica multivariada a utilizar se determina a partir del conocimiento de


la forma en que se relacionan las variables inherentes al fenmeno social
en estudio.

2.1 Principios bsicos puede identificar unidades particulares,


como PEA desocupada, ocupada, mujeres
Para la aplicacin eficiente del anlisis en edad frtil, adultos mayores, entre
multivariado tenga presente lo siguiente: otros.

2.1.1 En cuanto a las variables 2.1.3 Principales elementos que


intervienen en el anlisis
El anlisis presenta restricciones segn el multivariado
tipo de variables existiendo una tcnica
especfica de acuerdo al tipo de variables Los principales elementos del anlisis
investigadas. Por ejemplo el anlisis multivariado son:
factorial y de conglomerados se aplica
generalmente cuando las variables son La unidad de anlisis: Es la unidad de
cuantitativas (intervlicas y de razn), investigacin o estudio, sobre la cual se
mientras que el anlisis discriminante exige realiza el anlisis. Por ejemplo: la vivienda,
que la variable dependiente sea cualitativa el hogar, la persona o un mbito
y las independientes cuantitativas o geogrfico (departamento, provincia,
dicotmicas. distrito, localidad, etc.).

2.1.2 En cuanto a las unidades de Las variables: Son las caractersticas


anlisis observables o conceptuales de la unidad
de anlisis. Estas caractersticas pueden
El anlisis es de corte transversal (en un registrarse en diferentes tipos de escalas.
determinado perodo de tiempo) y Las variables cuantitativas son medidas en
permite el estudio simultaneo de todas una escala ordinal, intervlica y de razn,
las unidades de anlisis, y adems se por ejemplo: aos de estudio, el ingreso,

1/
Gua Metodolgica "Evaluacin de Indicadores Sociales de las Encuestas de Hogares, 2001.

10 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

la edad, los gastos del hogar. Las variables anlisis , mientras que en las columnas se
cualitativas son medidas en una escala ubican las variables. La interseccin de
nominal por ejemplo el sexo, la condicin una fila y una columna da lugar al dato.
de alfabeto, la tenencia de la vivienda, Por ejemplo la matriz de datos que se
etc. muestra consta de n unidades de anlisis
y p variables, xij representa un dato en
La Matriz o Tabla de Datos: Una matriz particular. Se tendr tantas matrices de
o tabla de datos esta conformada por la datos como submuestras de poblacin lo
disposicin en filas de las unidades de permita la encuesta.

variables
1, j p
1
Unidades de anlisis

.i x ij
.
.
n

2.2 El anlisis multivariado en la El tipo de relacin entre las variables


Investigacin Social y define la forma funcional del modelo. Por
Demogrfica ejemplo si entre las variables no hay
dependencia o todas son
Los mtodos multivariados aportan los interdependientes, las tcnicas de anlisis
elementos analticos y operativos para que ms apropiadas son el Anlisis Factorial,
las Investigaciones Sociales y el Anlisis de Conglomerados (Cluster),
Demogrficas, se realicen en un marco el Anlisis de Correlacin Cannica, el
cientfico de tal manera que con el gran Anlisis de Componentes Principales, entre
volumen de datos proveniente de las otros. En cambio, si alguna variable (s) es
Encuestas de Hogares pueda estudiarse dependiente(s) de otra u otras entonces
mejor la realidad social. Con la se aplica: el Anlisis de Regresin
formulacin de un modelo multivariado Multivariado, el Anlisis Discriminante y
pueden evaluarse las hiptesis establecidas el Anlisis de Contingencia Mltiple.
las mismas que sern contrastados
empricamente2/.

2/
Debe entenderse por contraste emprico al procedimiento que permite comprobar a partir de los datos recogidos las
hiptesis formuladas.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 11


Direccin Tcnica de Demografa e Indicadores Sociales

Para facilitar la interpretacin de los resultados se recomienda que el


investigador formule a priori un modelo en el cual se hagan explcitas las
relaciones entre las variables.

2.2.1 Anlisis de la Interdependencia que el investigador tenga del fenmeno


social en estudio. Por ejemplo en el
Cuando no se puede determinar que una siguiente diagrama causal, las variables X,
variable(s) determina a la otra(s), se dice Y , Z son interdependientes, as X es causa
que la relacin entre las variables es de de Y, a su vez Y es causa de X , as Y lo
interdependencia. La condicin de es de Z y Z lo es de X. La interdependencia
interdependencia queda establecida por entre las variables puede resumirse en el
el conocimiento a priori y/o los supuestos siguiente diagrama causal3/:

X Z

Ejemplo prctico: El ndice de desarrollo ni escribir, proporcin que no estudio ni


educativo de la niez y la adolescencia trabaja. Entre estas variables no se
queda determinado a partir de un estableci a priori ninguna relacin de
conjunto de factores denominados como dependencia, ingresando todas ellas como
de contexto, de proceso y de resultado. explicativas del desarrollo educativo y por
Esta denominacin se realiz atendiendo tanto interdependientes.
a las caractersticas de las variables que
conformaban cada factor. As son variables 2.2.2 Anlisis de la Dependencia
de contexto: la proporcin de nios con
desnutricin crnica y el nivel educativo La relacin entre las variables es de
de la madre; de proceso: la proporcin de dependencia, cuando el conocimiento a
alumnos en extra edad escolar, la priori del objeto social en estudio o los
proporcin de menores de 15-17 aos que supuestos determinan que una variable
estudia y trabaja, la tasa de desaprobacin (dependiente) es determinada por otras.
en educacin primaria de menores y de Por ejemplo: en el siguiente diagrama
resultado: el grado de estudio aprobado a causal la variable Y depende de X y Z.
los 17 aos de edad, proporcin de As, Y depende de X, Z, y entre X y Z
menores de 15-17 aos que no saben leer no hay relacin.

3/
El diagrama causal es una representacin grfica de los diferentes tipos de relacin entre las variables. Para ello se
utilizan diferentes figuras geomtricas y flechas que indican el sentido de la relacin entre las variables.

12 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

X Z

Ejemplo prctico: Un estudio de la (combinacin lineal o no lineal) de un


calidad y la eficiencia de los hospitales conjunto de variables interdependientes
determin que las diferencias de atencin en otro conjunto de menor dimensin.
en los diferentes hospitales son explicadas
por las variables relacionadas con los Ejemplos aplicativos:
recursos humanos que laboran en los
hospitales (nmero, formacin, 1. La matriz de datos inicial compuesta
compromiso con la institucin), y otros por n-filas (unidades de anlisis) y
factores como la disponibilidad de p-variables se reduce a una matriz
tecnologa y el nivel de especializacin, de menor dimensin mediante el
as como por las diferentes combinaciones anlisis de componentes principales
de estos factores. La tcnica multivariada (anlisis factorial).
utilizada para la comprobacin emprica de
esta relacin causal, fue el anlisis de
2. Cuando las unidades de anlisis se
regresin mltiple.
disponen en grupos homogneos
mediante el anlisis de
2.3 Aplicaciones al anlisis de las conglomerados, se reduce el nmero
encuestas de hogares de unidades a analizar, simplificndose
su interpretacin.
Las aplicaciones del Anlisis Multivariado
estn dirigidas principalmente a la 3. Cuando las n variables originales se
reduccin de la estructura de datos y a la reducen en n-1 factores (anlisis
clasificacin de las unidades de anlisis o factorial), siendo cada factor una
las variables en grupos. Adems en este combinacin lineal de las variables,
documento se presentan algunas representando estos factores una
aplicaciones dirigidas a evaluar la dimensin diferente del fenmeno
consistencia de las bases de datos de las social observado, se logra un anlisis
Encuestas de Hogares. simplificado y ordenado de los
resultados.
2.3.1 Simplificacin de la Estructura
de Datos 2.3.2 Clasificacin de las variables y
las unidades de anlisis
Se busca encontrar la manera de reducir
el universo de datos sin afectar al Se persigue encontrar el modo mas
fenmeno social en estudio. Esto puede eficiente de agrupar las variables o las
lograrse mediante la transformacin unidades de anlisis.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 13


Direccin Tcnica de Demografa e Indicadores Sociales

ejemplos aplicativos: variables (signo) cualquier resultado


diferente al esperado conducir a la
1. Los departamentos del Per (unidades revisin de los datos. As, al formular
de anlisis) pueden ordenarse un modelo factorial que incorpore las
mediante el anlisis factorial, a partir variables gastos e ingresos F (G, Y),
del puntaje obtenido como se espera que el coeficiente que mide
combinacin lineal ponderada de un la relacin entre estas variables tenga
conjunto de variables interrela- signo positivo (relacin directa), por
cionadas. Adems pueden disponerse cuanto "los gastos son directamente
en grupos homogneos y hetero- proporcionales al ingreso", un signo
gneos entre si, mediante el anlisis negativo permitir inferir la
de conglomerados. inconsistencia de la informacin.

2. Las variables relacionadas con el 2. Utilizando el anlisis de


desarrollo educativo pueden ser conglomerados (cluster) los grupos de
clasificadas en dimensiones unidades de anlisis conformados de
diferentes (contexto, proceso y acuerdo a un criterio de clasificacin
resultado) aplicando el anlisis se espera sean semejantes a los
factorial. grupos formados con otro mtodo,
de tal manera que al correlacionar el
2.3.3 Evaluacin de la consistencia ordenamiento obtenido por el anlisis
transversal de los datos de conglomerados con el
ordenamiento generado por otro
mtodo, se obtenga un coeficiente
Adems de las aplicaciones mencionadas,
de correlacin significativo, (al menos
los modelos analticos multivariados
0,5). Cualquier otra situacin
pueden emplearse para evaluar la
determinar la necesidad de revisar
consistencia transversal de los datos.
la base de datos. Por ejemplo al
aplicar el anlisis cluster para ordenar
ejemplos aplicativos:
los departamentos del Per de
acuerdo al nivel de pobreza (criterio)
1. A partir del anlisis factorial se formula se obtienen una clasificacin de los
un modelo explicativo, cuyos departamentos en estratos pobres y
coeficientes calculados (magnitud y no pobres. Esta clasificacin se
signo) permitirn confirmar la compara con el ordenamiento simple
consistencia de los datos. Si la de los departamentos segn el Indice
magnitud de estos coeficientes de Necesidades Insatisfechas (NBI),
excede los rangos esperados esperando encontrar un
entonces debe revisarse la base de ordenamiento semejante (correlacin
datos, de igual manera si se conoce significativa). De no encontrarse esta
el sentido de la relacin entre las relacin puede inferirse que la
informacin es inconsistente.

14 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

3. De una muestra total se seleccionan de ellas el anlisis discriminante


aleatoriamente dos submuestras, para encontrar las variables que
al aplicar el anlisis discriminante a explican la condicin de
cada muestra se analiza la tabla de subempleo. Las variables mas
ordenamiento de las variables explicativas se espera sean las
esperando encontrar cierta mismas en ambas submuestras.
semejanza en ambas, lo que Cualquier otro resultado conducir
permitir inferir la consistencia de a la revisin de la base de datos,
la informacin. Por ejemplo del en especial de aquellas variables
modulo de empleo de la ENAHO cuya importancia relativa difiera en
se seleccionan aleatoriamente dos las submuestras.
submuestras, se aplica a cada una

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 15


Direccin Tcnica de Demografa e Indicadores Sociales

16 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

III. ANLISIS FACTORIAL CONFIRMATORIO

El anlisis factorial es una tcnica del Los tipos ms frecuentes del anlisis
Anlisis Multivariado que permite obtener factorial son: el anlisis factorial
a partir de un conjunto de variables un exploratorio y el anlisis factorial
grupo menor de nuevas variables confirmatorio. El primero se utiliza
denominadas factores, los mismos que cuando el investigador requiere clasificar
estaran explicando la variacin conjunta las variables en dimensiones excluyentes
o dependencia mutua entre dichas (factores). Por ejemplo, mediante el
variables. Estos factores denominados anlisis factorial exploratorio podemos
tambin variables "latentes" se caracterizan disponer las variables relacionadas con el
por no estar correlacionados entre s. Indice de Desarrollo Educativo en sus tres
Con esta reduccin se hace ms sencillo dimensiones: contexto (condicionantes y
el anlisis de los resultados. medio social), proceso (variables
explicativas), y resultados (rendimiento
educativo).

Con el anlisis factorial las variables se disponen en factores no


correlacionados entre s, donde cada factor representa una dimensin
diferente del fenmeno social de este modo se logra una apreciacin
integral del objeto en estudio.

3.1 El anlisis factorial confirmatorio de causalidad entre las variables as como


restringir el valor de algunos parmetros
El anlisis factorial confirmatorio se aplica del modelo antes de calcularlo
cuando el investigador tiene un (coeficientes del modelo). As, el modelo
conocimiento a priori del fenmeno en a priori formulado es contrastado con los
estudio, lo cual le permite formular las resultados muestrales obtenidos.
hiptesis necesarias acerca de la relacin

El anlisis factorial confirmatorio permite contrastar sistemticamente las


relaciones formuladas a priori entre las variables de tal manera que se
compruebe empricamente los supuestos y los resultados tengan la
consistencia estadstica esperada.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 17


Direccin Tcnica de Demografa e Indicadores Sociales

3.2 El anlisis factorial confirmatorio social. A partir de un modelo factorial


y su aplicacin a la ENAHO confirmatorio se identificarn las variables
ms relacionadas con el desempleo y que
La encuesta nacional de hogares (ENAHO), contribuyen a explicar las condicionantes
es una encuesta que peridicamente de esta situacin.
ejecuta el INEI y est orientada a obtener
informacin tanto del hogar como de las 3.3.1 Etapas para realizar el anlisis
personas que lo habitan en temas factorial confirmatorio
relacionados con las caractersticas de la
vivienda y del hogar, empleo e ingresos, Para realizar el anlisis factorial
educacin, salud, programas sociales y confirmatorio siga las siguientes etapas:
condiciones de vida de la poblacin. Las
variables que integran cada uno de los 1. Formule las hiptesis: Para plantear
temas, pueden ser analizadas las hiptesis se formulan las siguientes
simultneamente y de una manera preguntas: Cules son los factores
eficiente mediante las tcnicas explicativos del desempleo? Qu
multivariadas. variables contribuyen ms a explicar
estos factores? A partir de estas
El anlisis factorial, permite desarrollar preguntas se pueden formular las
investigaciones sociales con variables tanto hiptesis siguientes:
cuantitativas como cualitativas. As, se
puede estudiar el desempleo abierto Primera hiptesis: El desempleo
aplicando un modelo factorial abierto est determinado por factores
confirmatorio, con las diferentes variables relacionados con la demanda del
seleccionadas de la base de datos que mercado laboral (las expectativa del
integran el modulo empleo de la ENAHO. empleador), la oferta de mano de obra
(el perfil profesional del desempleado)
3.3 Estudio de los factores explica- y otro factor no considerado en los
tivos del desempleo abierto anteriores.

En el siguiente caso prctico se estudia el Segunda Hiptesis: El nivel educativo


desempleo abierto utilizando la tcnica es la variable ms determinante en la
factorial confirmatoria. Como toda condicin de desempleo.
investigacin esta se inicia con la revisin
conceptual. As, se considera que estn 2. Genere un modelo multivariado: El
en situacin de desempleo abierto, las conocimiento a priori del fenmeno
personas de 14 aos y ms de edad que social determina la seleccin de las
cumplen las tres condiciones siguientes: variables, su nmero y el sentido de la
desean trabajar, estn disponibles para relacin entre ellas. As, mediante un
hacerlo y se encuentran buscando diagrama causal podemos representar
activamente un empleo. En el pas esta las relaciones entre las variables. En
situacin afecta aproximadamente el 10% este ejemplo se han seleccionado once
de la poblacin econmicamente activa variables explicativas del problema
(PEA), siendo necesario efectuar un social.
estudio sistemtico de este problema

18 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Modelo factorial confirmatorio del desempleo abierto:

E j = j + j1 F1 + j 2 F 2 + j 3 F 3 + j
j = 1, K, n

Diagrama causal:

X1

X2

F1
X 11

X5

X6

X9 F2 E

X 10

X7
X8 F3
X3
X4

donde: basa en el clculo del coeficiente de


E : Desempleo (variable explicada) Pearson. Para el presente ejemplo, se
F1 : Primer Factor. Demanda del ha considerado en el modelo factorial
mercado laboral (expectativa del confirmatorio algunas variables
empleador) nominales las cuales han sido
F2 : Segundo Factor. Oferta de mano de convertidas a dicotmicas, codifi-
obra (el perfil profesional del cndose sus categoras con 0 y 1. El
desempleado) valor 1 indicar la presencia de la
F3 : Tercer Factor. Otro factor no cualidad correspondiente a una de las
considerado entre los anteriores dos categoras y el 0 la ausencia de dicha
Xj : j - sima variable explicativa cualidad. Este artificio permitir
obtener el valor analtico (signo) de los
coeficientes estimados, al margen de
3. Variables explicativas: Generalmente
la escala en que se han medido estas
el anlisis factorial se realiza con
variables. As, se ha considerado las
variables medidas en una escala
siguientes variables explicativas:
intervalar, porque la matriz de
correlacin punto inicial del anlisis se

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 19


Direccin Tcnica de Demografa e Indicadores Sociales

No Variable Tipo Cdigo


1 Ha trabajado antes? Nominal-dicotomica EXPLABOR
2 Ha aprendido un oficio a travs de la experiencia? Nominal-dicotomica P592

3 Cuntas semanas ha buscado trabajo? Intervlica p564

4 Tiene profesin? Nominal-dicotomica p584b


5 Edad Intervlica EDA500
6 Sexo Nominal-dicotomica SEXO

7 Total de miembros del hogar? Intervlica MIEPERHO

8 Area Nominal-dicotomica AREA


9 Condicin de Unin Nominal-dicotomica CONCIVIL

10 Aos de estudios Intervlica ANOEST

11 Actualmente lleva o llev cursos de capacitacin? Nominal-dicotomica P587

4. Fuente de datos: La fuente de datos encuentran en situacin de desempleo


para probar las hiptesis planteadas es abierto.
la ENAHO 2000 III trimestre, se utiliza
la base de datos sin expandir, para que 5. Inicie el Anlisis Factorial Confir-
los coeficientes estimados, no se vean matorio utilizando el programa SPSS.
afectados por los factores de expansin. Abra la base de datos con las variables
Adems la base de datos debe estar seleccionadas. Luego en el men de
conformada por la poblacin objetivo barras del SPSS ubique la opcin
(unidades de anlisis) , que para el Analyze / Data Reduction / Factor, de
presente caso prctico es la poblacin acuerdo al cuadro de dilogo siguiente:
de 14 aos y ms de edad que se

La opcin Data Reduction contiene las "Factor Analysis" (Anlisis Factorial), el


tcnicas de reduccin de datos tambin "Correspondence Analysis" (Anlisis de
llamadas de reduccin de las dimensiones Correspondencias) y el "Optimal Scaling"
del fenmeno en estudio. Estas son el (Escalamiento Optimo).

20 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

El "Factor Analysis" (Anlisis Factorial), se categoras. As se puede estudiar la relacin


aplica principalmente a las variables entre el nivel educativo de una persona
cuantitativas, mientras que las otras (primaria, secundaria, superior) y el mbito
tcnicas son apropiadas para variables (urbano / rural).
cualitativas, permitiendo encontrar las
relaciones entre las categoras de las Regresando al anlisis factorial
variables. confirmatorio, la opcin factor habilita una
ventana que facilita la seleccin de las
El "Correspondence Analysis" (Anlisis de variables explicativas, de modo que las
Correspondencias), se utiliza para estudiar once variables explicativas seleccionadas
la semejanza entre variables con igual se trasladen al recuadro de "Variables".
nmero de categoras. Por ejemplo se Las opciones del Data Reduction / Factor,
puede estudiar la relacin entre el sexo son: "Descriptives", "Extraction", "Rotation",
(hombre / mujer) de la persona y su "Scores" y "Options", que a continuacin
condicin de ocupacin (ocupado / se explican con ms detalle.
desocupado).
La Ventana DESCRIPTIVES: Habilita el
El "Optimal Scaling" (Escalamiento cuadro de dilogo siguiente "Factor
Optimo), permite el estudio de variables Analysis: Descriptives"
cualitativas con diferente nmero de

La opcin estadstica "Statistics" - que se calculen los coeficientes de


Univariate descriptives, activada facilita la correlacin de Pearson, ("coefficients"), el
generacin de las estadsticas descriptivas determinante de la matriz (determinant)
(media, desviacin estndar, moda, entre y los niveles de significacin estadstica de
otras) para cada una de las variables los coeficientes estimados (significance
seleccionadas. Al activar "Initial solution" levels). Las pruebas de esfericidad de
el programa mostrara la solucin inicial Barlett y el test de Kaiser-Meyer-Olkin
(comunalidad inicial) en la salida ("output"). (KMO) permitirn evaluar la calidad de
Las opciones activadas en "Correlation las estimaciones.
Matrix" -Matriz de Correlacin-, permiten

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 21


Direccin Tcnica de Demografa e Indicadores Sociales

La Ventana EXTRACTION: En esta ventana seleccione las siguientes opciones:

En Method, elija el mtodo de En este caso se ha elegido extraer tres


componentes principales "Principal factores.
Components" por ser el punto de partida
para para estimar los factores. En Display debe activar las dos opciones
"unrotated factor solution" (solucin
factorial no rotada) para comparar las
En Analyze active la opcin de la matriz soluciones entre factores sin rotar y
de correlaciones, de modo que se rotadas, el "scree plot" para obtener el
muestren las asociaciones entre las grfico respectivo.
variables. En caso de que no exista
asociacin entre las variables, la matriz En Maximum Iterations for
de correlacin ser igual a la matriz convergence, especificar el nmero
identidad. La siguiente opcin Covariance mximo de pasos que el algoritmo puede
matriz (matriz de covarianzas) es opcional. tomara para estimar la solucin. Por
defecto este nmero es de 25.
En Extract active cualquiera de las
opciones que se muestran, pues ambas La Ventana ROTATION: En esta ventana
permiten fijar el nmero valores eigen o debe seleccionar las siguientes opciones:
de factors a extraer del resto de variables.

22 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

En Method active el mtodo de rotacin En Display active la opcin "Rotated


Varimax, para la rotacin ortogonal de las solution" para mostrar la solucin rotada.
componentes o factores, de modo que El nmero de iteraciones para la
las variables fuertemente correlacionadas convergencia de la solucin que por
entre s presenten concentraciones altas defecto aparece es 25.
sobre un mismo factor (por ejemplo las
variables correlacionadas con las La Ventana SCORES: La ventana scores
caractersticas demogrficas estn muestra la siguientes opciones:
agrupadas en un mismo factor) y su
concentracin en otros factores sean bajas.
As, se optimiza la solucin.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 23


Direccin Tcnica de Demografa e Indicadores Sociales

Los puntajes factoriales (scores) son las un procedimiento ms estandarizado.


proyecciones de los valores de las variables Adems debe activarse la opcin Display
sobre cada uno de los factores o factor score coefficient matrix que
componentes hallados. Debe activarse la muestra la matriz de transformacin de las
opcin Save as variables, para grabar en componentes para calcular los puntajes
la base de datos estos puntajes factoriales factoriales.
(F_1, F-2....) como nuevas variables. Estos
puntajes permitirn ordenar las unidades La Ventana OPTIONS: En la ventana
de anlisis, recomendndose obtenerlos Options, active las siguientes funciones
por el mtodo de regresin por ser este segn se indican:

En Missing Values, active la opcin generacin de los indicadores de calidad


"Exclude cases listwise" por la que se de las estimaciones. Las interpretaciones
excluye del anlisis las unidades de anlisis de las salidas que otorga el programa
con valores incompletos. En Coefficient son:
Display Format active la opcin "Sorted
by size" que permite presentar en forma Matriz de correlacin
ordenada las variables de acuerdo a su
mayor correlacin con los factores La matriz de correlacin contiene los
estimados. coeficientes de correlacin de Pearson
Una vez realizada todas las selecciones (medida de asociacin lineal entre las
pulsar OK en el cuadro de dialogo principal variables). La magnitud y el signo del
para ejecutar todo el procedimiento de coeficiente determina el grado y sentido
anlisis factorial. de la relacin entre las variables
explicativas. Cuanto mayor sea el valor del
6. Cmo se interpretan los resultados coeficiente mayor ser la relacin entre
del anlisis factorial realizado? las variables. Si es positivo entonces la
relacin entre las variables es directa, pero
El anlisis factorial realizado ha permitido si el signo es negativo la relacin es inversa.
la obtencin de los tres factores en los Mientras ms cerca a uno se encuentren
cuales se agrupan las once variables los coeficientes de correlacin implica que
inicialmente consideradas y la la relacin entre las variables es mas alta,

24 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

mientras que los valores prximos a cero calculados, la misma que viene dada por
implican ausencia de la correlacin la proximidad a cero de los valores
(relacin). El determinante de la matriz se mostrados. As, cuanto ms prximos a
indica al pi de la tabla. Debajo de los cero se encuentren estos valores los
coeficientes de correlacin se muestra la coeficientes sern estadsticamente
significacin estadstica de los coeficientes significativos.

Correlacin Matrixa
Actual-
Ha Cuantas
mente
aprendido semanas
Ha Total de Aos lleva o ha
algn oficio ha estado Tiene Edad Condicin
trabajado Sexo miembros Area de llevado
a travs de buscando profesin (Aos) de unin
antes? del hogar Estudio cursos de
la expe- trabajo sin
capaci-
riencia? interrupcin
tacin?
Ha trabajado antes? 1.000 -0.190 0.000 0.027 -0.216 0.095 -0.010 0.049 0.194 -0.009 -0.087
Ha aprendido algn oficio a
travs de la experiencia? -0.190 1.000 0.006 -0.187 0.260 -0.308 0.016 0.008 -0.199 -0.200 -0.120
Cuantas semanas ha estado
buscando trabajo sin
interrupcin? 0.000 0.006 1.000 0.023 0.138 -0.028 0.066 -0.1 -0.046 0.058 0.028
Ninguna profesin 0.027 -0.187 0.023 1.000 -0.077 0.090 -0.130 -0.1 0.103 0.725 0.277
Edad (Aos) -0.216 0.260 0.138 -0.077 1.000 -0.162 -0.145 -0.1 -0.524 -0.214 0.014
Sexo 0.095 -0.308 -0.028 0.090 -0.162 1.000 -0.007 0.001 0.006 0.076 0.103
Total de miembros del hogar 0.010 0.016 -0.066 -0.130 -0.145 -0.007 1.000 0.070 0.040 -0.102 -0.071
Area 0.049 0.008 -0.054 -0.134 -0.093 0.001 0.070 1.0 0.017 -0.190 -0.153
estado civil 0.194 -0.199 -0.046 0.103 -0.524 0.006 0.040 0.017 1.000 0.154 0.004
Aos de estudio -0.009 -0.200 0.058 0.725 -0.214 0.076 -0.102 -0.2 0.154 1.000 0.373
Actualmente lleva o ha llevado
cursos de capacitacin? -0.087 -0.120 0.028 0.277 0.014 0.103 -0.071 -0.2 0.004 0.373 1.000
Ha trabajado antes? 0.000 0.499 0.158 0.000 0.000 0.355 0.037 0.000 0.365 0.001
Ha aprendido algn oficio a
travs de la experiencia? 0.000 0.411 0.000 0.000 0.000 0.275 0.384 0.000 0.000 0.000
Cuantas semanas ha estado
buscando trabajo sin
interrupcin? 0.499 0.411 0.197 0.000 0.156 0.007 0.024 0.047 0.017 0.156
Ninguna profesin 0.158 0.000 0.197 0.002 0.000 0.000 0.000 0.000 0.000 0.000
Edad (Aos) 0.000 0.000 0.000 0.002 0.000 0.000 0.000 0.000 0.000 0.309
Sexo 0.000 0.000 0.156 0.000 0.000 0.393 0.487 0.413 0.003 0.000
Total de miembros del hogar 0.355 0.275 0.007 0.000 0.000 0.393 0.005 0.073 0.000 0.005
Area 0.037 0.384 0.024 0.000 0.000 0.487 0.005 0.266 0.000 0.000
estado civil 0.000 0.000 0.047 0.000 0.000 0.413 0.073 0.266 0.000 0.447
Aos de estudio 0.365 0.000 0.017 0.000 0.000 0.003 0.000 0.000 0.000 0.000
Actualmente lleva o ha llevado
cursos de capacitacin? 0.001 0.000 0.156 0.000 0.309 0.000 0.005 0.000 0.447 0.000
a. Determinant = 0.169

La matriz de correlacin es una matriz significacin estadstica viene dada por los
simtrica cuyos coeficientes de correlacin valores que se muestran debajo de la matriz
se muestran por encima y por debajo de la de correlacin. El coeficiente de correlacin
diagonal principal (formada por uno). Como es significativo si el valor que se muestra
se esperaba algunos coeficientes estn ms en la parte inferior a la matriz de correlacin
cerca de la unidad, mientras que otros es inferior a 0.05. Cualquier otro valor,
valores estn prximos a cero. As, la indica que el coeficiente de correlacin no
correlacin entre los aos de estudio y la es significativo y por tanto no son vlidas
tenencia de profesin, es 0.725 (coeficiente las inferencias, siendo sus valores solo
ms alto), asimismo este coeficiente es referenciales.
estadsticamente significativo (0.000). La

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 25


Direccin Tcnica de Demografa e Indicadores Sociales

Es importante que todas las variables identidad; versus la hiptesis alternante:


tengan al menos un coeficiente de la matriz de correlaciones no es una matriz
correlacin significativo en la matriz. El de identidad. En caso de rechazar la Ho
coeficiente de correlacin de Pearson es se concluye que las variables estn
apropiado cuando las variables son correlacionadas entre s, lo que da sentido
cuantitativas. Sin embargo, las variables al anlisis factorial a realizar.
cualitativas incorporadas al modelo
permitirn la disposicin adecuada de las La prueba de Kaiser-Meyer-Olkin
variables en los factores al margen de la (KMO) estima un valor que de acuerdo a
magnitud y signo de los coeficientes de su ubicacin en una escala permitir
correlacin a partir de ellas generados. concluir si el anlisis realizado es
conveniente. Este KMO se basa en la
Pruebas de Kaiser-Meyer-Olkin relacin entre los coeficientes de
(KMO) y de Bartlett correlacin de Pearson y los coeficientes
de correlacin parcial entre las variables.
La prueba de Bartlett, est referida a la En la medida que los primeros sean ms
matriz de correlaciones. Se contrasta la altos, el valor estimado estar mas cerca
siguiente hiptesis nula (Ho): La matriz de uno, y por tanto el modelo factorial
de correlaciones es una matriz de empleado ser ms efectivo.

Prueba KMO y Bartlett


Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. .602

Bartlett's Test of Approx. Chi-Square 2375.412


Sphericity df 55
Sig. .000

Realizada la prueba de Bartlett, por ser entre las variables es estadsticamente


el Sig (0.00) inferior al valor de 0.05 a significativa.
priori fijado, se rechaza la Ho. Se
concluye que es poco probable que la Para interpretar el KMO obtenido se
matriz de correlacin sea una matriz de requiere ubicar este valor (0.602) en la
identidad, y por tanto la correlacin siguiente tabla:

1 >= KMO > 0.9 excelente


0.9 >= KMO > 0.8 bueno
0.8 >= KMO > 0.7 aceptable
0.7 >= KMO > 0.6 regular
0.6 >= KMO > 0.5 deficiente

KMO <= 0.5 inaceptable

26 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

El KMO calculado en el ejemplo es igual ms altas. El valor de 0.803 se interpreta


a 0.6 alcanzando un nivel deficiente de de la siguiente manera: el 80% de la
acuerdo a la escala presentada. Esto variabilidad de los aos de estudios es
probablemente sea consecuencia de que explicada por los tres factores, mientras
ms de la mitad de variables empleadas que el valor de 0.31 significa que la
en el caso prctico analizado son variable "ha trabajado antes" es explicada
dicotmicas. apenas en un 30% por los tres factores.

Comunalidad Porcentaje de varianza

La comunalidad, es una medida del aporte El cuadro muestra el porcentaje de


de los factores a la explicacin de las varianza del modelo que es explicado por
variables, mientras ms prximos a uno los tres factores o componentes. En la
estn las comunalidades, significa que los columna "Rotation Sums of Squared
factores explican en su totalidad la Loadings" se indica que el primer
variabilidad. componente explica el 19.1% de la
variacin total, el segundo componente
Para el caso prctico las variables: Aos explica el 14.6%, mientras que el tercero
de estudios, edad y tiene profesin son el 13.9%. As, entre los tres factores
las variables mejor explicadas por los explican el 48% del comportamiento de
tres factores, al registrar las comunalidades la variable explicada (E).

Porcentaje de Varianza Explicada


Extraction Sums of Squared Rotation Sums of Squared
Initial Eigenvalues Loadings Loadings
% of % of % of
Varian Cumula Varian Cumula Varian Cumula
Component Total ce tive % Total ce tive % Total ce tive %
1 2.331 21.187 21.187 2.331 21.187 21.187 2.105 19.137 19.137
2 1.778 16.164 37.351 1.778 16.164 37.351 1.609 14.630 33.767
3 1.133 10.302 47.653 1.133 10.302 47.653 1.527 13.886 47.653
4 1.051 9.552 57.205
5 .936 8.514 65.718
6 .904 8.216 73.934
7 .803 7.296 81.230
8 .731 6.648 87.878
9 .650 5.909 93.788
10 .446 4.055 97.843
11 .237 2.157 100.000

Extraction Method: Principal Component Analysis.

Los valores Eigen, vienen a ser la expresin respectivamente. Es decir el porcentaje


numrica de las componentes, explicando de variacin explicado crece en relacin
su valor un porcentaje de la varianza total. directa a la magnitud del valor Eigen. De
Por ejemplo en la columna "Rotation Sums este modo los tres primeros valores Eigen
of Squared Loadings" el valor Eigen que (equivalentes a tres factores o
corresponde a 2.105 explica el 19.1%, componentes) explican el 48% de la
mientras que los valores eigen de 1.609 y variabilidad total del modelo, lo que puede
1.527 explican el 14.6% y el 13.8%, interpretarse como un porcentaje

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 27


Direccin Tcnica de Demografa e Indicadores Sociales

aceptable, teniendo mas de la mitad de porcentaje de variacin total del caso


variacin del desempleo explicada por los estudiado sea explicado por los factores al
tres factores. En el caso de los modelos menos en el 60%.
de prognosis se recomienda que el

Representacin Grfica

% de la Variacin explicada
2.5

2.0

1.5

1.0
valor Eigen

.5

0.0
1 2 3 4 5 6 7 8 9 10 11

Nmero de componentes

En el grfico se representan en el eje de importancia. As en el primer factor o


abcisas el nmero total de factores o componente, las variables: "aos de
componentes y en el eje de ordenadas su estudio", "tiene profesin", "actualmente
valor numrico. Se aprecia la relacin inversa lleva o ha llevado cursos de capacitacin"
entre la magnitud del coeficiente y el nmero y "rea" tienen mayor peso. A este factor
de factores. Desde que la magnitud del se le denomin "Demanda del mercado
coeficiente mide el poder explicativo, se laboral". En el segundo factor
puede inferir que conforme se calculen ms denominado "Oferta de mano de obra",
factores el poder explicativo decrece. tienen mayor importancia las variables:
"edad", "condiciones de unin", "total de
El punto de inflexin de la curva, seala el miembros del hogar" y "semanas
nmero ideal de factores a determinar. En buscando trabajo sin interrupcin". En
el caso prctico desarrollado el grfico el tercer factor denominado "otro factor"
confirma que el nmero ideal de factores se congregan las variables "sexo",
es tres. "aprendi un oficio por la experiencia" y
"ha trabajado antes". Las variables ms
Matriz de Cargas o Pesos Factoriales representativas de cada factor es decir
Rotada aquellas con los pesos ms altos son el
nivel educativo, la edad y el sexo, las
La tabla muestra la disposicin de las variables mismas que podemos inferir son las ms
en los factores segn su grado de condicionantes del desempleo.

28 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Matriz de Componentes Rotadasa

Component

1 2 3
AOS DE ESTUDIO .881 .151 7.184E-02
Tiene profesin .825 6.501E-02 8.613E-02
Actualmente lleva o ha llevado cursos de
.596 -.160 7.279E-02
capacitacin?
AREA -.391 .186 .105
Edad (Aos) -9.495E-02 -.773 -.325
Condicin de Unin .146 .762 .155
Total de miembros del Hogar -.221 .367 -.118

Cuantas semanas ha estado buscando


9.889E-02 -.314 4.586E-02
trabajo sin interrupcion?
Sexo 2.759E-02 -.184 .772
Ha aprendido algn oficio a traves de la
-.188 -.104 -.727
experiencia?
Ha trabajado antes? -.125 .259 .477

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.

Principales conclusiones del anlisis semanas que ha buscado trabajo por lo


factorial realizado que se considera este factor como
"caractersticas sociodemogrficos".
El modelo factorial ha permitido En el tercer factor (F3) son ms
determinar que las variables ms importantes las variables: sexo, ha
condicionantes de la situacin de aprendido algn oficio a travs de la
desempleo abierto son: el nivel educativo, experiencia y si ha trabajado antes por lo
la edad y el sexo (son las que tienen el cual se le ha denominado "experiencia
mayor peso o carga factorial en cada laboral".
factor).
La identificacin de estas tres dimensiones
La disposicin de las variables segn su hace posible realizar el anlisis de los
coeficiente de correlacin determina que resultados a partir de ellas prescindindose
el primer factor (F1) se renan las variables: de las variables originales.
aos de estudio, tenencia de profesin y
cursos de capacitacin llevados por el En cuanto a la consistencia del
desocupado denominacin este factor modelo y los datos.
como "calificacin laboral"; en el
siguiente factor (F2) , se congregan las - Consistencia del modelo: las
variables como: la edad, la condicin de medidas de calidad para la validez del
unin, el tamao de la familia y las modelo (Bartlett y KMO) analizadas,

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 29


Direccin Tcnica de Demografa e Indicadores Sociales

permiten inferir que la tcnica factorial debe evaluarse la base de datos en


utilizada ha sido adecuada. Adems el especial de aquellas variables con
grfico de componentes otorga validez coeficientes de correlacin no
al nmero de componentes estimadas. significativos y con signos contrarios al
Otra medida de calidad son los valores esperado.
que se presentan en la tabla de
comunalidad. En esta tabla se muestra Para el ejemplo, los resultados
el porcentaje del comportamiento de mostrados en la tabla de comunalidad
la variable que es explicado por los recomiendan revisar las variables cuntas
factores estimados. En el caso prctico semanas ha estado buscando trabajo sin
desarrollado la variable "aos de estudio" interrupcin, total de miembros del
es explicada en los tres factores en ms hogar y rea, por cuanto el poder
del 80%, existiendo algunas variables explicativo de los tres factores en ellas
como cuntas semanas ha estado no alcanzan ni la mitad. En estos casos
buscando trabajo sin interrupcin, total se recomienda realizar un anlisis
de miembros del hogar y rea que no descriptivo de estas variables que
alcanzan el 20% en los tres factores. permita detectar algunas inconsistencias
La tabla de resultados de la Matriz de (% de omisiones, alta varianza, valores
componentes rotados muestra la extremos, entre otras).
disposicin de las variables en los
factores o componentes segn su grado En La Matriz de componentes rotados
de importancia. Esto permitir confirmar aquellas variables cuyos coeficientes
las hiptesis a priori establecidas de tal rotados presentan valores semejantes
manera que si las variables tienen un que no permite definir su ubicacin en
agrupamiento diferente al esperado, el algunos de los factores, deben ser
modelo puede no ser el mas adecuado. revisadas. Para el ejemplo la variable
En el ejemplo desarrollado las variables rea, cuntas semanas ha estado
ms explicativas del desempleo son buscando trabajo, ha trabajado, pueden
aquellas con los coeficientes mas altos ubicarse en cualquiera de los factores
en los factores, confirmndose que el dada la semejanza de sus valores, por
nivel educativo, la edad y el sexo ello se recomienda realizar el anlisis
contribuyen ms a explicar esta de la distribucin de sus valores en la
situacin. base de datos original.

- Consistencia de los datos: la matriz Adems, se recomienda como


de correlacin estimada permite procedimiento general efectuar una
verificar la consistencia de los datos, particin de los datos en dos muestras,
analizndose el sentido de la relacin seleccionadas aleateoriamente, a fin de
entre las variables (signo de los replicar los procedimientos en varias
coeficientes de correlacin) y la submuestras Los resultados de la
magnitud de estos. A partir de estos primera submuestra debern
valores pueden inferirse si los datos contrastarse con los resultados de la
confirman el conocimiento terico segunda muestra, de tal manera que
sobre el problema, en caso contrario se alcancen la consistencia estadstica.

30 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

IV. ANALISIS DE CONGLOMERADOS

4.1 El anlisis de conglomerados multivarado (discriminante) los grupos no


estn definidos a priori y la conformacin
El anlisis de conglomerados es una tcnica de los mismos tiene un carcter
del anlisis multivariado que permite exploratorio. La cercana o alejamiento
agrupar un conjunto de individuos o de entre las unidades de anlisis o de
variables en grupos (cluster) de acuerdo a variables se determina por ejemplo con la
ciertos criterios de distancia y similaridad distancia eucldea5/, esto condiciona el
fijados, de tal manera que cada grupo est anlisis a variables cuantitativas. De este
integrado por unidades homogneas y los modo dos unidades se consideran muy
grupos entre s sean muy heterogneos. semejantes cuando menor es la distancia
A diferencia de otras formas de anlisis entre ellas.

El anlisis de conglomerados (cluster) es una tcnica multivariada que


permite la conformacin de grupos homogneos de unidades de anlisis
o variables, segn una medida de distancia o proximidad determinada.

4.2 El anlisis de conglomerados y unidades de anlisis y variables y la


su relacin con la ENAHO conformacin de grupos excluyentes, es
el anlisis de conglomerados (cluster).
A travs de las encuestas de hogares se
recogen los datos que permiten obtener 4.3 Clasificacin de los departamentos
los indicadores para cuantificar los del Per en funcin de las variables
problemas sociales como el analfabetismo, ms relacionadas con el ndice de
la pobreza, el ingreso, entre otros. Estos desarrollo humano
indicadores o variables se expresan en
diferentes escalas : ordinales, intervlicas En el siguiente caso prctico se clasifica
y de razn lo que determinara distintas los departamentos del Per en funcin de
formas de clasificacin de las unidades de un conjunto de variables relacionadas con
anlisis (vivienda, hogar, individuo, etc.) el ndice de desarrollo humano (IDH). El
en grupos excluyentes, segn el tipo de ordenamiento resultante no persigue fines
escala considerada generndose tantas analticos comparativos constituyendo
clasificaciones como variables se tengan. solamente un ejercicio didctico, para
La herramienta analtica que integra los demostrar la aplicacin de la tcnica.
diferentes modos de clasificacin de las

5
/ Es la opcin que por defecto proporciona el programa. Se define como la raz cuadrada de la suma de diferencias
al cuadrado entre dos elementos en la variable o variables consideradas D(X,Y)= S(Xi - Yi )2.Tambin es usualmente
2
considerada el cuadrado de la distancia euclidea D(X,Y)=S(Xi Yi)

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 31


Direccin Tcnica de Demografa e Indicadores Sociales

4.4 Etapas para realizar el anlisis de Segunda hiptesis: Lima es el


conglomerados departamento que tiene el mayor
desarrollo humano relativo y
Para realizar el anlisis de conglomerados Huancavelica es el de menor desarrollo.
siga las siguientes etapas:
2. Genere un esquema de anlisis: Para
1. Formule las hiptesis: Para plantear realizar el anlisis de conglomerados
las hiptesis se formula la siguientes deben identificarse primero las
preguntas: Cuntos grupos de variables/caractersticas que diferencian
departamentos se puede conformar de ms a los grupos. Si el objetivo es formar
acuerdo a las variables relacionadas con conglomerados de individuos deben
el IDH? Cul es el departamento con ubicarse las variables que presentan los
mayor desarrollo humano relativo? Cul valores ms altos y ms bajos. El
es el departamento con menor anlisis factorial explicado anteriormente
desarrollo humano relativo? ayuda en la seleccin de estas variables.
As, se escogern las variables que
Primera hiptesis: De acuerdo a las integran cada factor y las ms
variables que explican el IDH los representativas de las dimensiones del
departamentos del Per se agrupan en problema social en estudio. El siguiente
tres grupos bien diferenciados: los muy diagrama muestra los procesos seguidos
desarrollados, los medianamente para realizar un anlisis de
desarrollados y los menos desarrollados. conglomerados.

variables unidades

unidades
unidades

matriz inicial matriz de


de datos similaridad
entre objetos

criterio de similaridad Algoritmoede


clasificacion estructura jerarquizada

Tener presente que los conglomerados expandir, as se evitarn resultados que


se generan a partir de las relaciones distorsionen la interpretacin de los
interdependientes entre las variables. coeficientes estimados.

3. Identifique la fuente de datos y la 4. Variables seleccionadas: El anlisis


unidad de anlisis: La unidad de generalmente est restringido a las
anlisis es el departamento y los variables intervlicas o de razn. Para
indicadores estn referidas al perodo el ejemplo las variables seleccionadas
1999. Cuando las fuentes de para conformar los conglomerados
informacin proceden de muestras se (cluster) son:
recomienda utilizar los datos sin

32 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

No Variable Tipo Cdigo


1 Esperanza de Vida Intervlica ESPERANZ

2 Tasa de alfabetismo Razn ALFABETISM

3 Aos Promedio de Estudio Intervlica AOS_ PRO

4 Ingreso Promedio Mensual Intervlica INGRESO_PR


Percpita

Las variables utilizadas en este caso Con el anlisis de conglomerados se


prctico son las que intervienen en el conformaran grupos de departamentos
calculo IDH. La esperanza de vida a los cuales se denominarn cluster.
corresponde al periodo 1995-2000, Para la formacin de los cluster se
mientras que el resto de variables se utilizan dos mtodos: el Anlisis Cluster
han obtenido a partir de la ENAHO Jerrquico o el K-Means Cluster. El
1999. primer mtodo se utiliza cuando se
dispone de una muestra relativamente
6. Iniciando el anlisis de pequea de individuos. El segundo
conglomerados: No se realiz el mtodo se recomienda cuando se
anlisis factorial para la seleccin de dispone de un tamao de muestra
variables debido a que el Programa de grande y a priori se conoce el nmero
las Naciones Unidas para el Desarrollo de cluster. En el ejemplo, los 24
(PNUD) determina un conjunto de departamentos constituyen una muestra
indicadores como explicativos del pequea lo que determina aplicar en
desarrollo humano. este caso el anlisis cluster jerrquico.

El anlisis se inicia ubicando en la base A continuacin se muestra la base de datos


de datos los cuatro indicadores que activa y las variables luego de la seleccin:
explican el IDH a nivel departamental.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 33


Direccin Tcnica de Demografa e Indicadores Sociales

En el men de barras del SPSS elija la opcin Analyze/Classify/Hierarchical Cluster.

Pase al recuadro "variable(s)" los las unidades a clasificar "departam". Esta


indicadores: Esperanza de vida, variable tiene que ser nominal. Luego en
Alfabetismo, Aos promedio de estudios, Cluster active la opcin "Cases " y en
e Ingreso Per cpita. En el recuadro "Label Display las opciones Statistics y Plots " :
cases by" pase la variable que identifica

En la opcin Cluster se selecciona "Cases" dispersin para cada conglomerado


en lugar de "Variables", de tal manera que (cluster), mientras que la segunda generar
el anlisis se efecte a nivel de los respectivos grficos.
departamentos (casos). En caso contrario
el anlisis ser a nivel de variables. En Ventana STATISTICS
"Display" se habilita las opciones "Statistics" En el subcuadro que se muestra, agregue
y "Plots". La primera permitir calcular las la opcin "Proximity matriz" a las
estadsticas de tendencia central y de seleccionadas por defecto.

34 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

El "Agglomeration schedule" es un muestra nada. El "Single Solution", da la


mtodo acumulativo de formacin de posibilidad de mostrar un nmero
cluster. Consiste en formar primero tantos determinado de cluster. En "Range of
cluster como departamentos se tengan. solution" da la posibilidad de fijar un rango
Es decir se inicia con 24 cluster. Cuando determinado de clusters en que desea
se forma el primer cluster se van aadiendo dividir la muestra, que va desde dos hasta
otros, de tal manera que al final todos los un nmero equivalente al total de
cluster conformarn un solo grupo. Si un unidades de anlisis menos uno.
cluster se ha formado, ya no se desintegra
hasta el final. Pulse el botn "continue" para continuar
la seleccin.
Con la opcin "Proximity matrix" se
muestra la matriz de distancias, que para Ventana PLOTS
el presente ejemplo se compone de la En "Plots" seleccione las siguientes
matriz de distancias euclideas al cuadrado. opciones. En el subcuadro que se muestra,
La opcin "Cluster membership" dejar todas las opciones seleccionadas por
permite mostrar la formacin progresiva defecto y aada la opcin "Dendograma".
de los cluster, al inicio y en cada paso Seguidamente pulse continue.
iterativo. Si selecciona "None" no se

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 35


Direccin Tcnica de Demografa e Indicadores Sociales

El "Dendogram" es una representacin de icicle plot", se configura el nmero de


los resultados del anlisis cluster. Se lee grupos y los departamentos que lo
de izquierda a derecha. Las lneas integran.
verticales dan a conocer la unin de dos Pulse continue para continuar la seleccin.
cluster. En la parte superior se muestra la
escala de distancias entre los diversos Ventana METHOD
cluster (coeficientes), la cual ha sido
reconvertida a otra escala de 0-25. La Pulse el botn de la opcin Cluster
posicin de la lnea vertical en esta escala Methods del cuadro de dilogo principal
indica la distancia de unin de los cluster. de la figura. En la ventana que se muestra,
El vertical icicle plot (grfico vertical) que dejar todas las opciones seleccionadas por
se configura al seleccionar las opciones defecto excepto la relacionada al
"icicle all cluster" y "orientation vertical", procedimiento "Transform Values", en la
permite representar grficamente la cual debe seleccionar de la lista
conformacin de los grupos. Al trazar una desplegable, la opcin Z score. Pulse
lnea horizontal, en el grfico "vertical continue

36 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

La opcin "Measure" permite seleccionar las unidades de distancia entre dos


la expresin para medir las distancias, la individuos ser expresada en el mismo tipo
misma que estar en funcin al tipo de de unidades (Z-scores)
escala en que se han medido las variables:
intervalo y de razn. Ventana OPTIONS

La opcin "Transform Values" permite En la ventana Options, seleccione las


homogenizar los diferentes tipos de escala siguientes funciones:
en que se han medido las variables. As

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 37


Direccin Tcnica de Demografa e Indicadores Sociales

"Exclude cases listwise", permite excluir los As como se agrupan los departamentos
valores incompletos. "Sorted by size" segn el criterio de distancia elegido,
permite ordenar los coeficientes tambin existen muchos mtodos para
estimados en forma creciente. combinar los grupos. En el ejemplo se
emplea el mtodo aglomerativo, que
consiste en un agrupamiento sucesivo
Sin realizar ningn cambio en la ventana
en una serie de pasos. Al comienzo se
"save", en el cuadro de dilogo principal
tienen tantos grupos (cluster) como
pulse OK. De este modo se ejecutara
departamentos, en cada paso los cluster se
todo el procedimiento.
van uniendo hasta que al final constituyen
un solo grupo.
El agrupamiento del ejemplo desarrollado
toma en cuenta las variables de tipo 6. Interpretacin de los resultados
econmico, social y demogrfico lo cual del anlisis de conglomerados
determina una conformacin especfica
de los departamentos, en los distintos Matriz de distancias
grupos, probablemente muy diferente a La matriz formada de orden 23 x 23 ( total
la que se obtendra si el criterio de de departamentos menos uno), muestra
clasificacin se hubiese realizado con las distancias euclideanas entre los
variables de tipo cultural, poltico, departamentos. Un valor pequeo denota
ambiental o de salud, etc. mayor semejanza en cambio un valor
grande mayor diferencia.

38 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Tabla de aglomeracin estado 9. Si se verifica en la columna stage


= 9 , ubica el nmero 22 que corresponde
En esta tabla se muestra el nmero de al departamento de Tacna, quedando
grupos o cluster que se combinan en cada formado un nuevo cluster con los
estado (Stage). La primera lnea departamentos de Arequipa, Tacna e Ica.
corresponde al estado stage = 1 . En este La columna "stage cluster first appears"
nivel se combinan el cluster 4 (Arequipa) indica en que nivel se dio la primera
con el cluster 10 (Ica) quedando 23 cluster. formacin de cluster. De este modo la
La distancia euclidea ( coefficients ) entre lectura del "aglomeration schedule"
estos cluster es 0.171. La ltima columna permite realizar un seguimiento a la
(next stage) indica en que estado se conformacin de los grupos. Cuanto
incorpora un nuevo cluster (departamento) menor sean los coeficientes, implica mayor
a esta primera unin. En el ejemplo, es el homogeneidad entre los cluster.

Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 4 10 .171 0 0 9

2 3 20 .196 0 0 14

3 13 23 .246 0 0 15

4 18 24 .273 0 0 7

5 16 21 .291 0 0 18

6 11 15 .370 0 0 7

7 11 18 .399 6 4 13

8 12 17 .438 0 0 12

9 4 22 .647 1 0 12

10 6 9 .693 0 0 17

11 1 2 .748 0 0 17

12 4 12 1.101 9 8 20

13 11 19 1.201 7 0 15

14 3 5 1.302 2 0 16

15 11 13 1.415 13 3 18

16 3 8 1.568 14 0 19

17 1 6 1.839 11 10 21

18 11 16 2.035 15 5 20

19 3 7 2.908 16 0 21

20 4 11 3.069 12 18 22

21 1 3 3.880 17 19 22

22 1 4 10.567 21 20 23

23 1 14 24.964 22 0 0

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 39


Direccin Tcnica de Demografa e Indicadores Sociales

Dendograma distance cluster combine) implica que las


agrupaciones son ms fuertes. As
El dendograma es una representacin tenemos Arequipa. Ica, Tacna, La libertad
grfica de la conformacin de los y Moquegua conforman el primer cluster
conglomerados o cluster. La lnea cuya agrupacin por estar prxima a cero
horizontal superior indica la escala a la cual en la escala indica cercana en cuanto a
se combinan los cluster. Las lneas las caractersticas de desarrollo estudiadas.
verticales indican la conformacin de los En cambio Lima se encuentra muy alejado
departamentos en cluster. Cuanto los del resto de conglomerados, por cuanto
conglomerados se encuentren ms sus indicadores denotan mayor desarrollo
prximo a cero en la escala (rescaled y por tanto mayor distancia.

* * * * * * HIERARCHICAL CLUSTER ANALYSIS * * * * * * *


Dendrogram using A verage Linkage (Between Groups)

Rescaled Distance Cluster Combine (Escala)

CASE 0 5 10 15 20 25
Label Num +- - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+

Arequipa 4
Ica 10
Tacna 22
La Libertad 12
Moquegua 17
Madre de Dios 16
San Martn 21
Lambayeque 13
Tumbes 23
Pasco 18
Ucayali 24
Junn 11
Loreto 15
Piura 19
Cajamarca 6
Hunuco 9
Amazonas 1
Ancash 2
Apurimac 3
Puno 20
Ayacucho 5
Huancavelica 8
Cusco 7
Lima 14

40 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

7. Principales conclusiones del caractersticas muy semejantes. As, entre


anlisis factorial realizado Ica y Arequipa el coeficiente de distancia
es 0.171 lo que denota su semejanza,
Los departamentos del Per se han mientras que entre Lima y Amazonas el
dispuesto en tres grupos bien coeficiente de distancia es 28.7. La
diferenciados de acuerdo a su mayor consistencia del modelo queda
relacin con las variables consideradas, determinada cuando los coeficientes de
comprobndose la primera hiptesis distancia hallados tienen relacin con las
formulada. As, Lima con mejores diferencias encontradas entre las variables
indicadores de desarrollo humano y muy originales.
alejada del resto conforma un grupo, el
segundo grupo y con un desarrollo La tabla de aglomeracin: En esta tabla
humano relativo mediano est integrado pueden estudiarse paso a paso la
por: Arequipa, Ica, Tacna, La Libertad, formacin de los grupos de unidades de
Moquegua, Madre de Dios, San Martn, anlisis, esperando encontrar en el
Lambayeque, Tumbes, Pasco, Ucayali, ejemplo desarrollado que las primeras
Piura, Junn, y Loreto. El tercer grupo, con uniones se den entre aquellos
el menor desarrollo relativo est departamentos con desventajas sociales
conformado por: Cajamarca, Huanuco, relativas muy parecidas. Si esta condicin
Amazonas, Ancash, Apurmac, Puno, se verifica entonces podr inferirse la
Ayacucho, Cusco y Huancavelica. efectividad del modelo.

Tambin se comprueba que Huancavelica El dendograma: En este grfico se


forma parte del grupo de departamentos aprecia de manera global la disposicin de
con menor desarrollo relativo, los departamentos.
comprobndose la segunda hiptesis.
Tambin la conformacin de los diferentes
8. Consistencia del modelo y los grupos de acuerdo a su desarrollo relativo.
datos En el dendograma, se observa que Lima
se separa del resto de departamentos, por
En cuanto al modelo cuanto tiene los mejores indicadores de
desarrollo humano, mientras que
Cajamarca, Huanuco, Amazonas, Ancash,
En la matriz de distancias se muestran
Apurmac, Puno, Ayacucho, Huancavelica
los coeficientes que permiten determinar
y Cusco forman un conglomerado con una
la semejanza entre la unidades de anlisis.
desventaja relativa mayor en relacin al
Un valor alto significa que las unidades no
resto de departamentos.
se parecen, mientras que los valores
pequeos estarn asociados a las unidades
con caractersticas semejantes. En el En cuanto a la consistencia de los
ejemplo desarrollado, los departamentos datos
con caractersticas sociales diferentes
mostrarn los coeficientes de distancia ms La matriz de distancias sirve para realizar
altos, mientras que los valores pequeos comparaciones entre los departamentos.
estarn asociados a departamentos con As, Apurmac y Ayacucho tienen un

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 41


Direccin Tcnica de Demografa e Indicadores Sociales

coeficiente de distancia de 1.14, lo que departamentos con las variables que tienen
confirma las diferencias mostradas en los datos muy alejados de la tendencia
valores de las variables originales y que se mostrada por los valores promedio del
utilizan como criterios de clasificacin grupo al que pertenece. En estos casos se
(Esperanza de vida, Aos promedio de recomienda revisar en la base de datos
estudios, Alfabetismo, e Ingreso Per dicha variables. En el ejemplo desarrollado
cpita). Mientras que Ayacucho y las distancias entre los cluster que se
Arequipa tienen un coeficiente de distancia muestran en la columna "coefficients" de
de 27. 45 y entre Apurmac y Arequipa la tabla "Agglomeration Schedule" sirven
este coeficiente es 18.6. As, Apurmac y para realizar este tipo de comparaciones.
Ayacucho son ms parecidos entre s, en As entre el departamento de Arequipa,
cambio Arequipa dados los valores de los Ica y Tacna identificados en esta tabla con
coeficientes de distancia no se parece a los dgitos 4, 10 y 22, se espera valores
ninguno. Puede concluirse que los datos en las variables originales cercanos.
confirman los supuestos tericos con
respecto a las diferencias relativas en el El dendograma: contribuye tambin a
desarrollo de los departamentos reflejados la evaluacin de los datos, por cuanto la
en los valores de las variables. Esta disposicin y agrupamiento entre los
proximidad entre los resultados observados departamentos obedece a los valores que
y los esperados es evidencia de la toman entre las variables. De este modo
consistencia de los datos de la encuesta. a simple vista pueden ubicarse los
En caso contrario la base de datos debe departamentos con los coeficientes de
estudiarse nuevamente. distancia muy prximos entre s, cuyos
valores en las variables originales se espera
La tabla de aglomeracin: Esta tabla tambin lo sean.
puede ser til para identificar aquellos

42 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

V. ANALISIS DISCRIMINANTE CLASIFICATORIO

5.1 El anlisis discriminante generndose una clasificacin distinta a la


realizada a priori, donde el aporte de las
El anlisis discriminante es otra tcnica del variables independientes (explicativas) a la
anlisis multivariado que permite clasificar formacin de los grupos determina la
las unidades de anlisis en grupos formacin de los mismos. El algoritmo
definidos a priori y analizar las causas matemtico (funcin discriminante) se
que han dado lugar a la formacin de estos determina a partir de la escala de medida
grupos. Los grupos se conforman a partir de la variable dependiente: si la variable
de un conjunto de variables seleccionadas dependiente es dicotmica (discreta)
(variables independientes), las cuales entonces el modelo matemtico ms
adems de explicar la formacin de los apropiado es el logstico; si es continua,
grupos pueden ordenarse segn su mayor entonces el modelo que mejor se adecua
poder discriminatorio. De este modo las es el modelo de regresin lineal simple o
unidades de anlisis son reclasificadas, mltiple.

El anlisis discriminante es otra tcnica del anlisis multivariado que


permite asignar las unidades de anlisis a grupos a priori conformados a
partir de un conjunto de variables explicativas que contribuyen ms a la
formacin de los grupos .

El anlisis discriminante clasificatorio en edad frtil y de sus hijos menores de


cinco aos, adems de datos relacionados
El anlisis discriminante clasificatorio se con la vivienda y el hogar. El estudio puede
aplica cuando se busca conformar grupos estar referido a diferentes unidades de
mutuamente excluyentes de unidades de anlisis: el hogar, la mujer adolescente, la
anlisis a partir de un conjunto de variables mujer adulta mayor, entre otras. Estas
explicativas (independientes), estos unidades de anlisis pueden disponerse
nuevos grupos muy probablemente en grupos segn las caractersticas de las
difieren de los conformados a priori. variables que las integran. La ENDES
considera generalmente variables
5.2 El anlisis discriminante y su cualitativas.
relacin con la ENDES
Las variables de la ENDES medidas en
La encuesta demogrfica y de salud familiar escalas diferentes (nominales, ordinales e
ENDES contiene un conjunto de intervlicas), determinarn diversos modos
informacin relacionada con las de clasificacin no pudindose determinar
caractersticas demogrficas de la mujer cual de las variables influye ms en la

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 43


Direccin Tcnica de Demografa e Indicadores Sociales

conformacin de los grupos de estudio. 2. Genere un modelo multivariado: El


De all la necesidad de aplicar otra tcnica modelo multivarado se conforma a
multivariada como el anlisis discriminante partir de una ecuacin lineal. A fin de
que permita clasificar las unidades de alcanzar mayor precisin en las
anlisis medidas en diferentes escalas e estimaciones se recomienda efectuar
identificar aquellas variables ms primero, un anlisis factorial para
influyentes en la conformacin de los clasificar las variables de acuerdo a las
grupos. dimensiones del objeto social en
estudio. Generalmente la variable
5.3 Estudio del nmero de hijos de dependiente es cualitativa mientras las
las mujeres segn variables independientes son cuantitativas.
seleccionadas
X1

A partir del modelo discriminante y la X2


relacin de dependencia establecida se Y
busca encontrar las causas que determinan ...
la tenencia de hijos por las mujeres en Xj
edad frtil.
Y : variable dependiente Xi : variables independientes
5.4 Etapas para realizar el anlisis
discriminante
Modelo discriminante clasificatorio:
Para realizar el anlisis discriminante siga
Y ji = a X 1i + b X 2i + c X 3i + ... + m X ji
las siguientes etapas:

1. Formule las hiptesis: Para plantear Donde Y ij : puntaje discriminante del i-


las hiptesis se formulan las siguientes simo individuo correspondiente a la j-
preguntas: El nmero de hijos de las sima variable
mujeres esta determinado por el nivel
educativo? Qu variables contribuyen 3. Fuente de informacin y unidad de
ms a distinguir entre las mujeres con anlisis: La fuente de informacin para
hijos y sin ellos? A partir de estas el presente ejemplo aplicativo es la base
preguntas se pueden formular las de datos de la encuesta demogrfica y
hiptesis siguientes: de salud familiar ENDES 2000. Se
recomienda utilizar los datos sin
Primera hiptesis: El nivel educativo expandir de modo que las estimaciones
determina el nmero de hijos en las no se vean afectadas por las
mujeres. ponderaciones. La unidad de anlisis es
la mujer en edad frtil (15 a 49 aos).
Segunda hiptesis: La edad, la
condicin de ocupacin y el lugar de 4. Variables seleccionadas: El anlisis
residencia son las variables que discriminante requiere que la variable
contribuyen ms a diferenciar entre las para definir los grupos sea cualitativa
mujeres con hijos y sin ellos. mientras que las variables discriminantes
debern ser cuantitativas (intervalares),

44 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

en caso contrario se recomienda de la variable estado conyugal pueden


convertirlas en variables dicotmicas (0- hacerse dicotmicas. El valor 0 indica
1). Tener presente que el valor de uno no unida mientras que el valor 1 indica
debe esta asociado a la presencia de la unida.
cualidad. As, por ejemplo las categoras

No Variable Tipo Cdigo


1 Edad Intervlica V012
2 Lugar de Residencia Nominal-Dicotmica V0251
3 Educacin Bsica Alcanzada Nomiinal- Dicotmica V1061
4 Estado Conyugal Nominal-Dicotmica V5011
5 Condicin de Actividad Nominal-Dicotmica RECV7171

Variable Dependiente: mujer en edad frtil sin hijos, con uno a dos hijos y con tres
o mas hijos (REV201).

5. Procedimientos para realizar el


anlisis discriminante

Para proceder a realizar el anlisis 1. Cargue la base de datos con las


discriminante con el SPSS siga los variables seleccionadas de la fuente de
siguientes pasos: informacin mencionada

Iniciando el anlisis discriminante: seccin anterior. A estas dos se aade la


Ingrese a la siguiente ventana del SPSS opcin discriminante, seleccione de
Analyze / Classify/ Discriminant. La opcin acuerdo a la ventana mostrada. Una vez
Classify permite clasificar la informacin que ha ingresado al anlisis discriminante
de acuerdo a las opciones K-means Cluster realice lo siguiente.
y Hierarchical Cluster, explicadas en la

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 45


Direccin Tcnica de Demografa e Indicadores Sociales

En el campo Grouping Variable, ingrese la el "stepwise", se presentan algunas


variable dependiente que en el ejemplo opciones adicionales.
es el nmero de hijos (REV201). Esta
variable tiene tres categoras (1 = sin hijos, Las siguientes opciones son el "Select",
2 = 1 y 2 hijos, 3 = 3 o mas hijos). En "Statistics", "Classify", "Save" y "Method"(en
"Define Range" especifique el valor caso de optar por el stepwise), las cuales
mnimo y mximo de la variable se explican detalladamente:
dependiente. En el campo Independents,
ingrese las variables independientes. La Ventana SELECT
opcin seleccionada por defecto es "enter
independents together", mediante la cual Esta opcin se utiliza cuando se trabajan
el software evala todas las variables con grupos de muestras (submuestras).
independientes al mismo tiempo. La Por ejemplo podemos analizar si el nmero
opcin alternativa es el "stepwise method" de hijos en las mujeres jvenes se explica
(mtodo stepwise) , mediante el cual las por las variables seleccionadas. En la caja
variables explicativas son evaluadas una por de dilogo "selection variable", incluya la
una y salen de acuerdo a ciertos criterios. variable dependiente. En el desarrollo del
Las dos formas son vlidas quedando la presente ejemplo no se ha considerado
eleccin a criterio del investigador. Si elige
esta opcin.

Ventana STATISTICS La opcin "Univariate ANOVA's", calcula


la significacin estadstica de las diferencias
En el cuadro de dilogo, seleccione todas entre los promedios de los grupos
las opciones, tal como se indica, y pulse conformados.
continue. Estas opciones permiten realizar
lo siguiente: La opcin "Box M", evala las diferencias
entre las matrices de covarianza.
La opcin "Descriptive", calcula el
promedio y la desviacin estndar para las
variables independientes en cada grupo.

46 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

La opcin "Function Coefficients: Fisher y La opcin "Matrices", permite calcular todas


Unstandardized", permite el clculo de los las matrices de correlacin y covarianza
puntajes discriminantes de Fisher y no intragrupos, por cada grupo y total. En el
estandarizados. cuadro de dilogo, seleccione todas las
opciones, tal como se indica.

Ventana METHOD por defecto: en Method deje el "Lambda


de Wilks", en Display active "summary of
Este cuadro de dilogo estar activo si se steps", en Criteria "Use F value" .
selecciona la opcin Stepwise. En caso de Seguidamente pulse continue.
hacerlo deje las opciones seleccionadas

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 47


Direccin Tcnica de Demografa e Indicadores Sociales

El "Lambda de Wilks" calculado es un valor de ingreso diferente para cada unidad de


numrico que sirve para decidir el ingreso anlisis de acuerdo al tamao del grupo a
o salida de las variables en el modelo. Estos priori conformado". En Display se muestran
valores van acompaados de los "F value" los resultados de la clasificacin. Con
y se interpretan de manera inversa a los "casewise results" se muestran todos, y con
lambda de Wilks. As, un mayor F implica "limit cases to first", se fija el nmero de
un mayor poder discriminatorio de la casos a mostrar. "Summary table"y "Leave-
variable. Este proceso iterativo de one-out classification" muestra la tabla y
seleccin se muestra cuando se activa los resultados de la clasificacin.
"summary of steps".
En "Use Covariance matrix" se muestran
Ventana CLASSIFICATION las matrices de covarianza entre grupos y
de cada grupo por separado. El
En esta ventana deben definirse las "Plots"permite representar grficamente las
caractersticas de la clasificacin. En Prior unidades de anlisis en los grupos,
probabilities, se tienen dos opciones: "All separadamente y en un mapa territorial,
groups equal" que quiere decir "todas las en el cual se muestra su nueva ubicacin
unidades de anlisis ingresan con igual de acuerdo al anlisis realizado.
probabilidad a priori" y "Compute from
group sizes" que significa "probabilidades Ejecutamos el proceso con continue.

Ventana SAVE La opcin Discriminant Score, muestra los


puntajes del anlisis discriminante. Estos
Seleccionamos todas las opciones, puntajes se estiman al reemplazar el valor
pulsamos continue. de las variables en la ecuacin
discriminante correspondiente.

48 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Cuando en el cuadro de dilogo principal, Medidas descriptivas


se selecciona OK debe ejecutarse el
anlisis discriminante con las opciones La calidad del anlisis realizado se
seleccionadas. determina mediante las medidas
descriptivas como: el promedio y la
6. Interpretacin de los resultados del desviacin estndar de cada grupo. Se
anlisis discriminante espera que los promedios (mean) de cada
grupo sean diferentes, mientras que los
Las unidades de anlisis originalmente coeficientes de variacin que resultan
dispuestas en tres grupos segn el nmero de dividir la desviacin estndar
de hijos han sido reclasificadas de (std. deviation) y el promedio sean
acuerdo a sus valores en las variables semejantes. Si las medias son diferentes,
explicativas consideradas. Los resultados se comprueba que los grupos conformados
(output) del modelo discriminante difieren entre s, justificndose el anlisis
aplicado son: realizado. Estas comparaciones sern
posibles en la medida que se compruebe
tambin la homogeneidad de las varianzas.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 49


Direccin Tcnica de Demografa e Indicadores Sociales

Group Statistics

Std. Valid N (listwise)


REV201 N DE HIJOS Mean Deviation Unweighted Weighted
1.00 NO T IENE V012 Current age - respondent 20.9106 6.5638 8912 8912.000
V0251 .2819 .4499 8912 8912.000
V1061 .8209 .3834 8912 8912.000
V5011 8.640E-02 .2810 8912 8912.000
RECV717 CONDT RABAJO 1.5252 .4994 8912 8912.000
2.00 1 A 2 V012 Current age - respondent 28.6531 7.6882 8450 8450.000
V0251 .3515 .4775 8450 8450.000
V1061 .6923 .4616 8450 8450.000
V5011 .7776 .4159 8450 8450.000
RECV717 CONDT RABAJO 1.4460 .4971 8450 8450.000
3.00 3 A MAS HIJOS V012 Current age - respondent 37.2453 6.9774 10481 10481.000
V0251 .5047 .5000 10481 10481.000
V1061 .3529 .4779 10481 10481.000
V5011 .9248 .2637 10481 10481.000
RECV717 CONDT RABAJO 1.3462 .4758 10481 10481.000
Total V012 Current age - respondent 29.4093 9.8214 27843 27843.000
V0251 .3869 .4870 27843 27843.000
V1061 .6057 .4887 27843 27843.000
V5011 .6118 .4874 27843 27843.000
RECV717 CONDT RABAJO 1.4338 .4956 27843 27843.000

La eficacia del anlisis discriminante Matriz de covarianza


realizado se verifica cuando los puntajes Existen tantas matrices de covarianza como
promedio (mean) de cada grupo (1; 2; 3), grupos de la variable dependiente se
son lo ms diferentes entre s, mientras dispongan. Cuando se analizan el signo y
que las desviaciones estndar (std. la magnitud de los coeficientes de la matriz
deviation) son mnimas. El nmero de casos de covarianza sta se convierte en una
analizados sin ponderar y ponderados se medida de calidad de las estimaciones. La
muestra en las dos ltimas columnas (Valid semejanza entre los valores calculados para
N -listwise). cada grupo, ser tambin un indicador de
la consistencia de las estimaciones.

Covariance Matricesa

RECV717
V012 Current CONDTRABAJ
REV201 N DE HIJOS age - respondent V0251 V1061 V5011 O
1.00 NO TIENE V012 Current age - respondent 43.083 -.311 -7.713E-03 .395 -.343
V0251 -.311 .202 -7.139E-02 9.198E-03 -2.911E-02
V1061 -7.713E-03 -7.139E-02 .147 -1.101E-02 3.897E-02
V5011 .395 9.198E-03 -1.101E-02 7.894E-02 -4.538E-03
RECV717 CONDTRABAJO -.343 -2.911E-02 3.897E-02 -4.538E-03 .249
2.00 1 A 2 V012 Current age - respondent 59.109 -.956 .489 3.565E-02 -3.535E-02
V0251 -.956 .228 -9.624E-02 2.655E-03 -2.186E-02
V1061 .489 -9.624E-02 .213 -1.202E-03 3.405E-02
V5011 3.565E-02 2.655E-03 -1.202E-03 .173 2.712E-02
RECV717 CONDTRABAJO -3.535E-02 -2.186E-02 3.405E-02 2.712E-02 .247
3.00 3 A MAS HIJOS V012 Current age - respondent 48.684 -.450 -.101 -6.352E-02 -.132
V0251 -.450 .250 -.102 1.133E-02 -2.215E-02
V1061 -.101 -.102 .228 -5.334E-03 3.183E-02
V5011 -6.352E-02 1.133E-02 -5.334E-03 6.954E-02 1.238E-02
RECV717 CONDTRABAJO -.132 -2.215E-02 3.183E-02 1.238E-02 .226
Total V012 Current age - respondent 96.460 8.237E-02 -1.243 2.428 -.680
V0251 8.237E-02 .237 -.110 3.778E-02 -3.138E-02
V1061 -1.243 -.110 .239 -6.752E-02 4.975E-02
V5011 2.428 3.778E-02 -6.752E-02 .238 -1.365E-02
RECV717 CONDTRABAJO -.680 -3.138E-02 4.975E-02 -1.365E-02 .246
a. The total covarianc e matrix has 27842 degrees of freedom.

50 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Las matriz de covarianza (covariance Wilks, es una medida de calidad, que se


matrices) en general, es una matriz forma a partir de la relacin entre la suma
simtrica cuya diagonal principal contiene de cuadrados dentro de grupos y la suma
las varianzas, mientras que por encima y de cuadrados total. As, si el Lambda de
debajo de esta diagonal se muestran las Wilks es uno quiere decir que toda la
covarianzas. En el ejemplo se aprecia variacin se explica por la variacin dentro
cierta semejanza entre las valores de grupos y no hay diferencia entre los
correspondientes a las diagonales en cada grupos. En cambio, cuanto ms cerca de
grupo conformado. cero este el Lambda, implica que la
diferencia entre los grupos es mayor, lo
que significa que las variables son
Lambda de Wilks
adecuadas para construir las funciones
discriminantes. Las variables con menor
La suma de cuadrados de la variacin total Lambda de Wilks son las ms
se descompone en una suma de discriminantes. En el cuadro "variables
cuadrados intra-grupo y una suma de Entered-Removed" se muestra el ingreso/
cuadrados entre-grupos. El Lambda de salida de las variables.

Variables Entered/Removeda,b,c,d

Wilks' Lambda
Exact F
Step Entered Removed Statistic df1 df2 df3 Statistic df1 df2 Sig.
1 V5011 .438 1 2 27840.000 17893.902 2 27840.000 .000
2 V012 Current age - respondent .305 2 2 27840.000 11287.309 4 55678.000 .000
3 V1061 .279 3 2 27840.000 8287.134 6 55676.000 .000
4 V0251 .277 4 2 27840.000 6253.582 8 55674.000 .000
5 RECV717 CONDTRABAJO .276 5 2 27840.000 5026.355 10 55672.000 .000

At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 10.

b. Minimum partial F to enter is 3.84.


c. Maximum partial F to remove is 2.71.

d. F level, tolerance, or VIN insufficient for further computation.

Los Lambda de Wilks calculados permiten F), lo cual es atribuible al tamao de


inferir que todas las variables deben muestra grande. Como se esperaba el
ingresar al modelo, lo cual se deba nivel educativo (v1061), el lugar de
probablemente al gran tamao de muestra residencia (v0251), la condicin de
considerado. actividad (RECV717), la edad (V012) y el
estado conyugal (V501) tienen los
Al realizar el anlisis de varianza menores Lambda de Wilks y por tanto
(descomposicin de la variacin total) para explican mejor la variabilidad entre los
cada una de las variables por separado grupos de mujeres ( las que no tienen
encontramos que todas las variables hijos, las mujeres con uno y dos hijos y
muestran diferencias significativas (prueba las que tienen tres hijos).

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 51


Direccin Tcnica de Demografa e Indicadores Sociales

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.


1 through 2 .276 35819.352 10 .000
2 .892 3194.053 4 .000

Wilks' Lambda

Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 .438 1 2 27840 17893.902 2 27840.000 .000
2 2 .305 2 2 27840 11287.309 4 55678.000 1.898E-14
3 3 .279 3 2 27840 8287.134 6 55676.000 .000
4 4 .277 4 2 27840 6253.582 8 55674.000 .000
5 5 .276 5 2 27840 5026.355 10 55672.000 .000

El Lambda de Wilks para los grupos estadsticamente significativas? La prueba


muestra la efectividad del anlisis M de BOX, es un indicador que permite
realizado. Las funciones discriminantes 1 responder estas interrogantes. El M de
y 2 son estadsticamente significativas, Box de 3,997.2 determina un valor F alto.
como lo muestra la prueba estadstica J- Bajo la hiptesis nula que no hay
Cuadrado (Chi-square). diferencias significativas, se analizan los
valores del F calculado (F) y el sig (nivel
Prueba M de Box de significacin). En la tabla "test results",
si el sig es inferior a 0.01 entonces se
Existe diferencias significativas entre los rechaza la hiptesis nula y se concluye que
grupos conformados? Son las matrices de los grupos conformados difieren
varianza y covarianza de cada grupo significativamente.

Test Results
Box's M 3997.235
F Approx. 133.207
df1 30
df2 2315436188.341
Sig. .000
Tests null hypothesis of equal population covariance matrices.

Se encuentran diferencias significativas Funciones discriminantes


entre las matrices de varianza y covarianza Es concordante la clasificacin de las
de cada grupo. La F = 133 y el grado de unidades de anlisis a partir de los puntajes
significacin (sig. p = 0.00) as lo sealan. discriminantes con la clasificacin a priori?
Los grupos de mujeres con hijos
conformadas son los adecuados. El anlisis discriminante permite calcular las
funciones discriminantes, para determinar
el puntaje discriminante con el cual se
clasifican las unidades de anlisis.

52 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Canonical Discriminant Function Coefficients

Function
1 2
V012 Current age - respondent .087 -.081
V0251 .183 -.254
V1061 -.506 1.151
V5011 2.190 2.152
RECV717 CONDT RABAJO -.155 -.160
(Constant) -3.450 .706

Unstandardized coefficients

Con estos coeficientes se determinan las siguientes ecuaciones discriminantes:

D1= - 3.45 + 0.08 V012 + 0.18 V0251 - 0.5 V1061 + 2.19 V5011 - 0.15 RECV7171

D2= 0.7 - 0.08 V012 - 0.25 V0251 + 1.15 V1061 + 2.15 V5011 - 0.16 RECV7171

Los valores correspondientes de las tambin la columna "predicted group" (que


unidades de anlisis en las variables deben indica el grupo pronosticado al que
sustituirse en las ecuaciones de modo que pertenece la unidad de anlisis) asimismo
se obtengan los puntajes discriminantes. otras columnas son "probabilities of
Cuando se ejecuta todo el procedimiento membership in group 1" "probabilities of
y habiendo seleccionado la opcin save membership in group 2" y "probabilities
("discriminant score") estos puntajes se of membership in group 3" que indican la
muestran en la ltima columna de la base probabilidad de pertenencia de la unidad
de datos . En el ejemplo desarrollado por de anlisis a cada categora de la variable
tener la variable dependiente tres dependiente.
categoras se generan dos funciones
discriminantes y dos puntajes por cada Importancia relativa de las variables
unidad de anlisis, los cuales se muestra
en dos columnas con los encabezados En los grupos de mujeres conformados
siguientes "discriminant score from (mujeres sin hijos, con uno o dos hijos y
function 1" y "discriminant score from con tres o mas hijos) la importancia de las
function 2". Junto a ellas se muestra variables no es la misma. As tenemos:

Classification Function Coefficients

REV201 N DE HIJOS
1.00 NO T IENE 2.00 1 A 2 3.00 3 A MAS HIJOS
V012 Current age - respondent .488 .630 .807
V0251 5.162 5.400 5.838
V1061 5.088 4.745 3.177
V5011 -.527 5.983 7.091
RECV717 CONDT RABAJO 6.510 6.044 5.972
(Constant) -13.956 -19.405 -25.454

Fisher's linear discriminant functions

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 53


Direccin Tcnica de Demografa e Indicadores Sociales

En el grupo de mujeres con tres o ms nmero de hijos. As, las mujeres que
hijos la variable edad -v012- es ms tienen menos hijos son aquellas que
importante en la identificacin de este tienen ocupacin laboral.
grupo.
La constante (constant) comprende todo
El lugar de residencia -v0251-(urbano / aquello que no es explicado por las
rural) explica tambin las diferencias en el variables consideradas en el modelo. Para
nmero de hijos de las mujeres. El el ejemplo, esta constante crece en
coeficiente estimado es ms alto para el relacin directa al nmero de hijos, por
grupo de mujeres con tres y ms hijos. ello se recomienda considerar ms
variables a fin de reducir esta constante.
El nivel educativo -v1061- es para el grupo
de mujeres sin hijos ms determinante. Clasificacin de las unidades de
Comprobndose empricamente la acuerdo a las funciones discriminantes
relacin "a mayor nivel educativo menor
nmero de hijos". Los puntajes discriminantes llevan
asociadas una probabilidad, la cual se
El estado conyugal -v5011-(nunca unidad convierte en una regla de clasificacin de
/ unida) es ms importantes en las mujeres las unidades de anlisis. Esta regla se basa
con tres o mas hijos. Se comprueba que en el teorema de Bayes. La probabilidad
las mujeres unidas tienden a tener ms que una unidad de anlisis con un puntaje
hijos que las no unidas. discriminante, pertenezca a uno de los tres
grupos (mujeres sin hijos, con uno o dos
La condicin de actividad es ms hijos y con tres o mas hijos) se estima
determinante en la disminucin del mediante la siguiente expresin:

P (Gi/D) = P (D/Gi) P(Gi)


S(D/Gi)P(Gi)
i=1

Esta expresin significa lo siguiente: Cul Determinadas las probabilidades


es la probabilidad que una unidad de posteriores, la unidad de anlisis pertenece
anlisis con un puntaje discriminante al grupo cuya probabilidad calculada ha sido
pertenezca a alguno de los tres grupos? la mayor. Estos resultados se muestran en
Esta probabilidad viene dada por el una tabla desagregada, siempre que se
cociente de dos expresiones. La primera active la opcin "Display-Casewise results-
expresin es el numerador, donde se limit cases to first ". Los resultados globales
multiplica la probabilidad condicional que se presentan en una tabla resumen, en
una unidad de anlisis pertenezca a alguno una matriz denominada "matriz de
de los tres grupos, por la probabilidad a confusin". En la diagonal principal, de esta
priori, que en este caso viene a ser igual tabla, se presentan el nmero de casos
para todas ("all groups equal"). El correctamente clasificados, es decir
denominador, es la sumatoria de las aquellos que coinciden con la clasificacin
combinaciones de las probabilidades a priori. Por encima y por debajo de la
condicionales para cada uno de los grupos. diagonal, se muestran los casos que a priori

54 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

se clasificaban en una categora y luego han tenido efecto en la conformacin de


por el anlisis discriminante han cambiado los grupos.
de categora. En el ejemplo, si en el anlisis
realizado se encuentra el 30% En el ejemplo desarrollado se muestra la
perteneciendo a una de las tres categoras, tabla siguiente que resume los resultados
implica que las variables seleccionadas no del anlisis realizado:

Classificationb,c
Predicted Group Membership
1.00 NO 3.00 3 A
REV201 N DE HIJOS TIENE 2.00 1 A 2 MAS HIJOS Total
Original Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
Cross-validated a Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is
classified by the functions derived from all cases other than that case.
b. 75.0% of original grouped cases correctly classified.
c. 75.0% of cross-validated grouped cases correctly classified.

En la seccin "original" los valores de la Otros criterios estadsticos para


diagonal de la tabla indican los casos determinar la calidad del anlisis
clasificados correctamente en los grupos.
En el primer grupo (mujeres sin hijos) Existen otros criterios estadsticos para evaluar
existen 89.7% de casos correctamente la calidad de la Funcin Discriminante, entre
clasificados, en el grupo de mujeres con ellos tenemos:
uno a dos hijos existen 59.5% de casos
correctamente clasificados, mientras que 1. Los histogramas de los puntajes
en el grupo de mujeres con tres o mas discriminantes para cada uno de los
hijos existe un 74.9% de casos en que la grupos, en lo cuales debe verificarse la
clasificacin original coincide con la distribucin normal de dichos puntajes y
clasificacin hallada por el mtodo detectar la existencia de valores extremos.
indirecto. 2. Los eigen-value o valores propios, que
explican un porcentaje de la varianza total.
En promedio el 75% de los casos de la En la medida que el mayor porcentaje
muestra, para los tres grupos de mujeres, de varianza, sea explicado por ellos, la
la clasificacin original ha coincidido con
efectividad del mtodo ser mejor.
la clasificacin hallada por mtodos
indirectos. Esto indica que el anlisis 3. La alta correlacin entre los puntajes
realizado ha sido efectivo. discriminantes y cada variable
independiente.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 55


Direccin Tcnica de Demografa e Indicadores Sociales

7. Principales conclusiones del En cuanto a la Consistencia de los


anlisis discriminante realizado Datos: En la tabla "Statistical Groups" se
muestran el promedio y la desviacin
Las hiptesis planteadas se han contrastado estndar a partir de las cuales se puede
con los datos de la encuesta. As, se ha calcular el coeficiente de variabilidad para
podido determinar que la variable ms cada grupo. Este valor debe ser muy
explicativa del nmero de hijos de las semejante en los diferentes grupos.
mujeres en edad frtil, es el nivel Adems, las varianzas de los grupos
conformados deben ser muy parecidas
educativo, comprobndose la validez de
mientras que entre los promedios se
la primera hiptesis.
espera encontrar ciertas diferencias. Estos
valores calculados permitirn evaluar la
Otras variables que contribuyen a consistencia de los datos, comparndose
establecer diferencias entre las mujeres los resultados esperados con los obtenidos.
sin hijos y las mujeres con hijos son la As, podrn encontrarse las variables que
edad, el lugar de residencia (urbano, rural), presenta la mayor distorsin respecto al
la condicin de ocupado (trabaja, no conjunto general de informacin y revisar
trabaja) y el estado conyugal (Nunca unida, la base de datos correspondiente. Por
unida). Los datos confirman la segunda ejemplo, en el caso analizado la variable
hiptesis e incorporan una variable edad es ms homognea en los grupos
adicional (estado conyugal) como de mujeres con tres o ms hijos que entre
explicativa de estas diferencias. aquellas que no los tienen. Este
comportamiento observado est de
En cuanto al Modelo acuerdo al comportamiento esperado en
la poblacin, por lo cual podemos concluir
El anlisis realizado ha permitido que los datos para esta variable son
comprobar empricamente que existen consistentes.
diferencias entre las mujeres en edad frtil
sin hijos, con uno o dos y con tres o ms La matriz de covarianzas tambin
hijos, las cuales se deben principalmente contribuye al anlisis de la informacin por
a las variables edad, nivel educativo, lugar cuanto el signo de los coeficientes
calculados se espera tenga correspondencia
de residencia y estado conyugal. Esto se
con el comportamiento terico de la
comprueba al interpretar los indicadores
variable. En el ejemplo, se conoce que el
como el Test M de Box y el Lambda
nmero de hijos de las mujeres tiene una
de Wilks. Estas pruebas permiten
relacin directa con el nivel educativo. Esta
comprobar la pertinencia del modelo relacin se verifica empricamente
analizado e identificar las variables ms observando los resultados de la matriz de
discriminatorias. covarianzas.

Adems la tabla "Classification Results" La tabla en la que se muestra la importancia


resume los resultados de la clasificacin relativa de la variable en cada grupo
realizada. As, a mayor porcentaje de conformado permite evaluar la consistencia
coincidencias entre la clasificacin a priori de los datos. As, en el ejemplo la variable
determinada y la obtenida por el modelo nivel educativo explica mejor la ausencia
discriminante ser ms efectiva la de hijos en las mujeres y la condicin de
contribucin del modelo a la prediccin ocupado explica ms la tenencia de tres o
del comportamiento de la variable ms hijos. Estos resultados al ajustarse a
dependiente. los esperados permiten inferir la
consistencia de la informacin.

56 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

VI. CONCLUSIONES

1. Una aplicacin eficiente de los 7. Para alcanzar mayor efectividad con


modelos multivariados da lugar a la el AC se requiere que las variables
elaboracin de diagramas causales en se representen al menos en una
los cuales se representen los escala ordinal.
diferentes tipos de relacin entre las 8. Si el objetivo del investigador es tener
variables. Estos diagramas deben las variables ms representativas de
elaborarse antes de iniciar la cada dimensin del fenmeno en
aplicacin del anlisis mulvitaviado de estudio, se recomienda aplicar el AFC,
modo que se facilite el anlisis antes del AC, de este modo se
posterior de los resultados. garantiza que las variables
2. El anlisis factorial confirmatorio (AFC) seleccionadas representen una
permite reducir la cantidad de dimensin diferente del fenmeno en
variables a investigar y adems estudio.
agrupar en factores excluyentes las 9. El anlisis discriminante clasificatorio
mismas (ADC) permite la disposicin de las
3. La aplicacin del AFC es ms efectiva unidades de anlisis en grupos, de
cuando todas las variables que acuerdo a ciertos criterios a priori
intervienen son cuantitativas. fijados y en funcin de un conjunto
4. Cuando intervienen variables de variables. A diferencia del AC
cualitativas y cuantitativas en el AFC, donde se desconoce la cantidad de
los coeficientes de la matriz de grupos a conformar, en el ADC este
correlacin en muchos casos no son nmero es conocido a priori y lo que
interpretables, debido a que el se procura es encontrar las variables
algoritmo del programa SPSS, que que contribuyen ms a la
sirve para calcular este coeficiente se conformacin de estos grupos
aplica solo a variables cuantitativas. 10. Se recomienda utilizar el anlisis
5. En el modelo factorial las variables discriminante clasificatorio (ADC)
que pertenecen a un factor pueden cuando las variables estn expresadas
ser reemplazadas entre s, toda vez en al menos una escala ordinal.
que cada factor representa una 11. Para evaluar la consistencia de los
dimensin del fenmeno social en datos formule un modelo causal
estudio, de este modo se puede hipottico y aplique el AFC. A fin de
reducir la cantidad de variables sin comprobar la naturaleza de la relacin
afectar el objeto en estudio entre las variables y los supuestos a
6. Los conglomerados de unidades de priori de tal manera que los datos sean
anlisis formados mediante el anlisis confirmatorios de tales supuestos, en
de conglomerados (AC) tienen la caso contrario deben ser evaluados
caracterstica de ser homogneos y nuevamente.
diferir significativamente entre s.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 57


Direccin Tcnica de Demografa e Indicadores Sociales

12. La evaluacin de la consistencia de 13. Las aplicaciones del anlisis


los datos aplicando el AC, se efecta multivariado son diversas, las
a partir del anlisis las medias y las mostradas en esta gua constituyen
varianzas calculadas para cada cluster slo una pequea fraccin de sus usos
o conglomerado. Las varianzas altas posibles. As, el modelo factorial es
en los cluster indican la probable til adems para evaluar las polticas
presencia de valores extremos en la aplicadas en determinado sector de
base de datos, por lo cual se la economa a travs del anlisis de la
recomienda verificar estos datos, magnitud de los coeficientes
potencialmente influyentes. factoriales estimados en el modelo.
12. Una de las aplicaciones del anlisis El anlisis cluster adems puede
discriminante para evaluar la aplicarse para la seleccin de variables
consistencia de los datos consiste en de las encuestas de hogares, a partir
calcular los puntajes discriminantes de los conglomerados conformados.
con los cuales se puede clasificar las Otras aplicaciones del anlisis
unidades de anlisis en grupos discriminante permitirn predecir el
excluyentes. Al observar el comportamiento de cierto grupo de
porcentaje de coincidencias entre la individuos a partir del conocimiento
clasificacin a priori y la resultante del de las variables explicativas del
anlisis discriminante, se espera u modelo discriminante y determinar el
porcentaje de coincidencias perfil de un individuo a partir del
superiores al 60%, caso contrario se puntaje discriminante calculado, lo
recomienda revisar la base de datos. que facilitar la aplicacin de polticas
focalizadas.

58 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

VII. RECOMENDACIONES

1. Las tcnicas de anlisis multivariado lugar de residencia. Aunque pueden


explicadas deben ser vistas como un existir poblaciones donde esta
complemento al anlisis descriptivo relacin se muestre en otro sentido.
de los datos, sin las cuales no se Por ello se recomienda realizar
podra alcanzar un conocimiento pruebas repetidas para contrastar los
completo del problema ni aplicar las resultados obtenidos.
pruebas estadsticas ms apropiadas
para confirmar las hiptesis 4. Cuando se analiza de las encuestas
planteadas. de corte transversal generalmente el
investigador es un observador pasivo
2. Para la formulacin de los modelos con poco control sobre los resultados.
es importante tener un conocimiento Por ello las pruebas multivariadas que
terico de las relaciones entre las posteriormente se efecten deben
variables de tal manera que los contar con un marco conceptual de
procesos iterativos de estimacin tal manera que las relaciones entre
conduzcan a resultados consistentes. las variables (magnitud y el signo de
los coeficientes del modelo) tengan
3. Los modelos multivariados de un slido fundamento terico. As,
dependencia (discriminante y cualquier resultado alejado del
regresin por ejemplo) no estn esperado ser atribuible a los datos.
exentos de algunas deficiencias. As
la relacin de causalidad entre las 5. El INEI tambin cuenta con
variables fijada como supuesto inicial informacin de encuestas panel a las
en estos modelos puede ocultar el cuales se recomienda aplicar las
verdadero sentido de la relacin tcnicas multivariadas desarrolladas,
quedando sus efectos confundidos a fin de obtener los coeficientes que
con las variables explcitamente permitan analizar los ciclos y
consideradas. Por ejemplo, se espera tendencias del fenmeno social en
que el nivel educativo tenga una estudio.
fuerte relacin con los ingresos y el

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 59


Direccin Tcnica de Demografa e Indicadores Sociales

60 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


Direccin Tcnica de Demografa e Indicadores Sociales

Referencias Bibliogrfcas

1. Bienvenido Visauta Vinacua, 4. Manuel Mora y Araujo, Paul


"Modelos Causales" - Editorial Lazarsfeld, Warren Torgenson, y
Hispano Europea, Espaa 1986. otros, "Medicin y Construccin de
Indices" - Editorial Nueva Visin, Ar-
gentina 1971.

2. Bienvenido Visauta Vinacua,


"Anlisis Estadstico con SPSS para
5. Programa MECOVI PERU,
Windows" - Mc Graw Hill, Volumen "Compendio de Cuestionarios
II Estadstica Multivariante 1998. Trimestrales en la Encuesta Nacional
de Hogares" - Centro de Investigacin
e Informtica -OTDETI -INEI, Lima,
3. Andrew L. Comrey, "Manual del Mayo 2000.
Anlisis Factorial " - Ctedra, Espaa
1985.
6. Centro de Investigacin y
Desarrollo - INEI, Setiembre
2001, Variables Investigadas con la
ENDES.

GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 61


Direccin Tcnica de Demografa e Indicadores Sociales

62 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES


ANEXO N 1
ETAPAS PARA REALIZAR EL ANLISIS MULTIVARIADO
GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 63

2.
SELECCIN DE 1.
FORMULACION DE
TCNICAS
UN MODELO
MULTIVARIADAS
MULTIVARIADO

Direccin Tcnica de Demografa e Indicadores Sociales


3. 4.
ESTIMACIN DE ANLISIS E

COEFICIENTES E INTERPRETACION
INDICADORES DE LOS
RESULTADOS
ANEXO N 2
64 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Direccin Tcnica de Demografa e Indicadores Sociales


1. FORMULACION DE UN MODELO MULTIVARIADO

LAS VARIABLES SON


DEPENDIENTES?

EXISTE INTERDEPENDENCIA
1.1
ENTRE LAS VARIABLES?
NATURALEZA DE
LA RELACION
ENTRE LAS
MODELO DE VARIABLES ANALISIS TRANSVERSAL Y
REGRESION TEMPORAL DE LOS DATOS

MODELO 1.2 SUPUESTOS TEORICOS


FACTORIAL FORMULACION
DE MODELOS
ANALITICOS
ANLISIS ESTADSTICO

MODELO DE
COVARIANZA

MATRIZ DE
DISTANCIAS
ANEXO N 3
2. PRINCIPALES TCNICAS MULTIVARIADAS
GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 65

ANLISIS
DISCRIMINANTE

2.1

CLASIFICACION
DE VARIABLES O
2.2
ANLISIS UNIDADES DE
FACTORIAL REDUCCIN ANALISIS

Direccin Tcnica de Demografa e Indicadores Sociales


DE DATOS

ANLISIS DE
CONGLOMERADOS
66 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Direccin Tcnica de Demografa e Indicadores Sociales


ANEXO N 4
3. CONSISTENCIA DE LOS RESULTADOS

MATRIZ DE DISTANCIAS

MATRIZ DE VARIANZA
3.1
DENDOGRAMA COVARIAZA INTRAGRUPO
CONSISTENCIA DE
(CONGLOMRADO)
LAS ESTIMACIONES
ANLISIS MATRIZ DE CORRELACION
3.2 DESCRIPTIVO ENTRE GRUPOOS
MAPA TERRITORIAL CONSISTENCIA DE
(DISCRIMINANTE) LAS ESTIMACIONES
ANLISIS ANLISIS DE VARIANZA
GRAFICO

EIGEN VALOR-
COMPONENTE

También podría gustarte