Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guia Analisis Multivariado PDF
Guia Analisis Multivariado PDF
GUIA PARA LA
APLICACIN
DEL ANALISIS
MULTIVARIADO A
LAS ENCUESTAS
DE HOGARES
DIRECCIN Y SUPERVISION
SOPORTE INFORMATICO
PRESENTACION
INDICE
P R E S E N TA C I O N ............................................................ 3
I. O B J E T I V O S ............................................................... 7
II. A N L I S I S M U LT I VA R I A D O ......................................... 9
III. A N L I S I S FA C T O R I A L C O N F I R M AT O R I O .................... 17
I V. A N A L I S I S D E C O N G L O M E R A D O S ............................... 31
V. A N L I S I S D I S C R I M I N A N T E C L A S I F I C A T O R I O ............. 43
I. C O N C L U S I O N E S ..................................................... 57
V I I . R E C O M E N D A C I O N E S ............................................ 59
R E F E R E N C I A S B I B L I O G R A F C A S ............................... 60
A N E X O S ................................................................. 63
I. OBJETIVOS
1/
Gua Metodolgica "Evaluacin de Indicadores Sociales de las Encuestas de Hogares, 2001.
la edad, los gastos del hogar. Las variables anlisis , mientras que en las columnas se
cualitativas son medidas en una escala ubican las variables. La interseccin de
nominal por ejemplo el sexo, la condicin una fila y una columna da lugar al dato.
de alfabeto, la tenencia de la vivienda, Por ejemplo la matriz de datos que se
etc. muestra consta de n unidades de anlisis
y p variables, xij representa un dato en
La Matriz o Tabla de Datos: Una matriz particular. Se tendr tantas matrices de
o tabla de datos esta conformada por la datos como submuestras de poblacin lo
disposicin en filas de las unidades de permita la encuesta.
variables
1, j p
1
Unidades de anlisis
.i x ij
.
.
n
2/
Debe entenderse por contraste emprico al procedimiento que permite comprobar a partir de los datos recogidos las
hiptesis formuladas.
X Z
3/
El diagrama causal es una representacin grfica de los diferentes tipos de relacin entre las variables. Para ello se
utilizan diferentes figuras geomtricas y flechas que indican el sentido de la relacin entre las variables.
X Z
El anlisis factorial es una tcnica del Los tipos ms frecuentes del anlisis
Anlisis Multivariado que permite obtener factorial son: el anlisis factorial
a partir de un conjunto de variables un exploratorio y el anlisis factorial
grupo menor de nuevas variables confirmatorio. El primero se utiliza
denominadas factores, los mismos que cuando el investigador requiere clasificar
estaran explicando la variacin conjunta las variables en dimensiones excluyentes
o dependencia mutua entre dichas (factores). Por ejemplo, mediante el
variables. Estos factores denominados anlisis factorial exploratorio podemos
tambin variables "latentes" se caracterizan disponer las variables relacionadas con el
por no estar correlacionados entre s. Indice de Desarrollo Educativo en sus tres
Con esta reduccin se hace ms sencillo dimensiones: contexto (condicionantes y
el anlisis de los resultados. medio social), proceso (variables
explicativas), y resultados (rendimiento
educativo).
E j = j + j1 F1 + j 2 F 2 + j 3 F 3 + j
j = 1, K, n
Diagrama causal:
X1
X2
F1
X 11
X5
X6
X9 F2 E
X 10
X7
X8 F3
X3
X4
mientras que los valores prximos a cero calculados, la misma que viene dada por
implican ausencia de la correlacin la proximidad a cero de los valores
(relacin). El determinante de la matriz se mostrados. As, cuanto ms prximos a
indica al pi de la tabla. Debajo de los cero se encuentren estos valores los
coeficientes de correlacin se muestra la coeficientes sern estadsticamente
significacin estadstica de los coeficientes significativos.
Correlacin Matrixa
Actual-
Ha Cuantas
mente
aprendido semanas
Ha Total de Aos lleva o ha
algn oficio ha estado Tiene Edad Condicin
trabajado Sexo miembros Area de llevado
a travs de buscando profesin (Aos) de unin
antes? del hogar Estudio cursos de
la expe- trabajo sin
capaci-
riencia? interrupcin
tacin?
Ha trabajado antes? 1.000 -0.190 0.000 0.027 -0.216 0.095 -0.010 0.049 0.194 -0.009 -0.087
Ha aprendido algn oficio a
travs de la experiencia? -0.190 1.000 0.006 -0.187 0.260 -0.308 0.016 0.008 -0.199 -0.200 -0.120
Cuantas semanas ha estado
buscando trabajo sin
interrupcin? 0.000 0.006 1.000 0.023 0.138 -0.028 0.066 -0.1 -0.046 0.058 0.028
Ninguna profesin 0.027 -0.187 0.023 1.000 -0.077 0.090 -0.130 -0.1 0.103 0.725 0.277
Edad (Aos) -0.216 0.260 0.138 -0.077 1.000 -0.162 -0.145 -0.1 -0.524 -0.214 0.014
Sexo 0.095 -0.308 -0.028 0.090 -0.162 1.000 -0.007 0.001 0.006 0.076 0.103
Total de miembros del hogar 0.010 0.016 -0.066 -0.130 -0.145 -0.007 1.000 0.070 0.040 -0.102 -0.071
Area 0.049 0.008 -0.054 -0.134 -0.093 0.001 0.070 1.0 0.017 -0.190 -0.153
estado civil 0.194 -0.199 -0.046 0.103 -0.524 0.006 0.040 0.017 1.000 0.154 0.004
Aos de estudio -0.009 -0.200 0.058 0.725 -0.214 0.076 -0.102 -0.2 0.154 1.000 0.373
Actualmente lleva o ha llevado
cursos de capacitacin? -0.087 -0.120 0.028 0.277 0.014 0.103 -0.071 -0.2 0.004 0.373 1.000
Ha trabajado antes? 0.000 0.499 0.158 0.000 0.000 0.355 0.037 0.000 0.365 0.001
Ha aprendido algn oficio a
travs de la experiencia? 0.000 0.411 0.000 0.000 0.000 0.275 0.384 0.000 0.000 0.000
Cuantas semanas ha estado
buscando trabajo sin
interrupcin? 0.499 0.411 0.197 0.000 0.156 0.007 0.024 0.047 0.017 0.156
Ninguna profesin 0.158 0.000 0.197 0.002 0.000 0.000 0.000 0.000 0.000 0.000
Edad (Aos) 0.000 0.000 0.000 0.002 0.000 0.000 0.000 0.000 0.000 0.309
Sexo 0.000 0.000 0.156 0.000 0.000 0.393 0.487 0.413 0.003 0.000
Total de miembros del hogar 0.355 0.275 0.007 0.000 0.000 0.393 0.005 0.073 0.000 0.005
Area 0.037 0.384 0.024 0.000 0.000 0.487 0.005 0.266 0.000 0.000
estado civil 0.000 0.000 0.047 0.000 0.000 0.413 0.073 0.266 0.000 0.447
Aos de estudio 0.365 0.000 0.017 0.000 0.000 0.003 0.000 0.000 0.000 0.000
Actualmente lleva o ha llevado
cursos de capacitacin? 0.001 0.000 0.156 0.000 0.309 0.000 0.005 0.000 0.447 0.000
a. Determinant = 0.169
La matriz de correlacin es una matriz significacin estadstica viene dada por los
simtrica cuyos coeficientes de correlacin valores que se muestran debajo de la matriz
se muestran por encima y por debajo de la de correlacin. El coeficiente de correlacin
diagonal principal (formada por uno). Como es significativo si el valor que se muestra
se esperaba algunos coeficientes estn ms en la parte inferior a la matriz de correlacin
cerca de la unidad, mientras que otros es inferior a 0.05. Cualquier otro valor,
valores estn prximos a cero. As, la indica que el coeficiente de correlacin no
correlacin entre los aos de estudio y la es significativo y por tanto no son vlidas
tenencia de profesin, es 0.725 (coeficiente las inferencias, siendo sus valores solo
ms alto), asimismo este coeficiente es referenciales.
estadsticamente significativo (0.000). La
Representacin Grfica
% de la Variacin explicada
2.5
2.0
1.5
1.0
valor Eigen
.5
0.0
1 2 3 4 5 6 7 8 9 10 11
Nmero de componentes
Component
1 2 3
AOS DE ESTUDIO .881 .151 7.184E-02
Tiene profesin .825 6.501E-02 8.613E-02
Actualmente lleva o ha llevado cursos de
.596 -.160 7.279E-02
capacitacin?
AREA -.391 .186 .105
Edad (Aos) -9.495E-02 -.773 -.325
Condicin de Unin .146 .762 .155
Total de miembros del Hogar -.221 .367 -.118
5
/ Es la opcin que por defecto proporciona el programa. Se define como la raz cuadrada de la suma de diferencias
al cuadrado entre dos elementos en la variable o variables consideradas D(X,Y)= S(Xi - Yi )2.Tambin es usualmente
2
considerada el cuadrado de la distancia euclidea D(X,Y)=S(Xi Yi)
variables unidades
unidades
unidades
"Exclude cases listwise", permite excluir los As como se agrupan los departamentos
valores incompletos. "Sorted by size" segn el criterio de distancia elegido,
permite ordenar los coeficientes tambin existen muchos mtodos para
estimados en forma creciente. combinar los grupos. En el ejemplo se
emplea el mtodo aglomerativo, que
consiste en un agrupamiento sucesivo
Sin realizar ningn cambio en la ventana
en una serie de pasos. Al comienzo se
"save", en el cuadro de dilogo principal
tienen tantos grupos (cluster) como
pulse OK. De este modo se ejecutara
departamentos, en cada paso los cluster se
todo el procedimiento.
van uniendo hasta que al final constituyen
un solo grupo.
El agrupamiento del ejemplo desarrollado
toma en cuenta las variables de tipo 6. Interpretacin de los resultados
econmico, social y demogrfico lo cual del anlisis de conglomerados
determina una conformacin especfica
de los departamentos, en los distintos Matriz de distancias
grupos, probablemente muy diferente a La matriz formada de orden 23 x 23 ( total
la que se obtendra si el criterio de de departamentos menos uno), muestra
clasificacin se hubiese realizado con las distancias euclideanas entre los
variables de tipo cultural, poltico, departamentos. Un valor pequeo denota
ambiental o de salud, etc. mayor semejanza en cambio un valor
grande mayor diferencia.
Agglomeration Schedule
2 3 20 .196 0 0 14
3 13 23 .246 0 0 15
4 18 24 .273 0 0 7
5 16 21 .291 0 0 18
6 11 15 .370 0 0 7
7 11 18 .399 6 4 13
8 12 17 .438 0 0 12
9 4 22 .647 1 0 12
10 6 9 .693 0 0 17
11 1 2 .748 0 0 17
12 4 12 1.101 9 8 20
13 11 19 1.201 7 0 15
14 3 5 1.302 2 0 16
15 11 13 1.415 13 3 18
16 3 8 1.568 14 0 19
17 1 6 1.839 11 10 21
18 11 16 2.035 15 5 20
19 3 7 2.908 16 0 21
20 4 11 3.069 12 18 22
21 1 3 3.880 17 19 22
22 1 4 10.567 21 20 23
23 1 14 24.964 22 0 0
CASE 0 5 10 15 20 25
Label Num +- - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+
Arequipa 4
Ica 10
Tacna 22
La Libertad 12
Moquegua 17
Madre de Dios 16
San Martn 21
Lambayeque 13
Tumbes 23
Pasco 18
Ucayali 24
Junn 11
Loreto 15
Piura 19
Cajamarca 6
Hunuco 9
Amazonas 1
Ancash 2
Apurimac 3
Puno 20
Ayacucho 5
Huancavelica 8
Cusco 7
Lima 14
coeficiente de distancia de 1.14, lo que departamentos con las variables que tienen
confirma las diferencias mostradas en los datos muy alejados de la tendencia
valores de las variables originales y que se mostrada por los valores promedio del
utilizan como criterios de clasificacin grupo al que pertenece. En estos casos se
(Esperanza de vida, Aos promedio de recomienda revisar en la base de datos
estudios, Alfabetismo, e Ingreso Per dicha variables. En el ejemplo desarrollado
cpita). Mientras que Ayacucho y las distancias entre los cluster que se
Arequipa tienen un coeficiente de distancia muestran en la columna "coefficients" de
de 27. 45 y entre Apurmac y Arequipa la tabla "Agglomeration Schedule" sirven
este coeficiente es 18.6. As, Apurmac y para realizar este tipo de comparaciones.
Ayacucho son ms parecidos entre s, en As entre el departamento de Arequipa,
cambio Arequipa dados los valores de los Ica y Tacna identificados en esta tabla con
coeficientes de distancia no se parece a los dgitos 4, 10 y 22, se espera valores
ninguno. Puede concluirse que los datos en las variables originales cercanos.
confirman los supuestos tericos con
respecto a las diferencias relativas en el El dendograma: contribuye tambin a
desarrollo de los departamentos reflejados la evaluacin de los datos, por cuanto la
en los valores de las variables. Esta disposicin y agrupamiento entre los
proximidad entre los resultados observados departamentos obedece a los valores que
y los esperados es evidencia de la toman entre las variables. De este modo
consistencia de los datos de la encuesta. a simple vista pueden ubicarse los
En caso contrario la base de datos debe departamentos con los coeficientes de
estudiarse nuevamente. distancia muy prximos entre s, cuyos
valores en las variables originales se espera
La tabla de aglomeracin: Esta tabla tambin lo sean.
puede ser til para identificar aquellos
Variable Dependiente: mujer en edad frtil sin hijos, con uno a dos hijos y con tres
o mas hijos (REV201).
Group Statistics
Covariance Matricesa
RECV717
V012 Current CONDTRABAJ
REV201 N DE HIJOS age - respondent V0251 V1061 V5011 O
1.00 NO TIENE V012 Current age - respondent 43.083 -.311 -7.713E-03 .395 -.343
V0251 -.311 .202 -7.139E-02 9.198E-03 -2.911E-02
V1061 -7.713E-03 -7.139E-02 .147 -1.101E-02 3.897E-02
V5011 .395 9.198E-03 -1.101E-02 7.894E-02 -4.538E-03
RECV717 CONDTRABAJO -.343 -2.911E-02 3.897E-02 -4.538E-03 .249
2.00 1 A 2 V012 Current age - respondent 59.109 -.956 .489 3.565E-02 -3.535E-02
V0251 -.956 .228 -9.624E-02 2.655E-03 -2.186E-02
V1061 .489 -9.624E-02 .213 -1.202E-03 3.405E-02
V5011 3.565E-02 2.655E-03 -1.202E-03 .173 2.712E-02
RECV717 CONDTRABAJO -3.535E-02 -2.186E-02 3.405E-02 2.712E-02 .247
3.00 3 A MAS HIJOS V012 Current age - respondent 48.684 -.450 -.101 -6.352E-02 -.132
V0251 -.450 .250 -.102 1.133E-02 -2.215E-02
V1061 -.101 -.102 .228 -5.334E-03 3.183E-02
V5011 -6.352E-02 1.133E-02 -5.334E-03 6.954E-02 1.238E-02
RECV717 CONDTRABAJO -.132 -2.215E-02 3.183E-02 1.238E-02 .226
Total V012 Current age - respondent 96.460 8.237E-02 -1.243 2.428 -.680
V0251 8.237E-02 .237 -.110 3.778E-02 -3.138E-02
V1061 -1.243 -.110 .239 -6.752E-02 4.975E-02
V5011 2.428 3.778E-02 -6.752E-02 .238 -1.365E-02
RECV717 CONDTRABAJO -.680 -3.138E-02 4.975E-02 -1.365E-02 .246
a. The total covarianc e matrix has 27842 degrees of freedom.
Variables Entered/Removeda,b,c,d
Wilks' Lambda
Exact F
Step Entered Removed Statistic df1 df2 df3 Statistic df1 df2 Sig.
1 V5011 .438 1 2 27840.000 17893.902 2 27840.000 .000
2 V012 Current age - respondent .305 2 2 27840.000 11287.309 4 55678.000 .000
3 V1061 .279 3 2 27840.000 8287.134 6 55676.000 .000
4 V0251 .277 4 2 27840.000 6253.582 8 55674.000 .000
5 RECV717 CONDTRABAJO .276 5 2 27840.000 5026.355 10 55672.000 .000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 10.
Wilks' Lambda
Wilks' Lambda
Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 .438 1 2 27840 17893.902 2 27840.000 .000
2 2 .305 2 2 27840 11287.309 4 55678.000 1.898E-14
3 3 .279 3 2 27840 8287.134 6 55676.000 .000
4 4 .277 4 2 27840 6253.582 8 55674.000 .000
5 5 .276 5 2 27840 5026.355 10 55672.000 .000
Test Results
Box's M 3997.235
F Approx. 133.207
df1 30
df2 2315436188.341
Sig. .000
Tests null hypothesis of equal population covariance matrices.
Function
1 2
V012 Current age - respondent .087 -.081
V0251 .183 -.254
V1061 -.506 1.151
V5011 2.190 2.152
RECV717 CONDT RABAJO -.155 -.160
(Constant) -3.450 .706
Unstandardized coefficients
D1= - 3.45 + 0.08 V012 + 0.18 V0251 - 0.5 V1061 + 2.19 V5011 - 0.15 RECV7171
D2= 0.7 - 0.08 V012 - 0.25 V0251 + 1.15 V1061 + 2.15 V5011 - 0.16 RECV7171
REV201 N DE HIJOS
1.00 NO T IENE 2.00 1 A 2 3.00 3 A MAS HIJOS
V012 Current age - respondent .488 .630 .807
V0251 5.162 5.400 5.838
V1061 5.088 4.745 3.177
V5011 -.527 5.983 7.091
RECV717 CONDT RABAJO 6.510 6.044 5.972
(Constant) -13.956 -19.405 -25.454
En el grupo de mujeres con tres o ms nmero de hijos. As, las mujeres que
hijos la variable edad -v012- es ms tienen menos hijos son aquellas que
importante en la identificacin de este tienen ocupacin laboral.
grupo.
La constante (constant) comprende todo
El lugar de residencia -v0251-(urbano / aquello que no es explicado por las
rural) explica tambin las diferencias en el variables consideradas en el modelo. Para
nmero de hijos de las mujeres. El el ejemplo, esta constante crece en
coeficiente estimado es ms alto para el relacin directa al nmero de hijos, por
grupo de mujeres con tres y ms hijos. ello se recomienda considerar ms
variables a fin de reducir esta constante.
El nivel educativo -v1061- es para el grupo
de mujeres sin hijos ms determinante. Clasificacin de las unidades de
Comprobndose empricamente la acuerdo a las funciones discriminantes
relacin "a mayor nivel educativo menor
nmero de hijos". Los puntajes discriminantes llevan
asociadas una probabilidad, la cual se
El estado conyugal -v5011-(nunca unidad convierte en una regla de clasificacin de
/ unida) es ms importantes en las mujeres las unidades de anlisis. Esta regla se basa
con tres o mas hijos. Se comprueba que en el teorema de Bayes. La probabilidad
las mujeres unidas tienden a tener ms que una unidad de anlisis con un puntaje
hijos que las no unidas. discriminante, pertenezca a uno de los tres
grupos (mujeres sin hijos, con uno o dos
La condicin de actividad es ms hijos y con tres o mas hijos) se estima
determinante en la disminucin del mediante la siguiente expresin:
Classificationb,c
Predicted Group Membership
1.00 NO 3.00 3 A
REV201 N DE HIJOS TIENE 2.00 1 A 2 MAS HIJOS Total
Original Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
Cross-validated a Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is
classified by the functions derived from all cases other than that case.
b. 75.0% of original grouped cases correctly classified.
c. 75.0% of cross-validated grouped cases correctly classified.
VI. CONCLUSIONES
VII. RECOMENDACIONES
Referencias Bibliogrfcas
2.
SELECCIN DE 1.
FORMULACION DE
TCNICAS
UN MODELO
MULTIVARIADAS
MULTIVARIADO
COEFICIENTES E INTERPRETACION
INDICADORES DE LOS
RESULTADOS
ANEXO N 2
64 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES
EXISTE INTERDEPENDENCIA
1.1
ENTRE LAS VARIABLES?
NATURALEZA DE
LA RELACION
ENTRE LAS
MODELO DE VARIABLES ANALISIS TRANSVERSAL Y
REGRESION TEMPORAL DE LOS DATOS
MODELO DE
COVARIANZA
MATRIZ DE
DISTANCIAS
ANEXO N 3
2. PRINCIPALES TCNICAS MULTIVARIADAS
GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES 65
ANLISIS
DISCRIMINANTE
2.1
CLASIFICACION
DE VARIABLES O
2.2
ANLISIS UNIDADES DE
FACTORIAL REDUCCIN ANALISIS
ANLISIS DE
CONGLOMERADOS
66 GUIA PARA LA APLICACIN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES
MATRIZ DE DISTANCIAS
MATRIZ DE VARIANZA
3.1
DENDOGRAMA COVARIAZA INTRAGRUPO
CONSISTENCIA DE
(CONGLOMRADO)
LAS ESTIMACIONES
ANLISIS MATRIZ DE CORRELACION
3.2 DESCRIPTIVO ENTRE GRUPOOS
MAPA TERRITORIAL CONSISTENCIA DE
(DISCRIMINANTE) LAS ESTIMACIONES
ANLISIS ANLISIS DE VARIANZA
GRAFICO
EIGEN VALOR-
COMPONENTE