Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guia Analisis Multivariado PDF
Guia Analisis Multivariado PDF
GUIA PARA LA
APLICACIÓN
DEL ANALISIS
MULTIVARIADO A
LAS ENCUESTAS
DE HOGARES
DIRECCIÓN Y SUPERVISION
SOPORTE INFORMATICO
PRESENTACION
INDICE
P R E S E N TA C I O N ............................................................ 3
I. O B J E T I V O S ............................................................... 7
II. A N Á L I S I S M U LT I VA R I A D O ......................................... 9
III. A N Á L I S I S FA C T O R I A L C O N F I R M AT O R I O .................... 17
I V. A N A L I S I S D E C O N G L O M E R A D O S ............................... 31
V. A N Á L I S I S D I S C R I M I N A N T E C L A S I F I C A T O R I O ............. 43
I. C O N C L U S I O N E S ..................................................... 57
V I I . R E C O M E N D A C I O N E S ............................................ 59
R E F E R E N C I A S B I B L I O G R A F Í C A S ............................... 60
A N E X O S ................................................................. 63
I. OBJETIVOS
1/
Guía Metodológica "Evaluación de Indicadores Sociales de las Encuestas de Hogares, 2001.
la edad, los gastos del hogar. Las variables análisis , mientras que en las columnas se
cualitativas son medidas en una escala ubican las variables. La intersección de
nominal por ejemplo el sexo, la condición una fila y una columna da lugar al dato.
de alfabeto, la tenencia de la vivienda, Por ejemplo la matriz de datos que se
etc. muestra consta de n unidades de análisis
y p variables, xij representa un dato en
La Matriz o Tabla de Datos: Una matriz particular. Se tendrá tantas matrices de
o tabla de datos esta conformada por la datos como submuestras de población lo
disposición en filas de las unidades de permita la encuesta.
variables
1, … j … p
1
Unidades de análisis
.i x ij
.
.
n
2/
Debe entenderse por contraste empírico al procedimiento que permite comprobar a partir de los datos recogidos las
hipótesis formuladas.
X Z
3/
El diagrama causal es una representación gráfica de los diferentes tipos de relación entre las variables. Para ello se
utilizan diferentes figuras geométricas y flechas que indican el sentido de la relación entre las variables.
X Z
El análisis factorial es una técnica del Los tipos más frecuentes del análisis
Análisis Multivariado que permite obtener factorial son: el análisis factorial
a partir de un conjunto de variables un exploratorio y el análisis factorial
grupo menor de nuevas variables confirmatorio. El primero se utiliza
denominadas factores, los mismos que cuando el investigador requiere clasificar
estarían explicando la variación conjunta las variables en dimensiones excluyentes
o dependencia mutua entre dichas (factores). Por ejemplo, mediante el
variables. Estos factores denominados análisis factorial exploratorio podemos
también variables "latentes" se caracterizan disponer las variables relacionadas con el
por no estar correlacionados entre sí. Indice de Desarrollo Educativo en sus tres
Con esta reducción se hace más sencillo dimensiones: contexto (condicionantes y
el análisis de los resultados. medio social), proceso (variables
explicativas), y resultados (rendimiento
educativo).
3.1 El análisis factorial confirmatorio de causalidad entre las variables así como
restringir el valor de algunos parámetros
El análisis factorial confirmatorio se aplica del modelo antes de calcularlo
cuando el investigador tiene un (coeficientes del modelo). Así, el modelo
conocimiento a priori del fenómeno en a priori formulado es contrastado con los
estudio, lo cual le permite formular las resultados muestrales obtenidos.
hipótesis necesarias acerca de la relación
E j = µ j + λ j1 ⋅ F1 + λ j 2 ⋅ F 2 + λ j 3 ⋅ F 3 + ϕ j
j = 1, K, n
Diagrama causal:
X1
X2
F1
X 11
X5
X6
X9 F2 E
X 10
X7
X8 F3
X3
X4
mientras que los valores próximos a cero calculados, la misma que viene dada por
implican ausencia de la correlación la proximidad a cero de los valores
(relación). El determinante de la matriz se mostrados. Así, cuanto más próximos a
indica al pié de la tabla. Debajo de los cero se encuentren estos valores los
coeficientes de correlación se muestra la coeficientes serán estadísticamente
significación estadística de los coeficientes significativos.
Correlación Matrixa
Actual-
Ha Cuantas
mente
aprendido semanas
Ha Total de Años lleva o ha
algún oficio ha estado Tiene Edad Condición
trabajado Sexo miembros Area de llevado
a través de buscando profesión (Años) de unión
antes? del hogar Estudio cursos de
la expe- trabajo sin
capaci-
riencia? interrupción
tación?
Ha trabajado antes? 1.000 -0.190 0.000 0.027 -0.216 0.095 -0.010 0.049 0.194 -0.009 -0.087
Ha aprendido algún oficio a
través de la experiencia? -0.190 1.000 0.006 -0.187 0.260 -0.308 0.016 0.008 -0.199 -0.200 -0.120
Cuantas semanas ha estado
buscando trabajo sin
interrupción? 0.000 0.006 1.000 0.023 0.138 -0.028 0.066 -0.1 -0.046 0.058 0.028
Ninguna profesión 0.027 -0.187 0.023 1.000 -0.077 0.090 -0.130 -0.1 0.103 0.725 0.277
Edad (Años) -0.216 0.260 0.138 -0.077 1.000 -0.162 -0.145 -0.1 -0.524 -0.214 0.014
Sexo 0.095 -0.308 -0.028 0.090 -0.162 1.000 -0.007 0.001 0.006 0.076 0.103
Total de miembros del hogar 0.010 0.016 -0.066 -0.130 -0.145 -0.007 1.000 0.070 0.040 -0.102 -0.071
Area 0.049 0.008 -0.054 -0.134 -0.093 0.001 0.070 1.0 0.017 -0.190 -0.153
estado civil 0.194 -0.199 -0.046 0.103 -0.524 0.006 0.040 0.017 1.000 0.154 0.004
Años de estudio -0.009 -0.200 0.058 0.725 -0.214 0.076 -0.102 -0.2 0.154 1.000 0.373
Actualmente lleva o ha llevado
cursos de capacitación? -0.087 -0.120 0.028 0.277 0.014 0.103 -0.071 -0.2 0.004 0.373 1.000
Ha trabajado antes? 0.000 0.499 0.158 0.000 0.000 0.355 0.037 0.000 0.365 0.001
Ha aprendido algún oficio a
través de la experiencia? 0.000 0.411 0.000 0.000 0.000 0.275 0.384 0.000 0.000 0.000
Cuantas semanas ha estado
buscando trabajo sin
interrupción? 0.499 0.411 0.197 0.000 0.156 0.007 0.024 0.047 0.017 0.156
Ninguna profesión 0.158 0.000 0.197 0.002 0.000 0.000 0.000 0.000 0.000 0.000
Edad (Años) 0.000 0.000 0.000 0.002 0.000 0.000 0.000 0.000 0.000 0.309
Sexo 0.000 0.000 0.156 0.000 0.000 0.393 0.487 0.413 0.003 0.000
Total de miembros del hogar 0.355 0.275 0.007 0.000 0.000 0.393 0.005 0.073 0.000 0.005
Area 0.037 0.384 0.024 0.000 0.000 0.487 0.005 0.266 0.000 0.000
estado civil 0.000 0.000 0.047 0.000 0.000 0.413 0.073 0.266 0.000 0.447
Años de estudio 0.365 0.000 0.017 0.000 0.000 0.003 0.000 0.000 0.000 0.000
Actualmente lleva o ha llevado
cursos de capacitación? 0.001 0.000 0.156 0.000 0.309 0.000 0.005 0.000 0.447 0.000
a. Determinant = 0.169
La matriz de correlación es una matriz significación estadística viene dada por los
simétrica cuyos coeficientes de correlación valores que se muestran debajo de la matriz
se muestran por encima y por debajo de la de correlación. El coeficiente de correlación
diagonal principal (formada por uno). Como es significativo si el valor que se muestra
se esperaba algunos coeficientes están más en la parte inferior a la matriz de correlación
cerca de la unidad, mientras que otros es inferior a 0.05. Cualquier otro valor,
valores están próximos a cero. Así, la indica que el coeficiente de correlación no
correlación entre los años de estudio y la es significativo y por tanto no son válidas
tenencia de profesión, es 0.725 (coeficiente las inferencias, siendo sus valores solo
más alto), asimismo este coeficiente es referenciales.
estadísticamente significativo (0.000). La
Representación Gráfica
% de la Variación explicada
2.5
2.0
1.5
1.0
valor Eigen
.5
0.0
1 2 3 4 5 6 7 8 9 10 11
Número de componentes
Component
1 2 3
AÑOS DE ESTUDIO .881 .151 7.184E-02
Tiene profesi¢n .825 6.501E-02 8.613E-02
Actualmente lleva o ha llevado cursos de
.596 -.160 7.279E-02
capacitaci¢n?
AREA -.391 .186 .105
Edad (A¤os) -9.495E-02 -.773 -.325
Condición de Unión .146 .762 .155
Total de miembros del Hogar -.221 .367 -.118
5
/ Es la opción que por defecto proporciona el programa. Se define como la raíz cuadrada de la suma de diferencias
al cuadrado entre dos elementos en la variable o variables consideradas D(X,Y)= S(Xi - Yi )2.También es usualmente
2
considerada el cuadrado de la distancia euclidea D(X,Y)=S(Xi – Yi)
variables unidades
unidades
unidades
Tener presente que los conglomerados expandir, así se evitarán resultados que
se generan a partir de las relaciones distorsionen la interpretación de los
interdependientes entre las variables. coeficientes estimados.
"Exclude cases listwise", permite excluir los Así como se agrupan los departamentos
valores incompletos. "Sorted by size" según el criterio de distancia elegido,
permite ordenar los coeficientes también existen muchos métodos para
estimados en forma creciente. combinar los grupos. En el ejemplo se
emplea el método aglomerativo, que
consiste en un agrupamiento sucesivo
Sin realizar ningún cambio en la ventana
en una serie de pasos. Al comienzo se
"save", en el cuadro de diálogo principal
tienen tantos grupos (cluster) como
pulse OK. De este modo se ejecutara
departamentos, en cada paso los cluster se
todo el procedimiento.
van uniendo hasta que al final constituyen
un solo grupo.
El agrupamiento del ejemplo desarrollado
toma en cuenta las variables de tipo 6. Interpretación de los resultados
económico, social y demográfico lo cual del análisis de conglomerados
determina una conformación específica
de los departamentos, en los distintos Matriz de distancias
grupos, probablemente muy diferente a La matriz formada de orden 23 x 23 ( total
la que se obtendría si el criterio de de departamentos menos uno), muestra
clasificación se hubiese realizado con las distancias euclideanas entre los
variables de tipo cultural, político, departamentos. Un valor pequeño denota
ambiental o de salud, etc. mayor semejanza en cambio un valor
grande mayor diferencia.
Agglomeration Schedule
2 3 20 .196 0 0 14
3 13 23 .246 0 0 15
4 18 24 .273 0 0 7
5 16 21 .291 0 0 18
6 11 15 .370 0 0 7
7 11 18 .399 6 4 13
8 12 17 .438 0 0 12
9 4 22 .647 1 0 12
10 6 9 .693 0 0 17
11 1 2 .748 0 0 17
12 4 12 1.101 9 8 20
13 11 19 1.201 7 0 15
14 3 5 1.302 2 0 16
15 11 13 1.415 13 3 18
16 3 8 1.568 14 0 19
17 1 6 1.839 11 10 21
18 11 16 2.035 15 5 20
19 3 7 2.908 16 0 21
20 4 11 3.069 12 18 22
21 1 3 3.880 17 19 22
22 1 4 10.567 21 20 23
23 1 14 24.964 22 0 0
CASE 0 5 10 15 20 25
Label Num +- - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+
Arequipa 4
Ica 10
Tacna 22
La Libertad 12
Moquegua 17
Madre de Dios 16
San Martín 21
Lambayeque 13
Tumbes 23
Pasco 18
Ucayali 24
Junín 11
Loreto 15
Piura 19
Cajamarca 6
Huánuco 9
Amazonas 1
Ancash 2
Apurimac 3
Puno 20
Ayacucho 5
Huancavelica 8
Cusco 7
Lima 14
coeficiente de distancia de 1.14, lo que departamentos con las variables que tienen
confirma las diferencias mostradas en los datos muy alejados de la tendencia
valores de las variables originales y que se mostrada por los valores promedio del
utilizan como criterios de clasificación grupo al que pertenece. En estos casos se
(Esperanza de vida, Años promedio de recomienda revisar en la base de datos
estudios, Alfabetismo, e Ingreso Per dicha variables. En el ejemplo desarrollado
cápita). Mientras que Ayacucho y las distancias entre los cluster que se
Arequipa tienen un coeficiente de distancia muestran en la columna "coefficients" de
de 27. 45 y entre Apurímac y Arequipa la tabla "Agglomeration Schedule" sirven
este coeficiente es 18.6. Así, Apurímac y para realizar este tipo de comparaciones.
Ayacucho son más parecidos entre sí, en Así entre el departamento de Arequipa,
cambio Arequipa dados los valores de los Ica y Tacna identificados en esta tabla con
coeficientes de distancia no se parece a los dígitos 4, 10 y 22, se espera valores
ninguno. Puede concluirse que los datos en las variables originales cercanos.
confirman los supuestos teóricos con
respecto a las diferencias relativas en el El dendograma: contribuye también a
desarrollo de los departamentos reflejados la evaluación de los datos, por cuanto la
en los valores de las variables. Esta disposición y agrupamiento entre los
proximidad entre los resultados observados departamentos obedece a los valores que
y los esperados es evidencia de la toman entre las variables. De este modo
consistencia de los datos de la encuesta. a simple vista pueden ubicarse los
En caso contrario la base de datos debe departamentos con los coeficientes de
estudiarse nuevamente. distancia muy próximos entre sí, cuyos
valores en las variables originales se espera
La tabla de aglomeración: Esta tabla también lo sean.
puede ser útil para identificar aquellos
Variable Dependiente: mujer en edad fértil sin hijos, con uno a dos hijos y con tres
o mas hijos (REV201).
Group Statistics
Covariance Matricesa
RECV717
V012 Current CONDTRABAJ
REV201 Nº DE HIJOS age - respondent V0251 V1061 V5011 O
1.00 NO TIENE V012 Current age - respondent 43.083 -.311 -7.713E-03 .395 -.343
V0251 -.311 .202 -7.139E-02 9.198E-03 -2.911E-02
V1061 -7.713E-03 -7.139E-02 .147 -1.101E-02 3.897E-02
V5011 .395 9.198E-03 -1.101E-02 7.894E-02 -4.538E-03
RECV717 CONDTRABAJO -.343 -2.911E-02 3.897E-02 -4.538E-03 .249
2.00 1 A 2 V012 Current age - respondent 59.109 -.956 .489 3.565E-02 -3.535E-02
V0251 -.956 .228 -9.624E-02 2.655E-03 -2.186E-02
V1061 .489 -9.624E-02 .213 -1.202E-03 3.405E-02
V5011 3.565E-02 2.655E-03 -1.202E-03 .173 2.712E-02
RECV717 CONDTRABAJO -3.535E-02 -2.186E-02 3.405E-02 2.712E-02 .247
3.00 3 A MAS HIJOS V012 Current age - respondent 48.684 -.450 -.101 -6.352E-02 -.132
V0251 -.450 .250 -.102 1.133E-02 -2.215E-02
V1061 -.101 -.102 .228 -5.334E-03 3.183E-02
V5011 -6.352E-02 1.133E-02 -5.334E-03 6.954E-02 1.238E-02
RECV717 CONDTRABAJO -.132 -2.215E-02 3.183E-02 1.238E-02 .226
Total V012 Current age - respondent 96.460 8.237E-02 -1.243 2.428 -.680
V0251 8.237E-02 .237 -.110 3.778E-02 -3.138E-02
V1061 -1.243 -.110 .239 -6.752E-02 4.975E-02
V5011 2.428 3.778E-02 -6.752E-02 .238 -1.365E-02
RECV717 CONDTRABAJO -.680 -3.138E-02 4.975E-02 -1.365E-02 .246
a. The total covarianc e matrix has 27842 degrees of freedom.
Variables Entered/Removeda,b,c,d
Wilks' Lambda
Exact F
Step Entered Removed Statistic df1 df2 df3 Statistic df1 df2 Sig.
1 V5011 .438 1 2 27840.000 17893.902 2 27840.000 .000
2 V012 Current age - respondent .305 2 2 27840.000 11287.309 4 55678.000 .000
3 V1061 .279 3 2 27840.000 8287.134 6 55676.000 .000
4 V0251 .277 4 2 27840.000 6253.582 8 55674.000 .000
5 RECV717 CONDTRABAJO .276 5 2 27840.000 5026.355 10 55672.000 .000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 10.
Wilks' Lambda
Wilks' Lambda
Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 .438 1 2 27840 17893.902 2 27840.000 .000
2 2 .305 2 2 27840 11287.309 4 55678.000 1.898E-14
3 3 .279 3 2 27840 8287.134 6 55676.000 .000
4 4 .277 4 2 27840 6253.582 8 55674.000 .000
5 5 .276 5 2 27840 5026.355 10 55672.000 .000
Test Results
Box's M 3997.235
F Approx. 133.207
df1 30
df2 2315436188.341
Sig. .000
Tests null hypothesis of equal population covariance matrices.
Function
1 2
V012 Current age - respondent .087 -.081
V0251 .183 -.254
V1061 -.506 1.151
V5011 2.190 2.152
RECV717 CONDT RABAJO -.155 -.160
(Constant) -3.450 .706
Unstandardized coefficients
D1= - 3.45 + 0.08 V012 + 0.18 V0251 - 0.5 V1061 + 2.19 V5011 - 0.15 RECV7171
D2= 0.7 - 0.08 V012 - 0.25 V0251 + 1.15 V1061 + 2.15 V5011 - 0.16 RECV7171
REV201 Nº DE HIJOS
1.00 NO T IENE 2.00 1 A 2 3.00 3 A MAS HIJOS
V012 Current age - respondent .488 .630 .807
V0251 5.162 5.400 5.838
V1061 5.088 4.745 3.177
V5011 -.527 5.983 7.091
RECV717 CONDT RABAJO 6.510 6.044 5.972
(Constant) -13.956 -19.405 -25.454
En el grupo de mujeres con tres o más número de hijos. Así, las mujeres que
hijos la variable edad -v012- es más tienen menos hijos son aquellas que
importante en la identificación de este tienen ocupación laboral.
grupo.
La constante (constant) comprende todo
El lugar de residencia -v0251-(urbano / aquello que no es explicado por las
rural) explica también las diferencias en el variables consideradas en el modelo. Para
número de hijos de las mujeres. El el ejemplo, esta constante crece en
coeficiente estimado es más alto para el relación directa al número de hijos, por
grupo de mujeres con tres y más hijos. ello se recomienda considerar más
variables a fin de reducir esta constante.
El nivel educativo -v1061- es para el grupo
de mujeres sin hijos más determinante. Clasificación de las unidades de
Comprobándose empíricamente la acuerdo a las funciones discriminantes
relación "a mayor nivel educativo menor
número de hijos". Los puntajes discriminantes llevan
asociadas una probabilidad, la cual se
El estado conyugal -v5011-(nunca unidad convierte en una regla de clasificación de
/ unida) es más importantes en las mujeres las unidades de análisis. Esta regla se basa
con tres o mas hijos. Se comprueba que en el teorema de Bayes. La probabilidad
las mujeres unidas tienden a tener más que una unidad de análisis con un puntaje
hijos que las no unidas. discriminante, pertenezca a uno de los tres
grupos (mujeres sin hijos, con uno o dos
La condición de actividad es más hijos y con tres o mas hijos) se estima
determinante en la disminución del mediante la siguiente expresión:
Classificationb,c
Predicted Group Membership
1.00 NO 3.00 3 A
REV201 Nº DE HIJOS TIENE 2.00 1 A 2 MAS HIJOS Total
Original Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
Cross-validated a Count 1.00 NO TIENE 7997 648 267 8912
2.00 1 A 2 1697 5031 1722 8450
3.00 3 A MAS HIJOS 433 2195 7853 10481
% 1.00 NO TIENE 89.7 7.3 3.0 100.0
2.00 1 A 2 20.1 59.5 20.4 100.0
3.00 3 A MAS HIJOS 4.1 20.9 74.9 100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is
classified by the functions derived from all cases other than that case.
b. 75.0% of original grouped cases correctly classified.
c. 75.0% of cross-validated grouped cases correctly classified.
VI. CONCLUSIONES
VII. RECOMENDACIONES
Referencias Bibliográfícas
2.
SELECCIÓN DE 1.
FORMULACION DE
TÉCNICAS
UN MODELO
MULTIVARIADAS
MULTIVARIADO
COEFICIENTES E INTERPRETACION
INDICADORES DE LOS
RESULTADOS
ANEXO Nº 2
64 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES
¿EXISTE INTERDEPENDENCIA
1.1
ENTRE LAS VARIABLES?
NATURALEZA DE
LA RELACION
ENTRE LAS
MODELO DE VARIABLES ANALISIS TRANSVERSAL Y
REGRESION TEMPORAL DE LOS DATOS
MODELO DE
COVARIANZA
MATRIZ DE
DISTANCIAS
ANEXO Nº 3
2. PRINCIPALES TÉCNICAS MULTIVARIADAS
GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 65
ANÁLISIS
DISCRIMINANTE
2.1
CLASIFICACION
DE VARIABLES O
2.2
ANÁLISIS UNIDADES DE
FACTORIAL REDUCCIÓN ANALISIS
ANÁLISIS DE
CONGLOMERADOS
66 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES
MATRIZ DE DISTANCIAS
MATRIZ DE VARIANZA
3.1
DENDOGRAMA COVARIAZA INTRAGRUPO
CONSISTENCIA DE
(CONGLOMRADO)
LAS ESTIMACIONES
ANÁLISIS MATRIZ DE CORRELACION
3.2 DESCRIPTIVO ENTRE GRUPOOS
MAPA TERRITORIAL CONSISTENCIA DE
(DISCRIMINANTE) LAS ESTIMACIONES
ANÁLISIS ANÁLISIS DE VARIANZA
GRAFICO
EIGEN VALOR-
COMPONENTE