Está en la página 1de 57

Manual Básico

Bases de ENAHO 2017

Lilian Nathals Solis1


Versión 2- Agosto 2019

1
Email: lnathalss@unp.edu.pe

1
CAPÍTULO 5: TRABAJANDO BASE DE DATOS ENAHO SUMARIA 4

5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 500 4

5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 5006

5.3. Sumaria 8

5.4. Sumaria-Describir los Datos 9

5.5. Sumaria-Codebook 10

5.6. Sumaria-Inspeccionar las variables 10

5.7. Sumaria-Listar los datos 11

5.7.1. Listando variables de interés, comando list 11

5.7.2. Listando variables de interés, comando list con in 12

5.7.3. Listando y usando variables de interés 13

5.7.4. Listando y usando variables de interés con condición 14

5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos. 15

5.9. Analizando la base de datos Sumaria 2017. 15

5.9.1. Observando las variables percepho mieperho pobreza dep inghog1d gashog2d 17

5.9.2. Estadística de tendencia central variables percepho mieperho inghog1d gashog2d 19

5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d 22

5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d 27

5.9.5. Normalidad de las variables percepho mieperho inghog1d gashog2d 31

5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d 33

5.9.7. Curva de Lorenz variable inghog1d 40

5.9.8. Tabla N°1 Departamentos del Perú 41

5.9.9. Tabla N°2 Departamentos del Perú con pobreza 44

CAPÍTULO 6: TRABAJANDO BASE DE DATOS ENAHO SUMARIA-


MODULO 500 49

6.1. Merge Sumaria y modulo 500 año 2017 49

6.1.1. Tablas Sumaria y modulo 500 año 2017 52

6.2. Append modulo 500 año 2016 y modulo 500 año 2017 52

2
6.3. Seleccionando variables de la base de datos: sumaria-modulo 500 56

3
Capítulo 5: Trabajando Base de Datos ENAHO SUMARIA

1.
5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo
500

Se identifica la base de datos que se va utilizar, para el ejemplo ENAHO 2017 y la descargamos
del portal de INEI.
Descargamos el módulo empleo e ingresos, el código del módulo es 5 y también sumaria
(variables calculadas), el código del módulo es 34 para el año 2017.

4
5
5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o
modulo 34 y modulo 500

6
Ingresar a Documentación

7
El investigador analizara la información de acuerdo a los objetivos de su investigación.

Así mismo en guía del usuario existe un video que puede ayudar al investigador.

Descomprimir los archivos y generar una carpeta para las bases de datos
Nota: Para corregir los acentos y las ñ, utilizamos el archivo do.

5.3. Sumaria

a. Sumaria, resume las variables a nivel de hogares

b. Mieperho: Total de miembros del hogar; tiene sentido en la Base Sumaria

c. El factor07, se utiliza a nivel de individuos.

d. Pobreza, la utilizamos a nivel de individuos.

e. Tiene 158 variables, 34584 observaciones.

8
5.4. Sumaria-Describir los Datos

9
5.5. Sumaria-Codebook

5.6. Sumaria-Inspeccionar las variables

10
5.7. Sumaria-Listar los datos

5.7.1. Listando variables de interés, comando list

list dominio estrato mieperho percepho

11
5.7.2. Listando variables de interés, comando list con in

Se puede listar las 118 observaciones iniciales utilizamos el comando list con in

12
5.7.3. Listando y usando variables de interés

En muchas ocasiones solo serán de interés algunas de las variables contenidas en la base de datos. Para
ello se empleará la siguiente sintaxis, como, por ejemplo:
use conglome vivienda hogar ubigeo using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019
II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\sumaria-2017.dta"

Explicación, se utiliza el comando use; las variables son conglome vivienda hogar ubigeo; seguidamente
se escribe using; después entre comillas la ruta donde se encuentra la base de datos.

13
Es decir, hemos ordenado quedarnos con 4 variables y 34584 observaciones. También se puede utilizar
el comando keep

5.7.4. Listando y usando variables de interés con condición

use if mieperho>8 using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019 II\Capítulos 5 y 6


Fechas 7 y 080919\ENAHO 2017 Bases1\sumaria-2017.dta"

14
A través del comando use hemos ordenado utilizar solamente la base en la que el número de miembros
del hogar sea mayor a 8, nos queda una base de 158 variables y 582 observaciones.

Otros ejemplos podemos encontrar utilizando el comando help use

5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos.

Utilizamos archivos do, la explicación de estos archivos es utilizar la variable Ubigeo, conocer la
codificación de las departamentos, provincias y distritos, utilizar los comando para convertirla en una
variable numérica dejar los números que nos interesan y codificar de acuerdo a los departamentos,
provincias y distritos.

5.9. Analizando la base de datos Sumaria 2017.

La base de datos a utilizar es sumaria-2017.dta, como la base está a nivel de hogares se genera el factor
de expansión poblacional
comando
gen facpob07 = factor07*mieperho
menú
Datos>Crear o cambiar datos>Crear variable nueva

15
16
Observamos el facpob07

5.9.1. Observando las variables percepho mieperho pobreza dep


inghog1d gashog2d

Comando

d percepho mieperho pobreza dep inghog1d gashog2d

comando

list percepho mieperho pobreza dep inghog1d gashog2d in 1/30

17
comando
codebook percepho mieperho pobreza dep inghog1d gashog2d

comando

br percepho mieperho totmieho pobreza dep inghog1d gashog2d

18
5.9.2. Estadística de tendencia central variables percepho mieperho
inghog1d gashog2d

Comando

tabstat percepho mieperho inghog1d gashog2d , stat(mean median ) col(stat)

Menú

Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario


estadístico

19
Ir a opciones

20
variable mean p50

percepho 2.086369 2
mieperho 3.589579 3
inghog1d 33018.16 22540.35
gashog2d 25319.07 20124.53

Con la tabla de la medida de medidas de tendencia central, aprovechamos para presentar


medidas de forma.

Sesgo negativo (a la izquierda en todas las variables).

21
5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d

Comando

tabstat percepho mieperho inghog1d gashog2d , stat(ma mi p1 p10 p75 p90 ) col(stat)

Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico

22
Ir a opciones

Los reportes indican que existe dispersión en los datos mientras en algunos hogares existe 10
perceptores en otros no hay ninguno.
Lo mismo sucede con los ingresos mientras un hogar presenta ingresos de 943 790.2 otro hogar
presenta 133 unidades monetarias.
Los resultados nos llevan a construir el diagrama de caja o bigote, el cual nos permite ver la
forma de la distribución de los datos y también la existencia de valores de datos outliers, es decir
datos atípicos.

23
Comando
graph box percepho mieperho

Menú

Gráficos>Grafico de caja

24
25
26
Los resultados muestran que, para todas variables, existen datos atípicos. Por lo que para
realizar algún análisis se tendría que ver la posibilidad de sacar de la muestra dichos valores.
El Perú presenta realidades muy diferentes en cada uno de los departamentos o regiones por lo
que se recomendaría realizar un análisis de la zona norte, centro, sur o identificar una
metodología que ayude a realizar un análisis para nuestra realidad se sugiere panel data por
ejemplo.

5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d

Los estadísticos de dispersión más usados son:


(i) El rango, es la diferencia entre el valor máximo y el mínimo observado.
(ii) Rango intercuartil
(iii) Varianza
(iv) Desviación estándar
(v) Coeficiente de variación

Comando

tabstat percepho mieperho inghog1d gashog2d, statistics( max min range iqr var sd cv )
columns(statistics)

Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico

27
Ir a opciones

28
variable max min range iqr variance sd cv

percepho 10 0 10 2 1.123124 1.059776 .5079521


mieperho 21 1 20 3 3.687664 1.920329 .5349734
inghog1d 943790.2 133.2062 943657 30930.54 1.33e+09 36413.38 1.102829
gashog2d 560358.3 789.4921 559568.8 21322.19 4.09e+08 20214.28 .7983816

(i) El rango es considerado como la medida de dispersión más simple para el análisis de los
datos. No ofrece mucha información sobre la variabilidad de los datos por estar basada sólo en
los valores extremos, razón por la cual debe ser usada como complemento de otras medidas de
dispersión. Para el cálculo del rango se utiliza la siguiente ecuación 2:
Rango = valor máximo – valor mínimo

La diferencia de los ingresos en los hogares del Perú es 943 657 entre el valor máximo y el valor
mínimo.
La diferencia de los gastos en los hogares del Perú es de 559 568,8 entre el valor máximo y el
valore mínimo.

(ii) El rango intercuartil (RIC) se denomina de esta manera porque es una medida de dispersión
que evita que los valores extremos influyan en el conjunto de datos. Se calcula mediante la
diferencia entre el cuartil tres (Q3) y el cuartil uno (Q1). Es decir, el rango intercuartil corresponde
al rango del 50% ubicado en el centro de los datos. El RIC se calcula por medio de la siguiente
ecuación (Triola, 2000)3
Rango intercuartil (RIC) = Q3 - Q1

Por ejemplo para la variable percepho el resultado 2 representa la dispersión media o rango
intercuartil del número de perceptores del hogar.

(iii) Reportes de varianza datos muy dispersos.

2
Posada Hernandez, Gabriel Jaime (2016). Elementos Básicos de Estadística Descriptiva para el análisis
de datos.
3
Ibidem. Pág. 99

29
(iv) Desviación estándar

Al interpretar la desviación estándar, significa que los ingresos de los peruanos varía 36  413,38
alrededor de la media (33 018,16). Por la regla empírica, podría decirse que el 68% de los
ingresos está dentro de una desviación estándar de la media.
Es importante resaltar que las medidas del rango, rango intercuartil, varianza y desviación
estándar nunca asumen valores negativos. La relación de estas medidas con la dispersión es
directa, es decir, si los valores de las medidas son altos, la dispersión también será alta y
viceversa4.
( v ) Coeficiente de variación5
CV menor o igual al 7%, las estimaciones se consideran precisas.
CV entre el 8% y el 14%, las estimaciones tienen precisión aceptable.
CV entre el 15% y 20%, la precisión es regular.
CV mayor del 20% indica que la estimación es poco precisa
En términos del ejemplo, podría interpretarse que los datos varían en mas del 50% alrededor de
la media, lo cual intuye que la precisión de estimación de los parámetros para esta población es
poco precisa.

4
Ibidem. Pág. 104
5
Ibidem. Pág. 105

30
5.9.5. Normalidad de las variables percepho mieperho inghog1d
gashog2d

Distribución Normal6

Comando

tabstat percepho mieperho inghog1d gashog2d, statistics( mean var sd iqr skewness kurtosis )
columns(statistics)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico

6
Canavos George (1998). Probabilidad y Estadística. Aplicaciones y Métodos. Pág. 139.

31
variable mean variance sd iqr skewness kurtosis

percepho 2.086369 1.123124 1.059776 2 1.208942 5.278863


mieperho 3.589579 3.687664 1.920329 3 .9020058 4.638869
inghog1d 33018.16 1.33e+09 36413.38 30930.54 4.598122 51.46334
gashog2d 25319.07 4.09e+08 20214.28 21322.19 2.722264 25.82618

Fuente: https://www.maximaformacion.es/blog-dat/como-describir-tus-datos-en-r-paso-2/

32
Las variables no siguen una distribución normal.

5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d

Comando
histogram inghog1d, normal
Menú
Gráficos>Histograma

33
Ir a gráficos de densidad

34
Entonces al histograma se le agregara la curva de distribución normal

2.5e-05
2.0e-05
1.0e-05 1.5e-05
Density
5.0e-06
0

0 200000 400000 600000 800000 1000000


ingreso bruto
La variable no sigue una distribución.

35
Comando
histogram inghog1d, kdensity
Menú
Gráficos>Histograma

Ir a gráficos de densidad

36
3.0e-05
2.0e-05
Density
1.0e-05
0

0 200000 400000 600000 800000 1000000


ingreso bruto
No sigue una distribución normal

37
Comando
histogram inghog1d, normal kdensity
Menú
Gráficos>Histograma

Ir a gráficos de densidad

38
3.0e-05
2.0e-05
Density
1.0e-05
0

0 200000 400000 600000 800000 1000000


ingreso bruto

39
5.9.7. Curva de Lorenz variable inghog1d

Comando

ssc install lorenz


lorenz estimate inghog1d, gini
lorenz graph

Gini = .481
1
cumulative outcome proportion
.2 .4 0 .6 .8

0 20 40 60 80 100
population percentage

L(p) 95% CI

Línea roja, recta de igualdad, por ejemplo el 40% de la población tendría el 40% de los ingresos. Gini
igual a cero.
Curva azul, curva de Lorenz, por ejemplo el 80% de la población posee aproximadamente el 50% de los
ingresos.
Gini igual a 0.481

El coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero
puede utilizarse para medir cualquier forma de distribución desigual. El coeficiente de Gini es un
número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los
mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona
tiene todos los ingresos y los demás ninguno).

40
5.9.8. Tabla N°1 Departamentos del Perú

Nota tener en cuenta las ponderaciones:


a) fweights

Los pesos de frecuencia indican datos replicados. El peso le dice al comando cuántas observaciones
representa realmente cada observación. los pesos permiten que los datos se almacenen
más    parsimoniosamente. La variable de ponderación contiene enteros positivos. El resultado del
comando es el mismo que si duplicara cada observación tantas veces y luego ejecutara comando no
ponderado.
b) pweights
Los pesos de muestreo indican la inversa de la probabilidad de que se muestree esta observación. Han
de ser positivos pero no necesariamente enteros.
Se puede combinar para producir estimaciones para datos de muestras agrupadas no estratificadas. Si
también debe lidiar con problemas de estratificación, consulte la encuesta [SVY].

c) aweights
Los pesos analíticos suelen ser apropiados cuando se trata de datos que contienen promedios. Por
ejemplo, tiene ingresos promedio y características promedio en un grupo de gente. La variable de
ponderación contiene el número de personas sobre las cuales se calculó el promedio (o un número
proporcional a esa cantidad).

d) iweights
Este peso no tiene una definición estadística formal y es una categoría general. El peso de alguna
manera refleja la importancia de la observación y cualquier comando que apoye tal los pesos definirán
exactamente cómo se tratan dichos pesos.

41
Para realizar tablas se utilizan de preferencia variables etiquetadas por ejemplo, dep, pobreza, etc.

Comando
tabulate dep [iweight = factor07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de frecuencia.

En variable categórica: dep

42
Ir a pesos y utilizar iw con facpob07

43
Tabla 1

departamentos
del Perú Freq. Percent Cum.

Amazonas 438,629.7 1.37 1.37


Ancash 1,176,936 3.67 5.03
Apurimac 471,709 1.47 6.50
Arequipa 1,322,592 4.12 10.62
Ayacucho 718,132.73 2.24 12.86
Cajamarca 1,551,615 4.83 17.69
Callao 1,042,328.9 3.25 20.94
Cusco 1,338,761 4.17 25.11
Huancavelica 511,078.92 1.59 26.70
Huanuco 894,235.871 2.79 29.48
Ica 802,750.67 2.50 31.98
Junin 1,389,110 4.33 36.31
La libertad 1,925,615 6.00 42.31
Lambayeque 1,281,911.1 3.99 46.30
Lima 10192543.5 31.75 78.05
Loreto 1,061,192 3.31 81.35
Madre de dios 147,867.41 0.46 81.81
Moquegua 186,197.96 0.58 82.39
Pasco 311,417.5 0.97 83.36
Piura 1,889,541 5.89 89.25
Puno 1,474,526 4.59 93.84
San martin 873,644.15 2.72 96.56
Tacna 352,599.18 1.10 97.66
Tumbes 243,687.97 0.76 98.42
Ucayali 507,645.97 1.58 100.00

Total 32106270.1 100.00

5.9.9. Tabla N°2 Departamentos del Perú con pobreza

Comando
tabulate dep pobreza [iweight = facpob07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con
medidas de asociación

44
Variable fila : dep y variable columna: pobreza

45
Ir a pesos

Tabla 2

departamentos pobreza
del Perú pobre ext pobre no no pobre Total

Amazonas 41,637.23 111,358.3 285,634.2 438,629.7


Ancash 47,885.87 215,237.14 913,813.4 1176936.5
Apurimac 31,101.48 138,249.2 302,358.35 471,709
Arequipa 10,094.28 96,509.53 1215987.9 1322591.7
Ayacucho 49,926.03 205,779.6 462,427.1 718,132.7
Cajamarca 264,067 473,458.3 814,089.5 1551614.8
Callao 7,932.093 158,751 875,645.8 1042328.9
Cusco 37,623.76 300,411 1000726.7 1338761.5
Huancavelica 46,351.97 152,368.6 312,358.3 511,078.9
Huanuco 47,663.04 259,018.21 587,554.6 894,235.9
Ica 287.92587 26,023.16 776,439.58 802,750.7
Junin 73,927.09 220,669.8 1094512.9 1389109.7
La libertad 83,620.55 368,587.4 1473407.5 1925615.5
Lambayeque 20,992.314 216,016.01 1044902.8 1281911.1
Lima 69,306.79 1273114.3 8850122.4 10,192,543
Loreto 89,690.43 285,110.5 686,391.56 1061192.5
Madre de dios 457.43726 6,295.129 141,114.8 147,867.41
Moquegua 1,207.856 15,924.58 169,065.5 186,198
Pasco 17,375.03 102,668.5 191,373.9 311,417.5
Piura 96,499.5 444,955.6 1348086.2 1889541.3
Puno 130,101.2 352,415.42 992,009.5 1474526.1
San martin 27,485.16 200,501.8 645,657.2 873,644.2
Tacna 3,705.843 45,376.74 303,516.6 352,599.2
Tumbes 304.48667 28,519.59 214,863.9 243,688
Ucayali 16,389.25 54,103.347 437,153.4 507,646

Total 1215633.7 5751422.8 25,139,214 32,106,270

46
Comando
tabulate dep pobreza [iweight = facpob07], column

Menu

Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con


medidas de asociación

Marcar frecuencias intra columna.

47
departamentos pobreza
del Perú pobre ext pobre no no pobre Total

Amazonas 41,637.23 111,358.3 285,634.2 438,629.7


3.43 1.94 1.14 1.37

Ancash 47,885.87 215,237.14 913,813.4 1176936.5


3.94 3.74 3.64 3.67

Apurimac 31,101.48 138,249.2 302,358.35 471,709


2.56 2.40 1.20 1.47

Arequipa 10,094.28 96,509.53 1215987.9 1322591.7


0.83 1.68 4.84 4.12

Ayacucho 49,926.03 205,779.6 462,427.1 718,132.7


4.11 3.58 1.84 2.24

Cajamarca 264,067 473,458.3 814,089.5 1551614.8


21.72 8.23 3.24 4.83

Callao 7,932.093 158,751 875,645.8 1042328.9


0.65 2.76 3.48 3.25

Cusco 37,623.76 300,411 1000726.7 1338761.5


3.09 5.22 3.98 4.17

Huancavelica 46,351.97 152,368.6 312,358.3 511,078.9


3.81 2.65 1.24 1.59

Huanuco 47,663.04 259,018.21 587,554.6 894,235.9


3.92 4.50 2.34 2.79

Ica 287.92587 26,023.16 776,439.58 802,750.7


0.02 0.45 3.09 2.50

Junin 73,927.09 220,669.8 1094512.9 1389109.7


6.08 3.84 4.35 4.33

La libertad 83,620.55 368,587.4 1473407.5 1925615.5


6.88 6.41 5.86 6.00

Lambayeque 20,992.314 216,016.01 1044902.8 1281911.1


1.73 3.76 4.16 3.99

Lima 69,306.79 1273114.3 8850122.4 10,192,543


5.70 22.14 35.20 31.75

Loreto 89,690.43 285,110.5 686,391.56 1061192.5


7.38 4.96 2.73 3.31

Madre de dios 457.43726 6,295.129 141,114.8 147,867.41


0.04 0.11 0.56 0.46

Moquegua 1,207.856 15,924.58 169,065.5 186,198


0.10 0.28 0.67 0.58

Pasco 17,375.03 102,668.5 191,373.9 311,417.5


1.43 1.79 0.76 0.97

Piura 96,499.5 444,955.6 1348086.2 1889541.3


7.94 7.74 5.36 5.89

Puno 130,101.2 352,415.42 992,009.5 1474526.1


10.70 6.13 3.95 4.59

San martin 27,485.16 200,501.8 645,657.2 873,644.2


2.26 3.49 2.57 2.72

Tacna 3,705.843 45,376.74 303,516.6 352,599.2


0.30 0.79 1.21 1.10

Tumbes 304.48667 28,519.59 214,863.9 243,688


0.03 0.50 0.85 0.76

Ucayali 16,389.25 54,103.347 437,153.4 507,646


1.35 0.94 1.74 1.58

Total 1215633.7 5751422.8 25,139,214 32,106,270


100.00 100.00 100.00 100.00

48
Capítulo 6: Trabajando Base de Datos Enaho Sumaria-Modulo
500

6.1. Merge Sumaria y modulo 500 año 2017

En la carpeta de trabajo tenemos las bases de datos de sumaria y modulo 500.

a) Base master: sumaria-2017.dta


b) Base adherir o using: enaho01a-2017-500.dta

Nota: modulo 500 son personas mayores a 14 años y sumaria son hogares.

Por ejemplo un muestreo multietápico

a) Información a través de catastro o conglomerados

X
X X

X
X

b) Se elige una selección aleatoria de conglomerados

x
x

x
x

c) Se eligen las viviendas

x x x

El investigador teniendo en cuenta lo que desea analizar presenta la llave como por ejemplo:

49
a) año, mes, conglome, vivienda, hogar
b) año, mes, conglome, vivienda, hogar, ubigeo, dominio, estrato, codperso, codinfor
c) mes, conglome, vivienda, hogar

Paso1: Observar las bases de datos e identificar base master, using y llave.

Paso 2: Listar la base master para el ejemplo sumaria-2017.dta y la llave es mes, conglome,
vivienda, hogar

Paso 3: Elegir, comando o menú para realizar un merge entre las bases.

Comando:

merge 1:m mes conglome vivienda hogar using "D:\Lilian 220619\Stata Clases\Metodos
Cuantitativos 2019 II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\enaho01a-2017-
500.dta", generate(_merge1)

Menú

Datos>Combinar conjunto de datos>Fusionar dos conjunto de datos

50
En principal 1:m

En navegar, buscar el archivo enaho01a-2017-500.dta

Ir a opciones y para diferenciar la fusión de bases señalar a _merge como _merge1

51
Result # of obs.

not matched 0
matched 93,185 (_merge1==3)

Guardar el archivo con otro nombre por ejemplo:

enaho01a-2017-500-sumaria.dta

Presentar análisis de lo aprendido en el capitulo 1-4 y 7.

6.1.1. Tablas Sumaria y modulo 500 año 2017

Realizar los análisis del capítulo 1-4, y 7. Ejemplos de lo estudiado, presentación de tablas.

6.2. Append modulo 500 año 2016 y modulo 500 año 2017

En la carpeta de trabajo tenemos las bases de datos modulo 500 año 2016 y año 2017.

a) Base master: enaho01a-2016-500.dta


b) Base adherir o using: enaho01a-2017-500.dta

Paso1:

Abrir la base del año 2016 y ordenarlo por la variable mes, hacer lo mismo con la base del año
2017.

Comando

sort mes

Menú

Datos>ordenar

52
Paso 2: Guardar los cambios

Paso 3: Hacer lo mismo con la base enaho01a-2017-500.dta

53
Paso 4: Ordenadas las dos bases realizar el comando append listando la base master
enaho01a-2016-500.dta

Comando

append using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019 II\Capítulos 5 y 6


Fechas 7 y 080919\ENAHO 2017 Bases1\enaho01a-2017-500.dta"

Menú

Datos>Combinar conjunto de datos>Añadir conjunto de datos

54
En navegar, adjuntar la base using

55
Paso 5: Grabar la nueva base con otro nombre por ejemplo: enaho01a-2016-2017-500.dta

6.3. Seleccionando variables de la base de datos: sumaria-modulo 500

Se trabajará con la base: enaho01a-2017-500-sumaria.dta y selecciona las siguientes variables


a través del comando keep

keep aÑo mes nconglome conglome vivienda hogar ubigeo dominio estrato percepho
mieperho totmieho inghog2d ld linpe linea pobreza estrsocial factor07 facpob07 dep codperso
codinfor p203 p207 p208a p209 p301a ocu500 imputado ocupinf emplpsec fac500a

56
El nuevo archivo se grabar con el nombre investigacion1

Comando

tab p301a pobreza [iw=facpob07] if p203==1

¿cuál es el último
año o grado de
estudios y nivel que pobreza
aprobó? - nivel pobre ext pobre no no pobre Total

sin nivel 139,818.9 451,295.9 766,934.4 1358049.2


inicial 0 3,587.388 4,650.672 8,238.06
primaria incompleta 414,396.3 1484067.7 3277847.4 5176311.4
primaria completa 309,462.3 1285072.6 3419030.2 5013565.1
secundaria incompleta 163,134.7 890,432.7 3121632.3 4175199.7
secundaria completa 161,723.6 1317667.3 7396226.4 8875617.3
superior no universit 5,723.004 77,147.48 932,582.5 1,015,453
superior no universit 6,826.723 162,200.9 2360625.1 2529652.8
superior universitari 8,836.634 28,052.94 999,350.4 1,036,240
superior universitari 3,950.679 44,779.23 2232726.6 2281456.5
postgrado universitar 1,760.77 867.92505 626,680 629,308.7

Total 1215633.7 5745172.1 25,138,286 32,099,092

57

También podría gustarte