Stata 15 Manual para Bases de Enaho 2017 Lns 07819 y 080819

Manual Básico
Bases de ENAHO 2017
Lilian Nathals Solis1

Versión 2- Agosto 2019
1
Email: lnathalss@unp.edu.pe
1
CAPÍTULO 5: TRABAJANDO BASE DE DATOS ENAHO SUMARIA 4
5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 500 4
5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 5006
5.3. Sumaria 8
5.4. Sumaria-Describir los Datos 9
5.5. Sumaria-Codebook 10
5.6. Sumaria-Inspeccionar las variables 10
5.7. Sumaria-Listar los datos 11
5.7.1. Listando variables de interés, comando list 11
5.7.2. Listando variables de interés, comando list con in 12
5.7.3. Listando y usando variables de interés 13
5.7.4. Listando y usando variables de interés con condición 14
5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos. 15
5.9. Analizando la base de datos Sumaria 2017. 15
5.9.1. Observando las variables percepho mieperho pobreza dep inghog1d gashog2d 17
5.9.2. Estadística de tendencia central variables percepho mieperho inghog1d gashog2d 19
5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d 22
5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d 27
5.9.5. Normalidad de las variables percepho mieperho inghog1d gashog2d 31
5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d 33
5.9.7. Curva de Lorenz variable inghog1d 40
5.9.8. Tabla N°1 Departamentos del Perú 41
5.9.9. Tabla N°2 Departamentos del Perú con pobreza 44
CAPÍTULO 6: TRABAJANDO BASE DE DATOS ENAHO SUMARIA-

MODULO 500 49
6.1. Merge Sumaria y modulo 500 año 2017 49
6.1.1. Tablas Sumaria y modulo 500 año 2017 52
6.2. Append modulo 500 año 2016 y modulo 500 año 2017 52
2
6.3. Seleccionando variables de la base de datos: sumaria-modulo 500 56
3
Capítulo 5: Trabajando Base de Datos ENAHO SUMARIA
1.
5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo
500
Se identifica la base de datos que se va utilizar, para el ejemplo ENAHO 2017 y la descargamos
del portal de INEI.
Descargamos el módulo empleo e ingresos, el código del módulo es 5 y también sumaria
(variables calculadas), el código del módulo es 34 para el año 2017.
4
5
5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o
modulo 34 y modulo 500
6
Ingresar a Documentación
7
El investigador analizara la información de acuerdo a los objetivos de su investigación.
Así mismo en guía del usuario existe un video que puede ayudar al investigador.
Descomprimir los archivos y generar una carpeta para las bases de datos
Nota: Para corregir los acentos y las ñ, utilizamos el archivo do.
5.3. Sumaria
a. Sumaria, resume las variables a nivel de hogares
b. Mieperho: Total de miembros del hogar; tiene sentido en la Base Sumaria
c. El factor07, se utiliza a nivel de individuos.
d. Pobreza, la utilizamos a nivel de individuos.
e. Tiene 158 variables, 34584 observaciones.
8
5.4. Sumaria-Describir los Datos
9
5.5. Sumaria-Codebook
5.6. Sumaria-Inspeccionar las variables
10
5.7. Sumaria-Listar los datos
5.7.1. Listando variables de interés, comando list
list dominio estrato mieperho percepho
11
5.7.2. Listando variables de interés, comando list con in
Se puede listar las 118 observaciones iniciales utilizamos el comando list con in
12
5.7.3. Listando y usando variables de interés
En muchas ocasiones solo serán de interés algunas de las variables contenidas en la base de datos. Para
ello se empleará la siguiente sintaxis, como, por ejemplo:
use conglome vivienda hogar ubigeo using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019
II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\sumaria-2017.dta"
Explicación, se utiliza el comando use; las variables son conglome vivienda hogar ubigeo; seguidamente
se escribe using; después entre comillas la ruta donde se encuentra la base de datos.
13
Es decir, hemos ordenado quedarnos con 4 variables y 34584 observaciones. También se puede utilizar
el comando keep
5.7.4. Listando y usando variables de interés con condición
use if mieperho>8 using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019 II\Capítulos 5 y 6

Fechas 7 y 080919\ENAHO 2017 Bases1\sumaria-2017.dta"
14
A través del comando use hemos ordenado utilizar solamente la base en la que el número de miembros
del hogar sea mayor a 8, nos queda una base de 158 variables y 582 observaciones.
Otros ejemplos podemos encontrar utilizando el comando help use
5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos.
Utilizamos archivos do, la explicación de estos archivos es utilizar la variable Ubigeo, conocer la
codificación de las departamentos, provincias y distritos, utilizar los comando para convertirla en una
variable numérica dejar los números que nos interesan y codificar de acuerdo a los departamentos,
provincias y distritos.
5.9. Analizando la base de datos Sumaria 2017.
La base de datos a utilizar es sumaria-2017.dta, como la base está a nivel de hogares se genera el factor
de expansión poblacional
comando
gen facpob07 = factor07*mieperho
menú
Datos>Crear o cambiar datos>Crear variable nueva
15
16
Observamos el facpob07
5.9.1. Observando las variables percepho mieperho pobreza dep

inghog1d gashog2d
Comando
d percepho mieperho pobreza dep inghog1d gashog2d
comando
list percepho mieperho pobreza dep inghog1d gashog2d in 1/30
17
comando
codebook percepho mieperho pobreza dep inghog1d gashog2d
comando
br percepho mieperho totmieho pobreza dep inghog1d gashog2d
18
5.9.2. Estadística de tendencia central variables percepho mieperho
inghog1d gashog2d
Comando
tabstat percepho mieperho inghog1d gashog2d , stat(mean median ) col(stat)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario

estadístico
19
Ir a opciones
20
variable mean p50
percepho 2.086369 2
mieperho 3.589579 3
inghog1d 33018.16 22540.35
gashog2d 25319.07 20124.53
Con la tabla de la medida de medidas de tendencia central, aprovechamos para presentar

medidas de forma.
Sesgo negativo (a la izquierda en todas las variables).
21
5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d
Comando
tabstat percepho mieperho inghog1d gashog2d , stat(ma mi p1 p10 p75 p90 ) col(stat)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico
22
Ir a opciones
Los reportes indican que existe dispersión en los datos mientras en algunos hogares existe 10
perceptores en otros no hay ninguno.
Lo mismo sucede con los ingresos mientras un hogar presenta ingresos de 943 790.2 otro hogar
presenta 133 unidades monetarias.
Los resultados nos llevan a construir el diagrama de caja o bigote, el cual nos permite ver la
forma de la distribución de los datos y también la existencia de valores de datos outliers, es decir
datos atípicos.
23
Comando
graph box percepho mieperho
Menú
Gráficos>Grafico de caja
24
25
26
Los resultados muestran que, para todas variables, existen datos atípicos. Por lo que para
realizar algún análisis se tendría que ver la posibilidad de sacar de la muestra dichos valores.
El Perú presenta realidades muy diferentes en cada uno de los departamentos o regiones por lo
que se recomendaría realizar un análisis de la zona norte, centro, sur o identificar una
metodología que ayude a realizar un análisis para nuestra realidad se sugiere panel data por
ejemplo.
5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d
Los estadísticos de dispersión más usados son:

(i) El rango, es la diferencia entre el valor máximo y el mínimo observado.
(ii) Rango intercuartil
(iii) Varianza
(iv) Desviación estándar
(v) Coeficiente de variación
Comando
tabstat percepho mieperho inghog1d gashog2d, statistics( max min range iqr var sd cv )
columns(statistics)
Menú
27
Ir a opciones
28
variable max min range iqr variance sd cv
percepho 10 0 10 2 1.123124 1.059776 .5079521

mieperho 21 1 20 3 3.687664 1.920329 .5349734
inghog1d 943790.2 133.2062 943657 30930.54 1.33e+09 36413.38 1.102829
gashog2d 560358.3 789.4921 559568.8 21322.19 4.09e+08 20214.28 .7983816
(i) El rango es considerado como la medida de dispersión más simple para el análisis de los
datos. No ofrece mucha información sobre la variabilidad de los datos por estar basada sólo en
los valores extremos, razón por la cual debe ser usada como complemento de otras medidas de
dispersión. Para el cálculo del rango se utiliza la siguiente ecuación 2:
Rango = valor máximo – valor mínimo
La diferencia de los ingresos en los hogares del Perú es 943 657 entre el valor máximo y el valor
mínimo.
La diferencia de los gastos en los hogares del Perú es de 559 568,8 entre el valor máximo y el
valore mínimo.
(ii) El rango intercuartil (RIC) se denomina de esta manera porque es una medida de dispersión
que evita que los valores extremos influyan en el conjunto de datos. Se calcula mediante la
diferencia entre el cuartil tres (Q3) y el cuartil uno (Q1). Es decir, el rango intercuartil corresponde
al rango del 50% ubicado en el centro de los datos. El RIC se calcula por medio de la siguiente
ecuación (Triola, 2000)3
Rango intercuartil (RIC) = Q3 - Q1
Por ejemplo para la variable percepho el resultado 2 representa la dispersión media o rango
intercuartil del número de perceptores del hogar.
(iii) Reportes de varianza datos muy dispersos.
2
Posada Hernandez, Gabriel Jaime (2016). Elementos Básicos de Estadística Descriptiva para el análisis
de datos.
3
Ibidem. Pág. 99
29
(iv) Desviación estándar
Al interpretar la desviación estándar, significa que los ingresos de los peruanos varía 36 413,38
alrededor de la media (33 018,16). Por la regla empírica, podría decirse que el 68% de los
ingresos está dentro de una desviación estándar de la media.
Es importante resaltar que las medidas del rango, rango intercuartil, varianza y desviación
estándar nunca asumen valores negativos. La relación de estas medidas con la dispersión es
directa, es decir, si los valores de las medidas son altos, la dispersión también será alta y
viceversa4.
( v ) Coeficiente de variación5
CV menor o igual al 7%, las estimaciones se consideran precisas.
CV entre el 8% y el 14%, las estimaciones tienen precisión aceptable.
CV entre el 15% y 20%, la precisión es regular.
CV mayor del 20% indica que la estimación es poco precisa
En términos del ejemplo, podría interpretarse que los datos varían en mas del 50% alrededor de
la media, lo cual intuye que la precisión de estimación de los parámetros para esta población es
poco precisa.
4
Ibidem. Pág. 104
5
Ibidem. Pág. 105
30
5.9.5. Normalidad de las variables percepho mieperho inghog1d
gashog2d
Distribución Normal6
Comando
tabstat percepho mieperho inghog1d gashog2d, statistics( mean var sd iqr skewness kurtosis )
columns(statistics)
Menú
6
Canavos George (1998). Probabilidad y Estadística. Aplicaciones y Métodos. Pág. 139.
31
variable mean variance sd iqr skewness kurtosis
percepho 2.086369 1.123124 1.059776 2 1.208942 5.278863

mieperho 3.589579 3.687664 1.920329 3 .9020058 4.638869
inghog1d 33018.16 1.33e+09 36413.38 30930.54 4.598122 51.46334
gashog2d 25319.07 4.09e+08 20214.28 21322.19 2.722264 25.82618
Fuente: https://www.maximaformacion.es/blog-dat/como-describir-tus-datos-en-r-paso-2/
32
Las variables no siguen una distribución normal.
5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d
Comando
histogram inghog1d, normal
Menú
Gráficos>Histograma
33
Ir a gráficos de densidad
34
Entonces al histograma se le agregara la curva de distribución normal
2.5e-05
2.0e-05
1.0e-05 1.5e-05
Density
5.0e-06
0
0 200000 400000 600000 800000 1000000

ingreso bruto
La variable no sigue una distribución.
35
Comando
histogram inghog1d, kdensity
Menú
36
3.0e-05
2.0e-05
Density
1.0e-05
0
0 200000 400000 600000 800000 1000000

ingreso bruto
No sigue una distribución normal
37
Comando
histogram inghog1d, normal kdensity
Menú
38
3.0e-05
2.0e-05
Density
1.0e-05
0
0 200000 400000 600000 800000 1000000

ingreso bruto
39
5.9.7. Curva de Lorenz variable inghog1d
Comando
ssc install lorenz

lorenz estimate inghog1d, gini
lorenz graph
Gini = .481
1
cumulative outcome proportion
.2 .4 0 .6 .8
0 20 40 60 80 100
population percentage
L(p) 95% CI
Línea roja, recta de igualdad, por ejemplo el 40% de la población tendría el 40% de los ingresos. Gini
igual a cero.
Curva azul, curva de Lorenz, por ejemplo el 80% de la población posee aproximadamente el 50% de los
ingresos.
Gini igual a 0.481
El coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero
puede utilizarse para medir cualquier forma de distribución desigual. El coeficiente de Gini es un
número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los
mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona
tiene todos los ingresos y los demás ninguno).
40
5.9.8. Tabla N°1 Departamentos del Perú
Nota tener en cuenta las ponderaciones:

a) fweights
Los pesos de frecuencia indican datos replicados. El peso le dice al comando cuántas observaciones
representa realmente cada observación. los pesos permiten que los datos se almacenen
más parsimoniosamente. La variable de ponderación contiene enteros positivos. El resultado del
comando es el mismo que si duplicara cada observación tantas veces y luego ejecutara comando no
ponderado.
b) pweights
Los pesos de muestreo indican la inversa de la probabilidad de que se muestree esta observación. Han
de ser positivos pero no necesariamente enteros.
Se puede combinar para producir estimaciones para datos de muestras agrupadas no estratificadas. Si
también debe lidiar con problemas de estratificación, consulte la encuesta [SVY].
c) aweights
Los pesos analíticos suelen ser apropiados cuando se trata de datos que contienen promedios. Por
ejemplo, tiene ingresos promedio y características promedio en un grupo de gente. La variable de
ponderación contiene el número de personas sobre las cuales se calculó el promedio (o un número
proporcional a esa cantidad).
d) iweights
Este peso no tiene una definición estadística formal y es una categoría general. El peso de alguna
manera refleja la importancia de la observación y cualquier comando que apoye tal los pesos definirán
exactamente cómo se tratan dichos pesos.
41
Para realizar tablas se utilizan de preferencia variables etiquetadas por ejemplo, dep, pobreza, etc.
Comando
tabulate dep [iweight = factor07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de frecuencia.
En variable categórica: dep
42
Ir a pesos y utilizar iw con facpob07
43
Tabla 1
departamentos
del Perú Freq. Percent Cum.
Amazonas 438,629.7 1.37 1.37

Ancash 1,176,936 3.67 5.03
Apurimac 471,709 1.47 6.50
Arequipa 1,322,592 4.12 10.62
Ayacucho 718,132.73 2.24 12.86
Cajamarca 1,551,615 4.83 17.69
Callao 1,042,328.9 3.25 20.94
Cusco 1,338,761 4.17 25.11
Huancavelica 511,078.92 1.59 26.70
Huanuco 894,235.871 2.79 29.48
Ica 802,750.67 2.50 31.98
Junin 1,389,110 4.33 36.31
La libertad 1,925,615 6.00 42.31
Lambayeque 1,281,911.1 3.99 46.30
Lima 10192543.5 31.75 78.05
Loreto 1,061,192 3.31 81.35
Madre de dios 147,867.41 0.46 81.81
Moquegua 186,197.96 0.58 82.39
Pasco 311,417.5 0.97 83.36
Piura 1,889,541 5.89 89.25
Puno 1,474,526 4.59 93.84
San martin 873,644.15 2.72 96.56
Tacna 352,599.18 1.10 97.66
Tumbes 243,687.97 0.76 98.42
Ucayali 507,645.97 1.58 100.00
Total 32106270.1 100.00
5.9.9. Tabla N°2 Departamentos del Perú con pobreza
Comando
tabulate dep pobreza [iweight = facpob07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con
medidas de asociación
44
Variable fila : dep y variable columna: pobreza
45
Ir a pesos
Tabla 2
departamentos pobreza
del Perú pobre ext pobre no no pobre Total
Amazonas 41,637.23 111,358.3 285,634.2 438,629.7

Ancash 47,885.87 215,237.14 913,813.4 1176936.5
Apurimac 31,101.48 138,249.2 302,358.35 471,709
Arequipa 10,094.28 96,509.53 1215987.9 1322591.7
Ayacucho 49,926.03 205,779.6 462,427.1 718,132.7
Cajamarca 264,067 473,458.3 814,089.5 1551614.8
Callao 7,932.093 158,751 875,645.8 1042328.9
Cusco 37,623.76 300,411 1000726.7 1338761.5
Huancavelica 46,351.97 152,368.6 312,358.3 511,078.9
Huanuco 47,663.04 259,018.21 587,554.6 894,235.9
Ica 287.92587 26,023.16 776,439.58 802,750.7
Junin 73,927.09 220,669.8 1094512.9 1389109.7
La libertad 83,620.55 368,587.4 1473407.5 1925615.5
Lambayeque 20,992.314 216,016.01 1044902.8 1281911.1
Lima 69,306.79 1273114.3 8850122.4 10,192,543
Loreto 89,690.43 285,110.5 686,391.56 1061192.5
Madre de dios 457.43726 6,295.129 141,114.8 147,867.41
Moquegua 1,207.856 15,924.58 169,065.5 186,198
Pasco 17,375.03 102,668.5 191,373.9 311,417.5
Piura 96,499.5 444,955.6 1348086.2 1889541.3
Puno 130,101.2 352,415.42 992,009.5 1474526.1
San martin 27,485.16 200,501.8 645,657.2 873,644.2
Tacna 3,705.843 45,376.74 303,516.6 352,599.2
Tumbes 304.48667 28,519.59 214,863.9 243,688
Ucayali 16,389.25 54,103.347 437,153.4 507,646
Total 1215633.7 5751422.8 25,139,214 32,106,270
46
Comando
tabulate dep pobreza [iweight = facpob07], column
Menu
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con

medidas de asociación
Marcar frecuencias intra columna.
47
departamentos pobreza
del Perú pobre ext pobre no no pobre Total
Amazonas 41,637.23 111,358.3 285,634.2 438,629.7

3.43 1.94 1.14 1.37
Ancash 47,885.87 215,237.14 913,813.4 1176936.5

3.94 3.74 3.64 3.67
Apurimac 31,101.48 138,249.2 302,358.35 471,709

2.56 2.40 1.20 1.47
Arequipa 10,094.28 96,509.53 1215987.9 1322591.7

0.83 1.68 4.84 4.12
Ayacucho 49,926.03 205,779.6 462,427.1 718,132.7

4.11 3.58 1.84 2.24
Cajamarca 264,067 473,458.3 814,089.5 1551614.8

21.72 8.23 3.24 4.83
Callao 7,932.093 158,751 875,645.8 1042328.9

0.65 2.76 3.48 3.25
Cusco 37,623.76 300,411 1000726.7 1338761.5

3.09 5.22 3.98 4.17
Huancavelica 46,351.97 152,368.6 312,358.3 511,078.9

3.81 2.65 1.24 1.59
Huanuco 47,663.04 259,018.21 587,554.6 894,235.9

3.92 4.50 2.34 2.79
Ica 287.92587 26,023.16 776,439.58 802,750.7

0.02 0.45 3.09 2.50
Junin 73,927.09 220,669.8 1094512.9 1389109.7

6.08 3.84 4.35 4.33
La libertad 83,620.55 368,587.4 1473407.5 1925615.5

6.88 6.41 5.86 6.00
Lambayeque 20,992.314 216,016.01 1044902.8 1281911.1

1.73 3.76 4.16 3.99
Lima 69,306.79 1273114.3 8850122.4 10,192,543

5.70 22.14 35.20 31.75
Loreto 89,690.43 285,110.5 686,391.56 1061192.5

7.38 4.96 2.73 3.31
Madre de dios 457.43726 6,295.129 141,114.8 147,867.41

0.04 0.11 0.56 0.46
Moquegua 1,207.856 15,924.58 169,065.5 186,198

0.10 0.28 0.67 0.58
Pasco 17,375.03 102,668.5 191,373.9 311,417.5

1.43 1.79 0.76 0.97
Piura 96,499.5 444,955.6 1348086.2 1889541.3

7.94 7.74 5.36 5.89
Puno 130,101.2 352,415.42 992,009.5 1474526.1

10.70 6.13 3.95 4.59
San martin 27,485.16 200,501.8 645,657.2 873,644.2

2.26 3.49 2.57 2.72
Tacna 3,705.843 45,376.74 303,516.6 352,599.2

0.30 0.79 1.21 1.10
Tumbes 304.48667 28,519.59 214,863.9 243,688

0.03 0.50 0.85 0.76
Ucayali 16,389.25 54,103.347 437,153.4 507,646

1.35 0.94 1.74 1.58
Total 1215633.7 5751422.8 25,139,214 32,106,270

100.00 100.00 100.00 100.00
48
Capítulo 6: Trabajando Base de Datos Enaho Sumaria-Modulo
500
6.1. Merge Sumaria y modulo 500 año 2017
En la carpeta de trabajo tenemos las bases de datos de sumaria y modulo 500.
a) Base master: sumaria-2017.dta

b) Base adherir o using: enaho01a-2017-500.dta
Nota: modulo 500 son personas mayores a 14 años y sumaria son hogares.
Por ejemplo un muestreo multietápico
a) Información a través de catastro o conglomerados
X
X X
X
X
b) Se elige una selección aleatoria de conglomerados
x
x
x
x
c) Se eligen las viviendas
x x x
El investigador teniendo en cuenta lo que desea analizar presenta la llave como por ejemplo:
49
a) año, mes, conglome, vivienda, hogar
b) año, mes, conglome, vivienda, hogar, ubigeo, dominio, estrato, codperso, codinfor
c) mes, conglome, vivienda, hogar
Paso1: Observar las bases de datos e identificar base master, using y llave.
Paso 2: Listar la base master para el ejemplo sumaria-2017.dta y la llave es mes, conglome,
vivienda, hogar
Paso 3: Elegir, comando o menú para realizar un merge entre las bases.
Comando:
merge 1:m mes conglome vivienda hogar using "D:\Lilian 220619\Stata Clases\Metodos
Cuantitativos 2019 II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\enaho01a-2017-
500.dta", generate(_merge1)
Menú
Datos>Combinar conjunto de datos>Fusionar dos conjunto de datos
50
En principal 1:m
En navegar, buscar el archivo enaho01a-2017-500.dta
Ir a opciones y para diferenciar la fusión de bases señalar a _merge como _merge1
51
Result # of obs.
not matched 0
matched 93,185 (_merge1==3)
Guardar el archivo con otro nombre por ejemplo:
enaho01a-2017-500-sumaria.dta
Presentar análisis de lo aprendido en el capitulo 1-4 y 7.
6.1.1. Tablas Sumaria y modulo 500 año 2017
Realizar los análisis del capítulo 1-4, y 7. Ejemplos de lo estudiado, presentación de tablas.
6.2. Append modulo 500 año 2016 y modulo 500 año 2017
En la carpeta de trabajo tenemos las bases de datos modulo 500 año 2016 y año 2017.
a) Base master: enaho01a-2016-500.dta

b) Base adherir o using: enaho01a-2017-500.dta
Paso1:
Abrir la base del año 2016 y ordenarlo por la variable mes, hacer lo mismo con la base del año
2017.
Comando
sort mes
Menú
Datos>ordenar
52
Paso 2: Guardar los cambios
Paso 3: Hacer lo mismo con la base enaho01a-2017-500.dta
53
Paso 4: Ordenadas las dos bases realizar el comando append listando la base master
enaho01a-2016-500.dta
Comando
append using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019 II\Capítulos 5 y 6

Fechas 7 y 080919\ENAHO 2017 Bases1\enaho01a-2017-500.dta"
Menú
Datos>Combinar conjunto de datos>Añadir conjunto de datos
54
En navegar, adjuntar la base using
55
Paso 5: Grabar la nueva base con otro nombre por ejemplo: enaho01a-2016-2017-500.dta
6.3. Seleccionando variables de la base de datos: sumaria-modulo 500
Se trabajará con la base: enaho01a-2017-500-sumaria.dta y selecciona las siguientes variables

a través del comando keep
keep aÑo mes nconglome conglome vivienda hogar ubigeo dominio estrato percepho
mieperho totmieho inghog2d ld linpe linea pobreza estrsocial factor07 facpob07 dep codperso
codinfor p203 p207 p208a p209 p301a ocu500 imputado ocupinf emplpsec fac500a
56
El nuevo archivo se grabar con el nombre investigacion1
Comando
tab p301a pobreza [iw=facpob07] if p203==1
¿cuál es el último
año o grado de
estudios y nivel que pobreza
aprobó? - nivel pobre ext pobre no no pobre Total
sin nivel 139,818.9 451,295.9 766,934.4 1358049.2

inicial 0 3,587.388 4,650.672 8,238.06
primaria incompleta 414,396.3 1484067.7 3277847.4 5176311.4
primaria completa 309,462.3 1285072.6 3419030.2 5013565.1
secundaria incompleta 163,134.7 890,432.7 3121632.3 4175199.7
secundaria completa 161,723.6 1317667.3 7396226.4 8875617.3
superior no universit 5,723.004 77,147.48 932,582.5 1,015,453
superior no universit 6,826.723 162,200.9 2360625.1 2529652.8
superior universitari 8,836.634 28,052.94 999,350.4 1,036,240
superior universitari 3,950.679 44,779.23 2232726.6 2281456.5
postgrado universitar 1,760.77 867.92505 626,680 629,308.7
Total 1215633.7 5745172.1 25,138,286 32,099,092
57

Stata 15 Manual para Bases de Enaho 2017 Lns 07819 y 080819

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Stata 15 Manual para Bases de Enaho 2017 Lns 07819 y 080819

Cargado por

Copyright:

Formatos disponibles

Manual Básico

Bases de ENAHO 2017

Lilian Nathals Solis1

5.4. Sumaria-Describir los Datos 9

5.6. Sumaria-Inspeccionar las variables 10

5.7. Sumaria-Listar los datos 11

5.7.1. Listando variables de interés, comando list 11

5.7.2. Listando variables de interés, comando list con in 12

5.7.3. Listando y usando variables de interés 13

5.7.4. Listando y usando variables de interés con condición 14

5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos. 15

5.9. Analizando la base de datos Sumaria 2017. 15

5.9.2. Estadística de tendencia central variables percepho mieperho inghog1d gashog2d 19

5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d 22

5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d 27

5.9.5. Normalidad de las variables percepho mieperho inghog1d gashog2d 31

5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d 33

5.9.7. Curva de Lorenz variable inghog1d 40

5.9.8. Tabla N°1 Departamentos del Perú 41

5.9.9. Tabla N°2 Departamentos del Perú con pobreza 44

CAPÍTULO 6: TRABAJANDO BASE DE DATOS ENAHO SUMARIA-

6.1. Merge Sumaria y modulo 500 año 2017 49

6.1.1. Tablas Sumaria y modulo 500 año 2017 52

a. Sumaria, resume las variables a nivel de hogares

b. Mieperho: Total de miembros del hogar; tiene sentido en la Base Sumaria

c. El factor07, se utiliza a nivel de individuos.

d. Pobreza, la utilizamos a nivel de individuos.

e. Tiene 158 variables, 34584 observaciones.

5.6. Sumaria-Inspeccionar las variables

5.7.1. Listando variables de interés, comando list

list dominio estrato mieperho percepho

5.7.4. Listando y usando variables de interés con condición

use if mieperho>8 using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019 II\Capítulos 5 y 6

Otros ejemplos podemos encontrar utilizando el comando help use

5.8. Sumaria, etiquetando los datos para el Perú, Provincias y Distritos.

5.9. Analizando la base de datos Sumaria 2017.

5.9.1. Observando las variables percepho mieperho pobreza dep

d percepho mieperho pobreza dep inghog1d gashog2d

list percepho mieperho pobreza dep inghog1d gashog2d in 1/30

br percepho mieperho totmieho pobreza dep inghog1d gashog2d

tabstat percepho mieperho inghog1d gashog2d , stat(mean median ) col(stat)

Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario

Con la tabla de la medida de medidas de tendencia central, aprovechamos para presentar

Sesgo negativo (a la izquierda en todas las variables).

5.9.4. Estadística de dispersión percepho mieperho inghog1d gashog2d

Los estadísticos de dispersión más usados son:

percepho 10 0 10 2 1.123124 1.059776 .5079521

(iii) Reportes de varianza datos muy dispersos.

percepho 2.086369 1.123124 1.059776 2 1.208942 5.278863

5.9.6. Gráficos variables percepho mieperho inghog1d gashog2d

0 200000 400000 600000 800000 1000000

0 200000 400000 600000 800000 1000000

0 200000 400000 600000 800000 1000000

ssc install lorenz

Nota tener en cuenta las ponderaciones:

En variable categórica: dep

Amazonas 438,629.7 1.37 1.37

Total 32106270.1 100.00

5.9.9. Tabla N°2 Departamentos del Perú con pobreza

Amazonas 41,637.23 111,358.3 285,634.2 438,629.7

Total 1215633.7 5751422.8 25,139,214 32,106,270

Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con

Marcar frecuencias intra columna.