Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Stata 15 Manual para Bases de Enaho 2017 Lns 07819 y 080819
Stata 15 Manual para Bases de Enaho 2017 Lns 07819 y 080819
1
Email: lnathalss@unp.edu.pe
1
CAPÍTULO 5: TRABAJANDO BASE DE DATOS ENAHO SUMARIA 4
5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 500 4
5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo 5006
5.3. Sumaria 8
5.5. Sumaria-Codebook 10
5.9.1. Observando las variables percepho mieperho pobreza dep inghog1d gashog2d 17
6.2. Append modulo 500 año 2016 y modulo 500 año 2017 52
2
6.3. Seleccionando variables de la base de datos: sumaria-modulo 500 56
3
Capítulo 5: Trabajando Base de Datos ENAHO SUMARIA
1.
5.1. Descargando Base de datos ENAHO 2017 Sumaria o modulo 34 y modulo
500
Se identifica la base de datos que se va utilizar, para el ejemplo ENAHO 2017 y la descargamos
del portal de INEI.
Descargamos el módulo empleo e ingresos, el código del módulo es 5 y también sumaria
(variables calculadas), el código del módulo es 34 para el año 2017.
4
5
5.2. Descargando Documentación Base de datos ENAHO 2017 Sumaria o
modulo 34 y modulo 500
6
Ingresar a Documentación
7
El investigador analizara la información de acuerdo a los objetivos de su investigación.
Así mismo en guía del usuario existe un video que puede ayudar al investigador.
Descomprimir los archivos y generar una carpeta para las bases de datos
Nota: Para corregir los acentos y las ñ, utilizamos el archivo do.
5.3. Sumaria
8
5.4. Sumaria-Describir los Datos
9
5.5. Sumaria-Codebook
10
5.7. Sumaria-Listar los datos
11
5.7.2. Listando variables de interés, comando list con in
Se puede listar las 118 observaciones iniciales utilizamos el comando list con in
12
5.7.3. Listando y usando variables de interés
En muchas ocasiones solo serán de interés algunas de las variables contenidas en la base de datos. Para
ello se empleará la siguiente sintaxis, como, por ejemplo:
use conglome vivienda hogar ubigeo using "D:\Lilian 220619\Stata Clases\Metodos Cuantitativos 2019
II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\sumaria-2017.dta"
Explicación, se utiliza el comando use; las variables son conglome vivienda hogar ubigeo; seguidamente
se escribe using; después entre comillas la ruta donde se encuentra la base de datos.
13
Es decir, hemos ordenado quedarnos con 4 variables y 34584 observaciones. También se puede utilizar
el comando keep
14
A través del comando use hemos ordenado utilizar solamente la base en la que el número de miembros
del hogar sea mayor a 8, nos queda una base de 158 variables y 582 observaciones.
Utilizamos archivos do, la explicación de estos archivos es utilizar la variable Ubigeo, conocer la
codificación de las departamentos, provincias y distritos, utilizar los comando para convertirla en una
variable numérica dejar los números que nos interesan y codificar de acuerdo a los departamentos,
provincias y distritos.
La base de datos a utilizar es sumaria-2017.dta, como la base está a nivel de hogares se genera el factor
de expansión poblacional
comando
gen facpob07 = factor07*mieperho
menú
Datos>Crear o cambiar datos>Crear variable nueva
15
16
Observamos el facpob07
Comando
comando
17
comando
codebook percepho mieperho pobreza dep inghog1d gashog2d
comando
18
5.9.2. Estadística de tendencia central variables percepho mieperho
inghog1d gashog2d
Comando
Menú
19
Ir a opciones
20
variable mean p50
percepho 2.086369 2
mieperho 3.589579 3
inghog1d 33018.16 22540.35
gashog2d 25319.07 20124.53
21
5.9.3. Estadística de posición percepho mieperho inghog1d gashog2d
Comando
tabstat percepho mieperho inghog1d gashog2d , stat(ma mi p1 p10 p75 p90 ) col(stat)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico
22
Ir a opciones
Los reportes indican que existe dispersión en los datos mientras en algunos hogares existe 10
perceptores en otros no hay ninguno.
Lo mismo sucede con los ingresos mientras un hogar presenta ingresos de 943 790.2 otro hogar
presenta 133 unidades monetarias.
Los resultados nos llevan a construir el diagrama de caja o bigote, el cual nos permite ver la
forma de la distribución de los datos y también la existencia de valores de datos outliers, es decir
datos atípicos.
23
Comando
graph box percepho mieperho
Menú
Gráficos>Grafico de caja
24
25
26
Los resultados muestran que, para todas variables, existen datos atípicos. Por lo que para
realizar algún análisis se tendría que ver la posibilidad de sacar de la muestra dichos valores.
El Perú presenta realidades muy diferentes en cada uno de los departamentos o regiones por lo
que se recomendaría realizar un análisis de la zona norte, centro, sur o identificar una
metodología que ayude a realizar un análisis para nuestra realidad se sugiere panel data por
ejemplo.
Comando
tabstat percepho mieperho inghog1d gashog2d, statistics( max min range iqr var sd cv )
columns(statistics)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico
27
Ir a opciones
28
variable max min range iqr variance sd cv
(i) El rango es considerado como la medida de dispersión más simple para el análisis de los
datos. No ofrece mucha información sobre la variabilidad de los datos por estar basada sólo en
los valores extremos, razón por la cual debe ser usada como complemento de otras medidas de
dispersión. Para el cálculo del rango se utiliza la siguiente ecuación 2:
Rango = valor máximo – valor mínimo
La diferencia de los ingresos en los hogares del Perú es 943 657 entre el valor máximo y el valor
mínimo.
La diferencia de los gastos en los hogares del Perú es de 559 568,8 entre el valor máximo y el
valore mínimo.
(ii) El rango intercuartil (RIC) se denomina de esta manera porque es una medida de dispersión
que evita que los valores extremos influyan en el conjunto de datos. Se calcula mediante la
diferencia entre el cuartil tres (Q3) y el cuartil uno (Q1). Es decir, el rango intercuartil corresponde
al rango del 50% ubicado en el centro de los datos. El RIC se calcula por medio de la siguiente
ecuación (Triola, 2000)3
Rango intercuartil (RIC) = Q3 - Q1
Por ejemplo para la variable percepho el resultado 2 representa la dispersión media o rango
intercuartil del número de perceptores del hogar.
2
Posada Hernandez, Gabriel Jaime (2016). Elementos Básicos de Estadística Descriptiva para el análisis
de datos.
3
Ibidem. Pág. 99
29
(iv) Desviación estándar
Al interpretar la desviación estándar, significa que los ingresos de los peruanos varía 36 413,38
alrededor de la media (33 018,16). Por la regla empírica, podría decirse que el 68% de los
ingresos está dentro de una desviación estándar de la media.
Es importante resaltar que las medidas del rango, rango intercuartil, varianza y desviación
estándar nunca asumen valores negativos. La relación de estas medidas con la dispersión es
directa, es decir, si los valores de las medidas son altos, la dispersión también será alta y
viceversa4.
( v ) Coeficiente de variación5
CV menor o igual al 7%, las estimaciones se consideran precisas.
CV entre el 8% y el 14%, las estimaciones tienen precisión aceptable.
CV entre el 15% y 20%, la precisión es regular.
CV mayor del 20% indica que la estimación es poco precisa
En términos del ejemplo, podría interpretarse que los datos varían en mas del 50% alrededor de
la media, lo cual intuye que la precisión de estimación de los parámetros para esta población es
poco precisa.
4
Ibidem. Pág. 104
5
Ibidem. Pág. 105
30
5.9.5. Normalidad de las variables percepho mieperho inghog1d
gashog2d
Distribución Normal6
Comando
tabstat percepho mieperho inghog1d gashog2d, statistics( mean var sd iqr skewness kurtosis )
columns(statistics)
Menú
Estadística>Sumario tablas y tests estadísticos>Otras tablas>Tabla compacta con sumario estadístico
6
Canavos George (1998). Probabilidad y Estadística. Aplicaciones y Métodos. Pág. 139.
31
variable mean variance sd iqr skewness kurtosis
Fuente: https://www.maximaformacion.es/blog-dat/como-describir-tus-datos-en-r-paso-2/
32
Las variables no siguen una distribución normal.
Comando
histogram inghog1d, normal
Menú
Gráficos>Histograma
33
Ir a gráficos de densidad
34
Entonces al histograma se le agregara la curva de distribución normal
2.5e-05
2.0e-05
1.0e-05 1.5e-05
Density
5.0e-06
0
35
Comando
histogram inghog1d, kdensity
Menú
Gráficos>Histograma
Ir a gráficos de densidad
36
3.0e-05
2.0e-05
Density
1.0e-05
0
37
Comando
histogram inghog1d, normal kdensity
Menú
Gráficos>Histograma
Ir a gráficos de densidad
38
3.0e-05
2.0e-05
Density
1.0e-05
0
39
5.9.7. Curva de Lorenz variable inghog1d
Comando
Gini = .481
1
cumulative outcome proportion
.2 .4 0 .6 .8
0 20 40 60 80 100
population percentage
L(p) 95% CI
Línea roja, recta de igualdad, por ejemplo el 40% de la población tendría el 40% de los ingresos. Gini
igual a cero.
Curva azul, curva de Lorenz, por ejemplo el 80% de la población posee aproximadamente el 50% de los
ingresos.
Gini igual a 0.481
El coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero
puede utilizarse para medir cualquier forma de distribución desigual. El coeficiente de Gini es un
número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los
mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona
tiene todos los ingresos y los demás ninguno).
40
5.9.8. Tabla N°1 Departamentos del Perú
Los pesos de frecuencia indican datos replicados. El peso le dice al comando cuántas observaciones
representa realmente cada observación. los pesos permiten que los datos se almacenen
más parsimoniosamente. La variable de ponderación contiene enteros positivos. El resultado del
comando es el mismo que si duplicara cada observación tantas veces y luego ejecutara comando no
ponderado.
b) pweights
Los pesos de muestreo indican la inversa de la probabilidad de que se muestree esta observación. Han
de ser positivos pero no necesariamente enteros.
Se puede combinar para producir estimaciones para datos de muestras agrupadas no estratificadas. Si
también debe lidiar con problemas de estratificación, consulte la encuesta [SVY].
c) aweights
Los pesos analíticos suelen ser apropiados cuando se trata de datos que contienen promedios. Por
ejemplo, tiene ingresos promedio y características promedio en un grupo de gente. La variable de
ponderación contiene el número de personas sobre las cuales se calculó el promedio (o un número
proporcional a esa cantidad).
d) iweights
Este peso no tiene una definición estadística formal y es una categoría general. El peso de alguna
manera refleja la importancia de la observación y cualquier comando que apoye tal los pesos definirán
exactamente cómo se tratan dichos pesos.
41
Para realizar tablas se utilizan de preferencia variables etiquetadas por ejemplo, dep, pobreza, etc.
Comando
tabulate dep [iweight = factor07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de frecuencia.
42
Ir a pesos y utilizar iw con facpob07
43
Tabla 1
departamentos
del Perú Freq. Percent Cum.
Comando
tabulate dep pobreza [iweight = facpob07]
Menú
Estadística>Sumario tablas y tests estadísticos>Tablas de frecuencia>Tablas de contingencia con
medidas de asociación
44
Variable fila : dep y variable columna: pobreza
45
Ir a pesos
Tabla 2
departamentos pobreza
del Perú pobre ext pobre no no pobre Total
46
Comando
tabulate dep pobreza [iweight = facpob07], column
Menu
47
departamentos pobreza
del Perú pobre ext pobre no no pobre Total
48
Capítulo 6: Trabajando Base de Datos Enaho Sumaria-Modulo
500
Nota: modulo 500 son personas mayores a 14 años y sumaria son hogares.
X
X X
X
X
x
x
x
x
x x x
El investigador teniendo en cuenta lo que desea analizar presenta la llave como por ejemplo:
49
a) año, mes, conglome, vivienda, hogar
b) año, mes, conglome, vivienda, hogar, ubigeo, dominio, estrato, codperso, codinfor
c) mes, conglome, vivienda, hogar
Paso1: Observar las bases de datos e identificar base master, using y llave.
Paso 2: Listar la base master para el ejemplo sumaria-2017.dta y la llave es mes, conglome,
vivienda, hogar
Paso 3: Elegir, comando o menú para realizar un merge entre las bases.
Comando:
merge 1:m mes conglome vivienda hogar using "D:\Lilian 220619\Stata Clases\Metodos
Cuantitativos 2019 II\Capítulos 5 y 6 Fechas 7 y 080919\ENAHO 2017 Bases1\enaho01a-2017-
500.dta", generate(_merge1)
Menú
50
En principal 1:m
51
Result # of obs.
not matched 0
matched 93,185 (_merge1==3)
enaho01a-2017-500-sumaria.dta
Realizar los análisis del capítulo 1-4, y 7. Ejemplos de lo estudiado, presentación de tablas.
6.2. Append modulo 500 año 2016 y modulo 500 año 2017
En la carpeta de trabajo tenemos las bases de datos modulo 500 año 2016 y año 2017.
Paso1:
Abrir la base del año 2016 y ordenarlo por la variable mes, hacer lo mismo con la base del año
2017.
Comando
sort mes
Menú
Datos>ordenar
52
Paso 2: Guardar los cambios
53
Paso 4: Ordenadas las dos bases realizar el comando append listando la base master
enaho01a-2016-500.dta
Comando
Menú
54
En navegar, adjuntar la base using
55
Paso 5: Grabar la nueva base con otro nombre por ejemplo: enaho01a-2016-2017-500.dta
keep aÑo mes nconglome conglome vivienda hogar ubigeo dominio estrato percepho
mieperho totmieho inghog2d ld linpe linea pobreza estrsocial factor07 facpob07 dep codperso
codinfor p203 p207 p208a p209 p301a ocu500 imputado ocupinf emplpsec fac500a
56
El nuevo archivo se grabar con el nombre investigacion1
Comando
¿cuál es el último
año o grado de
estudios y nivel que pobreza
aprobó? - nivel pobre ext pobre no no pobre Total
57