Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INFOX
Semana 4 - Parte 1
1 Regresiones lineales, diagnóstico e interpretación de la estimación
regress
Interpretando los resultados
post-estimation
stored results
Variables categóricas e interacciones
2 Multicolinealidad y Heterocedasticidad
Multicolinealidad
Heterocedasticidad
Errores robustos
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 2 / 47
Regresiones lineales, diagnóstico e interpretación de la
estimación
Stata ofrece una amplio rango de métodos de regresión. Una lista de parcial e inicial de
posibilidades puede mostrarse al introducir help regress en la línea de comando. Esta
primera sección de la semana se enfoca en regresiones lineales basadas en el método de
mínimos cuadrados ordinarios (MCO o OLS, en inglés) obtnidas con el comando
regress. Adicionalmente, usaremos dos tipos de herramientas de diagnósticos más. Los
gráficos, ya revisados en la semana previa, y, datos de post-estimation. Esta opción,
post-estimation, se refiere a información adicional generada en las regresiones que no
se presenta necesariamente en la pantalla de resultados pero que puede ser extraíble
usando ciertos comandos.
Ojo: Hasta los puntos previos hemos aprendido y repasado temas relacionados a la
obtención de estadísticos, manejo de datos y presentación de ellos en gráficos. A partir
de este punto vamos a aplicar temas estadísticos/econométricos dentro del programa.
Esto no significa, por ningun motivo, que la econometría consista solo en correr códigos.
Los códigos que desarrollaremos deben ser acompañados por un repaso de los temas
correspondientes o por una profundización de ellos. Por ningún motivo considere que
saber Programación = saber Econometría, a pesar de esto, el saber como adaptar las
principales herramientas econométricas en algún programa estadístisco permite ir
subiendo la escalera del aprendizaje.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 3 / 47
regress
El comando más básico en términos de regresiones es regress. Este permite estimar un
modelo bajo mínimos cuadrados ordinarios. Un modelo puede toma la siguiente manera:
y = β0 + β1 X + (1)
β1
En este modelo super simple, podemos considera que β0 es el intercepto mientras que β1
logoinfox.png
es la pendiente.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 4 / 47
Si extendemos esta lógica a un modelo multivariado obtendríamos:
Y = XB + ε (2)
En donde X es un vector de variables explicativas y B es un vector de coeficiente:
B = β0 , β 1 , . . . , β n
Así (2) expresa la ecuación (1) en términos matriciales. Bajo (2) la forma del estimador
de B (desde ahora en adelante toda variable que tengaˆrepresenta el estimador de un
coeficiente) es la siguiente:
B̂ = (X 0 X )−1 (X 0 Y ) (3)
Para obtener el estimador de (3) hay algunos supuestos que se deben seguir. Prestemos
atención a:
|X ∼ i.i.d.(0, σ 2 In ), es decir que la distribución condicional de los errores sean
identica e independientemente (iid).
E (|X ) = 0, es decir que el esperado del término de error condicional a las
variables explicativas es igual a cero. Este supuesto también es llamado supuesto
de exogeneidad. De no cumplirse entonces B̂ 6= (X 0 X )−1 (X 0 Y )
Var (|X ) = σ 2 In , es decir que los erroes sean esféricos. Una forma más simple de
ver esto es asumiendo que los errores son:
I Homocedasticos: E (2i |X ) = σ 2 .
I No autocorrelacionados: E (i , j ) = 0 ∀i 6= j
logoinfox.png
Hay otro número de supuestos que dejaremos de lado de momento.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 5 / 47
Luego de ver de manera muy rápida en qué consiste una estimación por MCO, podemos
empezar a usar el comando regress. La forma más simple de este comando estima la
ecuación (2) y presenta los resultados de (3) junto a otro conjunto de datos adicionales.
Veamos las opciones básicas del comando en su sintaxis.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 7 / 47
Cómo es esperado, la expectativa de vida se relaciona con otras variables que pueden ser
expresadas por la región de origen. Así, África exhibe los valores más bajos en mediana,
seguido por Oceanía (considerando que hay claros outliers como Australia, Nueva
Zelanda y Nauru) y Asia. Los valores en mediana más altos son para los países
europeos. Ahora, veamos que obtenemos al regresionar la expectativa de vida con loslogoinfox.png
años de escolaridad.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 8 / 47
Veamos el resultado inicial y exploremos cada uno de los datos que nos brinda
En general, los resultados de regresiones tiene un orden similar por lo que esta
segmentación puede, más o menos, extrapolarse a otros resultados.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 9 / 47
Entre azul, tenemos:
Source, expresa la fuente de variabilidad en el Model, Residual y Total . La
variabilidad total (Total) está dividida en la variabilidad que puede ser ‘explicada’
por las variables independientes (Model) y la no ‘explicada’ por estas (Residual).
Su suma equivale al Total.
SS: Es ls suma de cuadrados (Sum of Squares) asociada a cada fuente de
SSModel
variación. Recuerde que R 2 = .
SSTotal
df: Indica los grados de libertas (degrees of freedom) asociados a cada fuente de
variabilidad. El grado de libertad del modelo es igual a N − k siendo N es número
de observaciones y k el número de variables explicativas agregadas al modelo. En
este caso hay 188 observaciones y 187 grados de libertad en el modelo estimados.
MS: Es el mean square y equivale a la división del SS entre los graods de libertad
respectivos. logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 10 / 47
En este espacio se tiene resultados sobre el ajuste general del modelo.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 11 / 47
Esta última es la parte usualmente más analizada puesto que contiene a los coeficientes
estimados y sus respectivos p-values. Cada columna indica:
1 La variable dependiente, en este caso life
2 Son los coeficientes estimados del modelo. En este caso:
β0 = _cons = 50.35941 y β1 = school = 2.45184
life = 50.35941 + school × 2.45184
3 Los errores estándar asociados a cada coeficiente
4 t indica el estadístico t y se obtiene de la siguiente manera:
β̂ − βH0
t=
s.e.(β̂)
En donde β̂ es el estimador de los coeficientes, s.e.(β̂) es el error estándar del
estimador y βH0 es el valor que toma el coeficiente en la hipótesis nula, en el
contexto de una regresión, βH0 = 0.
5 P>|t| indica el p-value asociado al test de significancia realizado sobre la variable
individual.
logoinfox.png
6 Las dos últimas columnas indican los intervalos de confianza de cada estimador.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 12 / 47
También podemos expresar esta regresión simple usando un gráfico de dispersión
Para hacer este gráfico hemos usado una nueva opción, text(85 4 "predicted
{it:life} = 50.36 + 2.45{it:school}"). Los números tomados como argumentos
indican la posición en el gráfico de acuerdo a cada eje. El resto entre comillas indica el
texto a presentarse. Adicionalmente usamos {it:life} para que se presente en cursiva (o
logoinfox.png
italics) en inglés.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 13 / 47
Antes de pasar a ver algunas opciones adicionales recordemos que la interpretación de
los coeficientes estimados se limita a ser correlaciones condicionadas. Si la regresión se
da en un ambiente de evaluación de impacto en donde la causalidad es probada entonces
la correlación condicional pasa a ser un efecto causal entre las variables. De esta manera
hablaremos de correlaciones y no ‘efectos’ al momento de interpretar las regresiones.
Adicionalmente, hay que recordar que los coeficientes tienen una interpretación de
acuerdo al valor que acompañen. Veamos una tabla de ayuda.
Modelo Interpretación de β
Regresión Un cambio de una unidad en X se
y = β0 + β1 x
nivel-nivel correlaciona con un cambio de β1 en y
Un cambio de una unidad en X se
Regresión
log(y ) = β0 + β1 x correlaciona con un cambio de 100 × β1
log-nivel
por ciento en y
Regresión Un cambio de 1% en X se correlaciona
y = β0 + log(β1 )x
nivel-log con un cambio β1 /100 unidades en y
Regresión Un cambio de 1% en X se correlaciona con
log(y ) = β0 + log(β1 )x
log-log un cambio de β1 % en y
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 14 / 47
También podemos usar los resultados para estimar valores de la variable dependiente. Es
decir, cuál sería el valor de y condicional a distintos valores de x . Para ello usamos el
comando margins seguido de las indicaciones para los valores que tome x .
Consideremos que queremos obtener el valor de y , es decir, ŷ cuando los años de
escolaridad pueden ir de 6 a 11 años. Dentro de la pantalla de resultados obtenemos:
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 15 / 47
El resultado impreso tiene segmentos similares a los ya visto. En este caso una sección
de información referida al número de observaciones y a los valores que se fijan para x y
una sección de resultados en sí con columnas similares a las previas. También podemos
graficar estos resultados usando el comando marginsplot
Cada punto es la estimación promedio de la expectativa de vida para cada valor de años
de escolaridad. Las barras que acompañan indican los intervalos de confianza. logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 16 / 47
post-estimation
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 17 / 47
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 18 / 47
Veamos un ejemplo bastante usado de post-estimation, el comando predict. Este sirve
para obtener el estimador de la dependiente, de los residuos, etc. Para ver todas las
opciones use la opción de ayuda.
En este caso generamos una nueva variable que contenga los residuos de la regresión y
otra con el estimado de la variable dependiente. Comparemos el valor observado y el
valor estimado de la expectativa de vida.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 20 / 47
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 21 / 47
Luego de correr una regresión podemos usar cada cado como si fuera una variable
dentro de alguna expresión o también crear una nueva variable a partir de ellas. Para
esto, que si queremos manipular bien un scalar o una matriz debemos incertarlos de
manera coherente a alguna expresión (como si fuera un local) o crear una variable
adicional considerando que son escalares y matrices. Veamos algunos ejemplos:
En este caso creamos un escalar (es decir solo un valor, frente a la variable que es una
columna de datos) y una matriz (es decir un conjunto de datos de cierto tamaño)
usando scalar y matrix seguido por los respectivos nuevos nombres e igualandolo a las
variables indicadas en las opciones de resultados guardados. Para imprimir sus valoreslogoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 23 / 47
Variables categóricas e interacciones
En la regresión previa estimamos un modelo con dos variables continuas. Ahora
consideremos una variable categórica. Para ello debemos recordar que los valores de las
categóricas que se introduzcan tienen que ser 1 cuando se cumple cierta condición y 0
en caso contrario. Si hay más de dos categorías podemos crear el mismo número de
variables dicotómicas a partir de los valores o podemos usar el prefijo "i." dentro de la
regresión para que automáticamente se considere que categoría como una dummy
separada.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 24 / 47
En este caso hay cinco regiones, todas indicadas dentro de una misma variables. Debido
a esto usamos i.region en vez de solo region en la regressión. De esta se considera
una categoría base y se estiman las dummies restanto con respecto a la ignorada. En un
sentido similar podemos agregar interacciones entre variables en la regresión. Estas
interacciones ocurren al multiplicar variables en la regresión. Poe ejemplo:
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 25 / 47
En el resultado tenemos los coeficientes estimados para la variable categórica y también
para las interacciones. Como indicamos que region es una variable categórica, se
estima la interacción entre la continua y cada categoría. Si incluímos una interacciónlogoinfox.png
entre dos continuas solo se generaría 1 coeficiente estimado nuevo.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 26 / 47
Multicolinealidad
Cuando hay una relación lineal perfecta entre variables explicativas, los estimadores del
modelo no pueden ser estimados. El término colinealidad implica que dos variables son
casi una combinación lineal perfecta del otro. Cuando hay más de dos variables
envueltas se llama multicolinealidad. Aunque los términos son mutuamente
intercambiables. Que dos o más variables sean una combinación lineal de la otra
significa que al sumar o restar algún valor en una de las variables se obtiene otra de las
variables o una suma/resta de ellas. Un ejemplo muy simple se da en las variables
dicotómicas. Por ejemplo, si Mujer = 1 cuando la observación es mujer y Mujer = 0
cuando la observación es hombre. Mientras que Hombre = 1 si la observación es hombre
y = 0 en caso contrario. Entonces:
Mujer + Hombre = 1
Mujer = 1 − Hombre
Por lo que Mujer es una combinación lineal de Hombre y por ende no pueden entrar a la
misma vez en una regresión. Es por esto que cuando se tienen una variable categórica
de N categorías solo se consideran N − 1. + Esto también se puede dat en variables que
no sea multicolineales por definición como en el caso del género. Veamos una forma de
evaluar este problema en una regresión :
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 27 / 47
Consideremos un modelo similar al estimado previo pero ahora considerando al PBI per
cápita y al % de la población urbana como variables explicativas adicionales. Una forma
de evaluar la multicolinealidad es usando el estadístico VIF, usado como post estimation
luego de la regresión. Este genero un valor VIF que se compara con el valor 10. Si es
mayor a 10 entonces se tiene indicios de que esa variable es una combinación lineal de
alguna otra variable.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 28 / 47
Heterocedasticidad
La heterocedasticidad se relaciona con uno de los supuestos del modelo MCO. Si no se
cumple que Var (i ) = σ 2 entonces no hay homocedasticidad en la regresión y por lo
tanto se tiene errores heterocedasticos. Revisemos una forma de detectar la presencia de
heterocedasticidad en la muestra de datos. El test de Breusch-Pagan, genera un
estadístico chi2 que tiene como hipótesis nula que la varianza es constante mientras que
en la hipótesis alternalitva se tiene que la varianza de los errores son funciones
multiplicativas de una o más variables del modelo. Para usar este test de usa el
post-estimation hettest. El mismo resultado nos brinda información acerca de la forma
de la hipótesis nula, del estadístico y del p-value asociado al estadístico.
En este caso, el p-value nos indica que rechacemos la hipótesis nula de varianza
constante. Es decir, que tenemos una regresión heterocedástica. Esto no signfica que
necesariamente el modelo ya no sirva. Hay formas de solucionar los problemas de logoinfox.png
heterocedasticidad.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 29 / 47
Errores robustos
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 30 / 47
Los coeficientes son iguales que antes
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 31 / 47
Diseño muestral
Las encuestas son una herramienta muy importante en la recolección de datos. A
diferencia de un censo, una encuesta se basa en método estadístico para recolectar cierta
información considerando que esa cantidad de encuestados permita hacer inferencia
sobre la situación de una unidad más grande como un distrito o un país. En este caso es
bastante necesario revisar la documentación de las encuestas para tener un mejor
entendimiento no solo de las variables en si sino también del proceso de levantar esa
información.
Antes de seguir hay algunas definiciones que aclarar:
Weight: Es el peso que tiene cada observación en la muestra. En un diseño
muestral simple, si consideramos probability weight, este peso es igual a N/n, en
donde N es el número de elemtnos en la población y n= el número de elementos
en la muestra. En un diseño muestral de dos etapas, es igual a f1 f2 en donde cada
uno indica el mismo concepto previo pero para su respectiva etapa de muestreo. Si
sumamos todos los pesos (o también llamados factores de expansión)
obtendríamos un estimado del universo de observaciones.
PSU: hace referencia a la unidad de muestreo primaria (primary sampling unit).
Esta es la primera unidad en ser muestreada en el diseño. Por ejemplo, si
queremos crear una muestra de colegios en Lima podemos comenzar tomando una
muestra de UGEL-es (Unidades de Gestión Educativa Local) y luego hacer
aleatorizar los colegios que estén dentro de las UGEL-es seleccionadas. En ese logoinfox.png
caso, el PSU sería las UGEL-es seleccionadas.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 32 / 47
Strata: Hace referencia a los estratos sobre los cuales se aleatoriza usados para
mejorar la precisión de los estimadores. La estratificación funciona más
efectivamente cuando la varianza de la variable dependiente es menor dentro de
cada estrato que en la muestra completa.
FPC: hace referencia a una correción por población finita (Finite Population
Correction) y es igual a ((N-n)/(N-1))1/2. Es usado cuando la fracción de
muestrel (n/N) se hace larga y se necesita ajustar los errores estándar estimados.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 33 / 47
Declarar diseño muestral: svyset
Para declara que nuestra base de datos parte de un diseño muestral debemos usar el
comando svyset al inicio de nuestro código. Veamos su sintaxis.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 34 / 47
Usemos el módulo de empleo de ENAHO para hacer algunos ejemplos con este comando.
En este caso definimos los valores para PSU, Weight y Strata. Obviamos el valor para
FPC. Ojo: el peso (también llamado factor de expansión o ponderador) puede varias de
acuerdo al módulo de ENAHO. En este caso el factor de expansión se llama fac500a.
Podemos describir los datos de la muestra usando svydescribe:
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 35 / 47
Aqui observamos el número de estratos, de unidades y de observaciones por unidad. Así
como otra información relacionada al diseño en sí. Luego de declarar que los datos
parten de un diseño muestral podemos usar el prefijo svy: antes de los códigos usuales
para que el comando considere el diseño muestral. Este prefijo se puede usar con
muchos comandos pero no con todos. Por lo que debe estar atento por si sale algún logoinfox.png
mensaje de error en la pantalla de resultado.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 36 / 47
Comparemos los resultados de tabular los valores de la variable ocu500, condición
laboral. El resultado de la proporción varía si usamos el prefijo svy: y si no lo usamos.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 37 / 47
Ahora comparemos una regresión simple. En este caso regresionaremos el Ingreso total
(imputado, deflactado y anualizado) contra la edad y el género de la persona.
La pantalla de resultados también es distinta al resultado obtenido por una regresión sin
diseño muestral. En este caso el análisis de suma de cuadrados no se presenta. En
cambio se indica algunos datos relacionados al diseño muestral como el número de
estratos y de PSU’s. En la la segunda sección vemos algunos datos nuevos,
particularmente el Population size y los grados de libertad del diseño, Design df. logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 38 / 47
Si queremos obtener un estimador para sub grupos en la muestra debemos usar la opción
,subpop() dentro del prefijo. Estimemos el mismo modelo previo pero considerando
solo observaciones para Lima Metropolitana. Previamente tenemos que crear una
variable dicotómica, con valor 0 y 1, para Lima a partir de la variable dominio.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 39 / 47
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 40 / 47
Comparemos ahora cuáles son las diferencias entre estimar el mismo modelo sin
considerar el diseño muestral, solo considerando las ponderaciones y considerando todo
el diseño muestral:
Para hacer la comparación vamos a conocer algunos comando nuevos. Una forma de
almacenar resultados de manera rápida es usando eststo (esto viene de estimates
store). Lo usamos como un prefijo adicional en la linea de regresión para almacenar los
datos de estimación como los coeficientes, el estadístico t o el p-value. Como estamos
almacenando información de manera consecutiva, cada vez que queremos volver a
grabar un conjunto de información debemos usar el comando eststo clear. En el
ejemplo, limpiamos los datos guardados y almacenamos los resultados de tres
regresiones. Por último, usamos el comando esttab (viene de estimates tabulation)
para tabular los resultados almanceados. La primera regresión es la regresión simple. La
segunda es la misma pero solo consideramos el peso de cada observación (es decir el
factor de expansión) con la opción entre corchetes [pweight = fac500a] (en este caso
usamos pweight porque el peso del diseño el un probability wieght, hay más opciones
que puede explorar). La tercera regresión considera todo el diseño muestral. logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 41 / 47
Cada columna indica cada regresión corrida. La tabla contiene los estimadores, su nivel
de significancia expresado en * y en paréntesis los estadísticos t. De esta comparación
vemos que la primera regresión genera estimadores distintos a los ‘correctos’ estimados
al considerar todo el diseño muestral. Si solo consideramos el factor de expansión como
un peso entonces obtenemos los coeficientes correctos pero no obtenemos los errores
estándar correctos.
Ojo: Explore las opciones de esttab para editar esta tabla logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 42 / 47
Replicando estadísticas oficiales del INEI usando ENAHO
Como aplicación vamos a replicar algunos estadísticos oficiales del INEI usando la
ENAHO junto a su diseño muestral. Particularmente nos enfocaremos en el porcentaje
de población en situación de pobreza monetaria, según ámbito geográfico para el 2018.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 43 / 47
Vamos a usar el módulo de ‘Sumarias’ de la ENAHO 2018. Este módulo hace un
resumen de distintas variables recolectadas en otros módulos. Adicionalmente incluye
algunas variables ya trabajadas como la condición de pobreza para cada hogar1 . Antes
de hacer los estimados hay que definir el diseño muestral
En este caso tenemos que hacer un ajuste previo al factor de expansión para que se
estime a nivel de hogar. Se debe multiplicar el factor de expansión por el número de
miembros por hogar y considerar esto como nuevo factor de expansión.
1
OJO: Los módulos de la ENAHO pueden estar a nivel de hogar, a nivel de vivienda
logoinfox.png
Creamos una serie de categorías para Lima Metropolitana, para urbano/rural, para
región natural y región natural cruzado con urbano/rural.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 45 / 47
Usamos el comando mean para obtener el estimador del promedio. Adicionalmente,
usamos la opción , over() para las categorías sobre las cuales obtener el promedio
estimado.
Con esto se obtienen los mismos resultados que en las estadísticas oficiales del INEI.
Tomemos como ejemplo los estimados sobre dominio y urbano/rural.
logoinfox.png
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 46 / 47
La definición para cada valor de _subpoop_ está dado en el mismo resultado. Por
ejemplo _subpoop_1 sería Costa Urbana.
En estos casos también podemos comparar los intervalos de confianza de cada estimador
logoinfox.png
presentados tanto en las estadísticas oficiales como en los resultados del código.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 47 / 47