Está en la página 1de 47

Stata: Desde básico hasta avanzando

José Mendoza Sánchez

INFOX

Semana 4 - Parte 1
1 Regresiones lineales, diagnóstico e interpretación de la estimación
regress
Interpretando los resultados
post-estimation
stored results
Variables categóricas e interacciones

2 Multicolinealidad y Heterocedasticidad
Multicolinealidad
Heterocedasticidad
Errores robustos

3 Diseño muestral: simple y complejo


Diseño muestral
svyset

4 Aplicación: replicando estadísticas oficiales del INEI usando la ENAHO


logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 2 / 47
Regresiones lineales, diagnóstico e interpretación de la
estimación
Stata ofrece una amplio rango de métodos de regresión. Una lista de parcial e inicial de
posibilidades puede mostrarse al introducir help regress en la línea de comando. Esta
primera sección de la semana se enfoca en regresiones lineales basadas en el método de
mínimos cuadrados ordinarios (MCO o OLS, en inglés) obtnidas con el comando
regress. Adicionalmente, usaremos dos tipos de herramientas de diagnósticos más. Los
gráficos, ya revisados en la semana previa, y, datos de post-estimation. Esta opción,
post-estimation, se refiere a información adicional generada en las regresiones que no
se presenta necesariamente en la pantalla de resultados pero que puede ser extraíble
usando ciertos comandos.
Ojo: Hasta los puntos previos hemos aprendido y repasado temas relacionados a la
obtención de estadísticos, manejo de datos y presentación de ellos en gráficos. A partir
de este punto vamos a aplicar temas estadísticos/econométricos dentro del programa.
Esto no significa, por ningun motivo, que la econometría consista solo en correr códigos.
Los códigos que desarrollaremos deben ser acompañados por un repaso de los temas
correspondientes o por una profundización de ellos. Por ningún motivo considere que
saber Programación = saber Econometría, a pesar de esto, el saber como adaptar las
principales herramientas econométricas en algún programa estadístisco permite ir
subiendo la escalera del aprendizaje.
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 3 / 47
regress
El comando más básico en términos de regresiones es regress. Este permite estimar un
modelo bajo mínimos cuadrados ordinarios. Un modelo puede toma la siguiente manera:

y = β0 + β1 X +  (1)

En donde y es la variable dependiente o la variable de interés mientras que x es una


variable independiente o explicativa. Los β 0 s son coeficientes a estimar. Una forma de
representar esta ecuación es mediante un gráfico:

β1

En este modelo super simple, podemos considera que β0 es el intercepto mientras que β1
logoinfox.png
es la pendiente.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 4 / 47
Si extendemos esta lógica a un modelo multivariado obtendríamos:
Y = XB + ε (2)
En donde X es un vector de variables explicativas y B es un vector de coeficiente:
B = β0 , β 1 , . . . , β n
Así (2) expresa la ecuación (1) en términos matriciales. Bajo (2) la forma del estimador
de B (desde ahora en adelante toda variable que tengaˆrepresenta el estimador de un
coeficiente) es la siguiente:
B̂ = (X 0 X )−1 (X 0 Y ) (3)
Para obtener el estimador de (3) hay algunos supuestos que se deben seguir. Prestemos
atención a:
|X ∼ i.i.d.(0, σ 2 In ), es decir que la distribución condicional de los errores sean
identica e independientemente (iid).
E (|X ) = 0, es decir que el esperado del término de error condicional a las
variables explicativas es igual a cero. Este supuesto también es llamado supuesto
de exogeneidad. De no cumplirse entonces B̂ 6= (X 0 X )−1 (X 0 Y )
Var (|X ) = σ 2 In , es decir que los erroes sean esféricos. Una forma más simple de
ver esto es asumiendo que los errores son:
I Homocedasticos: E (2i |X ) = σ 2 .
I No autocorrelacionados: E (i , j ) = 0 ∀i 6= j
logoinfox.png
Hay otro número de supuestos que dejaremos de lado de momento.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 5 / 47
Luego de ver de manera muy rápida en qué consiste una estimación por MCO, podemos
empezar a usar el comando regress. La forma más simple de este comando estima la
ecuación (2) y presenta los resultados de (3) junto a otro conjunto de datos adicionales.
Veamos las opciones básicas del comando en su sintaxis.

En este caso depvar hace referencia a la variables dependientes mientras que


logoinfox.png
indepvars al conjunto de variables explicativas.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 6 / 47
Tomemos la base de datos sobre indicadores de desarrollo humano para un corte de
países como ejemplo. En esta base de datos tenemos información acerca de distintos
indicadores como el de expectativas de vida al nacer, la escolaridad promedio, el PBI per
cápia, la tasa de fertilidad, entre otros. Partamos planteando que esperamos una especie
de correlación entre la expectativa de vida y la escolaridad en el corte de países.
Probablemente esta correlación sea positiva, a mayor escolaridad mayor expectativa de
vida. Comencemos viendo algunos descriptivos de los datos:

La expectativa de vida en la muestra de países es de 68 años, con mucha variación de


por medio, mientras que la escolaridad promedio es de 7.45 (es decir, en promedio se
tiene solo 7.5 años de educación). Veamos cómo varía esta variable entre regiones:
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 7 / 47
Cómo es esperado, la expectativa de vida se relaciona con otras variables que pueden ser
expresadas por la región de origen. Así, África exhibe los valores más bajos en mediana,
seguido por Oceanía (considerando que hay claros outliers como Australia, Nueva
Zelanda y Nauru) y Asia. Los valores en mediana más altos son para los países
europeos. Ahora, veamos que obtenemos al regresionar la expectativa de vida con loslogoinfox.png
años de escolaridad.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 8 / 47
Veamos el resultado inicial y exploremos cada uno de los datos que nos brinda

En general, los resultados de regresiones tiene un orden similar por lo que esta
segmentación puede, más o menos, extrapolarse a otros resultados.
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 9 / 47
Entre azul, tenemos:
Source, expresa la fuente de variabilidad en el Model, Residual y Total . La
variabilidad total (Total) está dividida en la variabilidad que puede ser ‘explicada’
por las variables independientes (Model) y la no ‘explicada’ por estas (Residual).
Su suma equivale al Total.
SS: Es ls suma de cuadrados (Sum of Squares) asociada a cada fuente de
SSModel
variación. Recuerde que R 2 = .
SSTotal
df: Indica los grados de libertas (degrees of freedom) asociados a cada fuente de
variabilidad. El grado de libertad del modelo es igual a N − k siendo N es número
de observaciones y k el número de variables explicativas agregadas al modelo. En
este caso hay 188 observaciones y 187 grados de libertad en el modelo estimados.
MS: Es el mean square y equivale a la división del SS entre los graods de libertad
respectivos. logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 10 / 47
En este espacio se tiene resultados sobre el ajuste general del modelo.

Number of obs, es el número de observaciones usados en la regresión.


F () y Prob > F : es el estadísticos F de significancia conjunta que busca evaluar si
el modelo en conjunto es estadísticamente distinto a cero. Se obtiene dividiendo el
Mean Square del Modelo con el Mean Square del Residuo. El segundo es el
p-value asociado a este test de significancia conjunta.
R 2 y Radj
2
: El R 2 muestra la bondad de ajuste del modelo, es decir, que tanta
variabilidad total es explicada por la variabilidad explicada. El segundo estadístico
es una versión del R 2 que controla su aumento del aumento generado por un
aumento en el número de observaciones en la muestra.
Es la raíz del Error Medio cuadrádito (Mean Square Error) logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 11 / 47
Esta última es la parte usualmente más analizada puesto que contiene a los coeficientes
estimados y sus respectivos p-values. Cada columna indica:
1 La variable dependiente, en este caso life
2 Son los coeficientes estimados del modelo. En este caso:
β0 = _cons = 50.35941 y β1 = school = 2.45184
life = 50.35941 + school × 2.45184
3 Los errores estándar asociados a cada coeficiente
4 t indica el estadístico t y se obtiene de la siguiente manera:
β̂ − βH0
t=
s.e.(β̂)
En donde β̂ es el estimador de los coeficientes, s.e.(β̂) es el error estándar del
estimador y βH0 es el valor que toma el coeficiente en la hipótesis nula, en el
contexto de una regresión, βH0 = 0.
5 P>|t| indica el p-value asociado al test de significancia realizado sobre la variable
individual.
logoinfox.png
6 Las dos últimas columnas indican los intervalos de confianza de cada estimador.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 12 / 47
También podemos expresar esta regresión simple usando un gráfico de dispersión

Para hacer este gráfico hemos usado una nueva opción, text(85 4 "predicted
{it:life} = 50.36 + 2.45{it:school}"). Los números tomados como argumentos
indican la posición en el gráfico de acuerdo a cada eje. El resto entre comillas indica el
texto a presentarse. Adicionalmente usamos {it:life} para que se presente en cursiva (o
logoinfox.png
italics) en inglés.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 13 / 47
Antes de pasar a ver algunas opciones adicionales recordemos que la interpretación de
los coeficientes estimados se limita a ser correlaciones condicionadas. Si la regresión se
da en un ambiente de evaluación de impacto en donde la causalidad es probada entonces
la correlación condicional pasa a ser un efecto causal entre las variables. De esta manera
hablaremos de correlaciones y no ‘efectos’ al momento de interpretar las regresiones.
Adicionalmente, hay que recordar que los coeficientes tienen una interpretación de
acuerdo al valor que acompañen. Veamos una tabla de ayuda.
Modelo Interpretación de β
Regresión Un cambio de una unidad en X se
y = β0 + β1 x
nivel-nivel correlaciona con un cambio de β1 en y
Un cambio de una unidad en X se
Regresión
log(y ) = β0 + β1 x correlaciona con un cambio de 100 × β1
log-nivel
por ciento en y
Regresión Un cambio de 1% en X se correlaciona
y = β0 + log(β1 )x
nivel-log con un cambio β1 /100 unidades en y
Regresión Un cambio de 1% en X se correlaciona con
log(y ) = β0 + log(β1 )x
log-log un cambio de β1 % en y

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 14 / 47
También podemos usar los resultados para estimar valores de la variable dependiente. Es
decir, cuál sería el valor de y condicional a distintos valores de x . Para ello usamos el
comando margins seguido de las indicaciones para los valores que tome x .
Consideremos que queremos obtener el valor de y , es decir, ŷ cuando los años de
escolaridad pueden ir de 6 a 11 años. Dentro de la pantalla de resultados obtenemos:

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 15 / 47
El resultado impreso tiene segmentos similares a los ya visto. En este caso una sección
de información referida al número de observaciones y a los valores que se fijan para x y
una sección de resultados en sí con columnas similares a las previas. También podemos
graficar estos resultados usando el comando marginsplot

Cada punto es la estimación promedio de la expectativa de vida para cada valor de años
de escolaridad. Las barras que acompañan indican los intervalos de confianza. logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 16 / 47
post-estimation

Las opciones de post-estimation hacen referencia a las opciones que se


hacen disponibles para recuperar información presentada o no en los
resultados o para manipularla. Un ejemplo de esto es el uso del comando
margins previamente. Algunos de ellos hacen referencia a tests específicos
del tipo de regresión que se lleva a cabo.
El siguiente slide presenta algunas de las opciones de post-estimation para
el comando regress. Algunos de ellas serán vistas posteriormente, por
ejemplo, para realizar test.
Ojo: Estos comandos se hacen disponible luego de correr una regresión.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 17 / 47
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 18 / 47
Veamos un ejemplo bastante usado de post-estimation, el comando predict. Este sirve
para obtener el estimador de la dependiente, de los residuos, etc. Para ver todas las
opciones use la opción de ayuda.

En este caso generamos una nueva variable que contenga los residuos de la regresión y
otra con el estimado de la variable dependiente. Comparemos el valor observado y el
valor estimado de la expectativa de vida.

Explore el resto de opciones de post-estimation disponibles no solo para el comando


logoinfox.png
regress sino para el que necesite usar.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 19 / 47
stored results

stored results hace referencia a los resultados guardados producto de


la regresión. Usualmente se presentan al final del texto en la ayuda del
programa. Estos resultados almacenados pueden ser de tipo escalar o
scalar, matricial o matrix, una macro (es decir alguna parte de la
programación en sí) o una función o function. Estos resultados
almacenados nos son útiles cuando tenemos que hacer un calculo manual
que implique algún dato estadístico de la regresión.
En el siguiente slide vemos las opciones de resultados almacenados para el
comando regress.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 20 / 47
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 21 / 47
Luego de correr una regresión podemos usar cada cado como si fuera una variable
dentro de alguna expresión o también crear una nueva variable a partir de ellas. Para
esto, que si queremos manipular bien un scalar o una matriz debemos incertarlos de
manera coherente a alguna expresión (como si fuera un local) o crear una variable
adicional considerando que son escalares y matrices. Veamos algunos ejemplos:

En este caso creamos un escalar (es decir solo un valor, frente a la variable que es una
columna de datos) y una matriz (es decir un conjunto de datos de cierto tamaño)
usando scalar y matrix seguido por los respectivos nuevos nombres e igualandolo a las
variables indicadas en las opciones de resultados guardados. Para imprimir sus valoreslogoinfox.png

usamos el comando scalar list o matrix list.


José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 22 / 47
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 23 / 47
Variables categóricas e interacciones
En la regresión previa estimamos un modelo con dos variables continuas. Ahora
consideremos una variable categórica. Para ello debemos recordar que los valores de las
categóricas que se introduzcan tienen que ser 1 cuando se cumple cierta condición y 0
en caso contrario. Si hay más de dos categorías podemos crear el mismo número de
variables dicotómicas a partir de los valores o podemos usar el prefijo "i." dentro de la
regresión para que automáticamente se considere que categoría como una dummy
separada.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 24 / 47
En este caso hay cinco regiones, todas indicadas dentro de una misma variables. Debido
a esto usamos i.region en vez de solo region en la regressión. De esta se considera
una categoría base y se estiman las dummies restanto con respecto a la ignorada. En un
sentido similar podemos agregar interacciones entre variables en la regresión. Estas
interacciones ocurren al multiplicar variables en la regresión. Poe ejemplo:

life = β0 + β1 × school + β2,r Regionr + β3,r (school × Region)r

En este caso estimamos un β2 para cada región, es decir un β2,r ∀r . Adicionalmente,


estimamos β3,r para la interacción entre escolaridad y cada categoría de región. Para
implementar esta regresión renemos dos opciones que generan exactamente lo mismo:

El operador de interacción simple es #. Adicionalmente hay que indicar si la variable a


interactuar es continua, usando el prefijo c., o si es categórica, usando el prefijo i.. En la
segunda opción se realiza algo bastante similar pero más acotado, al usar ## estamos
indicando que se estime no solo la interacción deseada sino también cada variable por
separado. Cosa que hicimos a mano en la opción 1 usando, school i.region. Veamos
el resultado: logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 25 / 47
En el resultado tenemos los coeficientes estimados para la variable categórica y también
para las interacciones. Como indicamos que region es una variable categórica, se
estima la interacción entre la continua y cada categoría. Si incluímos una interacciónlogoinfox.png
entre dos continuas solo se generaría 1 coeficiente estimado nuevo.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 26 / 47
Multicolinealidad
Cuando hay una relación lineal perfecta entre variables explicativas, los estimadores del
modelo no pueden ser estimados. El término colinealidad implica que dos variables son
casi una combinación lineal perfecta del otro. Cuando hay más de dos variables
envueltas se llama multicolinealidad. Aunque los términos son mutuamente
intercambiables. Que dos o más variables sean una combinación lineal de la otra
significa que al sumar o restar algún valor en una de las variables se obtiene otra de las
variables o una suma/resta de ellas. Un ejemplo muy simple se da en las variables
dicotómicas. Por ejemplo, si Mujer = 1 cuando la observación es mujer y Mujer = 0
cuando la observación es hombre. Mientras que Hombre = 1 si la observación es hombre
y = 0 en caso contrario. Entonces:

Mujer + Hombre = 1

Mujer = 1 − Hombre
Por lo que Mujer es una combinación lineal de Hombre y por ende no pueden entrar a la
misma vez en una regresión. Es por esto que cuando se tienen una variable categórica
de N categorías solo se consideran N − 1. + Esto también se puede dat en variables que
no sea multicolineales por definición como en el caso del género. Veamos una forma de
evaluar este problema en una regresión :
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 27 / 47
Consideremos un modelo similar al estimado previo pero ahora considerando al PBI per
cápita y al % de la población urbana como variables explicativas adicionales. Una forma
de evaluar la multicolinealidad es usando el estadístico VIF, usado como post estimation
luego de la regresión. Este genero un valor VIF que se compara con el valor 10. Si es
mayor a 10 entonces se tiene indicios de que esa variable es una combinación lineal de
alguna otra variable.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 28 / 47
Heterocedasticidad
La heterocedasticidad se relaciona con uno de los supuestos del modelo MCO. Si no se
cumple que Var (i ) = σ 2 entonces no hay homocedasticidad en la regresión y por lo
tanto se tiene errores heterocedasticos. Revisemos una forma de detectar la presencia de
heterocedasticidad en la muestra de datos. El test de Breusch-Pagan, genera un
estadístico chi2 que tiene como hipótesis nula que la varianza es constante mientras que
en la hipótesis alternalitva se tiene que la varianza de los errores son funciones
multiplicativas de una o más variables del modelo. Para usar este test de usa el
post-estimation hettest. El mismo resultado nos brinda información acerca de la forma
de la hipótesis nula, del estadístico y del p-value asociado al estadístico.

En este caso, el p-value nos indica que rechacemos la hipótesis nula de varianza
constante. Es decir, que tenemos una regresión heterocedástica. Esto no signfica que
necesariamente el modelo ya no sirva. Hay formas de solucionar los problemas de logoinfox.png
heterocedasticidad.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 29 / 47
Errores robustos

Una forma simple de resolver es usar la opción de errores estándar


robustos del programa. Esta opción implementa el estimador de
Huber-White en la matriz de varianza-covarianza de los coeficientes. Ojo:
Esta opción solo afecta a los errores estándar pero no afecta al vector de
estimadores (claro por que el ajuste no se da en el vector de coeficientes
sino en la matriz de varianza/covarianza usada para obtener el error
estándar). Se puede implementar usando solo , robust o vce(robust)

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 30 / 47
Los coeficientes son iguales que antes

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 31 / 47
Diseño muestral
Las encuestas son una herramienta muy importante en la recolección de datos. A
diferencia de un censo, una encuesta se basa en método estadístico para recolectar cierta
información considerando que esa cantidad de encuestados permita hacer inferencia
sobre la situación de una unidad más grande como un distrito o un país. En este caso es
bastante necesario revisar la documentación de las encuestas para tener un mejor
entendimiento no solo de las variables en si sino también del proceso de levantar esa
información.
Antes de seguir hay algunas definiciones que aclarar:
Weight: Es el peso que tiene cada observación en la muestra. En un diseño
muestral simple, si consideramos probability weight, este peso es igual a N/n, en
donde N es el número de elemtnos en la población y n= el número de elementos
en la muestra. En un diseño muestral de dos etapas, es igual a f1 f2 en donde cada
uno indica el mismo concepto previo pero para su respectiva etapa de muestreo. Si
sumamos todos los pesos (o también llamados factores de expansión)
obtendríamos un estimado del universo de observaciones.
PSU: hace referencia a la unidad de muestreo primaria (primary sampling unit).
Esta es la primera unidad en ser muestreada en el diseño. Por ejemplo, si
queremos crear una muestra de colegios en Lima podemos comenzar tomando una
muestra de UGEL-es (Unidades de Gestión Educativa Local) y luego hacer
aleatorizar los colegios que estén dentro de las UGEL-es seleccionadas. En ese logoinfox.png
caso, el PSU sería las UGEL-es seleccionadas.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 32 / 47
Strata: Hace referencia a los estratos sobre los cuales se aleatoriza usados para
mejorar la precisión de los estimadores. La estratificación funciona más
efectivamente cuando la varianza de la variable dependiente es menor dentro de
cada estrato que en la muestra completa.
FPC: hace referencia a una correción por población finita (Finite Population
Correction) y es igual a ((N-n)/(N-1))1/2. Es usado cuando la fracción de
muestrel (n/N) se hace larga y se necesita ajustar los errores estándar estimados.

No necesariamente usaremos todas estas opciones al momento de definir el diseño


muestral que manipularemos en el programa. En este caso no vamos a discutir como
hacer un muestreo en si pero sí como usar una base de datos con diseño muestral en el
programa.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 33 / 47
Declarar diseño muestral: svyset
Para declara que nuestra base de datos parte de un diseño muestral debemos usar el
comando svyset al inicio de nuestro código. Veamos su sintaxis.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 34 / 47
Usemos el módulo de empleo de ENAHO para hacer algunos ejemplos con este comando.

En este caso definimos los valores para PSU, Weight y Strata. Obviamos el valor para
FPC. Ojo: el peso (también llamado factor de expansión o ponderador) puede varias de
acuerdo al módulo de ENAHO. En este caso el factor de expansión se llama fac500a.
Podemos describir los datos de la muestra usando svydescribe:

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 35 / 47
Aqui observamos el número de estratos, de unidades y de observaciones por unidad. Así
como otra información relacionada al diseño en sí. Luego de declarar que los datos
parten de un diseño muestral podemos usar el prefijo svy: antes de los códigos usuales
para que el comando considere el diseño muestral. Este prefijo se puede usar con
muchos comandos pero no con todos. Por lo que debe estar atento por si sale algún logoinfox.png
mensaje de error en la pantalla de resultado.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 36 / 47
Comparemos los resultados de tabular los valores de la variable ocu500, condición
laboral. El resultado de la proporción varía si usamos el prefijo svy: y si no lo usamos.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 37 / 47
Ahora comparemos una regresión simple. En este caso regresionaremos el Ingreso total
(imputado, deflactado y anualizado) contra la edad y el género de la persona.

La pantalla de resultados también es distinta al resultado obtenido por una regresión sin
diseño muestral. En este caso el análisis de suma de cuadrados no se presenta. En
cambio se indica algunos datos relacionados al diseño muestral como el número de
estratos y de PSU’s. En la la segunda sección vemos algunos datos nuevos,
particularmente el Population size y los grados de libertad del diseño, Design df. logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 38 / 47
Si queremos obtener un estimador para sub grupos en la muestra debemos usar la opción
,subpop() dentro del prefijo. Estimemos el mismo modelo previo pero considerando
solo observaciones para Lima Metropolitana. Previamente tenemos que crear una
variable dicotómica, con valor 0 y 1, para Lima a partir de la variable dominio.

De esta manero consideramos el diseño muestral en la selección de la sub muestra que


queremos analizar.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 39 / 47
logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 40 / 47
Comparemos ahora cuáles son las diferencias entre estimar el mismo modelo sin
considerar el diseño muestral, solo considerando las ponderaciones y considerando todo
el diseño muestral:

Para hacer la comparación vamos a conocer algunos comando nuevos. Una forma de
almacenar resultados de manera rápida es usando eststo (esto viene de estimates
store). Lo usamos como un prefijo adicional en la linea de regresión para almacenar los
datos de estimación como los coeficientes, el estadístico t o el p-value. Como estamos
almacenando información de manera consecutiva, cada vez que queremos volver a
grabar un conjunto de información debemos usar el comando eststo clear. En el
ejemplo, limpiamos los datos guardados y almacenamos los resultados de tres
regresiones. Por último, usamos el comando esttab (viene de estimates tabulation)
para tabular los resultados almanceados. La primera regresión es la regresión simple. La
segunda es la misma pero solo consideramos el peso de cada observación (es decir el
factor de expansión) con la opción entre corchetes [pweight = fac500a] (en este caso
usamos pweight porque el peso del diseño el un probability wieght, hay más opciones
que puede explorar). La tercera regresión considera todo el diseño muestral. logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 41 / 47
Cada columna indica cada regresión corrida. La tabla contiene los estimadores, su nivel
de significancia expresado en * y en paréntesis los estadísticos t. De esta comparación
vemos que la primera regresión genera estimadores distintos a los ‘correctos’ estimados
al considerar todo el diseño muestral. Si solo consideramos el factor de expansión como
un peso entonces obtenemos los coeficientes correctos pero no obtenemos los errores
estándar correctos.

Ojo: Explore las opciones de esttab para editar esta tabla logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 42 / 47
Replicando estadísticas oficiales del INEI usando ENAHO
Como aplicación vamos a replicar algunos estadísticos oficiales del INEI usando la
ENAHO junto a su diseño muestral. Particularmente nos enfocaremos en el porcentaje
de población en situación de pobreza monetaria, según ámbito geográfico para el 2018.

En este caso apuntamos a replicar la columna para el 2018. logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 43 / 47
Vamos a usar el módulo de ‘Sumarias’ de la ENAHO 2018. Este módulo hace un
resumen de distintas variables recolectadas en otros módulos. Adicionalmente incluye
algunas variables ya trabajadas como la condición de pobreza para cada hogar1 . Antes
de hacer los estimados hay que definir el diseño muestral

En este caso tenemos que hacer un ajuste previo al factor de expansión para que se
estime a nivel de hogar. Se debe multiplicar el factor de expansión por el número de
miembros por hogar y considerar esto como nuevo factor de expansión.

1
OJO: Los módulos de la ENAHO pueden estar a nivel de hogar, a nivel de vivienda
logoinfox.png

o nivel individual. En el caso de Sumarias, se encuentra a nivel de hogar


José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 44 / 47
Creamos las variables de pobreza a partir de la clasificación propia de la ENAHO:

Creamos una serie de categorías para Lima Metropolitana, para urbano/rural, para
región natural y región natural cruzado con urbano/rural.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 45 / 47
Usamos el comando mean para obtener el estimador del promedio. Adicionalmente,
usamos la opción , over() para las categorías sobre las cuales obtener el promedio
estimado.

Con esto se obtienen los mismos resultados que en las estadísticas oficiales del INEI.
Tomemos como ejemplo los estimados sobre dominio y urbano/rural.

logoinfox.png

José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 46 / 47
La definición para cada valor de _subpoop_ está dado en el mismo resultado. Por
ejemplo _subpoop_1 sería Costa Urbana.

En estos casos también podemos comparar los intervalos de confianza de cada estimador
logoinfox.png
presentados tanto en las estadísticas oficiales como en los resultados del código.
José Mendoza Sánchez (INFOX) Stata: Desde básico hasta avanzando Semana 4 - Parte 1 47 / 47

También podría gustarte