Está en la página 1de 6

Econometría II – Período 2024-10

Profesor: Jorge Bonilla, jobonill@uniandes.edu.co


Profesor: Jorge Rueda, ja.rueda929@uniandes.edu.co
Profesor: Daniel Gamboa, d.gamboa2654@uniandes.edu.co
Profesor: Luis Felipe González, lf.gonzalez1@uniandes.edu.co
Profesora:Diana Lucía Sánchez, dl.sanchezr1@uniandes.edu.co
Monitora: Laura Ríos, l.riosm@uniandes.edu.co
Monitor: Edmundo Arias, e.ariasd@uniandes.edu.co
Monitor: Pablo Ojeda, p.ojeda@uniandes.edu.co
Monitora: Catalina Leal, c.lealr@uniandes.edu.co

Taller 1
 Fecha de entrega: miércoles 21 de febrero antes de las 5:59 p.m.
 Los talleres deberán ser colgados a Bloque Neón al link que designará el equipo docente.
 El desarrollo de la parte teórica se puede realizar a computador (word); o a mano,
subiendo una foto o una página escaneados con buena resolución. En el segundo caso,
por favor elaborar el taller a esfero para que sea fácilmente legible.
 Se debe subir un solo archivo que compile la solución de la parte teórica y la práctica.
 En Bloque Neón se encuentra el formato para la elaboración de talleres, la rúbrica
general y la rúbrica específica de este taller con la cuál será evaluado.

Parte teórica
1. Considere el siguiente modelo:
𝑦 =𝛽 +𝛽 𝑥 +𝛽 𝑡 +𝜀 (1)
Donde se supone que 𝜀 ∼ 𝑁(0, 𝜎 ).
Sin embargo, en la recolección de datos de la variable 𝑡 presentó una anomalía, de tal forma
que solo se tienen valores disponibles de 𝑡 ∗ , donde 𝑡 ∗ = 𝑡 + 𝜇 , con 𝜇 ∼ 𝑁(0, 𝜎, ). Para las
variables 𝑦 y 𝑥 , la recolección fue exitosa. Según la información anterior, su equipo
investigador tiene dos opciones: (i) no incluir la variable con error de medición en la
estimación, o (ii) incluirla esa variable a pesar del error de medición. Para decidir sobre cual
es la mejor opción, y considerando que el modelo 1 es el correcto, su equipo plantea las
siguientes ecuaciones de regresión a estimar:
𝑦 = 𝛼 +𝛼 𝑥 +𝑢 (2)
𝑦 = 𝛾 + 𝛾 𝑥 + 𝛾 𝑡∗ + 𝑣 (3)
Responda las siguientes preguntas:
a. Obtenga los estimadores de la ecuación 1 (𝛽 , 𝛽 y 𝛽 ) por Mínimos Cuadrados
Ordinarios, mediante el enfoque de sumatorias. Tenga en cuenta que la solución solo
depende de 𝑥 , 𝑦 , 𝑡 y sus respectivas medias. Sea claro en el uso de cada supuesto que
utilice para llegar a la respuesta.
b. Pruebe si 𝛼 es un estimador consistente del parámetro poblacional 𝛽 . Considere además
de los supuestos clásicos que 𝑡 y 𝑥 se correlacionan. De no ser consistente, calcule el
sesgo asintótico.
c. Pruebe si 𝛾 es un estimador consistente de 𝛽 . Considere además de los supuestos clásicos
que 𝑡 y 𝑥 se correlacionan. De no ser consistente, calcule el sesgo asintótico.
d. Mencione en una tabla comparativa bajo qué supuestos los estimadores 𝛼 y 𝛾 son
consistentes del parámetro poblacional 𝛽 .
e. A partir de la información anterior, concluya bajo que supuestos y condiciones sería
preferible utilizar el modelo 2 o el modelo 3.
f. A partir del modelo 1, asuma que el estimador 𝛽 es insesgado respecto al parámetro
poblacional 𝛽 y demuestre que la varianza del estimador 𝛽 esta dado por:
𝜎
𝑉𝑎𝑟 𝛽 𝑋 = (4)
∑ (𝑥 − 𝑥̅ ) 1 − 𝜌 ,
Donde 𝜌 , es el coeficiente de correlación al cuadrado entre 𝑥 y 𝑡.

2. Considere el siguiente modelo:


𝑌 = 𝑋 𝛽 + 𝑋𝛽 + 𝑈 (1)
[𝑛 × 1 ] = [𝑛 × 𝑟][𝑟 × 1] + [𝑛 × 𝑠][𝑠 × 1] + [𝑛 × 1]
Pero por equivocación usted estima:
𝑌 = 𝑋 𝛽 + 𝑈 (2)
a. Demuestre el insesgamiento del vector de estimadores del modelo 2.
b. Demuestre la consistencia del vector de estimadores del modelo 2.
c. ¿Cómo cambia la consistencia del vector de estimadores del modelo 2 si 𝑋 ⊥ 𝑋 .

3. Una profesora está interesada en estudiar el efecto que puede tener la inclusión de cláusulas
de honestidad al principio de exámenes sobre el desempeño de los estudiantes. Algunos
estudios han mostrado que incluir una declaración sobre la honestidad al momento de
informar o realizar actividades puede tener un efecto disuasorio sobre los individuos en
diversos contextos. En particular, sobre el comportamiento individual al momento de reportar
información privada o de realizar ciertas actividades que tienen algún tipo de premio. De esta
forma, se busca estudiar si la inclusión de un breve enunciado relativo a la honestidad
individual puede tener efectos sobre los resultados de estudiantes universitarios. Sea 𝐷 = 0
cuando el examen no tiene cláusula de honestidad, y 𝐷 = 1 cuando el examen cuenta con
( ) ( )
cláusula de honestidad. Sean 𝑌 y 𝑌 los resultados potenciales de haber recibido un
( ) ( )
examen con cláusula de honestidad o no, respectivamente. Supongamos que 𝑌 y𝑌 son
variables aleatorias i.i.d. Recuerde que para cada estudiante se cumple que:
( ) ( )
𝑌 =𝐷𝑌 + (1 − 𝐷 )𝑌

Además, se tiene que el efecto promedio de tratamiento para los tratados (ATT) es:
( ) ( )
𝜏 =𝐸 𝑌 𝐷 =1 −𝐸 𝑌 𝐷 =1
A continuación, se presentan las definiciones que se deben usar para la demostración:
a) Muestre que 𝜏̂ es un estimador consistente de 𝜏. Explique intuitivamente que significa
esta propiedad y por qué es deseable en un estimador. PISTA: Utilice la ley débil de
grandes números.

4. Considere el siguiente modelo de regresión:

𝑌[ × ] = 𝑋[ × ] 𝛽[ × ] + 𝐸[ × ] (8)

Donde 𝑌 corresponde al vector de resultado, 𝑋 es la matriz de 𝑘 variables exógenas1 y 𝑔


variables endógenas y 𝐸 es el vector de error. Para solucionar el problema de endogenidad
se usa una matriz 𝑍 de tamaño 𝑛 x 𝑘 + 𝑧, donde 𝑧 es el número de variables instrumentales.

Suponga que el modelo está exactamente identificado.

a. Obtenga el estimador de variables instrumentales 𝛽 .


b. Demuestre que el estimador de variables instrumentales 𝛽 es insesgado y consistente.
c. Obtenga el estimador de Mínimos Cuadrados en 2 Etapas 𝛽 .

Ahora suponga que el modelo está sobre identificado.

d. Exprese los estimadores de Mínimos Cuadrados en 2 Etapas. Además, explique la razón


por la cual no se puede simplificar la expresión contrario al caso anterior.
e. Demuestre que los residuales del modelo instrumentado se pueden expresar como 𝐸 =
[𝐼 − 𝑋(𝑍 𝑋) 𝑍′]𝐸, donde 𝐼 es la matriz identidad y 𝑍 es la matriz de corrección del
problema de endogeneidad.

Ejercicios para estudiantes que toman la clase con 4 CRÉDITOS


5. Usando el enunciado del ejercicio 4
a. Demuestre que la varianza estimada del error del modelo instrumentado, 𝜎 es un
estimador consistente de la varianza del error 𝜎 .
b. Demuestre que la matriz varianza-covarianza de los estimadores de variables
instrumentales, 𝑉𝑎𝑟(𝛽 |𝑋, 𝑍) = 𝜎 (𝑋 𝑃 𝑋) , donde 𝑃 = 𝑍(𝑍 𝑍) 𝑍′.
c. Demuestre que 𝛽 = 𝛽 = (𝑍 𝑋) 𝑍′𝑌 cuando el número de variables endógenas
es igual al de variables instrumentales

6. Considere el modelo de regresión simple 𝑦 = 𝛽 + 𝛽 𝑥 + 𝜀 . , donde x es endógena y cuenta con


instrumento z. Suponga que tanto 𝑥 y 𝑧 son variables dicótomas. Demuestre que el estimador 𝛽

1
Tenga en cuenta que la primera columna corresponde al vector de 1, el cual corresponde al intercepto
está dado por

𝑦 −𝑦 (6)
𝛽 =
𝑥̅ − 𝑥̅

Donde 𝑦 y 𝑥̅ son los promedios de 𝑦 y 𝑥 sobre la parte de la muestra que 𝑧 = 0, 𝑦 y


𝑥̅ son los promedios de 𝑦 y 𝑥 sobre la parte de la muestra que 𝑧 = 1.

Parte práctica
1. El Archivo “salario_pto1.dta” contiene información sobre el salario en una muestra de 5000
personas. Con esta información, se quiere identificar si haber estudiado en un colegio bilingüe
permite que las personas tengan un mejor salario cuando entran al mercado laboral, ya que en la
actualidad el bilingüismo puede ser una cualidad muy valorada en el mercado laboral. Las
variables disponibles en la base de datos son el identificador de la persona (id), el salario en pesos
(salario), una variable dicótoma que toma el valor de 1 si la persona estudió en un colegio
bilingüe (colegiob), o el valor de 0 en caso contrario, la edad (edad), los años experiencia (exper)
y una variable dicótoma que tomar el valor de 1 si uno de los padres de la persona estudiaron en
un colegio bilingüe (padreb), o el valor de 0 en caso contrario.

En este caso el problema a analizar se puede pensar como un experimento si el tratamiento se


define como haber estudiado en un colegio bilingüe. Por lo tanto, el objetivo consiste en
identificar si existe un efecto causal sobre el salario. Para esto, se tiene el siguiente modelo:
𝑦 = 𝛿 ∗ 𝑐𝑜𝑙𝑒𝑔𝑖𝑜𝑏 + 𝕏𝔹 + 𝜀 (1)
Donde 𝑦 hace referencia a variable resultado salario. 𝕏 es una matriz que contiene las covariables
(edad y exper), las cuales se asumen exógenas. Con esta especificación realice los siguientes
literales:

a. Estime el efecto promedio del tratamiento (ATE) a partir del modelo 1 e interprete los
resultados.
b. Explique los supuestos necesarios para concluir que el efecto encontrado es casual. ¿Se
cumplen para este caso? ¿Son los dos grupos similares en las características observables?
¿y que se puede decir de los grupos respecto a las características no observables?
Un investigador donde usted trabaja indica que podría existir sesgo de selección a la hora de
evaluar el efecto causal del tratamiento. Así mismo, le propone que aborde el problema usando
la técnica de variables instrumentales (IV) para solucionar el problema.
c. Explique de manera intuitiva a qué se refiere su colega al decir que puede existir sesgo
de selección.
d. Explique la relación entre el sesgo de selección, la endogeneidad, y cómo esto afectaría
el resultado del literal a.
e. Explique brevemente por qué el enfoque de IV puede solucionar el problema derivado
del sesgo de selección.

Usted considera que la variable padreb podría ser un posible instrumento. Responda las siguientes
preguntas:.
f. Explique por qué la variable de padreb podría ser un buen instrumento.
g. Plantee las ecuaciones de la primera y segunda etapa del enfoque de variables
instrumentales. Nota: Sea claro en la notación que va a utilizar.
h. Realice la estimación del modelo 1 utilizando la variable instrumental padreb. Presente
e interprete los resultados de la primera y segunda etapa (significancia individual y
global y signos).
i. A partir de los resultados encontrados mencione si el instrumento es relevante ¿Es
razonable pensar que no se presenta el problema de instrumentos débiles?
j. Cree que se cumple el supuesto de exogeneidad del instrumento. Argumente
k. Explique por qué podría interpretarse el efecto encontrado en el literal h como un Efecto
Promedio Local del Tratamiento (LATE). Mencione las ventajas o desventajas del
estimador LATE frente al estimador ATE.
l. A partir de todos los resultados encontrados, indique si su estrategia de estimación logró
resolver el problema de selección mencionado previamente.

2. El archivo “punto2.dta” contiene información sobre 5.000 trabajadores en Portugal, con respecto
a los salarios (income), la edad (age), los años de educación (educ), la experiencia (exper) y la
habilidad de un individuo en un examen estandarizado del Estado (exam). Se desea conocer cual
es la mejor especificación (forma funcional) para explicar el comportamiento de los salarios de
los trabajadores, para lo cual se plantean los modelos lin-lin, log-log y log-lin. La variable
dependiente es el salario y las explicativas son: edad, educación, y experiencia.

a. Estime los modelos planteados e interprete los resultados (significancia global e


individual, signos, etc.).
b. Realice un análisis de correlación entre la variable de exam y el resto de variables
explicativas del modelo log-lin. Concluya a partir de las pruebas de hipótesis para los
distintos coeficientes de correlación.
c. Suponga que ya no tiene la variable de años de educación en su modelo, ¿Cómo afecta
esta variable omitida a los estimadores encontrados? ¿Es una variable omitida relevante?
d. ¿Cuál es el modelo que considera más adecuado? Pista: Realice una comparación con los
resultados del literal a. Sea explicito en los criterios que está utilizando.

Por otro lado, dado su alto conocimiento en métodos cuantitativos, los contrata Fedesarrollo para
un proyecto de investigación. En concreto, la Alcaldía de Puerto Asís, Putumayo, identificó que
hay altas tasas de deserción de los estudiantes de grado sexto en los colegios públicos del
municipio. Para combatir este fenómeno, la Secretaría de Educación implementó durante el 2023
un programa que consistió en ofrecer a los estudiantes de grado sexto cursos de refuerzo
voluntarios en su misma institución, al finalizar la jornada escolar. Sin embargo, por razones
presupuestales, el programa solo se implementó en 9 de los 31 establecimientos educativos del
municipio que se seleccionaron de manera aleatoria. Finalizando el programa en 2023, los
educadores que participaron afirmaron que los cursos habían tenido una fuerte acogida entre los
estudiantes y expresaron satisfacción con los resultados del programa.

Para la vigencia de 2024, la Alcaldía está evaluando ampliar este programa para los 31 colegios.
De esta manera, se le solicita medir el efecto que los cursos de refuerzo tuvieron sobre la deserción
escolar. Para esto, le proporcionan una base de datos con información reportada a nivel de colegio
(colegios_puerto_asis). Esta base de datos contiene las siguientes variables: un identificador para
cada uno de los colegios del municipio (idcolegio); una variable dicotómica igual a uno si en el
colegio se implementó el programa y cero de lo contrario (refuerzo); y la tasa de deserción
reportada para grado sexto por cada colegio en 2023 (desercion2023).

a. Para medir el impacto del programa en la tasa de deserción escolar de los estudiantes de
grado sexto, se le sugiere estimar un modelo de regresión lineal sin controles. Escriba la
ecuación que representa este modelo e indique que parámetro captura el efecto del
programa. Discuta sobre el tipo de efecto que se está estimando. ¿el efecto de ofrecer
clases de refuerzo voluntarias en los colegios es equivalente al efecto de asistir a estas
clases? Discuta sobre posibles sesgos en el segundo caso
b. Indique que supuestos se deben cumplir para que el parámetro a estimar identifique el
efecto del programa y discuta si es plausible que se cumplan en este caso. Discuta sobre
la posibilidad de que la tasa de deserción en los colegios que no son asignados al
tratamiento también sea afectada por este. ¿Cómo se afectaría en este caso la
identificación en el modelo clásico lineal?
c. Estime por MCO el modelo descrito en el literal a) e interprete los resultados. ¿Hay
evidencia de que el programa afecta la deserción escolar?
d. Ahora un compañero en Fedesarrollo le explica su preocupación por el tamaño de la
muestra. En concreto, se le explica que los métodos de inferencia clásicos están
orientados a hacer inferencia con muestras grandes, basándose en las propiedades
asintóticas de los estimadores y se le sugiere mirar la inferencia basada en aleatorización.
Estas metodologías se basan en analizar el efecto causal mediante la simulación de
escenarios ficticios. Se realizan N simulaciones de asignación aleatoria del tratamiento y
se calcula el efecto estimado de cada simulación. Luego, se compara el efecto estimado
del tratamiento real con la distribución de los efectos estimados de las simulaciones para
determinar si el efecto del tratamiento es significativo o si es azar.
i. Una forma de crear nuevas asignaciones que cumplan con esta condición es
generar permutaciones de la variable de asignación al tratamiento original. Para
empezar, genere una nueva variable llamada Dperm que sea una permutación
aleatoria de la variable refuerzos y asígnele la etiqueta “Placebo”. Estime el
impacto de Dperm sobre la deserción. Presente e interprete los resultados
ii. Compare el efecto de esta asignación ficticia del tratamiento con el efecto que
encontró para la real (inciso c). Asegúrese de establecer una semilla para que
sus resultados sean replicables.

También podría gustarte