Guia POF

Pontificia Universidad Católica de Chile
Departamento de Ingenierı́a Industrial y de Sistemas

ICS2563 - Econometrı́a Aplicada
Sección 1
Guı́a Potential Outcomes Framework

Fecha de publicación: 25/04/2022
1° semestre 2023 - Profesor Patricio Domı́nguez
Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl
Resumen
Como ya se ha comentado en clases, el análisis econométrico tı́picamente busca establecer relaciones causales
entre una variable dependiente o de interés, y una serie de variables explicativas o independientes. Esto en
un modelo de regresión lineal se conoce como una regresión de y sobre x, donde y es una variable dependiente
de x, y x es una variable independiente. Sea i = 1, ..., n, luego se puede escribir el modelo de regresión lineal
simple como:
yi = α + βxi + µi (1)
También puede escribirse en su versión múltiple como:
yi = α + β1 x1,i + ... + βk xk,i + µi (2)
Y también puede ser representado matricialmente:
Y = βX + µ (3)
donde Y es un vector columna con valor yi en la componente i; X es una matriz rango completo de tamaño
n×k, donde la entrada i, j de X corresponde a xj,i . Si se quiere añadir intercepto entonces la columna 1 de X
corresponde a 1, el vector columna de 1’s de tamaño n; β es un vector columna de tamaño n con coeficientes
a estimar asociados a cada xi ; µ es un vector columna de tamaño n con valor µi en la componente i.
Ahora, para que al estimar una regresión como las presentadas anteriormente efectivamente la estimación del
parámetro de interés represente causalidad (que es el objetivo) se requiere ir más allá que estimar simplemente
por Mı́nimos Cuadrados Ordinarios (MCO), ya que este método tiene supuestos muy fuertes que no siempre
se cumplen en la práctica.
Habiendo introducido lo anterior, se puede pensar en cómo modelar el efecto de un “tratamiento” para poder
estimarlo posteriormente y encontrar el efecto causal de estar sometido al tratamiento. Por tratamiento se
entiende cualquier evento al que se somete un individuo, sea una persona, una empresa, una familia, un
paı́s, etc. El tratamiento se representará como una variable binaria, es decir, si Ti es el tratamiento para
el individuo i, entonces i tiene un soporte en {0, 1} (notar la representación de conjunto y no de intervalo).
Más aún, por convención se dirá que el tratamiento Ti tomará el valor 1 si el individuo i es tratado, y 0
si aquel individuo no es tratado. Ası́, el resultado potencial (o más conocido en el inglés como potential
outcome) del tratamiento se puede escribir como:
(
Y1,i si Ti = 1
resultado potencial = potential outcome = (4)
Y0,i si Ti = 0
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl
Debe entenderse que el tratamiento puede ser desde recibir un subsidio estatal hasta quedar bajo el puntaje
de corte para entrar en alguna determinada carrera en alguna universidad, es decir, puede representar muchas
cosas. El estudio causal quiere conocer la diferencia entre Y1,i y Y0,i pero como nunca podremos observar
al individuo i como tratado y no tratado, se revisa la diferencia en promedios de tratados y no tratados. A
continuación se define el resultado observado Yi del individuo i
(
Y1,i si Ti = 1
Yi = (5)
Y0,i si Ti = 0
Yi = Y0,i + (Y1,i − Y0,i )Ti (6)
De esta manera, la ecuación (6) es equivalente a la ecuación (5). Sea δi = Y1,i − Y0,i , puede notarse que δi
representa el efecto que tiene el tratamiento sobre el individuo i, el que nunca se puede observar directamente
porque (una vez más) no se conoce al individuo i como tratado y no tratado. A partir de lo dicho, se definen
tres parámetros de interés:
a) Average Treatment Effect (ATE), o efecto promedio del tratamiento.

b) Average Treatment on the Treated (ATT), o efecto promedio sobre los tratados.
c) Average Treatment on the Untreated (ATU), o efecto promedio sobre los no tratados.
Dada una intervención o tratamiento, lo que se puede conocer es lo siguiente:

E[Y1,i | Ti = 1] − E[Y0,i | Ti = 0] = E[Y1,i | Ti = 1] + E[Y0,i | Ti = 1] − E[Y0,i | Ti = 1] − E[Y0,i | Ti = 0]
| {z }
Equivalente a sumar 0
= E[Y1,i | Ti = 1] − E[Y0,i | Ti = 1] + E[Y0,i | Ti = 1] − E[Y0,i | Ti = 0] (7)

| {z } | {z }
ATT Sesgo de selección
El sesgo de selección “ensucia” la resta original de promedios, evitando que al estimarse la resta con una
muestra en la base de datos se obtenga el promedio del efecto del tratamiento sobre los tratados. Cuando se
comparan personas que fueron sometidas al tratamiento con gente que no lo fue, se confunde el efecto real
del tratamiento con las diferencias intrı́nsecas de las personas tratadas y no tratadas. La inferencia causal
busca eliminar dicho sesgo mediante técnicas econométricas que permitan identificar al menos el ATT. Para
lograr esto se debe construir un “contrafactual”. De esta manera, se define el ATT como:
ATT = E[Y1,i | Ti = 1] − E[Y0,i | Ti = 1] (8)
Y puede notarse de la ecuación (8) que el término en color rojo nunca será observado en la práctica, ya que
no se puede observar una persona tratada en su versión no tratada. Este es el contrafactual que se quiere
construir.
Por otra parte, se define el ATU como:
ATU = E[Y1,i | Ti = 0] − E[Y0,i | Ti = 0] (9)
Nuevamente, en la ecuación (9) el término en color rojo no puede ser observado. En este caso el contrafactual
serı́a ese término.
Finalmente se puede analizar un caso especial, aquel donde la asignación del tratamiento es aleatoria a la
población. En este caso, el tratamiento Ti es independiente del resultado potencial del individuo i. De esa
manera se puede utilizar la ecuación (7) con esta información:
:0

E[Y1,i | Ti = 1] − E[Y0,i | Ti = 0] = E[Y1,i ] − E[Y0,i ] + E[Y0,i
] −

E[Y0,i ]
| {z }
Sesgo de selección
= E[Y1,i − Y0,i ]
= E[δi ] (10)
2
Entonces se puede definir el ATE como:
ATE = E[Y1,i − Y0,i ] (11)
Puede notarse además que por la derivación realizada en (10), se tiene que, si el tratamiento es independiente
del resultado potencial del individuo i, entonces ATE = ATT = ATU.
Si se supone que el tratamiento es igual para cada individuo, se puede escribir la ecuación (6) según la
siguiente regresión:
yi = α + βTi + µi (12)
donde α = E[Y0,i ], β = Y1,i − Y0,i = δi , Ti es la variable binaria que indica si el individuo i fue tratado o no
y µi = Y0,1 − E[Y0,i ] es el término del error. Puede recordarse que uno de los supuestos de los estimadores
MCO en una regresión lineal indica que la esperanza condicional del error es cero, lo que se traduce en:
E[µi | Ti ] = E[Y0,1 − E[Y0,i ] | Ti ] = 0 (13)
Lo que se logra cuando la asignación es independiente del outcome potencial y ası́, al estimar por MCO se
obtendrı́a el coeficiente β̂ estimado que reflejarı́a el ATE.
3
Ejercicios
1. Para este ejercicio se le pedirá simular una intervención con un outcome de interés, un grupo de tratados,
uno de controles, un tratamiento y otras variables que se usarán como controles en las estimaciones
pertinentes. Para ello, realice los siguientes pasos en el software de su preferencia (para efectos del
curso, utilice solamente, R o Stata):
(a) Cree una variable binaria t de tamaño 1000 que indique un tratamiento aleatorio (por medio de
una distribución uniforme). La variable deberı́a tener valores igual a 1 (simulando tratados) y
0 (simulando controles). Hint: Puede utilizar el comando runif(1000) en R o uniform() para
1000 observaciones en Stata.
(b) Tome una muestra de tamaño 1000 provenientes de una distribución N (6, 3). Esta muestra
corresponderá a su variable dependiente y, es decir, el outcome, pero sin haber recibido aún el
tratamiento.
(c) Designe el efecto del tratamiento como treat = 3. Puede interpretar esto como que las personas
que recibirán el tratamiento tendrán un aumento de 3 en su variable outcome.
(d) Asigne mediante su variable t el tratamiento a las 1000 personas de la muestra. Para ello, cree
una nueva variable y_obs igual al outcome obtenido en (b), y mediante t asigne a los tratados un
aumento de treat en el outcome, que será guardado en esta nueva variable y_obs. Hint: Para R,
le puede ser de utilidad la función ifelse().
(e) Ahora haga un poco de trampa; Cree un contrafactual y_contf que corresponde al outcome que
tendrı́an los controles si se hubiesen tratado y al outcome que tendrı́an los tratados si no hubiesen
recibido el tratamiento.
Recomendación: Para un mejor trabajo de los datos y las simulaciones, considere utilizar
la función data.frame() de R.
Con la información obtenida de la base de datos, responda lo siguiente:
(a) Con las distintas variables asociadas a outcomes que tiene, genere una nueva que muestre el
efecto del tratamiento para cada una de las observaciones independiente de si trate de un indi-
viduo tratado o control, utilice su contrafactual. Como se dará cuenta, deberı́a obtener que el
tratamiento es de 3 para cada individuo.
(b) Considerando solamente el outcome observado (y_obs), ejecute una expresión para el Average
Treatment Effect, ¿es igual al valor del efecto del tratamiento? ¿Por qué?
(c) Repita lo anterior pero solamente para el contrafactual, ¿Qué ocurre con el ATE? ¿es igual al
valor del efecto del tratamiento? ¿por qué?
(d) Ahora corra una regresión entre el outcome observado y la asignación del tratamiento, ¿qué valor
tiene el coeficiente que acompaña a la variable del tratamiento? ¿A cuál de los dos calculados
anteriormente es igual? ¿Es igual al ATE? Explique su respuesta.
(e) Considerando lo anterior, ¿por qué aún cuando el efecto tratamiento es determinı́stico la esti-
mación del ATE entrega un coeficiente distinto del efecto? En otras palabras, ¿de dónde viene la
variación en la estimación?
2. Para las siguientes preguntas no se requiere usar las variables anteriores. Realice 1000 veces el siguiente
procedimiento:
• Para 1000 observaciones, asigne aleatoriamente cuáles serán tratadas y cuáles controles mante-
niendo la proporción de 0,5 entre tratados y controles.
• Cree un efecto tratamiento determinı́stico de 5.
4
• Cree una variable outcome con distribución normal de media 6 y desviación estándar de 6 sin
efecto tratamiento aún.
• Genere una variable de outcome observado para tratados y controles una vez que se realice el
tratamiento.
• Corra una regresión entre el outcome observado y la asignación al tratamiento.
• Guarde en un vector el coeficiente que acompaña a la variable de tratamiento (el objetivo es que
este vector incluya los coeficientes de las 1000 estimaciones, luego cada observación del vector es
el coeficiente de cada estimación).
Una vez que se haya realizado 1000 veces el procedimiento, grafique en un histograma los coeficientes
estimados y responda:
(a) ¿Dónde se concentra la mayor cantidad de coeficientes estimados? ¿Por qué?
(b) ¿Por qué razón cree usted que el gráfico adquiere esa forma?
(c) ¿Cuál es la media de los coeficientes estimados? ¿Y la mediana? ¿Se parecen?
Realice el mismo procedimiento anterior solo que ahora defina el tratamiento como una variable aleato-
ria que distribuye normal con media 5 y desviación estándar 1. A partir de ello responda:
(a) ¿Dónde se concentra la mayor cantidad de coeficientes estimados? ¿Por qué?
(b) ¿Cuál es la media de los coeficientes estimados? ¿Y la mediana? ¿Se parecen?
(c) Compare su gráfico con el gráfico obtenido con el procedimiento anterior y explique las diferenci-
as/similitudes.
3. Vuelva al caso en que el efecto es determinı́stico. Ahora se analizará el comportamiento de los errores
estándar del coeficiente estimado en la medida que cambia la proporción de tratados y controles.
Grafique cómo se comportan los errores estándar a medida que aumenta la proporción de tratados y
controles, en base al gráfico responda ¿Qué proporción de tratados y controles es la que minimiza el
error estándar?
4. Para las preguntas que vienen, se comparará la estimación en tres casos distintos; una regresión lin-
eal simple, una regresión lineal múltiple con regresores relevantes y una regresión lineal simple con
regresores irrelevantes. Realice el siguiente procedimiento 1000 veces:
• Para 1000 observaciones y un efecto tratamiento aleatorio que distribuye N (5, 1), defina 3 re-
gresores x que distribuyan respectivamente: N (10, 3), N (2, 1), N (7, 3). Defina 3 regresores z de
la misma forma que los x de acuerdo a las siguientes distribuciones respectivamente: N (12, 5),
N (6, 2), N (1, 0).
• Defina su outcome y previa al tratamiento como la suma de una Normal estándar y los tres
regresores x. Este es el DGP que nunca se conoce.
• Defina con una nueva variable a los tratados y controles de manera que aproximadamente la mitad
sean tratados y la otra mitad controles (puede utilizar los métodos de los ejercicios anteriores).
• Aplique el tratamiento a las observaciones correspondientes definiendo una nueva variable y ob-
servada.
• Haga tres regresiones distintas: y observado con la variable tratamiento, y observado con la
variable tratamiento y los regresores x, y por último el outcome observado con los regresores z
(Sin incluir los x). Guarde el coeficiente estimado de cada una en vectores distintos.
Antes de seguir responda ¿cuál de las tres regresiones cree usted que tendrá la estimación más precisa
y cuál será la menos precisa? ¿por qué?
5
Una vez que haya terminado el procedimiento, realice un histograma para cada vector de coeficientes y
responda ¿Cuál es efectivamente la estimación más y menos precisa? ¿Cómo cambia la regresión simple
si se incorporan regresores relevantes? ¿Y si se incorporan regresores irrelevantes? ¿Cómo cambia su
respuesta si los regresores z tienen la misma media y varianza que los x, pero siendo distintas entre
cada observación? (Simule esta última parte).
5. Para la siguiente pregunta se evaluará cómo cambia la estimación cuando se usa una parte de la
muestra a la que no afectó el tratamiento o afectó de otra manera, es decir, se revisará cómo cambia
la estimación cuando hay heterogeneidad en el tratamiento.
Realice el mismo procedimiento que en 1., pero ahora además se definirá un subgrupo de tratados como
“old” (suponga que es un tratamiento que no tiene efectos sobre la tercera edad), defina “old” como
una uniforme continua [0,1] en que el 30% de los individuos sean old (old==1). Estime el ATE igual
que en 1. ¿Cómo cambia la estimación? Explique la dirección del sesgo.
Ahora, en su regresión para el ATE incluya “old” como otro regresor adicional ¿Es la estimación ahora
insesgada? ¿Por qué? Explique cómo se debe modelar la heterogeneidad para encontrar el verdadero
efecto tratamiento promedio y estime la regresión correspondiente.
A continuación realice un loop en que vaya cambiando la proporción de old en términos porcentuales
(que parta siendo un 1% old y que termine siendo un 100%). Guarde los coeficientes de las estimaciones
y realice un gráfico que muestre cómo se comporta el coeficiente estimado a medida que aumenta la
proporción de “old”.
6. En econometrı́a generalmente se dice que dentro del Potential Outcomes Framework, los efectos solo
pueden entenderse empı́ricamente en relación con las variables causales que han sido manipuladas de
alguna manera. A esta afirmación se le conoce como No causation without manipulation. Responda a
partir de ella y sus conocimientos en econometrı́a y estadı́stica las siguientes preguntas:
(a) Explique por qué esta noción de “manipulación” es tan importante.

(b) ¿Cuáles son los efectos de esto para la investigación de atributos relativamente estables de personas
tales como fenotipo (color de piel) o género?
7. Se realizó un estudio con los y las estudiantes de cálculo I para evaluar el impacto del la tutorı́a de
cálculo del programa CARA (Centro de Apoyo al Rendimiento Académico y Exploración Vocacional
para los alumnos de la UC). Los estudiantes de cálculo I se dividieron en dos grupos: el grupo de
tratamiento asistió obligatoriamente a la tutorı́a de cálculo I y el grupo de control no asistió (no
podı́an asistir aunque quisieran). Además, se realizaron dos tutorı́as, una para la I1 y otra para la I2,
en la que distintos grupos de estudiantes fueron asignados (es decir, no necesariamente los estudiantes
que asistieron la tutorı́a de la I1 les correspondió asistir a la tutorı́a de la I2, y viceversa). Se sabe
además que el rendimiento en la I2 e I3 también está determinado por el rendimiento en la I1, la edad,
si es o no primera vez que el estudiante da el ramo, y si el estudiante consume o no cafeı́na.
La base de datos ”CARA.dta” contiene los datos recopilados de este estudio. Las variables en la base
de datos se describen a continuación:
6
Variable Descripción
1 si el estudiante consume cafeı́na
cafeina
0 si el estudiante no consume cafeı́na
edad edad del estudiante
1 si el estudiante está dando el ramo por segunda vez
segunda vez
0 si el estudiante está dando el ramo por primera vez
1 si el estudiante fue asignado a la tutorı́a de la I2
trat I2
0 si el estudiante no fue asignado a la tutorı́a de la I2
1 si el estudiante fue asignado a la tutorı́a de la I3
trat I3
0 si el estudiante no fue asignado a la tutorı́a de la I3
nota I1 nota del estudiante en la I1
Utilizando RStudios o Stata, responda:
(a) A través de un análisis descriptivo, compare la asignación de tutorı́as para la I2 y la I3.

(b) A través de un test de hipótesis nula, determine si la diferencia de medias son iguales. Además,
determine si la asignación de las tutorı́as está balanceada o no. Haga test de hipótesis tanto para
la tutorı́a de la I2 y como para la de la I3.
(c) En caso de que alguna de las dos asignaciones estuviese desbalanceada, ¿según qué variables se
escogieron los participantes de las tutorı́as? ¿qué criterios se utilizaron para seleccionarlos?
(d) Calcule el ATE a través de una regresión lineal para la tutorı́a balanceada.
(e) Al hacer obligatoria las tutorı́as para los estudiantes asignados y prohibiendo a los estudiantes no
asignados a ir a las tutorı́as, ¿qué problema que se está tratando de evitar en el estudio? ¿qué
amenazas podrı́a seguir teniendo el diseño de este estudio?
7
Referencias
[Angrist and Pischke, 2008] Angrist, J. D. and Pischke, J.-S. (2008). Mostly harmless econometrics.
Princeton university press.
[Cunningham, 2020] Cunningham, S. (2020). Causal inference. The Mixtape, 1.
Agradecimiento especial a Lucas Contardo por proporcionar la base de los ejercicios.

Guia POF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guia POF

Cargado por

Copyright:

Formatos disponibles

Pontificia Universidad Católica de Chile

Departamento de Ingenierı́a Industrial y de Sistemas

Guı́a Potential Outcomes Framework

También puede escribirse en su versión múltiple como:

yi = α + β1 x1,i + ... + βk xk,i + µi (2)

Y también puede ser representado matricialmente:

a) Average Treatment Effect (ATE), o efecto promedio del tratamiento.

Dada una intervención o tratamiento, lo que se puede conocer es lo siguiente:

= E[Y1,i | Ti = 1] − E[Y0,i | Ti = 1] + E[Y0,i | Ti = 1] − E[Y0,i | Ti = 0] (7)

Entonces se puede definir el ATE como:

ATE = E[Y1,i − Y0,i ] (11)

E[µi | Ti ] = E[Y0,1 − E[Y0,i ] | Ti ] = 0 (13)

(a) Explique por qué esta noción de “manipulación” es tan importante.

Utilizando RStudios o Stata, responda:

(a) A través de un análisis descriptivo, compare la asignación de tutorı́as para la I2 y la I3.

También podría gustarte