Está en la página 1de 8

Pontificia Universidad Católica de Chile

Departamento de Ingenierı́a Industrial y de Sistemas


ICS2563 - Econometrı́a Aplicada
Sección 1

Guı́a Potential Outcomes Framework


Fecha de publicación: 25/04/2022
1° semestre 2023 - Profesor Patricio Domı́nguez
Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Resumen
Como ya se ha comentado en clases, el análisis econométrico tı́picamente busca establecer relaciones causales
entre una variable dependiente o de interés, y una serie de variables explicativas o independientes. Esto en
un modelo de regresión lineal se conoce como una regresión de y sobre x, donde y es una variable dependiente
de x, y x es una variable independiente. Sea i = 1, ..., n, luego se puede escribir el modelo de regresión lineal
simple como:

yi = α + βxi + µi (1)

También puede escribirse en su versión múltiple como:

yi = α + β1 x1,i + ... + βk xk,i + µi (2)

Y también puede ser representado matricialmente:

Y = βX + µ (3)

donde Y es un vector columna con valor yi en la componente i; X es una matriz rango completo de tamaño
n×k, donde la entrada i, j de X corresponde a xj,i . Si se quiere añadir intercepto entonces la columna 1 de X
corresponde a 1, el vector columna de 1’s de tamaño n; β es un vector columna de tamaño n con coeficientes
a estimar asociados a cada xi ; µ es un vector columna de tamaño n con valor µi en la componente i.
Ahora, para que al estimar una regresión como las presentadas anteriormente efectivamente la estimación del
parámetro de interés represente causalidad (que es el objetivo) se requiere ir más allá que estimar simplemente
por Mı́nimos Cuadrados Ordinarios (MCO), ya que este método tiene supuestos muy fuertes que no siempre
se cumplen en la práctica.
Habiendo introducido lo anterior, se puede pensar en cómo modelar el efecto de un “tratamiento” para poder
estimarlo posteriormente y encontrar el efecto causal de estar sometido al tratamiento. Por tratamiento se
entiende cualquier evento al que se somete un individuo, sea una persona, una empresa, una familia, un
paı́s, etc. El tratamiento se representará como una variable binaria, es decir, si Ti es el tratamiento para
el individuo i, entonces i tiene un soporte en {0, 1} (notar la representación de conjunto y no de intervalo).
Más aún, por convención se dirá que el tratamiento Ti tomará el valor 1 si el individuo i es tratado, y 0
si aquel individuo no es tratado. Ası́, el resultado potencial (o más conocido en el inglés como potential
outcome) del tratamiento se puede escribir como:
(
Y1,i si Ti = 1
resultado potencial = potential outcome = (4)
Y0,i si Ti = 0
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Debe entenderse que el tratamiento puede ser desde recibir un subsidio estatal hasta quedar bajo el puntaje
de corte para entrar en alguna determinada carrera en alguna universidad, es decir, puede representar muchas
cosas. El estudio causal quiere conocer la diferencia entre Y1,i y Y0,i pero como nunca podremos observar
al individuo i como tratado y no tratado, se revisa la diferencia en promedios de tratados y no tratados. A
continuación se define el resultado observado Yi del individuo i
(
Y1,i si Ti = 1
Yi = (5)
Y0,i si Ti = 0
Yi = Y0,i + (Y1,i − Y0,i )Ti (6)
De esta manera, la ecuación (6) es equivalente a la ecuación (5). Sea δi = Y1,i − Y0,i , puede notarse que δi
representa el efecto que tiene el tratamiento sobre el individuo i, el que nunca se puede observar directamente
porque (una vez más) no se conoce al individuo i como tratado y no tratado. A partir de lo dicho, se definen
tres parámetros de interés:

a) Average Treatment Effect (ATE), o efecto promedio del tratamiento.


b) Average Treatment on the Treated (ATT), o efecto promedio sobre los tratados.
c) Average Treatment on the Untreated (ATU), o efecto promedio sobre los no tratados.

Dada una intervención o tratamiento, lo que se puede conocer es lo siguiente:


E[Y1,i | Ti = 1] − E[Y0,i | Ti = 0] = E[Y1,i | Ti = 1] + E[Y0,i | Ti = 1] − E[Y0,i | Ti = 1] − E[Y0,i | Ti = 0]
| {z }
Equivalente a sumar 0

= E[Y1,i | Ti = 1] − E[Y0,i | Ti = 1] + E[Y0,i | Ti = 1] − E[Y0,i | Ti = 0] (7)


| {z } | {z }
ATT Sesgo de selección

El sesgo de selección “ensucia” la resta original de promedios, evitando que al estimarse la resta con una
muestra en la base de datos se obtenga el promedio del efecto del tratamiento sobre los tratados. Cuando se
comparan personas que fueron sometidas al tratamiento con gente que no lo fue, se confunde el efecto real
del tratamiento con las diferencias intrı́nsecas de las personas tratadas y no tratadas. La inferencia causal
busca eliminar dicho sesgo mediante técnicas econométricas que permitan identificar al menos el ATT. Para
lograr esto se debe construir un “contrafactual”. De esta manera, se define el ATT como:
ATT = E[Y1,i | Ti = 1] − E[Y0,i | Ti = 1] (8)
Y puede notarse de la ecuación (8) que el término en color rojo nunca será observado en la práctica, ya que
no se puede observar una persona tratada en su versión no tratada. Este es el contrafactual que se quiere
construir.
Por otra parte, se define el ATU como:
ATU = E[Y1,i | Ti = 0] − E[Y0,i | Ti = 0] (9)
Nuevamente, en la ecuación (9) el término en color rojo no puede ser observado. En este caso el contrafactual
serı́a ese término.
Finalmente se puede analizar un caso especial, aquel donde la asignación del tratamiento es aleatoria a la
población. En este caso, el tratamiento Ti es independiente del resultado potencial del individuo i. De esa
manera se puede utilizar la ecuación (7) con esta información:

 :0

E[Y1,i | Ti = 1] − E[Y0,i | Ti = 0] = E[Y1,i ] − E[Y0,i ] + E[Y0,i
 ] −
 
E[Y0,i ]
| {z }
Sesgo de selección

= E[Y1,i − Y0,i ]
= E[δi ] (10)

2
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Entonces se puede definir el ATE como:

ATE = E[Y1,i − Y0,i ] (11)

Puede notarse además que por la derivación realizada en (10), se tiene que, si el tratamiento es independiente
del resultado potencial del individuo i, entonces ATE = ATT = ATU.
Si se supone que el tratamiento es igual para cada individuo, se puede escribir la ecuación (6) según la
siguiente regresión:

yi = α + βTi + µi (12)

donde α = E[Y0,i ], β = Y1,i − Y0,i = δi , Ti es la variable binaria que indica si el individuo i fue tratado o no
y µi = Y0,1 − E[Y0,i ] es el término del error. Puede recordarse que uno de los supuestos de los estimadores
MCO en una regresión lineal indica que la esperanza condicional del error es cero, lo que se traduce en:

E[µi | Ti ] = E[Y0,1 − E[Y0,i ] | Ti ] = 0 (13)

Lo que se logra cuando la asignación es independiente del outcome potencial y ası́, al estimar por MCO se
obtendrı́a el coeficiente β̂ estimado que reflejarı́a el ATE.

3
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Ejercicios
1. Para este ejercicio se le pedirá simular una intervención con un outcome de interés, un grupo de tratados,
uno de controles, un tratamiento y otras variables que se usarán como controles en las estimaciones
pertinentes. Para ello, realice los siguientes pasos en el software de su preferencia (para efectos del
curso, utilice solamente, R o Stata):
(a) Cree una variable binaria t de tamaño 1000 que indique un tratamiento aleatorio (por medio de
una distribución uniforme). La variable deberı́a tener valores igual a 1 (simulando tratados) y
0 (simulando controles). Hint: Puede utilizar el comando runif(1000) en R o uniform() para
1000 observaciones en Stata.
(b) Tome una muestra de tamaño 1000 provenientes de una distribución N (6, 3). Esta muestra
corresponderá a su variable dependiente y, es decir, el outcome, pero sin haber recibido aún el
tratamiento.
(c) Designe el efecto del tratamiento como treat = 3. Puede interpretar esto como que las personas
que recibirán el tratamiento tendrán un aumento de 3 en su variable outcome.
(d) Asigne mediante su variable t el tratamiento a las 1000 personas de la muestra. Para ello, cree
una nueva variable y_obs igual al outcome obtenido en (b), y mediante t asigne a los tratados un
aumento de treat en el outcome, que será guardado en esta nueva variable y_obs. Hint: Para R,
le puede ser de utilidad la función ifelse().
(e) Ahora haga un poco de trampa; Cree un contrafactual y_contf que corresponde al outcome que
tendrı́an los controles si se hubiesen tratado y al outcome que tendrı́an los tratados si no hubiesen
recibido el tratamiento.
Recomendación: Para un mejor trabajo de los datos y las simulaciones, considere utilizar
la función data.frame() de R.
Con la información obtenida de la base de datos, responda lo siguiente:

(a) Con las distintas variables asociadas a outcomes que tiene, genere una nueva que muestre el
efecto del tratamiento para cada una de las observaciones independiente de si trate de un indi-
viduo tratado o control, utilice su contrafactual. Como se dará cuenta, deberı́a obtener que el
tratamiento es de 3 para cada individuo.
(b) Considerando solamente el outcome observado (y_obs), ejecute una expresión para el Average
Treatment Effect, ¿es igual al valor del efecto del tratamiento? ¿Por qué?
(c) Repita lo anterior pero solamente para el contrafactual, ¿Qué ocurre con el ATE? ¿es igual al
valor del efecto del tratamiento? ¿por qué?
(d) Ahora corra una regresión entre el outcome observado y la asignación del tratamiento, ¿qué valor
tiene el coeficiente que acompaña a la variable del tratamiento? ¿A cuál de los dos calculados
anteriormente es igual? ¿Es igual al ATE? Explique su respuesta.
(e) Considerando lo anterior, ¿por qué aún cuando el efecto tratamiento es determinı́stico la esti-
mación del ATE entrega un coeficiente distinto del efecto? En otras palabras, ¿de dónde viene la
variación en la estimación?
2. Para las siguientes preguntas no se requiere usar las variables anteriores. Realice 1000 veces el siguiente
procedimiento:
• Para 1000 observaciones, asigne aleatoriamente cuáles serán tratadas y cuáles controles mante-
niendo la proporción de 0,5 entre tratados y controles.
• Cree un efecto tratamiento determinı́stico de 5.

4
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

• Cree una variable outcome con distribución normal de media 6 y desviación estándar de 6 sin
efecto tratamiento aún.
• Genere una variable de outcome observado para tratados y controles una vez que se realice el
tratamiento.
• Corra una regresión entre el outcome observado y la asignación al tratamiento.
• Guarde en un vector el coeficiente que acompaña a la variable de tratamiento (el objetivo es que
este vector incluya los coeficientes de las 1000 estimaciones, luego cada observación del vector es
el coeficiente de cada estimación).
Una vez que se haya realizado 1000 veces el procedimiento, grafique en un histograma los coeficientes
estimados y responda:
(a) ¿Dónde se concentra la mayor cantidad de coeficientes estimados? ¿Por qué?
(b) ¿Por qué razón cree usted que el gráfico adquiere esa forma?
(c) ¿Cuál es la media de los coeficientes estimados? ¿Y la mediana? ¿Se parecen?
Realice el mismo procedimiento anterior solo que ahora defina el tratamiento como una variable aleato-
ria que distribuye normal con media 5 y desviación estándar 1. A partir de ello responda:
(a) ¿Dónde se concentra la mayor cantidad de coeficientes estimados? ¿Por qué?
(b) ¿Cuál es la media de los coeficientes estimados? ¿Y la mediana? ¿Se parecen?
(c) Compare su gráfico con el gráfico obtenido con el procedimiento anterior y explique las diferenci-
as/similitudes.
3. Vuelva al caso en que el efecto es determinı́stico. Ahora se analizará el comportamiento de los errores
estándar del coeficiente estimado en la medida que cambia la proporción de tratados y controles.
Grafique cómo se comportan los errores estándar a medida que aumenta la proporción de tratados y
controles, en base al gráfico responda ¿Qué proporción de tratados y controles es la que minimiza el
error estándar?
4. Para las preguntas que vienen, se comparará la estimación en tres casos distintos; una regresión lin-
eal simple, una regresión lineal múltiple con regresores relevantes y una regresión lineal simple con
regresores irrelevantes. Realice el siguiente procedimiento 1000 veces:
• Para 1000 observaciones y un efecto tratamiento aleatorio que distribuye N (5, 1), defina 3 re-
gresores x que distribuyan respectivamente: N (10, 3), N (2, 1), N (7, 3). Defina 3 regresores z de
la misma forma que los x de acuerdo a las siguientes distribuciones respectivamente: N (12, 5),
N (6, 2), N (1, 0).
• Defina su outcome y previa al tratamiento como la suma de una Normal estándar y los tres
regresores x. Este es el DGP que nunca se conoce.
• Defina con una nueva variable a los tratados y controles de manera que aproximadamente la mitad
sean tratados y la otra mitad controles (puede utilizar los métodos de los ejercicios anteriores).
• Aplique el tratamiento a las observaciones correspondientes definiendo una nueva variable y ob-
servada.
• Haga tres regresiones distintas: y observado con la variable tratamiento, y observado con la
variable tratamiento y los regresores x, y por último el outcome observado con los regresores z
(Sin incluir los x). Guarde el coeficiente estimado de cada una en vectores distintos.

Antes de seguir responda ¿cuál de las tres regresiones cree usted que tendrá la estimación más precisa
y cuál será la menos precisa? ¿por qué?

5
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Una vez que haya terminado el procedimiento, realice un histograma para cada vector de coeficientes y
responda ¿Cuál es efectivamente la estimación más y menos precisa? ¿Cómo cambia la regresión simple
si se incorporan regresores relevantes? ¿Y si se incorporan regresores irrelevantes? ¿Cómo cambia su
respuesta si los regresores z tienen la misma media y varianza que los x, pero siendo distintas entre
cada observación? (Simule esta última parte).
5. Para la siguiente pregunta se evaluará cómo cambia la estimación cuando se usa una parte de la
muestra a la que no afectó el tratamiento o afectó de otra manera, es decir, se revisará cómo cambia
la estimación cuando hay heterogeneidad en el tratamiento.
Realice el mismo procedimiento que en 1., pero ahora además se definirá un subgrupo de tratados como
“old” (suponga que es un tratamiento que no tiene efectos sobre la tercera edad), defina “old” como
una uniforme continua [0,1] en que el 30% de los individuos sean old (old==1). Estime el ATE igual
que en 1. ¿Cómo cambia la estimación? Explique la dirección del sesgo.
Ahora, en su regresión para el ATE incluya “old” como otro regresor adicional ¿Es la estimación ahora
insesgada? ¿Por qué? Explique cómo se debe modelar la heterogeneidad para encontrar el verdadero
efecto tratamiento promedio y estime la regresión correspondiente.
A continuación realice un loop en que vaya cambiando la proporción de old en términos porcentuales
(que parta siendo un 1% old y que termine siendo un 100%). Guarde los coeficientes de las estimaciones
y realice un gráfico que muestre cómo se comporta el coeficiente estimado a medida que aumenta la
proporción de “old”.
6. En econometrı́a generalmente se dice que dentro del Potential Outcomes Framework, los efectos solo
pueden entenderse empı́ricamente en relación con las variables causales que han sido manipuladas de
alguna manera. A esta afirmación se le conoce como No causation without manipulation. Responda a
partir de ella y sus conocimientos en econometrı́a y estadı́stica las siguientes preguntas:

(a) Explique por qué esta noción de “manipulación” es tan importante.


(b) ¿Cuáles son los efectos de esto para la investigación de atributos relativamente estables de personas
tales como fenotipo (color de piel) o género?
7. Se realizó un estudio con los y las estudiantes de cálculo I para evaluar el impacto del la tutorı́a de
cálculo del programa CARA (Centro de Apoyo al Rendimiento Académico y Exploración Vocacional
para los alumnos de la UC). Los estudiantes de cálculo I se dividieron en dos grupos: el grupo de
tratamiento asistió obligatoriamente a la tutorı́a de cálculo I y el grupo de control no asistió (no
podı́an asistir aunque quisieran). Además, se realizaron dos tutorı́as, una para la I1 y otra para la I2,
en la que distintos grupos de estudiantes fueron asignados (es decir, no necesariamente los estudiantes
que asistieron la tutorı́a de la I1 les correspondió asistir a la tutorı́a de la I2, y viceversa). Se sabe
además que el rendimiento en la I2 e I3 también está determinado por el rendimiento en la I1, la edad,
si es o no primera vez que el estudiante da el ramo, y si el estudiante consume o no cafeı́na.
La base de datos ”CARA.dta” contiene los datos recopilados de este estudio. Las variables en la base
de datos se describen a continuación:

6
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Variable Descripción
1 si el estudiante consume cafeı́na
cafeina
0 si el estudiante no consume cafeı́na
edad edad del estudiante
1 si el estudiante está dando el ramo por segunda vez
segunda vez
0 si el estudiante está dando el ramo por primera vez
1 si el estudiante fue asignado a la tutorı́a de la I2
trat I2
0 si el estudiante no fue asignado a la tutorı́a de la I2
1 si el estudiante fue asignado a la tutorı́a de la I3
trat I3
0 si el estudiante no fue asignado a la tutorı́a de la I3
nota I1 nota del estudiante en la I1
nota I2 nota del estudiante en la I2
nota I3 nota del estudiante en la I3

Utilizando RStudios o Stata, responda:

(a) A través de un análisis descriptivo, compare la asignación de tutorı́as para la I2 y la I3.


(b) A través de un test de hipótesis nula, determine si la diferencia de medias son iguales. Además,
determine si la asignación de las tutorı́as está balanceada o no. Haga test de hipótesis tanto para
la tutorı́a de la I2 y como para la de la I3.
(c) En caso de que alguna de las dos asignaciones estuviese desbalanceada, ¿según qué variables se
escogieron los participantes de las tutorı́as? ¿qué criterios se utilizaron para seleccionarlos?
(d) Calcule el ATE a través de una regresión lineal para la tutorı́a balanceada.
(e) Al hacer obligatoria las tutorı́as para los estudiantes asignados y prohibiendo a los estudiantes no
asignados a ir a las tutorı́as, ¿qué problema que se está tratando de evitar en el estudio? ¿qué
amenazas podrı́a seguir teniendo el diseño de este estudio?

7
Guı́a Potential Outcomes Framework Ayudante: Sylvana Rubilar Valdés - sylvanarubilar@uc.cl

Referencias
[Angrist and Pischke, 2008] Angrist, J. D. and Pischke, J.-S. (2008). Mostly harmless econometrics.
Princeton university press.
[Cunningham, 2020] Cunningham, S. (2020). Causal inference. The Mixtape, 1.
Agradecimiento especial a Lucas Contardo por proporcionar la base de los ejercicios.

También podría gustarte