P. 1
Econometría de Evaluación de Impacto

Econometría de Evaluación de Impacto

|Views: 761|Likes:
Publicado porRonald Shuan

More info:

Published by: Ronald Shuan on Jan 08, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/03/2013

pdf

text

original

Sections

  • 1. INTRODUCCIÓN
  • 2. EL ANÁLISIS DE INFERENCIA CAUSAL EN ECONOMÍA
  • 3.1. Definición del efecto tratamiento promedio (ATE)
  • 3.5. Sesgo debido a la violación de los supuestos
  • 4.1. Experimentos Aleatorios Controlados
  • 4.2. Estudios observacionales
  • 5. DISEÑO DE REGRESIÓN DISCONTINUA AGUDA
  • 6.1. Pareo exacto e inexacto
  • 6.2. Pareo mediante el “propensity score”
  • 7. ENDOGENEIDAD DEL TRATAMIENTO: EL MÉTODO DE VARIABLES INSTRUMENTALES.31
  • 8. DISEÑO DE REGRESIÓN DISCONTINUA DIFUSA
  • 9. EL MÉTODO DE DIFERENCIAS EN DIFERENCIAS
  • 10. CONSIDERACIONES FINALES

DEPARTAMENTO

DE ECONOMÍA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DEPARTAMENTO DE ECONOMÍA
PONTIFICIA DEL PERÚ UNIVERSIDAD CATÓLICA
DOCUMENTO DE TRABAJO N° 283

ECONOMETRÍA DE EVALUACIÓN
DE IMPACTO
Luis García Núñez






DOCUMENTO DE ECONOMÍA N° 283

ECONOMETRÍA DE EVALUACIÓN
DE IMPACTO

Luis García Núñez

Mayo, 2010

















DEPARTAMENTO
DE ECONOMÍA









DOCUMENTO DE TRABAJO 283
http://www.pucp.edu.pe/departamento/economia/images/documentos/DDD283.pdf



© Departamento de Economía – Pontificia Universidad Católica del Perú,
© Luis García Núñez

Av. Universitaria 1801, Lima 32 – Perú.
Teléfono: (51-1) 626-2000 anexos 4950 - 4951
Fax: (51-1) 626-2874
econo@pucp.edu.pe
www.pucp.edu.pe/departamento/economia/

Encargada de la Serie: Giovanna Aguilar Andía
Departamento de Economía – Pontificia Universidad Católica del Perú,
gaguila@pucp.edu.pe


Luis García Núñez

ECONOMÍA DE EVALUACIÓN DE IMPACTO / Luis García Núñez
Lima, Departamento de Economía, 2010
(Documento de Trabajo 283)

Informalidad / Inferencia Causal / Evaluación de Programas /
Regresión Discontinua / Variables Instrumentales / Matching


Las opiniones y recomendaciones vertidas en estos documentos son responsabilidad de sus
autores y no representan necesariamente los puntos de vista del Departamento Economía.


Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2010-06580
ISSN 2079-8466 (Impresa)
ISSN 2079-8474 (En línea)


Impreso en Cartolan Editora y Comercializadora E.I.R.L.
Pasaje Atlántida 113, Lima 1, Perú.
Tiraje: 100 ejemplares


ECONOMETRÍ A DE EVALUACI ÓN DE I MPACTO


Luis García Núñez



Resumen
En años recient es los mét odos de evaluación de impact o se han difundido
ampliament e en la invest igación microeconómica aplicada. Sin embargo,
la variedad de mét odos responde a problemas part iculares y específicos
los cuales est án det erminados normalment e por los dat os disponibles y el
impact o que se busca medir. El present e document o resume las
principales corrient es disponibles en la lit erat ura act ual, poniendo énfasis
en los supuest os baj o los cuales el efect o t rat amient o promedio ATE y el
efect o t rat amient o promedio sobre los t rat ados ATET se encuent ran
ident ificados. Adicionalment e se present an algunos ej emplos de
aplicaciones práct icas de est os mét odos. Se busca hacer una
present ación didáct ica que pueda ser út il a est udiant es avanzados y a
invest igadores aplicados que busquen conocer los principios básicos de
est as t écnicas.


Abst ract
I n recent years t he program evaluat ion met hods have become very
popular in applied microeconomics. However, t he variet y of t hese
met hods responds t o specific problems, which are normally det ermined
by t he dat a available and t he impact t he researcher t ries t o measure.
This paper summarizes t he main met hods in t he current lit erat ure,
emphasizing t he assumpt ions under which t he average t reat ment effect
and t he average t reat ment effect on t he t reat ed are ident ified.
Addit ionally, aft er each sect ion I briefly present some applicat ions of
t hese met hods. This document is a didact ic present at ion aimed t o
advanced st udent s and applied researchers who wish t o learn t he basics
of t hese t echniques.

JEL Classificat ion codes: C13, C14, C31
Palabras Clave: I nferencia Causal, Evaluación de Programas, Regresión
Discont inua, Variables I nst rument ales, Mat ching

2

ECONOMETRÍ A DE EVALUACI ÓN DE I MPACTO


Luis García Núñez


1. I NTRODUCCI ÓN

En décadas recient es los est udios de evaluación de impact o de polít icas
públicas se han realizado con mét odos est adíst icos y economét ricos cada
vez más sofist icados, con el fin de obt ener una evaluación cient íficament e
rigurosa. La popularidad de est os mét odos de evaluación de impact o ha
llevado a que se busque aplicarlos en numerosos cont ext os. Sin embargo,
por lo general est os mét odos se basan en ciert os supuest os que
condicionan su radio de acción y que definen hast a donde se pueden
obt ener conclusiones valederas de las evaluaciones.

En est e document o se revisan algunas de est as populares t écnicas
poniéndose énfasis en los aspect os met odológicos. Se busca hacer una
present ación didáct ica que pueda ser út il a est udiant es y a invest igadores
aplicados que busquen conocer los principios básicos de est as t écnicas.


2. EL ANÁLI SI S DE I NFERENCI A CAUSAL EN ECONOMÍ A

Desde t iempos muy remot os ha exist ido el int erés por est udiar las
relaciones causales en el mundo real. Tal como resume Holland ( 1985) , el
concept o de causalidad ―discut ido por los filósofos― ha ido variando a lo
largo de los siglos. Sin embargo, el fondo de la discusión sigue siendo el
mismo: el int erés por hacer un est udio acerca de la relación causal ent re
las variables. Est e est udio empieza con la pregunt a inicial de cualquier
est udio de impact o: ¿cuál es el efect o causal de una variable X sobre
ot ra variable Y? Responderla puede ser un asunt o no t an t rivial ni desde
el punt o de vist a analít ico ni desde los dat os. Pues para t ener una idea de

3

est e efect o, deberíamos t ener alguna idea sobre la exist encia de una
relación causal ent re est as variables.

Por mucho t iempo se pensó que la est adíst ica t enía poco que cont ribuir al
análisis causal. La acept ación de la frase que “ la correlación no implica
causalidad” ha significado el límit e que la est adíst ica se ha puest o a si
misma en su cont ribución a est e análisis. Est o se debe a que
t radicionalment e la est adíst ica inferencial ha est udiado la manera como
los dat os “ aparecen” en el mundo real. Tal int erés conlleva al est udio de
la dist ribución de probabilidad conj unt a de est as variables, la cual ent rega
las probabilidades de ocurrencia de ellas. Luego, cont ando con una
muest ra de observaciones de est as variables y haciendo algunos
supuest os simplificadores sobre la est ruct ura de est e proceso generador
de dat os, la est adíst ica inferencial obt iene est imadores de los parámet ros
que configuran a t al proceso. Algunos de est os parámet ros —como las
probabilidades y las esperanzas condicionales— son llamados
“ parámet ros asociat ivos” los cuales han sido ut ilizados como pieza clave
en el análisis economét rico. Est os parámet ros no son det erminant es para
est ablecer relaciones causales ent re las variables. La presencia de
variables asociadas sin mayor sent ido, como en el caso de l as conocidas
regresiones espurias o la presencia de los llamados “ confounders” ,
present a una limit ación import ant e para el análisis de inferencia causal
con base en parámet ros asociat ivos
1

.
Sin embargo, como veremos en las siguient es secciones, la est adíst ica sí
t iene un papel import ant e en el análisis causal. Est e últ imo va más allá
del mero análisis de est adíst ica inferencial t radicional. Hay aspect os
import ant es del proceso generador de dat os que no se limit an a decir que
dos variables económicas est án correlacionadas y/ o asociadas, sino que
se t rat a de ver si efect ivament e puede comprobarse con los dat os que
una variable causa a ot ra. Con est e fin, la est adíst ica inferencial es

1
Una int eresant e reseña de los problemas que se pueden encont rar en est udios
observacionales —en comparación con est udios experiment ales— se encuent ra en el
clásico document o de Cochran ( 1965) .

4

incorporada en el análisis de causalidad como uno de sus inst rument os en
sus procedimient os.

Pero, ¿en qué consist e el análisis de inferencia causal? Desde los años 20
del siglo pasado, se configuró como el est udio de las variables del mundo
real, est ableciendo algún t ipo de ordenamient o secuencial o lógico ent re
ellas ( Goldberger 1972) . De est a manera, y baj o supuest os t eóricos o de
j uicio no “ t est eables”
2
( a menos que se realicen experiment os
cont rolados) se pues est ablecer una est ruct ura de ramificaciones causales
que une a aquellas variables y que generan los dat os observados. Est as
est ruct uras no se limit an solament e a las variables observables sino que
t ambién incluyen a aquellas que no son observables pero que suelen
t ener un rol import ant e en la est ruct ura ( Pearl 2000, 2009) . Est as
relaciones pueden ser escrit as en forma de ecuaciones, con lo cual se
definen los modelos de ecuaciones est ruct urales. En t ales ecuaciones se
represent an relaciones causales y no meras asociaciones empíricas.

Cuando aplicamos est e análisis a la economía, encont ramos que el
proceso generador de dat os est á gobernado por relaciones económicas
subyacent es a él ( véase por ej emplo, Haavelmo 1943, 1944) Est as
relaciones suelen ser simplificadas y sist emat izadas a t ravés de los
llamados “ modelos económicos” , los cuales definen clarament e a sus
variables exógenas y a sus endógenas. Es decir, los dat os económicos no
ocurren por el mero azar sino que aparecen por relaciones ent re las
variables, en donde podemos dist inguir que unas variables ocasionan
algún efect o sobre ot ras. Las variables exógenas t ienen efect o sobre las
endógenas, y no al revés, y por ello podemos afirmar que las relaciones
de causalidad ent re variables económicas t ienen en si mismas un
sust ent o en la t eoría económica.


2
Un ej emplo de un supuest o causal que no necesit a ser verificado es que ninguna
variable puede ocasionar un cambio en la edad de las personas.

5

El análisis causal basado en ecuaciones est ruct urales es el más complet o
pues ofrece una visión panorámica del conj unt o lo cual permit e ent ender
especialment e a las dificult ades que pueden surgir en el proceso de
análisis del efect o de una variable sobre ot ra. No obst ant e su uso no se
ha difundido ampliament e en est adíst ica debido a que sus conclusiones
pueden depender muy sensiblement e de sus supuest os. En economía se
ut ilizan a t ravés de la versión de los modelos clásicos de ecuaciones
simult áneas
3
. Sin embargo, algunos est udios ( por ej emplo, Lalonde,
1986) han comprobado que empíricament e ent regan pobres result ados
en comparación con mét odos experiment ales. Adicionalment e, las
est imaciones se basan en supuest os muy rest rict ivos sobre los t érminos
de pert urbación de est as ecuaciones, siendo est as variables no
observables por el invest igador ( Angrist , I mbens y Rubin, 1996) . Por
últ imo, pueden ser complicados, y sobre t odo poco práct ico si el obj et ivo
es analizar el impact o ent re dos variables y no est amos muy int eresados
en est udiar a profundidad al rest o de variables que las circundan.

En est e document o nos concent ramos en el análisis alt ernat ivo propuest o
por Neyman ( 1990) y Rubin ( 1974) y sint et izado por Holland ( 1985) ,
conocido como el modelo de “ result ados pot enciales” . Est e modelo t iene
sus fundament os en los modelos de ecuaciones est ruct urales, aunque
est e enfoque es en general más simple al basarse en los est udios
experiment ales, t eniendo al experiment o aleat orio cont rolado como su
paradigma. Se t rat a de aislar el efect o de x sobre y mant eniendo
cualquier ot ro fact or que afect e a y de manera “ cont rolada” ; y para ello
se observan los result ados pot enciales de y ant e diferent es valores
hipot ét icos de x . Tal est udio de valores pot enciales implica un avance en
t érminos met odológicos y a su vez implica mayores desafíos en t érminos
est adíst icos debido a que algunos de los result ados pot enciales podrían
ser no observables.

3
Aunque result en parecidos, los modelos de ecuaciones est ruct urales y los de
regresiones de ecuaciones simult áneas t ienen algunas diferencias en cuant o a lo que
represent an realment e los parámet ros y en la nat uraleza de los t érminos de error
( Pearl, 2009, pág. 104) . Solo baj o algunos supuest os son equivalent es.

6

Siendo un poco más específicos, supongamos que t enemos una población
U

suj et a a est udio, cuyos element os son las unidades U i ∈ . Est as
unidades podrían ser personas, empresas, inst it uciones, localidades, et c.)
Supongamos para simplificar que la variable x ( la variable “ causa” )
puede t omar únicament e dos valores para cada unidad i:
i
x
0
y
i
x
1
, los
cuales t ienen un efect o pot encial sobre la variable y ( la variable “ efect o” )
para cada unidad i , digamos
i
y
0
y
i
y
1
respect ivament e. Suponiendo que
t odo lo demás se mant iene const ant e, el efect o de una variación de x
sobre y para cada unidad i será simplement e la diferencia
i i
y y
0 1
− .

Sin embargo, la aplicación del supuest o de que cualquier ot ro fact or que
influencie a y debe est ar cont rolado exige que la unidad i sea expuest a
t ant o a
i
x
0
como a
i
x
1
al mismo t iempo y baj o exact ament e las mismas
condiciones. Est o no es posible pues si el individuo i ya fue expuest o a la
sit uación
i
x
0
( la cual dio como result ado el valor
i
y
0
) , no es posible volver
en el pasado y deshacer lo hecho, y somet erlo ahora al valor
i
x
1
, con el
fin de observar
i
y
1
( el escenario cont rafact ual) . Dado que solo uno de los
dos result ados pot enciales es observable, el cálculo de la diferencia
i i
y y
0 1
− es imposible. Est e es el problema fundament al de la inferencia
causal.

Aunque se pudiera pensar que el escenario cont rafact ual puede ser
observado si en el fut uro a una unidad que se somet ió a la sit uación
i
x
0

ahora se le somet e a
i
x
1
, la observación de y en est e caso no
correspondería al valor
i
y
1
necesario para calcular la diferencia pues se
violaría el supuest o mencionado. Tal violación ocurre porque al menos
alguna cosa debió cambiar en el t iempo
4
.

4
En algunos experiment os podría creerse que se puede conocer ambos est ados de la
nat uraleza, por ej emplo, encender y apagar la luz para ver el efect o de la corrient e
eléct rica en un bombillo de luz. En est e ej emplo es casi seguro que cualquier ot ro fact or
que afect e la luminosidad del bombillo est á baj o cont rol del invest igador y por lo t ant o

7

Por ello afirmamos que el punt o de part ida del análisis de inferencia
causal enfrent a un serio problema de ident ificación, el cual no puede ser
resuelt o simplement e con más observaciones. Afort unadament e, los
orígenes del problema han sido est udiados y ent endidos, y por lo t ant o
somos capaces de proveer soluciones a él. Tales est rat egias se basan en
la aplicación de supuest os y además con un import ant e apoyo de la
est adíst ica, se logra ident ificar el efect o causal. Est e document o se basa
j ust ament e en est as est rat egias de ident ificación.


3. ALGUNAS CUESTI ONES BÁSI CAS

3. 1. Definición del efect o t rat amient o promedio ( ATE)

5

Con el fin de est udiar la ident ificación del efect o causal, formalicemos lo
expuest o ant eriorment e del modelo de Neyman- Rubin concent rándonos
en un caso especial. Supongamos que deseamos conocer el efect o de un
t rat amient o d ( por ej emplo una polít ica) sobre alguna variable de int erés
i
y ( un result ado) , para i = 1, … N. , donde i indica una unidad i .
Por ej emplo,

Trat amient o ( d) Result ado ( y)
Ej ercicio diar io Presión Sanguínea
Capacit ación laboral Salar ios
Un nuevo reglament o de t ránsit o Tasa de accident es de t ránsit o
Un medicament o Colest erol


el escenario “ ant es del t rat amient o” y “ después del t rat amient o” puedes ser
considerados como los dos result ados pot enciales. En general no ocurre lo mismo en
ot ros est udios, en donde los dos escenarios mencionados no necesariament e mant ienen
const ant es a los demás fact ores que podrían afect ar a la variable y . Por ej emplo, el
efect o de la lact ancia mat erna sobre la incidencia de enfermedades en los infant es no
puede ser est udiado observando simplement e el “ ant es” y el “ después” de la exposición
al t rat amient o pues exist en fact ores que cambian en forma nat ural ( como la edad y el
peso del niño) y además ot ros fact ores podrían cambiar circunst ancialment e ( como las
condiciones de vida de la familia) , a pesar que algunos fact ores sí se mant engan
const ant es ( como el sexo del niño y su resist encia nat ural a las enfermedades) .
5
La not ación y definiciones que seguimos en est a sección est á influenciada en la
exposición de Lee ( 2005) .

8

Aunque el t rat amient o podría ser en diferent es int ensidades, y al mismo
t iempo los result ados podrían ser múlt iples, vamos a simplificar el análisis
considerando que el t rat amient o d es binario, t omando el valor 1 si la
unidad recibe el t rat amient o y 0 si no la recibe.

¹
´
¦
=
recibe lo no i si
o tratamient el recibe i si
d
i
0
1


Tenemos una población U de unidades, algunas de los cuales recibirá un
t rat amient o. Cada unidad i puede ser descrit a por el siguient e conj unt o
) , , , , (
1 0 i i i i i
x d y y ε donde:

i
y
0
= result ado pot encial si la unidad i no recibió el t rat amient o
i
y
1
= result ado pot encial si la unidad i recibió el t rat amient o
i
x = vect or de caract eríst icas observables de la unidad i
i
ε = vect or de caract eríst icas no observables de la unidad i

Cabe mencionar que la condición de observable o no observable de las
caract eríst icas se define desde el punt o de vist a del invest igador o
evaluador de la polít ica.

Definamos el result ado observado
i
y como
i i i i i
y d y d y
0 1
) 1 ( − + = el cual es
igual a uno de los result ados pot enciales. Asimismo podemos clasificar a
t odas las unidades de la población según la recepción o no del
t rat amient o. Como nos preocupa analizar el impact o de polít icas ( micro)
económicas, llamaremos a los recept ores de la polít ica como el grupo
beneficiario, definido como { } 1 | = ∈ =
i
d U i B . Al grupo de unidades que no
recibe el t rat amient o lo llamaremos grupo no beneficiario
6

{ } 0 | = ∈ =
i
d U i N .

6
En algunos est udios se le llama t ambién grupo de cont rol a aquél que no ha recibido el
t rat amient o. Sin embargo dado que el énfasis en est e est udio recae en los llamados
est udios observacionales ( véase sección 4.2) en donde los dat os disponibles no
provienen de experiment os cont rolados, conviene llamar a est e grupo simplement e
como No Beneficiario, reservando el nombre de “ Grupo de Cont rol” para aquél grupo

9

Lo único que podemos observar para una unidad B i ∈ es el paquet e
) 1 , , (
1
= d x y
i i
y para una unidad N k ∈ en el grupo no beneficiario solo
observamos ) 0 , , (
0
= d x y
k k
.

Tal como se mencionó ant es, el efect o t rat amient o individual para una
unidad i ,
i i i
y y
0 1
− = δ , no est á ident ificado pues uno de sus element os no
es observable. Sin embargo podría ser más convenient e analizar el efect o
t rat amient o promedio para la población ( ATE por sus siglas en inglés) .
Omit iendo el subíndice i , el ATE es el parámet ro poblacional

) ( ) ( ) (
0 1 0 1
y E y E y y E ATE − = − = = δ

Debido a que los valores pot enciales
0
y y
1
y no son plenament e
observables para t odo U i ∈ , se debe t ener cuidado al est imar est e valor
esperado usando análogos muest rales como el promedio simple por
ej emplo.
N i
N i
B i i
N B i
i
B
y y y
n
y
n




∑ ∑
− = − =
1 1
^
δ
donde
B
n es el número de beneficiarios y
N
n es el número de no
beneficiario.

El peligro de comet er un error con una est imación de est a manera se
basa en el conocido “ problema de la selección” : la no observación de los
valores de
i
y
0
y
i
y
1
para algunos individuos podría responder a una
conduct a sist emát ica de los individuos o de los ot organt es del beneficio.
Por ej emplo, si se busca analizar el efect o de la part icipación en
programas de ej ercicios físicos en el est ado de salud medido como los
niveles de presión sanguínea, es clarament e fact ible que aquellos que
finalment e acept en part icipar en el t rat amient o sean individuos que

que no recibe t rat amient o en est udios experiment ales o t ambién a un subgrupo de los
no beneficiarios que cumplen ciert as caract eríst icas ( que se discut irán más adelant e,
véase la sección 4.1) en est udios observacionales.

10

t engan fuert es preferencias por la act ividad física, o que present en
det erminadas caract eríst icas como su edad y peso. Por el cont rario,
aquellos que opt en por no part icipar en el programa podrían haber
t omado est a decisión basándose en las mismas caract eríst icas o
preferencias. En est e ej emplo est aría ocurriendo un problema de
“ aut oselección” en el t rat amient o, donde la part icipación en el programa
dependerá de las caract eríst icas observables de las personas ( su edad y
peso) , o de caract eríst icas no observables ( sus preferencias, hábit os de
vida, fact ores genét icos, et c. )

La selección podría haber venido de part e de los diseñadores de la
polít ica. Por ej emplo, si fij an una población obj et ivo para el t rat amient o, o
si priorizan a algunos grupos que ya de por sí present en problemas de
presión art erial, nuevament e exist irían diferent es caract eríst icas
( observables o no) en los grupos B y N.

Si est o es lo que est á ocurriendo con el programa d , ent onces el
est imador propuest o δ
ˆ
es el análogo muest ral de ) 0 | ( ) 1 | ( = − = d y E d y E ,
el cual es en general diferent e de ) (
0 1
y y E − cuando las caract eríst icas
) , (
i i
x ε difieren ent re los beneficiarios y no beneficiarios. Por est a razón se
debe analizar con cuidado ( a) en qué casos δ
ˆ
es un buen est imador de
ATE; ( b) qué ot ro est imador dist int o de δ
ˆ
podría est imar correct ament e a
δ .

3. 2.

Supuest os ident ificadores del ATE
Supongamos que el t rat amient o o polít ica ha sido aplicado a los
individuos de una manera muy part icular. Digamos que se ha realizado
un sort eo en donde cada individuo t iene la misma probabilidad de recibir
el beneficio. En t al caso, el t rat amient o d será independient e de los
result ados pot enciales
j
y , para j = 0, 1. Formalment e diremos:


11

( I ) : Los result ados pot enciales son est adíst icament e independient es de
d . En símbolos d y y  ) , (
1 0
.

Dada est a condición de independencia, ent onces ocurrirá que
) 0 | ( ) 1 | (
) 0 | ( ) 1 | ( ) ( ) ( ) (
0 1 0 1 0 1
= − = =
= − = = − = − = =
d y E d y E
d y E d y E y E y E y y E ATE δ


La últ ima igualdad ocurre porque
1
y solo es observable cuando 1 = d , con
ello coinciden
1
y con y , y lo mismo ocurre para
0
y . Por lo t ant o si t al
supuest o se cumple, ent onces ATE puede ser est imado consist ent ement e
simplement e con la diferencia de los promedios simples de las
observaciones de los grupos B y N, o sea el est imador δ
ˆ
. Nót ese que est e
est imador es igual al est imador
d
β
ˆ
que se obt endría de la est imación por
mínimos cuadrados ordinarios del modelo de regresión lineal
i i d i
u d y + + = β β
1
.

No es necesario un supuest o t an fuert e —como el de independencia―
para que se cumpla est e result ado. Una condición más débil que es
implicada por el supuest o de independencia es la siguient e:

( I I ) :
0
y y
1
y son “ independient es en medias” de d si ) ( ) | (
j j
y E d y E = , para
j = 0, 1. Equivalent ement e, ) 0 | ( ) 1 | ( = = = d y E d y E
j j
.

Baj o est a condición se cumple t ambién que el ATE coincide con la
diferencia ) 0 | ( ) 1 | ( = − = d y E d y E .

3. 3.

El efect o t rat amient o sobre los t rat ados ( ATET)
Es frecuent e que los programas no t engan aplicabilidad universal sino
solament e en part e de la población. Por ej emplo, un programa de
desempleo solo int eresa en la población de desempleados, no t oma en

12

cuent a a los empleados. En t al caso el impact o del programa se mide
únicament e en el grupo t rat ado, pues nos int eresa comparar la sit uación
real del grupo beneficiario con la sit uación cont rafact ual de ellos mismos
en el caso hipot ét ico de que no hubieran recibido el beneficio del
programa, sin import arnos mucho el efect o sobre los no t rat ados. A est e
impact o se le llama el Efect o Trat amient o Promedio en los Trat ados
7
o
ATET,
) 1 | ( ) 1 | ( ) 1 | (
0 1 0 1
= − = = = − = = d y E d y E d y y E ATET
T
δ

Con la información disponible, el primer t érmino de ATET est á
plenament e ident ificado pues es solament e la esperanza condicional del
result ado dado que los individuos part iciparon en el programa, es decir
) 1 | ( = d y E . En cambio el segundo t érmino no est a ident ificado pues no
disponemos de información del result ado pot encial y
0
cuando 1 = d .

Est e t érmino será ident ificable si se supone que d y 
0
( o con el supuest o
más débil de
0
y independient e en media de d , ) 0 | ( ) 1 | (
0 0
= = = d y E d y E ) .
En t al caso se puede est imar el segundo component e de ATET con un
análogo muest ral de ) 0 | ( = d y E . En t érminos int uit ivos est e supuest o
quiere decir que el t rat amient o ha sido asignado ent re los individuos de
los grupos de beneficiarios y no beneficiarios independient ement e del
result ado pot encial que ellos hubieran obt enido sin t rat amient o,
0
y . Sin
embargo, es posible que
1
y no sea independient e de d , lo cual no
afect aría la ident ificación de ATET. Por ej emplo,
1
y no sería independient e
de d si los individuos part icipant es se aut oseleccionan para part icipar en
el programa porque t endrían una ganancia esperada de
1
y más alt a que
aquellos que no part icipan.


7
En inglés es el Average Tr eat ment Effect on t he Treat ed.

13

En general se cumplirá que ATET es dist int o de ATE. Sin embargo,
podrían ser exact ament e iguales si se cumple ya sea los supuest os ( I ) o
( I I ) . Para most rar est o,

) 0 | ( ) 1 | ( ) 1 | ( ) 1 | ( ) 1 | (
0 1 0 1 0 1
= − = = = − = = = − = d y E d y E d y E d y E d y y E ATET
ATE d y E d y E = = − = = ) 0 | ( ) 1 | (

Ent onces, al ser ATE y ATET iguales baj o est e supuest o, ambos pueden
ser est imados mediant e el est imador δ
ˆ
que es la diferencia de los
promedios simples de los grupos de beneficiarios y no beneficiarios.

Por ot ro lado, t rivialment e ATE y ATET t ambién podrían ser iguales si el
programa se aplicara a t oda la población.

) 0 Pr( ) 0 | ( ) 1 Pr( ) 1 | ( ) (
0 1 0 1 0 1
= ⋅ = − + = ⋅ = − = − d d y y E d d y y E y y E
). 0 Pr( ) 1 Pr( = ⋅ + = ⋅ = d ATEU d ATET ATE

donde ATEU es el efect o t rat amient o sobre los no t rat ados ( un parámet ro
de escaso int erés práct ico) . Luego si 1 ) 1 Pr( = = d t endríamos ATE = ATET,
lo cual equivaldría a aplicar el programa a t oda la población.

3. 4.

Condicionamient o a caract eríst icas observables
Los result ados mencionados se pueden generalizar si se condicionan a las
caract eríst icas observables x , lo que podría ent enderse como limit ar el
análisis a una subpoblación con caract eríst icas x . Por ej emplo, se podría
calcular el efect o t rat amient o promedio según el sexo de la persona, o su
nivel educat ivo, su est ado civil, et c.

Las definiciones de ATE y ATET con condicionamient o a x son:
) | ( |
0 1
x y y E x ATE − = y ) , 1 | ( |
0 1
x d y y E x ATET = − = . En t al caso los supuest os
ident ificadores de est os parámet ros se generalizan como:

14

( I ’)
j
y es est adíst icament e independient e de d , dado x: x d y
j
|  .
( I I ’)
0
y y
1
y son “ independient es en media condicional” de d dado x:
) | ( ) , | ( x y E x d y E
j j
= , para j = 0, 1.

Cuando se condiciona por x , es frecuent e hacer un supuest o adicional
sobre la exist encia de individuos beneficiarios y no beneficiarios para cada
subpoblación x . A est e supuest o se le conoce como supuest o de
“ mat ching” u “ overlapping” .

( I I I ) 1 ) | 1 ( 0 < = < x d P

Luego, baj o los supuest os ( I I ’) y ( I I I ) , el x ATE | es igual a la diferencia de
la media condicional de los grupos B y N.

) , 0 | ( ) , 1 | (
) , 0 | ( ) , 1 | ( ) | ( ) | ( ) | (
0 1 0 1 0 1
x d y E x d y E
x d y E x d y E x y E x y E x y y E
= − = =
= = − = = − = −


Nót ese que el últ imo signo igual de la ecuación ant erior no se cumpliría si
no se cumpliera el supuest o ( I I I ) . Luego, el x ATE | puede ser calculado
como la diferencia simple de los promedios de y dado d para un
subgrupo específico x .

Un result ado adicional que vale la pena mencionar en est a sección es que
si asumimos que el t rat amient o se asigna complet ament e al azar
( mediant e un sort eo simple) , ent onces el t rat amient o d será t ambién
independient e de las caract eríst icas observables y no observables de los
individuos ) , (
i i
x ε , las cuales se encont rarán “ balanceadas” ent re los
grupos B y N.



15

3. 5. Sesgo debido a la violación de los supuest os

Cuando los supuest os mencionados ant es no se cumplen, ent onces el
est imador propuest o δ
ˆ
será sesgado al querer est imar a ATE o a ATET. El
llamado problema de la selección present ado en la sección 3. 1 provocará
que exist an sesgos cuyas fuent es est riban en el “ desbalance” exist ent e en
las caract eríst icas observables y no observables ent re los grupos B y N.
Así, t ant o el cálculo de est os parámet ros incluirá a las diferencias de
est as caract eríst icas.

Cuando los grupos B y N difieren en las caract eríst icas observables x ,
diremos que t enemos “ selección en observables” , mient ras que si difieren
en las variables no observables ε t enemos “ selección en no observables” .
En el primer caso, el sesgo sobre la diferencia de medias originado por la
selección se llama en la lit erat ura inglesa como “ overt bias” mient ras que
en el segundo, el sesgo se llama “ covert bias” o “ hidden bias” .

Formalment e las definiremos ambos t ipos de selecciones así:

Selección en observables: ) ( ) | (
j j
y E d y E ≠ pero ) | ( ) , | ( x y E x d y E
j j
=
Selección en no observables: ) | ( ) , | ( x y E x d y E
j j
≠ pero
) , | ( ) , , | ( ε ε x y E x d y E
j j
=

Concent rándonos en la selección en observables, no se cumple la el
supuest o ( I I ) pero si cont rolamos por las variables que ocasionan la
selección t endremos ent onces que el ATE es ident ificable condicionado a
un grupo part icular x , pues se cumpliría el supuest o ( I I ’) , de la forma
como se mencionó en la sección ant erior.

Por el cont rario, si t enemos selección en no observables, la condición en
x no garant iza que la diferencia de las medias de grupo reflej e el impact o
del programa. Habría ent onces que condicionar t ambién en las

16

caract eríst icas no observables para que δ
ˆ
sea un est imador de ATE
ent endiendo est o como la definición de un subgrupo que compart a las
mismas caract eríst icas no observables. Est o es en la práct ica difícil al ser
j ust ament e las caract eríst icas ε invisibles para el invest igador.
8


Podemos observar baj o qué condiciones el desbalance de las
caract eríst icas x podría sesgar la est imación de ATE mediant e la
diferencia de medias δ
ˆ
. Supongamos que solo exist e una caract eríst ica x
la cual es binaria, t omando el valor de 1 para algunos individuos y 0 para
el rest o. Supongamos t ambién que se cumple el supuest o ( I I ’) . En est e
cont ext o, los efect os t rat amient o promedio condicionados a x son

) 0 , 0 | ( ) 0 , 1 | ( ) 0 , 0 | ( ) 0 , 1 | ( |
0 1 0
= = − = = = = = − = = =
=
x d y E x d y E x d y E x d y E ATE
x

) 1 , 0 | ( ) 1 , 1 | ( ) 1 , 0 | ( ) 1 , 1 | ( |
0 1 1
= = − = = = = = − = = =
=
x d y E x d y E x d y E x d y E ATE
x


Por ot ro lado podemos expresar a la diferencia de medias de y ent re B y
N como

) 1 | 0 Pr( ) 0 , 1 | ( ) 0 | ( ) 1 | ( = = ⋅ = = = = − = d x x d y E d y E d y E
) 0 | 0 Pr( ) 0 , 0 | ( ) 1 | 1 Pr( ) 1 , 1 | ( = = ⋅ = = − = = ⋅ = = + d x x d y E d x x d y E
) 0 | 1 Pr( ) 1 , 0 | ( = = ⋅ = = − d x x d y E

Reemplazando las expresiones de
0
|
= x
ATE y
1
|
= x
ATE en la expresión
ant erior t enemos,

) 1 | 1 Pr( | ) 1 | 0 Pr( | ) 0 | ( ) 1 | (
1 0
= = ⋅ + = = ⋅ = = − =
= =
d x ATE d x ATE d y E d y E
x x

)] 0 | 0 Pr( ) 1 | 0 [Pr( ) 0 , 0 / ( = = − = = ⋅ = = + d x d x x d y E
)] 0 | 1 Pr( ) 1 | 1 [Pr( ) 1 , 0 / ( = = − = = ⋅ = = + d x d x x d y E

8
Aunque no podamos condicionar en no observables, mediant e algunos procedimient os
experiment ales podemos confiar que, est adíst icament e hablando, las caract eríst icas no
observables puedan balancearse ent re ambos grupos. Más adelant e veremos que
exist en mét odos capaces de remover el sesgo generado por las variables no
observables.

17

Los dos primeros t érminos del lado derecho de la últ ima ecuación
muest ran el efect o que deseamos medir ( el impact o de d sobre y para
cada subgrupo) . Si
0
|
= x
ATE =
1
|
= x
ATE , ent onces la suma de los dos
t érminos se resume a simplement e ATE.

El t ercer y cuart o t érmino corresponde al sesgo debido al no balanceo de
x ent re los grupos B y N. Nót ese que si se cumpliera que d x  , ent onces
se cumpliría que ) Pr( ) | Pr( x d x = para cualquier combinación de x y d , con
lo cual desaparecerían los dos t érminos del sesgo. Por ot ro lado, aun si no
se cumpliera la independencia est adíst ica ent re x y d , si la variable x no
t uviera efect o sobre y ( es decir, si x fuera una variable irrelevant e) , se
cumpliría que ) 1 , | ( ) 0 , | ( = = = x d y E x d y E , con lo cual el sesgo t ambién
desaparecería.

En el caso del sesgo debido a desbalance en variables no observables, se
puede hacer un análisis similar al present ado, por lo que no lo
desarrollaremos aquí.

Por últ imo, un est imador consist ent e de ATE en el caso de selección en
observables ( es decir, baj o el supuest o I I ’) puede obt enerse mediant e
regresiones lineales. Tal como demuest ra Wooldridge ( 2001) , en la
regresión donde x es un vect or de variables,
2
β y
3
β son vect ores de
parámet ros,

i i i d i
u d d y + − ⋅ ′ + ′ + + = )) ( (
0
x x β x β
3 2
β β

el est imador
d
β
ˆ
es un est imador consist ent e de ATE.




18

4. ESTUDI OS EXPERI MENTALES Y NO EXPERI MENTALES

Habiendo observado la import ancia del cumplimient o de los supuest os
ident ificadores de ATE y ATET, cabe la pregunt a ¿baj o qué condiciones los
dat os que se ut ilizan para evaluar el impact o de polít icas cumplirían est os
supuest os? La respuest a a est a int errogant e se halla en la forma como se
generaron est os dat os.

Como se ha vist o, la aleat orización del t rat amient o d hace que la
diferencia de promedios sea un est imador consist ent e de ATE ( y ATET) .
Pero, ¿de dónde proviene la idea de la aleat orización del t rat amient o?
Exist e en la ciencia un procedimient o conocido como experiment o
aleat orio cont rolado, el cual se considera como el “ gold st andard” de la
evaluación de impact o por cumplir ( casi) perfect ament e la condición de
aleat orización de d .

4. 1. Experiment os Aleat orios Cont rolados

Est os experiment os t ienen su origen en las ciencias biológicas y médicas,
el cual consist e en el est udio del efect o de un t rat amient o sobre un
result ado de int erés. Luego de haberse definido a una muest ra aleat oria
de individuos a ser est udiados, el procedimient o consist e en la selección
aleat oria de dos subgrupos de individuos llamados “ grupo t rat amient o”
9
y
“ grupo de cont rol” . Al primero de ellos se les aplica int encionalment e el
t rat amient o del est udio, mient ras que al segundo no recibe el
t rat amient o. Cuando el experiment o es aplicado a seres humanos,
usualment e al grupo de cont rol se les ent rega un placebo absolut ament e
inofensivo
10
( por ej emplo, una píldora de similar caract eríst ica a la
recibida por los t rat ados) , con el fin de evit ar cualquier desviación en la
conduct a t ant o de los t rat ados como de los no t rat ados.

9
En las aplicaciones a la economía hemos llamado “ grupo beneficiario” al grupo
t rat amient o.
10
El placebo podría no ser necesario si se t rat a de experiment os en animales o plant as.

19

En est e procedimient o, el t rat amient o es independient e
―est adíst icament e hablando― de los result ados pot enciales y de las
caract eríst icas observables y no observables de los individuos, los cuales
deberían est ar est adíst icament e balanceados ent re ambos grupos. Por t al
razón, los result ados del grupo no t rat ado simulan bien el escenario
cont rafact ual en donde los t rat ados no reciben el t rat amient o. Tal
propiedad le da validez int erna al est udio pues el result ado de la
evaluación de impact o est aría libre de sesgos. Asimismo, si la muest ra de
individuos del análisis fue obt enida de manera aleat oria de la población
de int erés, est os result ados son generalizables a t oda la población lo que
le da validez ext erna al est udio.
11


De ahora en adelant e, usaremos el t érmino “ grupo de cont rol” o grupo C
a aquél conj unt o de individuos no t rat ados que pueden represent ar bien
el escenario cont rafact ual sin t rat amient o. En el caso de los experiment os
aleat orios cont rolados, los grupos de no t rat ados ( grupo N) y cont rol
( grupo C) son exact ament e iguales.

En lo que se refiere a la aplicación de est os experiment os a economía,
dado que se est udia el impact o aislado de una variable sobre ot ra, est e
procedimient o es ideal para est udiar el efect o causal ent re est as
variables. Por ello no necesit a el desarrollo de modelos t eóricos que
modelen la conduct a de los agent es en el mundo real
12
, al ser sus
implicancias absolut ament e parciales
13
y reducidas a dos variables. Est a
alt a precisión en la medición del impact o es a su vez una desvent aj a si el
obj et ivo es t ener una idea más complet a del comport amient o de los
agent e, es decir, de los det erminant es de los result ados observados.


11
Debe t enerse en cuent a que hay dos et apas de aleat orización: la primera ocurre en la
selección de la muest ra a ser suj et a de est udio de la población, y la segunda ocurre
cuando el t rat amient o es asignado aleat oriament e a un subgrupo de la muest ra.
12
Est o no significa de ninguna manera que se ignore a los modelos económicos y a los
modelos probabilíst icos subyacent es, quienes darán luz sobre el efect o que se espera y
su explicación.
13
Ent iéndase el t érmino “ parcial” en el sent ido ut ilizado en economía en el análisis de
est át ica comparat iva.

20

La aplicación de est e procedimient o result a muy at ract iva. No obst ant e
para la evaluación de programas surgen algunos inconvenient es
report ados en la lit erat ura
14
. Acerca de la validez int erna del
procedimient o, usualment e es difícil encont rar un equivalent e al placebo
ut ilizado en medicina por lo que en algunos casos es casi inevit able que
los suj et os no solo not en que est án siendo suj et os al experiment o sino
que not en a qué grupo pert enecen ( B o C) . Por ej emplo, si se t rat ara de
un programa de capacit ación laboral, sería muy ext raño que se ot orguen
charlas de capacit ación complet ament e inút iles a los miembros del grupo
C con el fin que no not en que son beneficiarios. Est e hecho puede
provocar algunas problemas como la aut oselección en los programas
( pues es difícil que se pueda obligar a las personas a acept ar un
t rat amient o, el cual es normalment e volunt ario) , y al desgast e ocurrido
( no al azar) por el abandono de algunos individuos a seguir en el
programa. Exist en ot ros problemas de orden ét ico si se t rat a de
programas que podrían t ener consecuencias en el largo plazo. Por
ej emplo, si se pret endiera aplicar est e procedimient o a programas que
ot organ crédit o educat ivo, para aquellas personas que no lo reciban
podrían t ener consecuencias negat ivas muy grandes por el rest o de sus
vidas ( debido a la pérdida de oport unidades) . Algo similar podría ocurrir
con programas aliment arios. Todo est o genera serios cuest ionamient os
de orden ét ico para la aplicación de experiment os de est e t ipo para
evaluar programas.

Pese a est as razones, en los últ imos años se ha aplicado est a t écnica en
est udios de evaluación de impact o, principalment e de polít icas
económicas. Algunos ej emplos son: Gert ler ( 2004) quien analiza el
impact o del programa mexicano de t ransferencias condicionales de dinero
―conocido ent onces como PROGRESA― en el la salud de los niños. En la
implement ación de est e programa se seleccionó a 505 villas de zonas
pobres de México, en donde en una primera et apa se escogió al azar a

14
St ock y Wat son ( 2003) en su capít ulo 11 cit a algunos inconvenient es que se pueden
encont rar en la práct ica.

21

320 poblaciones como beneficiarias y 185 como cont rol. Est a forma de
selección y el hecho que el grupo de cont rol no fue informado que sería
en el fut uro t ambién beneficiario del programa le da caract eríst icas al
experiment o de ser muy parecido a un experiment o aleat orio cont rolado.
Con ello se cumple que est adíst icament e hablando los grupos de
beneficiarios y no beneficiarios se encuent ren balanceados en sus
caract eríst icas observables y no observables, lo que convence al aut or
para est imar el efect o causal mediant e una regresión con una variable
dummy indicando la part icipación o no en el programa. Gert ler menciona
que además cont rola en la regresión por caract eríst icas socioeconómicas
con el fin de mej orar el poder de las est imaciones y reducir la variación
idiosincrát ica en la población.

En un est udio similar, Hoddinot t y Skoufias ( 2003) t ambién est udian el
mismo programa pero est a vez para calcular el impact o sobre el consumo
de aliment os. A diferencia de Gert ler, est os aut ores son caut elosos con
respect o a la aplicación inmediat a de la diferencia de medias como
est imador del efect o causal, al encont rar problemas de no cumplimient o
en la muest ra de beneficiarios ( muchos hogares de localidades
beneficiarias no recibieron t rat amient o) y al haber significat ivas
diferencias en cuant o a composición por género, t amaño del hogar y edad
de los part icipant es ent re los grupos de beneficiarios y no beneficiarios.
Sugieren que mét odos de regresión cont rolando por est as variables son
una mej or alt ernat iva a la simple e incondicional diferencia de medias.

En ot ro est udio como el de Angrist y Lavy ( 2002) se ut iliza la ext ensión
de est a met odología cuando la aleat orización se hace a niveles de
grupos
15
y no de individuos, exist iendo ent onces dos niveles de
aleat orización. Est a met odología es usada ampliament e en medicina y
psicología, y se aplica especialment e cuando se selecciona al azar a
grupos ( como por ej emplo, comunidades, hospit ales, escuelas, et c.) , y

15
Conocido en inglés como Group Randomized Trials. Apunt es sobre la met odología se
pueden encont rar en Donner, Brown y Basher ( 1990) .

22

luego en una segunda et apa se selecciona a individuos dent ro de cada
grupo. Est a met odología ha demost rado ser menos cost osa en su
implement ación pero present a menor poder est adíst ico que los muest reos
aleat orios simples, principalment e debido a la correlación ent re los
grupos, ent re ot ras deficiencias
16
. En el est udio de est os aut ores se
analiza el efect o de un programa de premios monet arios a est udiant es
sobre el rendimient o en una prueba académica específica ( el Bagrut ) en
I srael, y para ello conducen dos experiment os, uno donde la
aleat orización se hace a nivel de individuos, y ot ro en donde se realiza a
nivel de escuelas. Cabe resalt ar en est e t rabaj o que los aut ores t uvieron
inconvenient es en el moment o de implement ar la aleat orización a nivel
de individuos debido a preocupaciones de los direct ivos educat ivos sobre
la elección de los miembros del grupo beneficiario. Debido a est o se
ut ilizó un mecanismo que además de ut ilizar al azar se t omaba en cuent a
el est at us socioeconómico de los est udiant es. También exist ieron
problemas para implement ar el experiment o a nivel de escuelas,
debiendo suspenderse en su primer año de aplicación debido a serias
cont roversias desat adas en los medios y la opinión pública. Est e es un
claro ej emplo de las dificult ades que est e t ipo de est udios experiment ales
debe enfrent ar en el moment o de su implement ación práct ica.

Exist en numerosos ej emplos que ut ilizan dat os experiment ales, de los
cuales solo mencionaremos a algunos por razones de espacio. Por
ej emplo, Banerj ee et al ( 2004) realizan dos est udios aleat orizados
evaluando el impact o de programas de asist encia educat iva a est udiant es
con baj o rendimient o sobre el aprendizaj e medido como punt aj e
promedio de sus pruebas académicas. En ot ro t rabaj o, Angrist et al
( 2002) , est udian el efect o de la ent rega de cupones a est udiant es
secundarios sobre el rendimient o y la asist encia escolar en Colombia.
Aunque est e est udio no podría cat alogarse est rict ament e hablando como
un experiment o cont rolado, exist ió en él una asignación aleat oria

16
La aleat orización de los grupos no garant iza el balanceo de las caract eríst icas a nivel de
individuos, como sí lo hacen las aleat orizaciones de individuos. Para más observaciones,
véase por ej emplo, Donner y Klar ( 2004) .

23

( mediant e un sort eo) de los cupones, lo que le dio el caráct er de
experiment o “ nat ural” y facilit ó el cálculo del impact o. En la siguient e
sección se explica en qué consist en est os experiment os nat urales y los
cuasiexperiment os.

4. 2. Est udios observacionales

Lo que hace que un experiment o sea “ verdadero” y t enga el poder de
medir correct ament e el impact o de una variable sobre ot ra es la
aleat orización en la selección de la muest ra del est udio y en la
aleat orización del t rat amient o, ambos baj o el cont rol del invest igador.
Como ya se explicó ant eriorment e, est a caract eríst ica garant iza que los
grupos de beneficiarios y cont rol sean comparables. Como hemos vist o en
la sección ant erior, en muchas ocasiones es difícil garant izar que el
t rat amient o se asigne en forma aleat oria de la forma como lo planeó el
invest igador. Normalment e suceden inconvenient es que afect an la
validez int erna del est udio. En ot ras ocasiones, por cuest iones práct icas
es imposible asignar el t rat amient o en forma aleat oria. Cada vez que
t engamos un est udio en donde el t rat amient o ha sido asignado en forma
no aleat oria sino que se basa en observaciones fuera del cont rol del
invest igador t endremos un est udio observacional.

Los est udios observacionales no son en si mismos experiment os aunque
de alguna manera pret enden simularlos en el sent ido que buscan elucidar
una relación causal ent re dos variables. En est os casos, si bien es posible
dist inguir una variable de t rat amient o y una o más variables de
result ados como posible consecuencia, t al t rat amient o no ha sido
asignado baj o el cont rol del invest igador. Por ej emplo, el t rat amient o
pudo ser result ado de cambios en la legislación que afect ó a ciert o sect or
de la población pero no a ot ro, a aspect os administ rat ivos, o quizás a
cuest iones purament e nat urales ( fenómenos at mosféricos, t elúricos, et c. )


24

En ocasiones, el t rat amient o puede haber sido asignado en una forma no
sist emát ica que se asemej a bast ant e bien a lo que hubiera sido un
experiment o cont rolado. En t al caso se suele hablar de un experiment o
“ nat ural” . En cambio si el t rat amient o est á lej os de haber sido asignado
en forma aleat oria pero el est udio realiza un import ant e esfuerzo por
asegurar la comparabilidad de los t rat ados versus los no t rat ados,
ent onces t enemos un “ cuasiexperiment o”
17
.

Una caract eríst ica frecuent e de los cuasiexperiment os ( aunque no
necesariament e indispensable para su definición) es que los grupos de
beneficiarios y cont rol ya exist en como grupos definidos ant es del
t rat amient o.

El hecho de que los dat os se basen en observaciones genera un pot encial
problema de validez ext erna del procedimient o pues no hay la seguridad
que t ales dat os represent en a la población t ot al. Por ej emplo, los dat os
provenient es de programas de capacit ación para el empleo podrían no
represent ar a la población t ot al de desempleados si la evaluación del
programa se concent ra en det erminadas áreas geográficas ( grandes
ciudades, por ej emplo) , o si cuent an con medios de información para
est ar al t ant o del programa.

Asimismo, una asignación del t rat amient o fuera del cont rol del
invest igador present a un pot encial problema de validez int erna si es que
est e t rat amient o no es asignado en forma aleat oria
18
. Como vimos en la
sección ant erior, est o represent aría una violación al supuest o ( I ) ( y por
ende al ( I I ) ) de la sección 3. 2, lo cual invalidaría el cálculo del ATE
mediant e la diferencia de medias pues no habría la garant ía que los
grupos B y N sean comparables. Es por ello que se requiere de un
t rat amient o est adíst ico muy cuidadoso con el fin de replicar o simular una

17
Véase Rosenbaum ( 2009) , páginas 4- 6. Es frecuent e encont rar en la lit erat ura que los
t érminos “ experiment os nat urales” y “ cuasiexperiment os” son usados como sinónimos.
18
Sin embargo no se descart a que en algunos casos excepcionales de cuasi experiment os,
el t rat amient o sí haya sido asignado en forma aleat oria por pura cuest ión del azar.

25

sit uación de t rat amient o aleat orio, o en ot ro caso, habiéndose ent endido
las razones para la no aleat orización, t omarlas en cuent a con el fin de
obt ener est imaciones válidas.
19


A pesar de est as dificult ades, exist en numerosos est udios que ut ilizan
dat os cuasiexperiment ales que buscan replicar los result ados de los
experiment os cont rolados, debido fundament alment e a las vent aj as que
est os est udios t ienen en t érminos de acceso a dat os y a que podrían no
sufrir algunos de los efect os perversos que cont aminan a los
experiment os aleat orios cont rolados
20
. Est os est udios son de diferent e
nat uraleza, algunos en si mismo pueden ser parecidos a los experiment os
aleat orios cont rolados, mient ras que ot ros pueden ser bast ant e dist int os.
En las siguient es secciones veremos est rat egias est adíst icas que se
adapt an a diversos problemas present ados a la hora de evaluar el
impact o cuando se t iene est e t ipo de dat os.


5. DI SEÑO DE REGRESI ÓN DI SCONTI NUA AGUDA

En un dest acado paper, Angrist y Lavy ( 1999) est udiaron una manera
como ident ificar el efect o del número de est udiant es por aula en escuelas
de I srael sobre el rendimient o educat ivo ut ilizando dat os observacionales.
Los aut ores est udiaron la “ regla de los Maimonides” en la cual ninguna
escuela de I srael debería t ener aulas con más de 40 alumnos. Si la
mat rícula excede ese número, inmediat ament e se divide el aula en dos
secciones con algo más de 20 alumnos por aula. En ese sent ido, la regla
est aría seleccionando ( casi al azar) a un grupo de est udiant es a est udiar
en aulas cercanas ( por la izquierda) a los 40 alumnos y a ot ro grupo de

19
Tal como menciona Campbell ( 1969) página 412, sobre est e problema: “ The general
et hic, here advocat ed for public administ rat ors as well as social scient ist s, is t o use t he
very best met hod possible, aiming at “ t rue experiment s” wit h random cont rol groups.
But where randomized t reat ment s are not possible, a self- crit ical use of quasi-
experiment al designs is advocat ed. We must do t he best we can wit h what is available
t o us.”
20
Por ej emplo la llamada “ react ividad” que se refiere al cambio en la conduct a de las
personas suj et as al est udio como el Hawt horne Effect .

26

similares caract eríst icas a est udiar en clases de menor t amaño.
Asumiendo que la mat rícula t ot al no est á relacionada con las
caract eríst icas de los est udiant es, la única diferencia ent re los dos grupos
mencionados sería el t amaño del aula promedio. Con ello se lograría
ident ificar el efect o t rat amient o promedio al menos localment e alrededor
de la discont inuidad en el t amaño de la clase.

Aunque el paper original de Angrist y Lavy muest ra que t al discont inuidad
en la práct ica no est á t an clarament e definida como lo señala la regla ( lo
cual requiere algunas correcciones adicionales que veremos más
adelant e) , la import ancia de est a nueva corrient e est riba en que se puede
ident ificar el efect o t rat amient o promedio al menos localment e alrededor
de la discont inuidad de una variable, siempre y cuando se cumplan
algunas condiciones básicas. Est as son: las ent idades se encuent ran
ordenadas en forma cont inua con respect o a una variable índice ( en est e
caso la mat rícula) , la variable result ado ( en est e caso, el rendimient o
escolar) t ambién est á relacionada cont inuament e con la variable índice, y
además se observa una asignación del t rat amient o con respect o a un
umbral definido sobre la variable índice, lo cual genera una discont inuidad
en el result ado observado en función del índice. Debido a la similit ud de
los individuos por encima o debaj o del umbral, el salt o en el result ado es
el efect o t rat amient o promedio alrededor del umbral. Est a es la base
general de los diseños de regresión discont inua aguda.

Los diseños de regresión discont inua son un caso especial de
experiment os nat urales en donde es posible ident ificar el efect o promedio
del t rat amient o al menos localment e. En la lit erat ura recient e de
evaluación de programas se ha venido aplicando est a t écnica de
regresión discont inua, la cual ha sido desarrollada y sist emat izada en
décadas recient es por Hahn, Todd y Van der Klaauw ( 2001) y ot ros
21
.

21
Un par de document os clásicos que muest ran el uso de est e enfoque en los 60’s son los
de Thist let hwait e y Campbell ( 1960) y Campbell ( 1969) , pero recién en años recient es
est e mét odo ha recobrado popularidad. Pueden consult arse algunas referencias
dest acables como I mbens y Lemieux ( 2007) .

27

Formalizando lo mencionado en los párrafos ant eriores
22
, en el cont ext o
del modelo de result ados pot enciales de Neyman- Rubin, supongamos que
el vect or de variables observables para cada ent idad i se compone de
) , (
i i
Z X donde
i
X es un escalar y
i
Z es un vect or de las demás
caract eríst icas observables de i que se asume que no han sido afect adas
por el t rat amient o. A la variable X ( la cual debe ser una variable
cont inua) se le conoce como “ forcing variable” y es la variable índice que
se mencionó líneas arriba pues los valores del t rat amient o
i
d se
encuent ran complet ament e det erminados por los valores de X si se
encuent ran a un lado o al ot ro de un umbral fij o c.

La idea general es que dado est e punt o de cort e, si la relación ent re X y
los result ados pot enciales
j
y es suave, cualquier discont inuidad
observable en ] | [ X y E será el efect o del t rat amient o en el punt o c.

En est e caso, ocurrirá que ] [ 1 c X d
i i
≥ = donde 1 es el operador que ot orga
el valor de 1 si es verdad la condición mencionada y 0 en ot ro caso, y c
es un punt o de cort e definido exógenament e. Es frecuent e que la variable
X sea re- escalada con t al que el punt o de cort e se ubique en cero.

Evident ement e est e es un caso ext remo de selección en observables pues
los grupos B y C difieren absolut ament e en la variable X , y por lo t ant o
la diferencia de las medias de grupo no es un est imador apropiado del
efect o del t rat amient o. Por el cont rario, la idea del mét odo es poder
ident ificar el efect o t rat amient o al menos localment e alrededor de c.

Gráficament e, las líneas punt eadas indican la esperanza condicional de
los result ados pot enciales dado X , ] | [ X y E
j
para j = 0, 1. Mient ras
t ant o, la línea cont inua indica la esperanza condicional del result ado
observado, el cual mat emát icament e es:

22
Aquí seguimos el desarrollo de I mbens y Lemieux, y el de Lee ( 2005) .

28

] | 1 Pr[ ] , 1 | [ ] | 0 Pr[ ] , 0 | [ ] | [ X d X d y E X d X d y E X y E = ⋅ = + = ⋅ = =


En el gráfico 1, el efect o t rat amient o es el salt o en la esperanza
condicional de y dado X .
] | [ lim ] | [ lim x X y E x X y E
i i
c x
i i
c x
= − =
↑ ↓


Es ilust rat ivo dibuj ar t ambién la relación ent re X y la probabilidad de
recibir el t rat amient o dado X , o sea ] | [ X d P . Est a relación se muest ra en
el gráfico 2.


X
P[d|X]
0
1
c
Gráfico 2
X
y
c
E(y
0
| X)
Grafico 1

29

En est e cont ext o de regresión discont inua aguda, seguimos asumiendo
que se cumple ( I I ’) pero ya no se est á cumpliendo el supuest o de
“ mat ching” o “ overlaping” , 1 ) | ( 0 < < X d P .

La violación de est e supuest o genera algunos inconvenient es en la
ident ificación el efect o del t rat amient o. El efect o t rat amient o promedio en
el punt o c es:

] | [ ] | [ ] | [
0 1 0 1
c X y E c X y E c X y y E ATE = − = = = − =

El primer t érmino es est imable con ciert a dificult ad pues se requiere que
exist a un número significat ivo de observaciones de c X = , lo cual puede
no cumplirse pues X es cont inua. En el caso del segundo t érmino, no hay
dat os de
0
y para c X = por definición. Se hace ent onces imperioso que la
ident ificación de est os efect os se haga localment e alrededor de c.

Es por ello que se hacen dos supuest os de Regresión Discont inua Aguda
que permit en ident ificar el efect o ( adicionales al supuest o ( I I ’) ) :

Cont inuidad de la función de regresión condicional: ] | [ x X y E
j
= es
cont inua en x , para j = 0, 1.

Cont inuidad de la función de dist ribución condicional: Sea
) | Pr( ) | (
|
b X a y b a F
j X y
j
= < = , asumimos que ) | (
|
b a F
X y
j
es cont inua en a
para t odo b, para j = 0, 1.

Baj o cualquiera de est os dos supuest os,
] | [ lim ] , 0 | [ lim ] | [ lim ] | [
0 0 0
X y E X d y E X y E c X y E
c X c X c X ↑ ↑ ↑
= = = = =

y similarment e
] | [ lim ] , 1 | [ lim ] | [ lim ] | [
1 1 1
X y E X d y E X y E c X y E
c X c X c X ↓ ↓ ↓
= = = = =



30

Luego, el ATE es:
] | [ lim ] | [ lim X y E X y E ATE
c X c X ↑ ↓
− =

El hecho de afirmar que el efect o t rat amient o es ident ificable localment e
alrededor de c indica que est amos suponiendo que los individuos
alrededor de c son comparables, t ant o en sus caract eríst icas observables
como no observables ( balanceo en ambas caract eríst icas) . Es decir, es
como si el t rat amient o se hubiera asignado aleat oriament e alrededor de
c, lo cual le da el caráct er de experiment o nat ural a est e diseño. A est e
supuest o t ambién se le conoce como el supuest o de “ int ercambiabilidad” .
Est e supuest o podría no cumplirse ( lo cual invalidaría la ident ificación del
ATE) si los individuos pudieran alt erar su información observable de X
con el fin de recibir o no el t rat amient o. Por ej emplo, si se t rat ara de un
programa de ayuda para individuos con ciert os ingresos por debaj o de un
umbral c. Si aquellos individuos que est uvieran apenas por encima de c
alt eraran su ingreso report ado reduciéndolo para hacerse beneficiarios del
programa, ocurriría ent onces que por debaj o de c se agruparían
individuos con ciert as caract eríst icas no observables, quedando por
encima de c a ot ros individuos que difícilment e serían comparables con
los “ de abaj o” .

Finalment e, el ATE se puede ident ificar mediant e una regresión semi-
lineal del t ipo
i i i d i
u X g d y + + = ) ( β

donde ) (
i
X g es una función cont inua en c X = . Aquí se cumple que
d
c X c X
X y E X y E ATE β = − =
↑ ↓
] | [ lim ] | [ lim

En resumen, hemos most rado cómo es posible ident ificar el efect o
t rat amient o en el caso de la regresión discont inua aguda. No obst ant e,
los supuest os de est e modelo podrían no cumplirse en la realidad
especialment e cuando se t rat a del cumplimient o de la regla de asignación

31

del t rat amient o. Es decir, es frecuent e que el umbral que define al
t rat amient o no sea t an claro como se menciona aquí sino que algunas
ent idades no cumplan con la regla, exist iendo ciert a probabilidad de
recibir el t rat amient o est ando por debaj o del umbral, o de no recibirlo
est ando por encima de él. El desarrollo de est e caso se present a en la
sección 7.

Exist en algunos ej emplos de la aplicación de regresión discont inua aguda
en est udios de impact o. En la lit erat ura de elecciones, se ha encont rado
que en elecciones aj ust adas ( donde las dos opciones a elegir se
encuent ran alrededor del 50%) se crea una discont inuidad aguda ( o
det erminíst ica) que puede ser explot ada para la ident ificación local del
impact o. Ej emplos de est a lit erat ura son Lee, Moret t i y But ler ( 2004)
quienes est udian la conduct a ( como congresist as) de diput ados del
Part ido Demócrat a de los Est ados Unidos que han sido elegidos en
elecciones aj ust adas, en cont rast e con diput ados del Part ido Republicano
que t ambién han sido elegidos en elecciones con escasa diferencia.
Asumiendo que en est e t ipo de elecciones aj ust adas, una variabilidad
nat ural hace que a veces gane uno u ot ro candidat o ( lo cual most raría
que la fuerza de cada part ido en su dist rit o es más o menos similar) , se
observa que las vot aciones en el Congreso de esos diput ados elegidos no
se acerca a la media, sino que ellos adopt an posiciones ya sea un t ant o
más de izquierda para los Demócrat as y de derecha para los
Republicanos ( est o últ imo medido mediant e un índice) . Es decir,
encuent ran una significat iva discont inuidad en el record de vot aciones de
est os diput ados, lo cual muest ra que al ser elegidos los polít icos no
represent an la volunt ad de la población que los eligió sino que siguen sus
propios designios ideológicos y los de su part ido.

En ot ro t rabaj o que aplica est a met odología, DiNardo y Lee ( 2002)
est udian el efect o de la sindicalización de empresas sobre la
supervivencia de las mismas. Los aut ores explot an el hecho que las
empresas se sindicalizan si consiguen al menos el 50% más 1 de los

32

vot os de los t rabaj adores. Con ello, muest ran con dat os que las empresas
con porcent aj es de vot ación a favor de la sindicalización alrededor del
50% t ienen caract eríst icas observables muy similares, con lo cual se
puede at ribuir el hecho de de est ar sindicalizado o no a fact ores
aleat orios. Encuent ran que el efect o de la sindicalización sobre la
supervivencia de las empresas es muy pequeño.

En ot ro t ipo de est udios económico- sociales, Barrera, Linden y Urquiola
( 2007) encuent ran que el programa colombiano Grat uidad, el cual libera
del pago de derechos académicos a est udiant es según ciert os niveles
socioeconómicos pre- est ablecidos, present a dat os que pueden ser
est udiados mediant e regresiones discont inuas. La discont inuidad se ubica
en los niveles socioeconómicos discret os ( nivel I , nivel I I , et c. ) definidos
sobre un índice de pobreza cont inuo llamado Sisben. En t al sent ido,
individuos alrededor de los cort es ( por ej emplo, alrededor de los 11
punt os de Sisben) pueden ser considerados muy similares, sin embargo,
aquellos a la izquierda de 11 se benefician del programa, pero aquellos a
la derecha de 11 punt os no reciben el beneficio. Se considera ent onces
que la única diferencia ent re est e grupo alrededor de los 11 punt os es el
programa, lo cual ident ifica el efect o causal. Encuent ran que part icipar en
el programa increment a en 3% la probabilidad de mat ricularse en la
escuela para el grupo de est udiant es de educación básica.


6. EL MÉTODO DE PAREO O MATCHI NG

El mét odo de pareo es una t écnica muy popular usada en el análisis de
polít icas a t ravés de dat os no experiment ales. A diferencia del diseño de
regresión discont inua aguda en donde los grupos de t rat ados y no
t rat ados se encuent ran complet ament e separados según la variable
índice, en est e caso se cumple el supuest o “ overlapping” o “ mat ching”
( ver sección 3. 4) y por ello los individuos de los grupos B y N compart e
ciert as caract eríst icas en un rango común.

33

Si bien es ciert o que es una t écnica est adíst ica relat ivament e ant igua
23
,
en años recient es ha t enido import ant es avances y perfeccionamient os
( por ej emplo, véase Heckman, I chimura y Todd ( 1997, 1998) ) . En
t érminos generales, busca evit ar el problema del “ confounder” en
est udios con dat os observacionales ( véase sección 0) que ocurre cuando
el efect o del t rat amient o sobre el result ado no puede ser dist inguido del
efect o de una t ercera variable relacionada con las dos primeras, debido al
desbalance de est a variable en los grupos B y N. Para lograr ese obj et ivo,
el mét odo del pareo, mediant e la conformación de parej as, busca definir
un subgrupo de no beneficiarios ( grupo de cont rol C) t al que cualquier
variable confundidora quede balanceada ent re los t rat ados y los
cont roles. Sin embargo, el mét odo solo logra evit ar el sesgo generado por
variables confundidoras observables.

Est a t écnica es especialment e út il cuando:
( 1) Se busca est imar el ATET
( 2) Se posee un número grande de individuos en el conj unt o N.
( 3) Se posee un conj unt o rico de variables observables, en especial
ant es de la aplicación del t rat amient o.

Observando el ) 1 | ( ) 1 | ( ) 1 | (
0 1 0 1
= − = = = − = d y E d y E d y y E ATET . Como se
mencionó ant es el t érmino ) 1 | (
0
= d y E no es observable. Además si el
t rat amient o no ha sido asignado en forma aleat oria ―como suele ser el
caso en los cuasiexperiment os― no podemos ut ilizar a un est imador de
) 0 | (
0
= d y E como una aproximación de ) 1 | (
0
= d y E pues nada garant iza
que las caract eríst icas observables y no observables se encuent ren
balanceadas ent re los grupos de beneficiarios y no beneficiarios.

Ant e est e problema de ident ificación, el mét odo propone unos supuest os
“ ident ificadores” , baj o los cuales sería posible calcular el ATET.

23
Véase por ej emplo, Cochran y Rubin ( 1973) , Rubin ( 1973) en donde se compara est a
t écnica con la de regresión aj ust ada por sesgo.

34

Asumamos que x d y y | ) , (
1 0
 y que 1 ) | Pr( 0 < < x d . En t érminos int uit ivos el
primer supuest o quiere decir que si cont rolamos a los individuos según
sus caract eríst icas observables ( por ej emplo, su género) , en cada
subgrupo que corresponde a valores específicos de x el t rat amient o es
independient e de los result ados, es decir ha sido asignado de forma
similar a una asignación aleat oria. El segundo supuest o afirma que para
cada valor de caract eríst icas observables x , exist en individuos que han
sido t rat ados y ot ros que no han recibido el t rat amient o.

En caso que est os supuest os se cumplan
24
, condicionado a x podemos
ut ilizar al grupo no beneficiario N como el escenario cont rafact ual
buscado ( grupo de cont rol, C) . Ent onces,

) 0 , | ( ) 1 , | ( |
0 1
= − = = d x y E d x y E x ATET

Si x es discret o, el est imador de pareo de ATET incondicional es

= = ⋅ =
x
i i
d x x x ATET ATET ) 1 | Pr( |
Cabe mencionar que si hay caract eríst icas no observables de los
individuos que no est án balanceadas, ent onces la diferencia de medias
condicionada a x no sería un buen est imador del efect o t rat amient o
promedio. Est a suele ser la principal deficiencia de est a t écnica.

Pero asumiendo que se cumple las condiciones de “ st rong ignorabilit y” , la
discusión rest ant e es cómo encont rar dent ro de los no t rat ados a un
grupo de cont rol que compart a las mismas caract eríst icas que el grupo
beneficiado y que pueda ser ut ilizado como el escenario cont rafact ual.



24
Est os supuest os son conocidos como “ st rong ignorabilit y” . La principal debilidad de est e
mét odo es j ust ament e el cumplimient o en la realidad de est os supuest os. Decir que el
balanceo se produzca en observables no asegura que t al balanceo t ambién se cumpla
en no observables.

35

6. 1. Pareo exact o e inexact o

La respuest a a la int errogant e plant eada nos lleva a pregunt arnos si
efect ivament e exist irán individuos que t engan las mismas caract eríst icas
pero que pert enezcan a grupos dist int os según la recepción del
t rat amient o.

Una primera forma de hacer est a búsqueda es mediant e el pareo exact o.
Para cada unidad B i ∈ con caract eríst icas
i
x , se busca una unidad N j ∈
que posea las mismas caract eríst icas, es decir
j i
x x = . Los “ pares” de cada
unidad i t omando como base a las caract eríst icas x son aquél grupo
{ }
j i i
x x N j x A = ∈ = | ) ( . Luego el grupo de cont rol es la unión de t odos los
conj unt os
i
A , es decir
i
B i
A C

∪ = .

Est a forma de hacer pareo t iene un problema conocido como el “ problema
de la dimensionalidad” . Puest o que en los est udios con dat os
microeconómicos los individuos suelen t ener muchas caract eríst icas
observables, es posible que para muchas unidades i no exist a su par
exact o j que compart a t odas esas caract eríst icas ( por ej emplo, la edad,
el sexo, el nivel educat ivo, et c.) y por lo t ant o el grupo de cont rol C
podría t ener muy pocos element os o quizás ninguno.

Una alt ernat iva a la versión exact a del pareo es la llamada “ inexact a” , en
donde se busca a unidades que sean parecidas a las t rat adas, aunque no
lleguen a t ener exact ament e las mismas caract eríst icas. Para ello se
definen unos crit erios de cercanía. En est e cont ext o los “ pares” de la
unidad i son el grupo { } ) ( | ) (
i j i
x v x N j x A ∈ ∈ = donde ) (
i
x v define a una
vecindad cercana a
i
x .

Las unidades cercanas a i podrían ser numerosas, por ello se suele
simular al escenario cont rafact ual
0
y con el promedio de est as unidades

36

cercanas
25
. Para realizar est e cálculo se acost umbra promediarlos usando
ponderadores ) , ( j i ω con 1 ) , ( 0 ≤ ≤ j i ω , y 1 ) , ( =


i
A j
j i ω . Normalment e los
ponderadores est arán relacionados con la cercanía de j a i , dándole
mayor peso a los que se encuent ren más cerca.

Es import ant e not ar en est e moment o que el pareo podría hacerse con
reemplazo o sin reemplazo. Si se hace sin reemplazo, una unidad j no
beneficiaria no puede ser ut ilizada para reconst ruir el escenario
cont rafact ual de dos unidades B i ∈ dist int as. Puest o que est o t rae
problemas con pérdidas de observaciones, el pareo con reemplazo sí
permit e que una unidad j pueda ser ut ilizada más de una vez, siendo de
especial ut ilidad cuando se t ienen pocas observaciones ( Dehej ia y Wahba,
2002) .

En cualquier caso, la fórmula general del est imador de ATET con pareo
inexact o es
∑ ∑
∈ ∈
|
|
.
|

\
|
− =
B i A j
j i
B i
y j i y
n
T E AT
0 1
) , (
1
ˆ
ω

Veamos a cont inuación algunos casos especiales de pareo inexact o, los
cuales difieren ya sea en la conformación del grupo
i
A a t ravés de la
definición de vecindad, o difieren en los pesos asignados en ) , ( j i ω .

Un caso muy común de pareo es aquél que se realiza según el “ vecino
más cercano” ( nearest neighbor) . Se escoge a la unidad j que est á más
cerca de i usando la dist ancia euclídea. En est e caso
{ }
j i j i
x x j x A − = min | ) (


25
Tal como señalan Dehej ia y Wahba ( 2002) , el hecho de t ener un grupo de comparación
unit ario o numeroso no es un asunt o t rivial. Tener muchas unidades de comparación
increment a la precisión de la est imación del escenario cont rafact ual pero genera sesgos
debido a que se ut ilizan unidades que podrían ser muy diferent es a la unidad t rat ada.

37

Normalment e est e conj unt o debería t ener solament e un element o
( 1 ) , ( = j i ω para el j más cercano y 0 ) , ( = j i ω para cualquier ot ra unidad) ,
aunque podría t ener a más de uno. Asimismo el invest igador puede
definir una dist ancia mínima ( llamada “ caliper” ) como primer filt ro, con el
fin de hacer un pareo con individuos que est én realment e cercanos.

6. 2. Pareo mediant e el “ propensit y score” .

Una forma alt ernat iva de resolver el problema de la dimensionalidad es
creando un punt aj e o “ propensit y score” que resuma en una sola variable
a t odas las caract eríst icas x de los individuos. En t érminos más
específicos, el propensit y score es la est imación de la probabilidad de ser
beneficiario del programa, ) | 1 Pr( ) ( x d x P = = . En un est udio muy celebrado,
Rosenbaum y Rubin ( 1983) demost raron que si x d y y | ) , (
0 1
 , ent onces se
cumple que ) ( ) , (
0 1
x P y y  . Est e result ado es de mucha import ancia pues
permit e que el pareo se pueda hacer con base en el propensit y score
( Dehej ia y Wahba, 1999, 2002) .

En la práct ica, el propensit y score es est imado mediant e regresiones logit
o probit . Una vez hecha est a est imación, se puede hacer un pareo
mediant e, por ej emplo, el vecino más cercano en t érminos de est e
punt aj e. En est e caso, t endríamos que el conj unt o de unidades “ pares” a
una unidad beneficiaria i es:
{ } ) (
ˆ
) (
ˆ
min | )) ( ( x P x P N j x P A
j i i
− ∈ =

Normalment e est e conj unt o será unit ario pues el propensit y score es una
variable cont inua que cuent a con un número ilimit ado de decimales. Al
igual que ant es es posible definir una dist ancia mínima, τ < − ) (
ˆ
) (
ˆ
x P x P
j i
,
pudiendo ent onces ser el conj unt o ) (x A
i
vacío.



38

Una alt ernat iva es la conocida como radius mat ching, en donde

{ } r P N j x P A
j i
< − ∈ =
i
P | )) ( (

A diferencia del vecino más cercano, en el caso de radius mat ching el
conj unt o )) ( ( x P A
i
puede t ener más de un element o. El ATET se est ima
considerando el promedio simple de los result ados y de los element os de
)) ( ( x P A
i
.

Un problema con los mét odos del vecino más cercano y radius mat ching
es que consumen mucha información y pierden muchas observaciones,
las cuales podrían cont ener información valiosa en la est imación de los
escenarios cont rafact uales. Una alt ernat iva propuest a en la lit erat ura es
que se permit a que las unidades del grupo de comparación )) ( ( x P A
i
sean
muchas alrededor del valor de x , pero ponderándolas según una función
ponderadora llamada kernel
26
que da más peso a unidades cercanas y
menor peso a las alej adas
27
. Luego el ponderador ) , ( j i ω es:




=
N j
i j
j i
h
P P
k
h
P P
k
j i
) (
) (
) , ( ω

donde P es el propensit y score, ) (⋅ k es un kernel
28
y h es el ancho de la
“ vent ana” el cual det ermina cuant os valores
j
P alrededor de
i
P serán
incluidas en el cálculo del promedio, es decir h define implícit ament e a

26
Un kernel es una función ) (x k que cumple algunas propiedades específicas. ( i) ) (x k es
simét rica alrededor de 0 y cont inua; ( ii)

=1 ) ( dz z k ,

= 0 ) ( dz z zk , ∞ <

dz z k ) ( ; ( iii)
0 ) ( = z k si
0
z z ≥ para un
0
z definido, o 0 ) ( → z k z cuando ∞ → z ; y ( iv)
∞ < =

k dz z k z ) (
2
.
27
Véase Heckman, I chimura, Smit h y Todd ( 1998) .
28
Algunos ej emplos de funciones kernel muy ut ilizadas son la uniforme donde
] 1 [ 1 ) 2 / 1 ( ) ( < ⋅ = z z k , la t riangular con ] 1 [ 1 ) 1 ( ) ( < ⋅ − = z z z k , la Epanechnikov donde
] 1 [ 1 ) 1 ( ) 4 / 3 ( ) (
2
< ⋅ − ⋅ = z z z k , y la Gaussiana donde ) 2 / exp( ) 2 ( ) (
2 2 / 1
z z k − =

π .

39

una vecindad. Est a especificación significa que el escenario cont rafact ual
es est imado a t ravés de la est imación de la esperanza condicional de y
sobre x mediant e una regresión no paramét rica de y sobre x para las
unidades del grupo no beneficiario. Est a regresión no paramét rica calcula
el promedio simple de y en el int ervalo seleccionado h . Una alt ernat iva
usada es la regresión lineal local, la cual calcula no solo un int ercept o
sino t ambién una pendient e localment e en la vecindad.

En cualquiera de los dos casos, en la elección del ancho de la vent ana h
exist irá un t rade- off ent re eficiencia y sesgo, pues una vent ana más
amplia abarca más observaciones lo cual genera una mayor eficiencia en
las est imaciones, pero increment a el sesgo que se origina en la
est imación al suavizarse una curva
29
. En el ext remo caso que ∞ → h , el
valor de la regresión no paramét rica simplement e ent regaría el promedio
de los valores de y del grupo no beneficiario, lo cual est aría alej ado de la
media condicional de y dado x . Por ot ro lado, si h es muy pequeño, se
cont aría con muy pocas observaciones lo cual rest a confiabilidad a las
predicciones.

Tal como señalan Heckman, I chimura, Smit h y Todd ( 1998) , una not able
diferencia ent re est a t écnica en comparación con los experiment os
aleat orios cont rolados es en el grupo de cont rol que se genera. Mient ras
que en los experiment os, dada la nat uraleza del proceso, se garant iza
que las caract eríst icas observables y no observables t ienen la misma
dist ribución ent re los beneficiarios y cont roles, en el caso de dat os no
experiment ales nada garant iza que eso ocurra. Por ello es frecuent e que
el propensit y score no t enga el mismo soport e que ent re beneficiarios y
no beneficiarios. Por t al razón, y con el fin de excluir a individuos que no
t ienen un “ par” en el ot ro grupo, se suele definir a un rango o soport e
común ( common support ) , que es la int ersección de los soport es de los

29
En Caliendo y Kopeinig ( 2005) se pueden encont rar algunos consej os práct icos a t omar
en cuent a para la implement ación del propensit y score mat ching.

40

beneficiarios y no beneficiarios en sus scores. El pareo se va a realizar
finalment e solament e ent re aquellos individuos que t engan un score
dent ro de dicho rango común, eliminándose a t odos los individuos que
queden fuera de él.

Cuando se realiza un pareo de uno- a- uno ( como en el caso del vecino
más cercano) después de la definición del soport e común, la dist ribución
del score ent re los beneficiarios y el grupo de cont rol debería ser muy
parecida. Si el rango en común es muy pequeño o inexist ent e ent re los
propensit y scores de los beneficiarios y no beneficiarios, no se podrá
realizar el pareo y además será una señal clara que los dos grupos no son
comparables.

Finalment e la expresión general del est imador del ATET con la definición
del soport e común es:
∑ ∑
⊂ ∈ ⊂ ∈
|
|
.
|

\
|
− =
CS B i CS A j
j i
B i
y j i y
n
T E AT
0 1
) , (
1
ˆ
ω

donde CS hace referencia a que solo se t oma en cuent a a individuos que
pert enecen al soport e común.

Las aplicaciones del mét odo de pareo en economía son numerosísimas y
los campos en los que se ut iliza crecen día a día. En economía laboral, en
especial en lo que se refiere a programas de desempleo y ent renamient o,
pueden consult arse por ej emplo los mencionados t rabaj os de Heckman,
I chimura y Todd ( 1997) , Dehej ia y Wahba ( 2002) , Lechner ( 2000) y
Burga ( 2003) en el caso del programa peruano PROJOVEN.

Exist en algunos t emas adicionales acerca del Mét odo de Pareo que no se
present arán aquí. Un t ema crucial es la principal desvent aj a del mét odo
propuest o en su incapacidad para cont rolar el sesgo en no variables no
observables. Para evit ar est e inconvenient e la lit erat ura se ha apoyado en

41

el mét odo t radicional de diferencias en diferencias, el cual
desarrollaremos más adelant e. Acerca de la elección ent re los algorit mos
propuest os para la const rucción del escenario cont rafact ual, algunos
est udios los han comparado encont rando algunas vent aj as o desvent aj as
ent re ellos
30
. Un resumen de est as comparaciones se puede encont rar en
Vinha ( 2006) . Sobre el t ipo de t rat amient o, es posible ext ender el
procedimient o para el caso de t rat amient os múlt iples no binarios, en
donde es import ant e la int ensidad o het erogeneidad del mismo. Algunos
est udios han desarrollado est e análisis que aun es relat ivament e nuevo
en economía ( véase por ej emplo Joffe y Rosenbaum, 1999; I mbens,
2000; Lechner, 2002) .


7. ENDOGENEI DAD DEL TRATAMI ENTO: EL MÉTODO DE
VARI ABLES I NSTRUMENTALES.
31


En ocasiones aun si los programas son diseñados para ser asignados en
forma aleat oria ent re la población obj et ivo, en la práct ica la recepción o
no del t rat amient o est á en manos de las personas quienes podrían decidir
no recibirlo o logran recibirlo sin haber sido pre- seleccionados. En t al
sit uación, las decisiones de las personas influyen en la variable
t rat amient o d , por lo cual se le debe considerar como una variable
endógena. De est a manera no se cumplen los supuest os ident ificadores
del ATE –debido a la aut oselección generada- por lo que la diferencia de
medias δ
ˆ
ni la est imación por mínimos cuadrados ordinarios
d
β
ˆ
en
i i d i
u d y + + = β β
0
son est imadores consist ent es del ATE.

La variable d podría no expresar plenament e el obj et ivo de la polít ica
pues algunas personas podrían decidir part icipar o no en ella; es decir, d

30
Un resumen de est as comparaciones se puede encont rar en Vinha ( 2006) .
31
Una revisión muy int uit iva del mét odo de variables inst rument ales se encuent ra en
Angrist y Krueger ( 2001) .

42

dependería de algunas variables no observables de preferencias, las
cuales est án capt uradas en el t érmino de error u .

A manera de ej emplo
32
, imaginemos que y es algún result ado ( por
ej emplo, el nivel educat ivo alcanzado por una persona i) y d indica si el
individuo part icipó o no en el servicio milit ar. Est a variable d no ocurre al
azar ent re los individuos pues la part icipación depende de la decisión de
ellos.

Supongamos que exist e una variable binaria z relacionada con d pero
que no con u. Por ej emplo, z podría represent ar un sort eo para designar
a los elegidos para el servicio milit ar. No t odos los sort eados hacen el
servicio milit ar ni t odos los que hacen el servicio fueron sort eados pero es
claro que exist e una asociación ent re el sort eo y la part icipación en el
servicio. Est e no cumplimient o de lo que indica el sort eo puede deberse a
muchas razones, como problemas de salud o mot ivación. El no
cumplimient o de la int ervención genera endogeneidad en la variable d .
Es bast ant e claro que en aplicaciones a la economía, en especial en
programas sociales, est e problema del no cumplimient o es de suma
import ancia.
33


Luego, si z cumple las condiciones usuales de las variables
inst rument ales ( est á correlacionada con d pero no con u) , ent onces
podemos ident ificar y est imar al parámet ro
d
β como el ATE en el modelo
i i d i
u d y + + = β β
0
. Calculando ) , cov( ) , cov( ) , cov(
0
z d z u d z y
d d
β β β = + + = ,
t endremos que el parámet ro poblacional ) , cov( ) , cov( z d z y
d
= β . Un análogo
muest ral de est a expresión es un est imador de variables inst rument ales
del efect o t rat amient o promedio
d
β .

32
Un ej emplo similar desarrolla Angrist ( 1990) . Véase t ambién Angrist , I mbens y Rubin
( 1996) .
33
En la lit erat ura médica se propone un análisis de la int ención del t rat amient o ( int ent ion-
t o- t reat analysis) en donde se compara el result ado promedio de aquellos seleccionados
por el programa versus el de aquellos no seleccionados por el programa, sin import ar si
cumplieron o no con el t rat amient o.

43

El rol de z en la ident ificación del ATE mediant e variables inst rument ales
se ubica en que ext rae aquella variabilidad de d que no est á relacionada
con u , y la asocia con la variabilidad de y relacionada a z . Si bien es
ciert o que est a est rat egia economét rica es út il t iene un cost o en t érminos
de la pérdida de información que cont ienen las variables y y d .

Para est udiar est e últ imo aspect o, vale la pena pregunt arse ¿qué es lo
que logra ident ificar exact ament e el est imador de variables
inst rument ales?
34
La respuest a a est a pregunt a se basa en el análisis de
la het erogeneidad de las respuest as de los individuos ant e el
inst rument o. Siguiendo con el ej emplo del servicio milit ar, en la siguient e
t abla se muest ra los valores de d ( en las filas) condicionados a valores
de z ( por columnas) . Se dist inguen cuat ro t ipos de individuos

z = 1 z = 0 Ti po
Val ores de d 1 0 Cumplidores
1 1 Siempr e t omadores
0 0 Nunca t omador es
0 1 Desafiant es

Los cumplidores hacen lo que dice el programa. Los siempre t omadores
part icipan en el programa salgan o no sort eados. Los nunca t omadores
deciden no part icipar en cualquiera de las cont ingencias. Los desafiant es
hacen siempre lo cont rario.

Most raremos la est rat egia est ándar en la lit erat ura para est udiar la
relación ent re el inst rument o propuest o z y las variables d e y , con el
fin de ident ificar el efect o t rat amient o promedio ATE. Observando los
valores de d condicionados a lo que obt engamos de z , se puede
descomponer a d en dos variables dummy, d
1
y d
0
, las cuales son
cont ingent es a los valores de z . Ambas variables t oman el valor de 1 si
el individuo part icipa en el programa y 0 si no part icipa. Aunque

34
Un desarrollo más general se encuent ra en I mbens y Angrist ( 1994) . En est a part e
seguiremos las exposiciones simplificadas que son est ándares en la lit erat ura ( Lee
2005, Wooldridge 2001) .

44

aparent ement e ambas dummies sean iguales, en la realidad solo son
observables parcialment e. Si part icipa en el programa, ent onces vemos
que 1
1
= d , si no part icipa en el programa observaremos que 0
0
= d .

Est a relación ent re d y z se puede modelar para cualquier unidad i
como
i i i i i
d z d z d
1 0
) 1 ( + − =

A su vez, la variable result ado y se relaciona con d mediant e la ecuación
) ( ) 1 (
0 1 0 1 0 i i i i i i i i i
y y d y y d y d y − + = + − =

donde clarament e
i i
y y
0
= si
i i
d d
0
= , e
i i
y y
1
= si
i i
d d
1
= . Reemplazando la
ecuación de
i
d en
i
y de la página ant erior y con un poco de algebra se
obt iene ( omit iendo el subíndice i ) :

) )( ( ) (
0 1 0 1 0 1 0 0
y y d d z y y d y y − − + − + =

Si se asume que z es independient e de y
1
, y
0
, d
1
y d
0
,

)) )( (( )) ( ( ) ( ) 1 | (
0 1 0 1 0 1 0 0
y y d d E y y d E y E z y E − − + − + = =
)) ( ( ) ( ) 0 | (
0 1 0 0
y y d E y E z y E − + = =

Luego, comparando la esperanza de los dos result ados dado que ocurre
algún valor específico de z obt enemos

)) | ( ) (( )) )( (( ) 0 | ( ) 1 | (
0 1 0 1 0 1 0 1 0 1
d d y y E d d E y y d d E z y E z y E − − − = − − = = − =

Como d
1
– d
0
t iene t res posibles result ados: 1, 0 y - 1,

) 1 Pr( ) 1 | ( 1 ) 0 | ( ) 1 | (
0 1 0 1 0 1
= − ⋅ = − − ⋅ = = − = d d d d y y E z y E z y E
) 1 Pr( ) 1 | ( 1 ) 0 Pr( ) 0 | ( 0
0 1 0 1 0 1 0 1 0 1 0 1
− = − ⋅ − = − − ⋅ − = − ⋅ = − − ⋅ + d d d d y y E d d d d y y E


45

Si asumimos que
0 1
d d ≥ , supuest o conocido como “ monot onicidad” ,
ent onces 0 ) 1 Pr(
0 1
= − = − d d con lo cual se elimina el t ercer t érmino de la
últ ima ecuación. Con ello la expresión se reduce a:

) 1 Pr( ) 1 | ( ) 0 | ( ) 1 | (
0 1 0 1 0 1
= − ⋅ = − − = = − = d d d d y y E z y E z y E

Dados los t res valores mencionados de que puede t omar
0 1
d d − , la
probabilidad se puede desmembrar de la siguient e forma:

) 0 | ( ) 1 | ( ) ( ) ( ) ( ) Pr(
0 1 0 1 0 1
= − = = − = − = − z d E z d E d E d E d d E d d
) 0 | 1 Pr( ) 1 | 1 Pr( = = − = = = z d z d

Aquí es necesario hacer el supuest o que ) 0 | 1 Pr( ) 1 | 1 Pr( = = ≠ = = z d z d el
cual t iene sent ido si el inst rument o z afect a a d .
35
Reemplazando est a
últ ima ecuación en la penúlt ima y despej ando t enemos

d sobre z de Efecto
y sobre z de Efecto
) 0 | ( ) 1 | (
) 0 | ( ) 1 | (
) 1 | (
0 1 0 1
=
= − =
= − =
= = − −
z d E z d E
z y E z y E
d d y y E

Se puede comprobar
36
que

d
z d
z y
z d E z d E
z y E z y E
β = =
= − =
= − =
) , cov(
) , cov(
) 0 | ( ) 1 | (
) 0 | ( ) 1 | (


en donde vemos que el rol de z ha sido de ident ificar el efect o de la
variación de d sobre la variación de y ( el parámet ro
d
β ) . Sin embargo,
est e valor solo mide la ganancia promedio de los cumplidores pues para
ellos 1
0 1
= − d d . No se puede calcular el efect o de los siempre t omadores
pues no se observa variabilidad en su conduct a, ni el efect o de los nunca
t omadores. Debido a que solo se est á ident ificando el efect o en un

35
Es la condición de relevancia que debe cumplir el inst rument o.
36
Lee ( 2005) , página 37.

46

subgrupo de la población, a est e impact o se le llama efect o t rat amient o
promedio local ( LATE)
37
.

El est imador de variables inst rument ales de
d
β ( t omando como
inst rument os a z y la const ant e de unos) es el análogo muest ral de la
razón de covarianzas. Est e es,

∑ ∑ ∑
∑ ∑ ∑


=
i i i i
i i i i IV
d
z d z d n
z y z y n
β
ˆ


Ot ro est imador de variables inst rument ales que es el análogo muest ral de
la razón de diferencias de esperanzas condicionales ( t ambién conocido
como el est imador de Wald) que muest ran Angrist , I mbens y Rubin
( 1996) es,
0 1
0 1
1
) 1 (
) 1 (
) 1 (
) 1 (
ˆ
d d
y y
z
z d
z
z d
z
z y
z
z y
i
i i
i
i i
i
i i
i
i i Wald
d


=
|
|
.
|

\
|


− ⋅
|
|
.
|

\
|


− =









β

Donde el numerador de la expresión ant erior es el est imador “ int ent ion-
t o- t reat ” del efect o de z sobre y , y el denominador el est imador
“ int ent ion- t o- t reat ” del efect o de z sobre d . Tant o
IV
d
β
ˆ
como
Wald
d
β
ˆ
son
est imadores I V consist ent es de LATE, la diferencia promedio de los
cumplidores.

Exist en algunas aplicaciones int eresant es del mét odo de variables
inst rument ales en el análisis de inferencia causal. Por ej emplo, Angrist y
Krueger ( 1991) analizan el efect o de los años de educación sobre los
ingresos en Est ados Unidos, en donde los años de educación son un
regresor endógeno. El inst rument o ut ilizado por est os aut ores es el
t rimest re de nacimient o, el cual predice bast ant e bien ( debido a los
reglament os y leyes en el sist ema educat ivo nort eamericano) la cant idad
de años que un est udiant e finalment e est udiará.

37
Por Local Average Treat ment Effect en inglés

47

En el est udio mencionado sobre la regla de las Maimonides, Angrist y
Lavy ( 1999) encuent ran que el t amaño de la clase no coincide
exact ament e con lo que predice la regla de los Maimonides debido a la
presencia de ciert a variabilidad en la det erminación del número de
est udiant es por aula. Sin embargo, ut ilizando a la regla de los
Maimonides como un inst rument o obt iene est imadores consist ent es del
efect o del t amaño de la clase sobre el rendimient o escolar en I srael.

En un ej emplo de la aplicación de est a t écnica para t rat amient os binarios,
Shady y Arauj o ( 2008) est udian el impact o del programa Bono de
Desarrollo Humano de Ecuador —el cual es un programa de
t ransferencias condicionadas de dinero— sobre la asist encia a la escuela.
Si bien el programa se asignó en forma aleat oria ent re la población
obj et ivo debido a problemas presupuest arios, en la práct ica hubieron
problemas de cumplimient o de los est ablecido por el sort eo, exist iendo
aut oselección en el t rat amient o. Para superar est e problema, los aut ores
est iman el efect o del programa por variables inst rument ales,
considerando a la asignación aleat oria como un inst rument o.


8. DI SEÑO DE REGRESI ÓN DI SCONTI NUA DI FUSA

Volviendo al t rabaj o de Angrist y Lavy sobre la regla de las Maimonides,
los aut ores proponen que el impact o de la variación abrupt a del t amaño
de clase sobre el rendimient o escolar puede medirse localment e alrededor
de la discont inuidad. Sin embargo, en algunas escuelas la mat rícula en un
det erminado grado no det ermina exact ament e si las aulas serán part idas
o no, ni que las aulas divididas t engan el mismo número de alumnos,
exist iendo casos en donde no se llevó a cabo la part ición o en donde la
part ición se realizó ant es de llegar a lo est ipulado por la regla. En ese
sent ido, el diseño de regresión discont inua aguda discut ido en la sección
5 podría no funcionar.

48

Est a misma sit uación podría repet irse en ot ros programas en donde la
asignación del t rat amient o ( recibirlo o no) dependa del valor un indicador
cont inuo. La het erogeneidad en las respuest as de los individuos ant e la
asignación del t rat amient o puede generar problemas de no cumplimient o
del mismo. Por ej emplo, en un programa de crédit o educat ivo para
alumnos que alcancen un rendimient o dado τ , habrá algunos alumnos
con rendimient o superior al umbral que no solicit arán crédit o así como
habrá individuos por rendimient o ligerament e por debaj o de τ que
podrían solicit ar y recibir crédit o si su sit uación familiar fuera muy crít ica.
También podría ocurrir que el comit é evaluador de crédit o podría ser
flexible en algunos casos baj o crit erios no cont rolados por el invest igador.

En t érminos más generales y cont inuando con la discusión de la sección
5, suele ocurrir en algunos casos que la variable asignadora X ( aquella
cuyos valores det erminarán la asignación del beneficio del programa,
como la mat rícula por grado en el ej emplo mencionado) no det ermina
exact ament e la part icipación o no en el programa aunque si podría alt erar
la probabilidad de que part icipe en el mismo. En est e caso diremos que la
part icipación en el t rat amient o es endógena, en el sent ido que depende
de la decisión de los agent es part icipant es.

En casos como el descrit o ocurrirá que

¹
´
¦
<

= =
c X si X
c X si X
X d
i i
i i
i i
) (
) (
) | 1 Pr(
0
1
δ
δ


donde ) ( ) (
0 1 i i
X X δ δ ≠ y ) ( ) (
0 1 i i
X X δ δ > . Con est o decimos que para los
individuos que est án a la derecha de c es más probable que obt engan
t rat amient o que aquellos que est án a la izquierda de c.

Tomando los gráficos que muest ran I mbens y Lemieux ( 2007) , en el
gráfico 3 se muest ra la discont inuidad en la probabilidad de recibir

49

t rat amient o, y el efect o de est a diferencia sobre los result ados
observables pueden apreciarse en el gráfico 4.





La consecuencia de est o en el modelo es que t endremos endogeneidad en
el t rat amient o
i
d , al ser est e no aleat orio sino dependient e de variables
no observables:

X
y
c
E(y
0
| X)
E(y
1
| X)
Gráfico 4
X
P[d|X]
0
1
c
Gráfico 3

50

i i i d i
u X g d y + + = ) ( β

en donde ahora
i
d est á correlacionado con
i
u , mas no
i
X .

Baj o el supuest o que ) (
i
X g es cont inua y dado que 0 ) | ( lim =

X u E
c X
,
ent onces podemos t omar el límit e por la derecha del esperado de la
expresión ant erior:

) | ( lim ) ( lim ) | ( lim ) | ( lim X u E X g X d E X y E
c X c X c X
d
c X ↓ ↓ ↓ ↓
+ + = β

mient ras que el límit e por la izquierda es

) | ( lim ) ( lim ) | ( lim ) | ( lim X u E X g X d E X y E
c X c X c X
d
c X ↑ ↑ ↑ ↑
+ + = β

Luego,

( ) ) | ( lim ) | ( lim ) | ( lim ) | ( lim X d E X d E X y E X y E
c X c X
d
c X c X ↑ ↓ ↑ ↓
− = − β

despej ando,

) | ( lim ) | ( lim
) | ( lim ) | ( lim
X d E X d E
X y E X y E
c X c X
c X c X
d
↑ ↓
↑ ↓


= β

el cual es el valor de ATE.

Siendo cuidadosos con lo que ident ifica est e est imador, analicemos con
cuidado lo que dice el denominador de la expresión ant erior. Nót ese que
) | ( X d E indica el t rat amient o esperado para cada valor de X .
Supongamos que t enemos individuos het erogéneos en la población, en
donde cada individuo t endrá una respuest a dist int a de part icipación en el
t rat amient o ant e un valor de su propio
i
X . Los grupos mencionados en la
sección 7 se definen en el cont ext o act ual como:

51

Cumplidores: ( ) c X si d c X si d
i i i i
< = ≥ = 0 , 1 I ndividuos que acept an el
t rat amient o si su X
i
se ubica a la derecha de c, no lo t oman si X
i
est á a la
izquierda de c.
Siempre t omadores: ( ) c X si d c X si d
i i i i
< = ≥ = 1 , 1 Siempre part icipan.
Nunca t omadores: ( ) c X si d c X si d
i i i i
< = ≥ = 0 , 0 Nunca part icipan.

En el caso de los siempre t omadores y los nunca t omadores, el
denominador es cero pues no hay variabilidad en d para X alrededor de
c. Por lo t ant o, el ATE mencionado arriba, al igual que el est imador de
variables inst rument ales, solo est á ident ificado para los individuos
cumplidores alrededor del punt o c.

En la aplicación práct ica del mét odo de regresión discont inua aguda o
difusa, hay varias cuest iones a t omar en cuent a. En primer lugar se
debería dist inguir a qué caso de regresión discont inua corresponde el
problema que est amos analizando. En est a et apa, un análisis gráfico de
los dat os suele ser de bast ant e ut ilidad. Algo muy import ant e que se
debe verificar ant es de empezar es que el salt o en la variable result ado y
se deba únicament e a los valores de X alrededor del umbral. Si X
provoca salt os en ot ros det erminant es de y , se dist orsionaría el efect o
del t rat amient o. Algo que debe observarse t ambién es que la dist ribución
de las observaciones de X a ambos lados de c deberían ser simét ricas. Si
se observa una discont inuidad o fuert es asimet rías, se podría pensar que
los individuos han manipulado sus valores de X con el fin de est ar a un
lado de c ( para recibir o no el t rat amient o) . Si est o ocurre, se invalidaría
el supuest o de int ercambiabilidad de los individuos alrededor de c.

El mét odo t ambién present a algunas limit aciones import ant es. Una de
ellas t iene que ver con la validez ext erna. Tant o el diseño de regresión
discont inua aguda como difusa ident ifican al ATE únicament e alrededor
de X= c. I ncluso el diseño difuso se limit a a una subpoblación aún más
pequeña, los cumplidores. Cualquier ext rapolación de est os result ados a

52

ot ras subpoblaciones debe hacerse con cuidado. Ot ra limit ación
import ant e es el número de observaciones con que se cuent a alrededor
del cort e. Se requiere de muchas observaciones para t ener est imadores
confiables y precisos.


9. EL MÉTODO DE DI FERENCI AS EN DI FERENCI AS

Como se mencionó en la sección 6, el principal problema del mét odo de
pareo en la est imación del ATET es que no puede cont rolar las
caract eríst icas no observables de los individuos, con lo cual exist e un
serio riesgo de sesgo en la est imación de est e valor. Sin embargo,
veremos en est a sección que podemos plant ear un mét odo que —baj o
ciert os supuest os― es capaz de remover aquél component e no
observable de los dat os con el fin de t ener est imaciones confiables. En
sínt esis, apoyándonos en la exist encia de dat os de panel de los individuos
ant es y después de recibir el t rat amient o y asumiendo que las
caract eríst icas no observables son invariant es en el t iempo podemos
obt ener est imaciones confiables del efect o t rat amient o.

El t radicional mét odo de diferencias en diferencias es un refinamient o del
mét odo de diferencias de Rubin de la sección 3. 1 considerándose no solo
la diferencia promedio de los result ados ent re los individuos de los grupos
B y C sino t ambién la diferencia de la variable result ado ant es y después
del t rat amient o. La idea de est e procedimient o est á en que se pret ende
eliminar cualquier component e sist emát ico y común a ambos grupos que
vaya cambiando en el t iempo, el cual podría dist orsionar el efect o del
programa si se pret ende medirlo como la diferencia de los result ados pos-
t rat amient o. Asimismo, la diferencia t ambién puede eliminar cualquier
ot ro component e individual no observable de cada grupo. De est e modo
la diferencia en diferencia es una est rat egia ident ificadora del efect o
t rat amient o promedio como most ramos a cont inuación.


53

Los result ados pot enciales en est e cont ext o dependerán no solo del
individuo sino del t iempo,
jit
y , donde 1 , 0 = j muest ra la exposición
pot encial o no al t rat amient o –al igual que en la sección 3- , 1 , 0 = t indica
el t iempo, donde 0 es el periodo ant es del t rat amient o y 1 después del
t rat amient o, e i indica a la unidad i . Con el fin de evit ar una not ación
engorrosa, hacemos
j
t jit
y y = en donde se omit irá el subíndice i . Nót ese
que el indicador del result ado pot encial se encuent ra ahora como un
superíndice. Por su part e, el result ado observado es
t it
y y = . Para la
variable del t rat amient o se escribirá
t it
d d = . Est a variable no solo indica la
recepción del t rat amient o en cada periodo para la unidad i sino que
t ambién indica si est amos hablando del grupo beneficiario ( 1
1
= d ) o del
grupo no beneficiario ( 0
1
= d ) en cualquiera de los dos periodos.

El efect o t rat amient o promedio sobre los t rat ados se define como

) 1 | ( ) 1 | (
1
0
1 1
1
1
= − = = = d y E d y E ATET
T
δ

donde puede verse que el segundo t érmino ) 1 | (
1
0
1
= d y E no es observable
pues es el result ado promedio que hubieran obt enido los beneficiarios en
caso no hubieran recibido el t rat amient o.

Se podría pensar en el grupo no beneficiario como el cont rafact ual del
beneficiario. Sin embargo, en est e cont ext o la diferencia de medias de los
beneficiarios y no beneficiarios en el periodo 1 ( pos- t rat amient o) no
ident ifica al ATET. Veamos,
) 0 | ( ) 1 | ( ) 0 | ( ) 1 | (
1
0
1 1
1
1 1 1 1 1
= − = = = − = d y E d y E d y E d y E

Sumando y rest ando ) 1 | (
1
0
1
= d y E se obt iene
) 0 | ( ) 1 | ( ) 0 | ( ) 1 | (
1
0
1 1
0
1 1 1 1 1
= − = + = = − = d y E d y E d y E d y E
T
δ


54

La expresión ) 0 | ( ) 1 | (
1
0
1 1
0
1
= − = d y E d y E muest ra la diferencia en los
result ados pot enciales en ausencia de t rat amient o ent re los dos grupos
en el periodo 1. Si se mant iene el supuest o que el t rat amient o es
independient e en medias condicionales con
0
y , ent onces t al diferencia
sería igual a cero. Si no se cumple, ent onces la diferencia en medias
post - t rat amient o no ident ifica el ATE. Esa diferencia capt ura aquel
component e individual que no est á balanceado ent re los dos grupos.

Análogament e, la diferencia en medias en el periodo cero para los dos
grupos es
) 0 | ( ) 1 | ( ) 0 | ( ) 1 | (
1
0
0 1
0
0 1 0 1 0
= − = = = − = d y E d y E d y E d y E

la cual debería ser cero ant e aleat orización del t rat amient o o menos
rigurosament e cuando d y 
0
. Cuando no se cumple est o, capt ura las
diferencias en el result ado pot encial 0 para ambos grupos en el periodo 0.

Si t ales diferencias ent re los beneficiarios y no beneficiarios se mant ienen
en 0 = t y 1 = t , ent onces ocurrirá que
d d y E d y E d y E d y E ∆ ≡ = − = = = − = ) 0 | ( ) 1 | ( ) 0 | ( ) 1 | (
1
0
0 1
0
0 1
0
1 1
0
1


Luego la diferencia de la diferencia ident ifica al ATET.
| | | |
T
d y E d y E d y E d y E δ = = − = − = − = ) 0 | ( ) 1 | ( ) 0 | ( ) 1 | (
1 0 1 0 1 1 1 1


Ot ra forma de obt ener el mismo result ado es la siguient e. La diferencia
en result ados observables ant es y después del t rat amient o para el grupo
B ( 1
1
= d ) es,
) 1 | ( ) 1 | ( ) 1 | ( ) 1 | (
1
1
0 1
1
1 1 0 1 1
= − = = = − = d y E d y E d y E d y E

Sumando y rest ando ) 1 | (
1
0
1
= d y E se obt iene
) 1 | ( ) 1 | (
) 1 | ( ) 1 | ( ) 1 | ( ) 1 | (
1
0
0 1
0
1
1
1
0 1
0
1 1 0 1 1
= − = + =
= − = + = = − =
d y E d y E
d y E d y E d y E d y E
T
T
δ
δ


55

En donde se ha t omado en cuent a que ant es del t rat amient o,
) | ( ) | (
1
0
0
0
d y E d y E = . La expresión ) 1 | ( ) 1 | (
1
0
0 1
0
1
= − = d y E d y E capt ura el efect o
t emporal sobre
0
y para los beneficiarios. No hay ninguna razón para
asumir que t al efect o es cero, ni siquiera en experiment os aleat orios.

Para el grupo N ( ) 0
1
= d , la diferencia de medias ant es y después es:
) 0 | ( ) 0 | ( ) 0 | ( ) 0 | (
1
0
0 1
0
1 1 1 1 1
= − = = = − = d y E d y E d y E d y E

donde est a diferencia muest ra el efect o del t iempo sobre
0
y para los no
beneficiarios. Nada garant iza que est e efect o t emporal sobre
0
y sea igual
a aquél de los beneficiarios. En est e punt o se requiere asumir que t ales
efect os t emporales son iguales para B y N ( ambos siguen la misma
t endencia)

t d y E d y E d y E d y E ∆ ≡ = − = = = − = ) 0 | ( ) 0 | ( ) 1 | ( ) 1 | (
1
0
0 1
0
1 1
0
0 1
0
1


Luego la diferencia de la diferencia ident ifica el ATET

| | | |
T
d y E d y E d y E d y E δ = = − = − = − = ) 0 | ( ) 0 | ( ) 1 | ( ) 1 | (
1 0 1 1 1 0 1 1


Ut ilizando análogos muest rales, un est imador consist ent e de ATET es

( ) ( )
0 , 1 , 0 , 1 ,
^
= ∈ = ∈ = ∈ = ∈
− − − =
t N i t N i t B i t B i
T y y y y δ

En el gráfico 5 se puede apreciar el efect o de la doble diferenciación. En
la figura se t oma como base al periodo 0 = t en donde se cuent a con
observaciones de y para ambos grupos, y se t iene información en el
periodo 1 = t después de la aplicación del t rat amient o, t ambién para
ambos grupos. Los punt os negros indican valores realizados mient ras que
el punt o blanco indica el result ado pot encial no observable.

56



Puede not arse que el supuest o acerca del mismo efect o t emporal en
0
y
se cumple al ser paralelas las rect as )] 0 | ( ), 0 | ( [
1
0
1 1
0
0
= = d y E d y E y la rect a
)] 1 | ( ), 1 | ( [
1
0
1 1
0
0
= = d y E d y E . Si t al paralelismo no se cumple, el est imador de
diferencias en diferencias sería un est imador incorrect o de de ATET.

El gráfico ant erior muest ra clarament e que el est imador de diferencias en
diferencias es el ATET y no el ATE. Es decir el cálculo no es válido
ext ernament e para ot ros grupos dist int os a los beneficiarios.

En t érminos de regresiones, se puede obt ener el est imador de diferencias
en diferencias de la regresión
it t i it d it
d y ε λ µ β + + + =

donde
it
y es el valor observado del result ado,
i
µ muest ra un efect o
individual ( efect o fij o) no observable que afect a a la variable result ado,
t
λ
es un component e t emporal no observable que genera el “ efect o periodo”
y
it
ε es un t érmino de error de media cero, varianza condicional
const ant e y no correlacionado con ninguna de las demás variables ni con
) 1 (
1
|
1
1
= d y E
) 1 (
1
|
0
1
= d y E
) 0 (
1
|
0
1
= d y E ) 1 (
1
|
0
0
= d y E

) 0 (
1
|
0
0
= d y E
Tiempo
y
t = 0 t = 1
T
δ

t ∆

d ∆

Gráfico 5

57

ningún ot ro error. Se puede comprobar sin mayor dificult ad que la
diferencia en diferencia

) 0 | ( ) 1 | (
0 0 1 1 0 1
= − − = − d y y E d y y E
i i i i


es igual al parámet ro
d
β , el cual es el efect o causal que se desea
est imar.

No hemos mencionado nada acerca del cont rol en variables x . Sin
embargo, se puede ext ender el análisis condicionando a diferent es
valores de est as variables de cont rol. Baj o la exist encia en un soport e
común en las caract eríst icas x , y baj o el supuest o de iguales t endencias
de
0
it
y en los t rat ados y no t rat ados condicional a valores de x , se puede
emplear el mét odo de pareo para calcular el ATET. Una met odología
usada en dat os observacionales en donde no se aprecie una clara
aleat orización del t rat amient o es el mét odo de pareo en diferencias en
diferencias condicional ( Heckman et al 1997) . Est e est imador es ( sin
omit ir el subíndice i del individuo o unidad de análisis) :

( ) ( )
∑ ∑
⊂ ∈ ⊂ ∈
|
|
.
|

\
|
− − − =
CS B i CS A k
k k i i
B i
y y k i y y
n
T E AT
0
0
0
1
0
0
1
1
) , (
1
ˆ
ω

Donde
i
A es el grupo comparable a la unidad i que t iene las
caract eríst icas comunes con los beneficiarios, y los ponderadores ) , ( k i ω
son los que se present aron en la sección 0.

Exist en numerosas aplicaciones del mét odo de diferencias en diferencias
en est udios observacionales y t ambién en experiment ales
38
. Por ej emplo,
Chong y Galdo ( 2006) est udian el impact o del programa de capacit ación

38
Se puede comprobar que en el caso de est udios experiment ales exist e una ganancia en
eficiencia cuando se ut iliza el est imador de diferencias en diferencias, en comparación
con la diferencia simple de los beneficiarios y el grupo de cont rol en el periodo post -
t rat amient o.

58

j uvenil PROJOVEN sobre los salarios ganados y ut ilizan el est imador de
pareo en diferencias en diferencias condicional, aunque los aut ores
aj ust an el est imador con el fin de analizar variaciones en la calidad del
programa.

En est udios que t rabaj an con modelos de regresión lineal con efect os
fij os, Di Tella y Schargrodsky ( 2004) calculan el impact o de la presencia
policial en la reducción del crimen, t omando dat os de un experiment o
nat ural surgido de un at ent ado t errorist a en la ciudad de Buenos Aires.
Tras el at ent ado, se reforzó la seguridad alrededor de los locales de 45
inst it uciones j udías y musulmanas en la ciudad. Aplicando el mét odo de
diferencias en diferencias a t ravés de regresiones con dat os de panel,
encuent ran un efect o significat ivo de una mayor presencia policial en el
número promedio de aut os robados en comparación con vecindarios de
similares caract eríst icas socioeconómicas pero que no cont aban con
presencia policial adicional. En ot ro document o, Galiani, Gert ler y
Schargrodsky ( 2005) est udian el impact o de la privat ización en el
suminist ro de agua en Argent ina sobre la mort alidad infant il. Habiendo
verificado que la mort alidad infant il mant enía una misma t endencia ant es
de la aplicación de la polít ica ( lo cual sust ent aría el supuest o de iguales
t endencias de los result ados pot enciales sin t rat amient o en los grupos
beneficiarios y no beneficiarios) , la regresión con efect os fij os encuent ra
que la mort alidad infant il se reduj o como consecuencia de la
privat ización.


10. CONSI DERACI ONES FI NALES

El obj et ivo de est e document o ha sido most rar los mét odos más
populares ut ilizados para ident ificar y est imar el efect o causal de una
polít ica con t rat amient o binario, sobre un result ado. El énfasis se ha
puest o en t érminos de la ident ificación de dicho efect o, la cual dependerá

59

de una serie de supuest os que se aj ust an a los dat os que se t iene
disponible.

La elección final del mét odo debe basarse en la problemát ica de est udio,
pero debe en t odo moment o t enerse en cuent a los supuest os baj o los
cuales t al mét odo realment e ident ifica al efect o t rat amient o promedio
buscado.



60

BI BLI OGRAFÍ A

Angrist , Joshua D.
( 1990) “ The effect of vet eran benefit s on vet erans’ educat ion and
earnings. ” Nat ional Bureau of Economic Research, Working
Paper N° 3492.

Angrist , Joshua, Eric Bet t inger, Erik Bloom, Elizabet h King, Michael
Kremer.
( 2002) “ Vouchers for Privat e Schooling in Colombia: Evidence from a
Randomized Nat ural Experiment ” . The American Economic
Review, Vol. 92, No. 5, pp. 1535- 1558.

Angrist , Joshua, Guido W. I mbens y Donald B. Rubin.
( 1996) “ I dent ificat ion of causal effect s using inst rument al variables. ”
Journal of t he American St at ist ical Associat ion, Vol. 91, N° 434
( Junio 1996) , pp. 444- 455.

Angrist , Joshua D. y Alan B. Krueger.
( 2001) “ I nst rument al variables and t he search for ident ificat ion: from
supply and demand t o nat ural experiment s. ” The Journal of
Economic Perspect ives, Vol. 15, No. 4 ( Aut umn, 2001) , pp. 69-
85.

Angrist , Joshua D. y Vict or Lavy.
( 1999) “ Using Maimonides’ rule t o est imat e t he effect of class size on
scholast ic achievement . ” The Quart erly Journal of Economics,
Vol. 114 N°2 ( May, 1999) , pp. 533- 575.

( 2002) “ The effect of high school mat riculat ion awards: evidence from
randomized t rials” . Nat ional Bureau of Economic Research
Working Paper N° 9389. ht t p: / / www. nber. org/ papers/ w9389.

Banerj ee, Abhij it , Shawn Cole, Est her Duflo, and Leigh Linden.
( 2004) “ Remedying Educat ion: Evidence from t wo randomized
experiment s in I ndia. ” Mimeo, MI T

Barrera- Osorio, Felipe, Leigh L. Linden y Miguel Urquiola.
( 2007) “ The effect s of user fee reduct ions on enrollment : evidence
from a quasi- experiment . ” Mimeo, Columbia Universit y.
ht t p: / / www.col umbi a.edu/ ~ ll2240/ Grat ui dad%20Draft %202007- 01.pdf

Burga, Cybele.
( 2003) “ Re- evaluando PROJOVEN: propensit y score mat ching y una
evaluación paramét rica. ” Consorcio de I nvest igación Económica
y Social ( CI ES) . www. cies. org. pe/ files/ act ive/ 0/ Pb0112. pdf.



61

Caliendo, Marco y Sabine Kopeinig.
( 2005) “ Some Pract ical Guidance for t he implement at ion of propensit y
score mat ching. ” I ZA Discussion Paper N° 1588. The I nst it ut e
for t he St udy of Labor.

Campbell, Donald T.
( 1969) “ Reforms as experiment s. ” American Psychologist , 24: 409- 429.

Cochran, William G.
( 1965) “ The planning of observat ional st udies of human populat ions. ”
Journal of t he Royal St at ist ical Societ y. Series A ( general) ,
Vol. 128, N°2, pp. 234- 255.

Cochran, William G. y Donald B. Rubin.
( 1973) “ Cont rolling bias in observat ional st udies: a review. ” Sankhya:
The I ndian Journal of St at ist ics. Series A, Vol. 35 N°4, pp. 417-
446.

Chong, Albert o y José Galdo.
( 2006) “ Training qualit y and earnings: t he effect s of compet it ion on t he
provision of public- sponsored t raining programs. ” Banco
I nt eramericano de Desarrollo. Working Paper N°. 555.

Dehej ia, Raj eev H. y Sadek Wahba.
( 1999) “ Causal effect s in nonexperiment al st udies: reevaluat ing t he
evaluat ion of t raining programs. ” Journal of t he American
St at ist ical Associat ion, Vol. 94, N° 448, pp. 1053- 1062.

( 2002) “ Propensit y Score- Mat ching Met hods for Nonexperiment al
Causal St udies. ” The Review of Economics and St at ist ics, Vol.
84, No. 1 ( Feb. , 2002) , pp. 151- 161

Di Nardo, John y David S. Lee.
( 2002) “ The impact of unionizat ion on est ablishment closure: A
regression discont inuit y analysis of represent at ion elect ions. ”
Nat ional Bureau of Economic Research, Working Paper N° 8993,
Junio 2002.
ht t p: / / www.nber. org/ papers/ w8993

Di Tella, Rafael y Ernest o Schargrodsky.
( 2004) “ Do police reduce crime? Est imat es using t he allocat ion of policy
forces aft er a t errorist at t ack. ” The American Economic Review,
Vol. 94. N°1, pp. 115- 133.

Donner, Allan y Neil Klar.
( 2004) “ Pit falls of and cont roversies in clust er randomizat ion t rials” .
American Journal of Public Healt h, 94, 3: 416- 422.



62

Donner, Allan, St ephen Brown y Penny Brasher.
( 1990) “ A met hodological review of non- t herapeut ic int ervent ion t rials
employing clust er randomizat ion, 1979- 1989” . I nt ernat ional
Journal of Epidemiology. Vol. 19, N°4, pp. 795- 800.

Galiani, Sebast ian, Paul Gert ler and Ernest o Schargrodsky.
( 2005) “ Wat er for life: t he impact of t he privat izat ion of wat er services
on child mort alit y. ” The Journal of Polit ical Economy, Vol. 113,
No. 1 ( Feb. , 2005) , pp. 83- 120.

Gert ler, Paul.
( 2004) “ Do condit ional cash t ransfers improve child healt h? Evidence
from PROGRESA’s cont rol randomized experiment , ” American
Economic Review: Papers and Proceedings, 94( 2) : 336- 34.

Goldberger, A.
( 1972) “ St ruct ural Equat ions Met hods in t he Social Sciences” .
Economet rica Vol. 40, N° 6 ( Noviembre) , pp. 979- 1002.

Haavelmo, Trygve.
( 1943) “ The st at ist ical implicat ions of a syst em of simult aneous
equat ions. ” Economet rica, Vol. 11, No. 1 ( Enero) , pp. 1- 12.

( 1944) “ The probabilit y approach in economet rics. ” Economet rica, Vol.
12, Supplement ( Julio) , pp. iii- 115.

Hahn, Todd y Van der Klaauw.
( 2001) “ I dent ificat ion and Est imat ion of t reat ment effect s wit h a
regression- discont inuit y design” , Economet rica, Vol. 69, N°1
( January, 2001) , 201- 209.

Heckman, James J. , Hidehiko I chimura y Pet ra E. Todd.
( 1997) “ Mat ching as an economet ric evaluat ion est imat or: evidence
from evaluat ing a j ob t raining programme. ” The Review of
Economic St udies, Vol. 64, No. 4, Special I ssue: Evaluat ion of
Training and Ot her Social Programmes ( Oct ubre) , pp. 605- 654.

( 1998) “ Mat ching as an economet ric evaluat ion est imat or. ” The Review
of Economic St udies, Vol. 65, No. 2 ( Abril) , pp. 261- 294.

Heckman, James, Hidehiko I chimura, Jeffrey Smit h y Pet ra E. Todd.
( 1997) “ Charact erizing select ion bias using experiment al dat a. ”
Economet rica, Vol. 66, No. 5 ( Sept iembre) , pp. 1017- 1098.

Hoddinot t , John y Emmanuel Skoufias.
( 2003) “ The impact of Progresa on food consumpt ion. ” FCNF Discussion
Paper N° 150. Washingt on: I FPRI .



63

Holland, Paul W.
( 1985) “ St at ist ics and causal inference. ” Journal of t he American
St at ist ical Associat ion. Vol. 81, N° 396, Theory and Met hods, pp.
945- 960.

I mbens, Guido.
( 2000) “ The role of t he propensit y score in est imat ing dose- response
funct ions. ” Biomet rika, Vol. 87, No. 3 ( Sep. , 2000) , pp. 706-
710.

I mbens, Guido y Joshua D. Angrist .
( 1994) “ I dent ificat ion and est imat ion of local average t reat ment
effect s. ” Economet rica, Vol. 62, N° 2 ( Marzo 1994) , pp. 467-
475.

I mbens, Guido y Thomas Lemieux.
( 2007) “ Regression discont inuit y designs: a guide t o pract ice” . Nat ional
Bureau of Economic Research, Working Paper N° 13039,
ht t p: www.nber. org/ papers/ w13039.

Joffe, Marshall M. y Paul R. Rosenbaum.
( 1999) “ Propensit y scores. ” American Journal of Epidemiology. Vol. 150
N°4, pp. 327- 333.

Lalonde, Robert J.
( 1986) Evaluat ing t he economet ric evaluat ions of t raining programs
wit h experiment al dat a. The American Economic Review, Vol.
76, No. 4 ( Sep) , pp. 604- 620.

Lechner, Michael.
( 2000) “ An evaluat ion of public- sect or- sponsored cont inuous vocat ional
t raining programs in East Germany. ” The Journal of Human
Resources, Vol. 35, No. 2 ( Spring, 2000) , pp. 347- 375

Lechner, Michael.
( 2002) “ Program het erogeneit y and propensit y score mat ching: an
applicat ion t o t he evaluat ion of act ive labor market policies. ”
The Review of Economics and St at ist ics, Vol. 84, No. 2 ( May,
2002) , pp. 205- 220.

Lee, Myoung- Jae.
( 2005) Micro- economet rics for policy, program, and t reat ment effect s.
Oxford: Oxford Universit y Press, 2005

Lee, David S. , Enrico Moret t i y Mat t hew J. But ler.
( 2004) The Quart erly Journal of Economics, Vol. 119, No. 3 ( Aug. ,
2004) , pp. 807- 859.



64

Neyman, Jerzy Splawa.
( 1990) “ On t he applicat ion of probabilit y t heory t o agricult ural
experiment s. Essay on principles. Sect ion 9. ” St at ist ical
Science, Vol. 5, N° 4, 465- 480, 1990. Traducción del original
publicado en Roczniki Nauk Rolniczych Tom X ( 1923) 1- 51
( Annals of Agricult ural Sciences) .

Pearl, Judea.
( 2000) Causalit y: Models, Reasoning and I nference. Cambridge:
Cambridge Universit y Press.

( 2009) “ Causal inference in st at ist ics: an overview. ” St at ist ics Surveys,
Vol. 3, pp. 96- 146.

Rosenbaum P. R. y Donald B. Rubin.
( 1983) “ The cent ral role of t he propensit y score in observat ional
st udies for causal effect s. ” Biomet rika, Vol. 70 N°1, pp. 41- 55

Rubin, Donald B.
( 1973) “ Mat ching t o remove bias in observat ional st udies. ” Biomet rics,
29: 159- 183.

( 1974) “ Est imat ing causal effect s of t reat ment s in randomized and
nonrandomized experiment s” , Journal of Educat ional Psychology
66, pp. 688- 701.

Shady, Norbert y Maria Claridad Arauj o.
( 2008) “ Cash t ransfers, condit ions, and school enrollment in Ecuador. ”
Economía ( Journal of t he Lat in American and Caribbean
Economic Associat ion) . Vol. N°8, N° 2 Spring.

St ock, James y Mark Wat son.
( 2003) I nt roduct ion t o Economet rics. Primera Edición. Bost on: Addison
Wesley. 2003.

Thist let hwait e, Donald L. y Donald T. Campbell.
( 1960) “ Regression- Discont inuit y Analysis: An alt ernat ive t o t he ex
post fact o experiment . ” Journal of Educat ional Psychology 51
( 6) : 309–317.

Vinha, Kat j a.
( 2006) “ A primer on propensit y score mat ching est imat ors. ”
Document o CEDE N° 2006- 13. Universidad de los Andes.

Wooldridge, Jeffrey.
( 2001) Economet ric Analysis of Cross Sect ion and Panel Dat a. London:
The MI T Press, 2001.

DOCUMENTO DE ECONOMÍA N° 283

ECONOMETRÍA DE EVALUACIÓN DE IMPACTO Luis García Núñez Mayo, 2010

DEPARTAMENTO DE ECONOMÍA

DOCUMENTO DE TRABAJO 283 http://www.pucp.edu.pe/departamento/economia/images/documentos/DDD283.pdf

© Departamento de Economía – Pontificia Universidad Católica del Perú, © Luis García Núñez Av. Universitaria 1801, Lima 32 – Perú. Teléfono: (51-1) 626-2000 anexos 4950 - 4951 Fax: (51-1) 626-2874 econo@pucp.edu.pe www.pucp.edu.pe/departamento/economia/ Encargada de la Serie: Giovanna Aguilar Andía Departamento de Economía – Pontificia Universidad Católica del Perú, gaguila@pucp.edu.pe

Luis García Núñez ECONOMÍA DE EVALUACIÓN DE IMPACTO / Luis García Núñez Lima, Departamento de Economía, 2010 (Documento de Trabajo 283) Informalidad / Inferencia Causal / Evaluación de Programas / Regresión Discontinua / Variables Instrumentales / Matching

Las opiniones y recomendaciones vertidas en estos documentos son responsabilidad de sus autores y no representan necesariamente los puntos de vista del Departamento Economía.

Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2010-06580 ISSN 2079-8466 (Impresa) ISSN 2079-8474 (En línea)

Impreso en Cartolan Editora y Comercializadora E.I.R.L. Pasaje Atlántida 113, Lima 1, Perú. Tiraje: 100 ejemplares

ECONOMETRÍA DE EVALUACIÓN DE IMPACTO Luis García Núñez Resumen En años recientes los métodos de evaluación de impacto se han difundido ampliamente en la investigación microeconómica aplicada. poniendo énfasis en los supuestos bajo los cuales el efecto tratamiento promedio ATE y el efecto tratamiento promedio sobre los tratados ATET se encuentran identificados. Abstract In recent years the program evaluation methods have become very popular in applied microeconomics. which are normally determined by the data available and the impact the researcher tries to measure. Additionally. la variedad de métodos responde a problemas particulares y específicos los cuales están determinados normalmente por los datos disponibles y el impacto que se busca medir. This document is a didactic presentation aimed to advanced students and applied researchers who wish to learn the basics of these techniques. emphasizing the assumptions under which the average treatment effect and the average treatment effect on the treated are identified. C14. algunos Se busca ejemplos hacer de una estos presentación didáctica que pueda ser útil a estudiantes avanzados y a investigadores aplicados que busquen conocer los principios básicos de estas técnicas. JEL Classification codes: C13. El presente documento resume las principales corrientes disponibles en la literatura actual. aplicaciones Adicionalmente prácticas de se presentan métodos. Evaluación de Programas. Regresión Discontinua. This paper summarizes the main methods in the current literature. Sin embargo. Variables Instrumentales. C31 Palabras Clave: Inferencia Causal. the variety of these methods responds to specific problems. However. Matching . after each section I briefly present some applications of these methods.

La popularidad de estos métodos de evaluación de impacto ha llevado a que se busque aplicarlos en numerosos contextos. Pues para tener una idea de 2 . Sin embargo. EL ANÁLISIS DE INFERENCIA CAUSAL EN ECONOMÍA Desde tiempos muy remotos ha existido el interés por estudiar las relaciones causales en el mundo real. Este estudio empieza con la pregunta inicial de cualquier estudio de impacto: ¿cuál es el efecto causal de una variable X sobre otra variable Y? Responderla puede ser un asunto no tan trivial ni desde el punto de vista analítico ni desde los datos. Sin embargo. Tal como resume Holland (1985). con el fin de obtener una evaluación científicamente rigurosa. por lo general estos métodos se basan en ciertos supuestos que condicionan su radio de acción y que definen hasta donde se pueden obtener conclusiones valederas de las evaluaciones. Se busca hacer una presentación didáctica que pueda ser útil a estudiantes y a investigadores aplicados que busquen conocer los principios básicos de estas técnicas. En este documento se revisan algunas de estas populares técnicas poniéndose énfasis en los aspectos metodológicos. el fondo de la discusión sigue siendo el mismo: el interés por hacer un estudio acerca de la relación causal entre las variables. el concepto de causalidad ―discutido por los filósofos― ha ido variando a lo largo de los siglos.ECONOMETRÍA DE EVALUACIÓN DE IMPACTO Luis García Núñez 1. INTRODUCCIÓN En décadas recientes los estudios de evaluación de impacto de políticas públicas se han realizado con métodos estadísticos y econométricos cada vez más sofisticados. 2.

deberíamos tener alguna idea sobre la existencia de una relación causal entre estas variables. como veremos en las siguientes secciones. Con este fin. la cual entrega las probabilidades de ocurrencia de ellas.este efecto. Tal interés conlleva al estudio de la distribución de probabilidad conjunta de estas variables. Hay aspectos importantes del proceso generador de datos que no se limitan a decir que dos variables económicas están correlacionadas y/o asociadas. Esto se debe a que tradicionalmente la estadística inferencial ha estudiado la manera como los datos “aparecen” en el mundo real. Estos parámetros no son determinantes para establecer relaciones causales entre las variables. 3 . sino que se trata de ver si efectivamente puede comprobarse con los datos que una variable causa a otra. la estadística inferencial obtiene estimadores de los parámetros que configuran a tal proceso. contando con una muestra de observaciones de estas variables y haciendo algunos supuestos simplificadores sobre la estructura de este proceso generador de datos. presenta una limitación importante para el análisis de inferencia causal con base en parámetros asociativos 1 . La presencia de variables asociadas sin mayor sentido. Sin embargo. como en el caso de las conocidas regresiones espurias o la presencia de los llamados “confounders”. Algunos de estos parámetros —como las probabilidades y las esperanzas condicionales— son llamados “parámetros asociativos” los cuales han sido utilizados como pieza clave en el análisis econométrico. Este último va más allá del mero análisis de estadística inferencial tradicional. La aceptación de la frase que “la correlación no implica causalidad” ha significado el límite que la estadística se ha puesto a si misma en su contribución a este análisis. la estadística sí tiene un papel importante en el análisis causal. Luego. la estadística inferencial es 1 Una interesante reseña de los problemas que se pueden encontrar en estudios observacionales —en comparación con estudios experimentales— se encuentra en el clásico documento de Cochran (1965). Por mucho tiempo se pensó que la estadística tenía poco que contribuir al análisis causal.

incorporada en el análisis de causalidad como uno de sus instrumentos en sus procedimientos. Pero, ¿en qué consiste el análisis de inferencia causal? Desde los años 20 del siglo pasado, se configuró como el estudio de las variables del mundo real, estableciendo algún tipo de ordenamiento secuencial o lógico entre ellas (Goldberger 1972). De esta manera, y bajo supuestos teóricos o de juicio no “testeables”2 (a menos que se realicen experimentos controlados) se pues establecer una estructura de ramificaciones causales que une a aquellas variables y que generan los datos observados. Estas estructuras no se limitan solamente a las variables observables sino que también incluyen a aquellas que no son observables pero que suelen tener un rol importante en la estructura (Pearl 2000, 2009). Estas relaciones pueden ser escritas en forma de ecuaciones, con lo cual se definen los modelos de ecuaciones estructurales. En tales ecuaciones se representan relaciones causales y no meras asociaciones empíricas. Cuando aplicamos este análisis a la economía, encontramos que el proceso generador de datos está gobernado por relaciones económicas subyacentes a él (véase por ejemplo, Haavelmo 1943, 1944) Estas relaciones suelen ser simplificadas y sistematizadas a través de los llamados “modelos económicos”, los cuales definen claramente a sus variables exógenas y a sus endógenas. Es decir, los datos económicos no ocurren por el mero azar sino que aparecen por relaciones entre las variables, en donde podemos distinguir que unas variables ocasionan algún efecto sobre otras. Las variables exógenas tienen efecto sobre las endógenas, y no al revés, y por ello podemos afirmar que las relaciones de causalidad entre variables económicas tienen en si mismas un sustento en la teoría económica.

2

Un ejemplo de un supuesto causal que no necesita ser verificado es que ninguna variable puede ocasionar un cambio en la edad de las personas.

4

El análisis causal basado en ecuaciones estructurales es el más completo pues ofrece una visión panorámica del conjunto lo cual permite entender especialmente a las dificultades que pueden surgir en el proceso de análisis del efecto de una variable sobre otra. No obstante su uso no se ha difundido ampliamente en estadística debido a que sus conclusiones pueden depender muy sensiblemente de sus supuestos. En economía se utilizan a través de la versión de los modelos clásicos de ecuaciones simultáneas3. Sin embargo, algunos estudios (por ejemplo, Lalonde, 1986) han comprobado que empíricamente entregan pobres resultados en de comparación perturbación con de métodos estas experimentales. siendo Adicionalmente, estas variables las no estimaciones se basan en supuestos muy restrictivos sobre los términos ecuaciones, observables por el investigador (Angrist, Imbens y Rubin, 1996). Por último, pueden ser complicados, y sobre todo poco práctico si el objetivo es analizar el impacto entre dos variables y no estamos muy interesados en estudiar a profundidad al resto de variables que las circundan. En este documento nos concentramos en el análisis alternativo propuesto por Neyman (1990) y Rubin (1974) y sintetizado por Holland (1985), conocido como el modelo de “resultados potenciales”. Este modelo tiene sus fundamentos en los modelos de ecuaciones estructurales, aunque este enfoque es en general más simple al basarse en los estudios experimentales, teniendo al experimento aleatorio controlado como su paradigma. Se trata de aislar el efecto de x sobre y manteniendo cualquier otro factor que afecte a y de manera “controlada”; y para ello se observan los resultados potenciales de y ante diferentes valores hipotéticos de x . Tal estudio de valores potenciales implica un avance en términos metodológicos y a su vez implica mayores desafíos en términos estadísticos debido a que algunos de los resultados potenciales podrían ser no observables.
3

Aunque resulten parecidos, los modelos de ecuaciones estructurales y los de regresiones de ecuaciones simultáneas tienen algunas diferencias en cuanto a lo que representan realmente los parámetros y en la naturaleza de los términos de error (Pearl, 2009, pág. 104). Solo bajo algunos supuestos son equivalentes.

5

Siendo un poco más específicos, supongamos que tenemos una población

U

sujeta a estudio, cuyos elementos son las unidades i ∈ U . Estas

unidades podrían ser personas, empresas, instituciones, localidades, etc.) Supongamos para simplificar que la variable x (la variable “causa”) puede tomar únicamente dos valores para cada unidad i: x0i y x1i , los cuales tienen un efecto potencial sobre la variable y (la variable “efecto”) para cada unidad i , digamos y0i y y1i respectivamente. Suponiendo que todo lo demás se mantiene constante, el efecto de una variación de x sobre y para cada unidad i será simplemente la diferencia y1i − y0i .

Sin embargo, la aplicación del supuesto de que cualquier otro factor que influencie a y debe estar controlado exige que la unidad i sea expuesta tanto a x0i como a x1i al mismo tiempo y bajo exactamente las mismas condiciones. Esto no es posible pues si el individuo i ya fue expuesto a la situación x0i (la cual dio como resultado el valor y0i ), no es posible volver en el pasado y deshacer lo hecho, y someterlo ahora al valor x1i , con el fin de observar y1i (el escenario contrafactual). Dado que solo uno de los dos resultados potenciales es observable, el cálculo de la diferencia

y1i − y0i es imposible. Este es el problema fundamental de la inferencia
causal. Aunque se pudiera pensar que el escenario contrafactual puede ser observado si en el futuro a una unidad que se sometió a la situación x0i ahora se le somete a

x1i , la observación de

y

en este caso no

correspondería al valor y1i necesario para calcular la diferencia pues se violaría el supuesto mencionado. Tal violación ocurre porque al menos alguna cosa debió cambiar en el tiempo4.
4

En algunos experimentos podría creerse que se puede conocer ambos estados de la naturaleza, por ejemplo, encender y apagar la luz para ver el efecto de la corriente eléctrica en un bombillo de luz. En este ejemplo es casi seguro que cualquier otro factor que afecte la luminosidad del bombillo está bajo control del investigador y por lo tanto

6

para i = 1. Supongamos que deseamos conocer el efecto de un tratamiento d (por ejemplo una política) sobre alguna variable de interés yi (un resultado).Por ello afirmamos que el punto de partida del análisis de inferencia causal enfrenta un serio problema de identificación. Por ejemplo. donde i indica una unidad i . Tales estrategias se basan en la aplicación de supuestos y además con un importante apoyo de la estadística. se logra identificar el efecto causal. el efecto de la lactancia materna sobre la incidencia de enfermedades en los infantes no puede ser estudiado observando simplemente el “antes” y el “después” de la exposición al tratamiento pues existen factores que cambian en forma natural (como la edad y el peso del niño) y además otros factores podrían cambiar circunstancialmente (como las condiciones de vida de la familia). ALGUNAS CUESTIONES BÁSICAS 3. En general no ocurre lo mismo en otros estudios. formalicemos lo expuesto anteriormente del modelo de Neyman-Rubin concentrándonos en un caso especial. La notación y definiciones que seguimos en esta sección está influenciada en la exposición de Lee (2005). en donde los dos escenarios mencionados no necesariamente mantienen constantes a los demás factores que podrían afectar a la variable y . 3. el cual no puede ser resuelto simplemente con más observaciones. Afortunadamente. a pesar que algunos factores sí se mantengan constantes (como el sexo del niño y su resistencia natural a las enfermedades). 5 7 .. y por lo tanto somos capaces de proveer soluciones a él. Este documento se basa justamente en estas estrategias de identificación. Definición del efecto tratamiento promedio (ATE)5 Con el fin de estudiar la identificación del efecto causal. Por ejemplo. … N.1. Tratamiento (d) Ejercicio diario Capacitación laboral Un nuevo reglamento de tránsito Un medicamento Resultado (y) Presión Sanguínea Salarios Tasa de accidentes de tránsito Colesterol el escenario “antes del tratamiento” y “después del tratamiento” puedes ser considerados como los dos resultados potenciales. los orígenes del problema han sido estudiados y entendidos.

6 En algunos estudios se le llama también grupo de control a aquél que no ha recibido el tratamiento. Como nos preocupa analizar el impacto de políticas (micro) económicas. Definamos el resultado observado yi como yi = d i y1i + (1 − d i ) y0i el cual es igual a uno de los resultados potenciales. 1 si i recibe el tratamiento di =  0 si i no lo recibe Tenemos una población U de unidades. tomando el valor 1 si la unidad recibe el tratamiento y 0 si no la recibe. y al mismo tiempo los resultados podrían ser múltiples. Al grupo de unidades que no recibe el tratamiento lo llamaremos grupo no beneficiario6 N = {i ∈U | di = 0}. reservando el nombre de “Grupo de Control” para aquél grupo 8 . xi . Asimismo podemos clasificar a todas las unidades de la población según la recepción o no del tratamiento.2) en donde los datos disponibles no provienen de experimentos controlados. vamos a simplificar el análisis considerando que el tratamiento d es binario. llamaremos a los receptores de la política como el grupo beneficiario. y1i . algunas de los cuales recibirá un tratamiento. Cada unidad i puede ser descrita por el siguiente conjunto ( y0i . ε i ) donde: y0i = resultado potencial si la unidad i no recibió el tratamiento y1i = resultado potencial si la unidad i recibió el tratamiento xi = vector de características observables de la unidad i ε i = vector de características no observables de la unidad i Cabe mencionar que la condición de observable o no observable de las características se define desde el punto de vista del investigador o evaluador de la política. d i .Aunque el tratamiento podría ser en diferentes intensidades. conviene llamar a este grupo simplemente como No Beneficiario. Sin embargo dado que el énfasis en este estudio recae en los llamados estudios observacionales (véase sección 4. definido como B = {i ∈ U | d i = 1} .

si se busca analizar el efecto de la participación en programas de ejercicios físicos en el estado de salud medido como los niveles de presión sanguínea. 9 . Sin embargo podría ser más conveniente analizar el efecto tratamiento promedio para la población (ATE por sus siglas en inglés). El peligro de cometer un error con una estimación de esta manera se basa en el conocido “problema de la selección”: la no observación de los valores de y0i y y1i para algunos individuos podría responder a una conducta sistemática de los individuos o de los otorgantes del beneficio. xk .Lo único que podemos observar para una unidad i ∈ B es el paquete ( y1i . se debe tener cuidado al estimar este valor esperado usando análogos muestrales como el promedio simple por ejemplo. d = 0) . el efecto tratamiento individual para una unidad i . el ATE es el parámetro poblacional δ = ATE = E ( y1 − y0 ) = E ( y1 ) − E ( y0 ) Debido a que los valores potenciales y0 y y1 no son plenamente observables para todo i ∈ U . Por ejemplo. δ i = y1i − y0i . es claramente factible que aquellos que finalmente acepten participar en el tratamiento sean individuos que que no recibe tratamiento en estudios experimentales o también a un subgrupo de los no beneficiarios que cumplen ciertas características (que se discutirán más adelante. no está identificado pues uno de sus elementos no es observable. Omitiendo el subíndice i . Tal como se mencionó antes. xi . d = 1) y para una unidad k ∈ N en el grupo no beneficiario solo observamos ( y0 k .1) en estudios observacionales. δ= ^ 1 nB ∑y −n ∑y i∈B i N i∈N 1 i = y i∈B − y i∈N es el número de no donde nB es el número de beneficiarios y nN beneficiario. véase la sección 4.

Si esto es lo que está ocurriendo con el programa d . Digamos que se ha realizado un sorteo en donde cada individuo tiene la misma probabilidad de recibir el beneficio. o si priorizan a algunos grupos que ya de por sí presenten problemas de presión arterial. 1. o de características no observables (sus preferencias. En este ejemplo estaría ocurriendo un problema de “autoselección” en el tratamiento. para j = 0. entonces el ˆ estimador propuesto δ es el análogo muestral de E ( y | d = 1) − E ( y | d = 0) . factores genéticos. Por esta razón se ˆ debe analizar con cuidado (a) en qué casos δ es un buen estimador de ˆ ATE. ε i ) difieren entre los beneficiarios y no beneficiarios. Formalmente diremos: 10 . Supuestos identificadores del ATE Supongamos que el tratamiento o política ha sido aplicado a los individuos de una manera muy particular. etc. hábitos de vida.) La selección podría haber venido de parte de los diseñadores de la política. aquellos que opten por no participar en el programa podrían haber tomado esta decisión basándose en las mismas características o preferencias. el cual es en general diferente de E ( y1 − y0 ) cuando las características ( xi . o que presenten determinadas características como su edad y peso.2. el tratamiento d será independiente de los resultados potenciales y j . donde la participación en el programa dependerá de las características observables de las personas (su edad y peso). nuevamente existirían diferentes características (observables o no) en los grupos B y N. Por el contrario. si fijan una población objetivo para el tratamiento. (b) qué otro estimador distinto de δ podría estimar correctamente a δ. Por ejemplo. 3.tengan fuertes preferencias por la actividad física. En tal caso.

un programa de desempleo solo interesa en la población de desempleados. Equivalentemente. Dada esta condición de independencia. Bajo esta condición se cumple también que el ATE coincide con la diferencia E ( y | d = 1) − E ( y | d = 0) . El efecto tratamiento sobre los tratados (ATET) Es frecuente que los programas no tengan aplicabilidad universal sino solamente en parte de la población. 3. entonces ocurrirá que ATE = δ = E ( y1 − y0 ) = E ( y1 ) − E ( y0 ) = E ( y1 | d = 1) − E ( y0 | d = 0) = E ( y | d = 1) − E ( y | d = 0) La última igualdad ocurre porque y1 solo es observable cuando d = 1 . con ello coinciden y1 con y . Nótese que este ˆ estimador es igual al estimador β d que se obtendría de la estimación por mínimos cuadrados ordinarios del modelo de regresión lineal yi = β1 + β d di + ui . entonces ATE puede ser estimado consistentemente simplemente con la diferencia de los promedios simples de las ˆ observaciones de los grupos B y N. y lo mismo ocurre para y0 . 1. para j = 0. Por ejemplo. E ( y j | d = 1) = E ( y j | d = 0) .(I): Los resultados potenciales son estadísticamente independientes de d . no toma en 11 . En símbolos ( y0 . y1 )  d . o sea el estimador δ .3. No es necesario un supuesto tan fuerte —como el de independencia― para que se cumpla este resultado. Por lo tanto si tal supuesto se cumple. Una condición más débil que es implicada por el supuesto de independencia es la siguiente: (II): y0 y y1 son “independientes en medias” de d si E ( y j | d ) = E ( y j ) .

En tal caso se puede estimar el segundo componente de ATET con un análogo muestral de E ( y | d = 0) . es posible que y1 no sea independiente de d . Este término será identificable si se supone que y0  d (o con el supuesto más débil de y0 independiente en media de d . En términos intuitivos este supuesto quiere decir que el tratamiento ha sido asignado entre los individuos de los grupos de beneficiarios y no beneficiarios independientemente del resultado potencial que ellos hubieran obtenido sin tratamiento. En cambio el segundo término no esta identificado pues no disponemos de información del resultado potencial y0 cuando d = 1 . sin importarnos mucho el efecto sobre los no tratados. A este impacto se le llama el Efecto Tratamiento Promedio en los Tratados7 o ATET. el primer término de ATET está plenamente identificado pues es solamente la esperanza condicional del resultado dado que los individuos participaron en el programa. Sin embargo.cuenta a los empleados. es decir E ( y | d = 1) . δ T = ATET = E ( y1 − y0 | d = 1) = E ( y1 | d = 1) − E ( y0 | d = 1) Con la información disponible. E ( y0 | d = 1) = E ( y0 | d = 0) ). pues nos interesa comparar la situación real del grupo beneficiario con la situación contrafactual de ellos mismos en el caso hipotético de que no hubieran recibido el beneficio del programa. 7 En inglés es el Average Treatment Effect on the Treated. En tal caso el impacto del programa se mide únicamente en el grupo tratado. lo cual no afectaría la identificación de ATET. y0 . Por ejemplo. y1 no sería independiente de d si los individuos participantes se autoseleccionan para participar en el programa porque tendrían una ganancia esperada de y1 más alta que aquellos que no participan. 12 .

ATET = E ( y1 − y0 | d = 1) = E ( y1 | d = 1) − E ( y0 | d = 1) = E ( y1 | d = 1) − E ( y0 | d = 0) = E ( y | d = 1) − E ( y | d = 0) = ATE Entonces.En general se cumplirá que ATET es distinto de ATE. podrían ser exactamente iguales si se cumple ya sea los supuestos (I) o (II). Sin embargo. trivialmente ATE y ATET también podrían ser iguales si el programa se aplicara a toda la población. lo cual equivaldría a aplicar el programa a toda la población. 3. se podría calcular el efecto tratamiento promedio según el sexo de la persona. su estado civil. Para mostrar esto. E ( y1 − y0 ) = E ( y1 − y0 | d = 1) ⋅ Pr(d = 1) + E ( y1 − y0 | d = 0) ⋅ Pr(d = 0) ATE = ATET ⋅ Pr(d = 1) + ATEU ⋅ Pr(d = 0). o su nivel educativo. Por ejemplo. Luego si Pr( d = 1) = 1 tendríamos ATE = ATET. etc. Condicionamiento a características observables Los resultados mencionados se pueden generalizar si se condicionan a las características observables x .4. lo que podría entenderse como limitar el análisis a una subpoblación con características x . Las definiciones de ATE y ATET con condicionamiento a son: x ATE | x = E ( y1 − y0 | x) y ATET | x = E ( y1 − y0 | d = 1. donde ATEU es el efecto tratamiento sobre los no tratados (un parámetro de escaso interés práctico). Por otro lado. x) . ambos pueden ˆ ser estimados mediante el estimador δ que es la diferencia de los promedios simples de los grupos de beneficiarios y no beneficiarios. al ser ATE y ATET iguales bajo este supuesto. En tal caso los supuestos identificadores de estos parámetros se generalizan como: 13 .

A este supuesto se le conoce como supuesto de “matching” u “overlapping”. para j = 0. x) = E ( y j | x) . el ATE | x puede ser calculado como la diferencia simple de los promedios de y dado d para un subgrupo específico x . E ( y1 − y0 | x) = E ( y1 | x) − E ( y0 | x) = E ( y1 | d = 1. x) − E ( y | d = 0. Luego.(I’) (II’) y j es estadísticamente independiente de d . x) − E ( y0 | d = 0. y0 y y1 son “independientes en media condicional” de d dado x: E ( y j | d . x) Nótese que el último signo igual de la ecuación anterior no se cumpliría si no se cumpliera el supuesto (III). 14 . dado x: y j  d | x . Un resultado adicional que vale la pena mencionar en esta sección es que si asumimos que el tratamiento se asigna completamente al azar (mediante un sorteo simple). entonces el tratamiento d será también independiente de las características observables y no observables de los individuos ( xi . el ATE | x es igual a la diferencia de la media condicional de los grupos B y N. ε i ) . Cuando se condiciona por x . bajo los supuestos (II’) y (III). (III) 0 < P(d = 1 | x) < 1 Luego. las cuales se encontrarán “balanceadas” entre los grupos B y N. es frecuente hacer un supuesto adicional sobre la existencia de individuos beneficiarios y no beneficiarios para cada subpoblación x . 1. x) = = E ( y | d = 1.

el sesgo sobre la diferencia de medias originado por la selección se llama en la literatura inglesa como “overt bias” mientras que en el segundo. Así.5. tanto el cálculo de estos parámetros incluirá a las diferencias de estas características. no se cumple la el supuesto (II) pero si controlamos por las variables que ocasionan la selección tendremos entonces que el ATE es identificable condicionado a un grupo particular x . Sesgo debido a la violación de los supuestos Cuando los supuestos mencionados antes no se cumplen. Habría entonces que 15 condicionar también en las . El llamado problema de la selección presentado en la sección 3. x) ≠ E ( y j | x) pero E ( y j | d . mientras que si difieren en las variables no observables ε tenemos “selección en no observables”. En el primer caso. pues se cumpliría el supuesto (II’). diremos que tenemos “selección en observables”. x) = E ( y j | x) Selección en no observables: E ( y j | d . Cuando los grupos B y N difieren en las características observables x . si tenemos selección en no observables. el sesgo se llama “covert bias” o “hidden bias”.3. Por el contrario. ε ) Concentrándonos en la selección en observables. la condición en x no garantiza que la diferencia de las medias de grupo refleje el impacto del programa. Formalmente las definiremos ambos tipos de selecciones así: Selección en observables: E ( y j | d ) ≠ E ( y j ) pero E ( y j | d . ε ) = E ( y j | x. x. de la forma como se mencionó en la sección anterior.1 provocará que existan sesgos cuyas fuentes estriban en el “desbalance” existente en las características observables y no observables entre los grupos B y N. entonces el ˆ estimador propuesto δ será sesgado al querer estimar a ATE o a ATET.

E ( y | d = 1) − E ( y | d = 0) = ATE |x = 0 ⋅ Pr( x = 0 | d = 1) + ATE |x =1 ⋅ Pr( x = 1 | d = 1) + E ( y / d = 0. x = 1) ⋅ [Pr( x = 1 | d = 1) − Pr( x = 1 | d = 0)] 8 Aunque no podamos condicionar en no observables. x = 1) = E ( y | d = 1.8 Podemos observar bajo qué condiciones el desbalance de las características x podría sesgar la estimación de ATE mediante la ˆ diferencia de medias δ . 16 .ˆ características no observables para que δ sea un estimador de ATE entendiendo esto como la definición de un subgrupo que comparta las mismas características no observables. x = 0) ⋅ Pr( x = 0 | d = 1) + E ( y | d = 1. las características no observables puedan balancearse entre ambos grupos. x = 1) − E ( y0 | d = 0. Supongamos también que se cumple el supuesto (II’). estadísticamente hablando. x = 0) = E ( y | d = 1. En este contexto. mediante algunos procedimientos experimentales podemos confiar que. x = 1) − E ( y | d = 0. x = 0) ⋅ Pr( x = 0 | d = 0) − E ( y | d = 0. Más adelante veremos que existen métodos capaces de remover el sesgo generado por las variables no observables. x = 0) ⋅ [Pr( x = 0 | d = 1) − Pr( x = 0 | d = 0)] + E ( y / d = 0. x = 0) − E ( y | d = 0. x = 1) ⋅ Pr( x = 1 | d = 1) − E ( y | d = 0. los efectos tratamiento promedio condicionados a x son ATE |x = 0 = E ( y1 | d = 1. x = 1) Por otro lado podemos expresar a la diferencia de medias de y entre B y N como E ( y | d = 1) − E ( y | d = 0) = E ( y | d = 1. tomando el valor de 1 para algunos individuos y 0 para el resto. Supongamos que solo existe una característica x la cual es binaria. x = 0) ATE |x =1 = E ( y1 | d = 1. x = 1) ⋅ Pr( x = 1 | d = 0) Reemplazando las expresiones de ATE |x = 0 y ATE |x =1 en la expresión anterior tenemos. Esto es en la práctica difícil al ser justamente las características ε invisibles para el investigador. x = 0) − E ( y0 | d = 0.

Por otro lado. Por último. En el caso del sesgo debido a desbalance en variables no observables. Tal como demuestra Wooldridge (2001). se cumpliría que E ( y | d . entonces se cumpliría que Pr( x | d ) = Pr( x) para cualquier combinación de x y d . x = 0) = E ( y | d . si x fuera una variable irrelevante). bajo el supuesto II’) puede obtenerse mediante regresiones lineales. en la regresión donde x es un vector de variables. x = 1) . entonces la suma de los dos términos se resume a simplemente ATE. aun si no se cumpliera la independencia estadística entre x y d . se puede hacer un análisis similar al presentado. por lo que no lo desarrollaremos aquí. con lo cual el sesgo también desaparecería. si la variable x no tuviera efecto sobre y (es decir. β 2 y β3 son vectores de parámetros. yi = β 0 + β d di + β′2 x + β′3 (di ⋅ (x − x)) + ui ˆ el estimador β d es un estimador consistente de ATE.Los dos primeros términos del lado derecho de la última ecuación muestran el efecto que deseamos medir (el impacto de d sobre y para cada subgrupo). Nótese que si se cumpliera que x  d . con lo cual desaparecerían los dos términos del sesgo. Si ATE |x = 0 = ATE |x =1 . 17 . un estimador consistente de ATE en el caso de selección en observables (es decir. El tercer y cuarto término corresponde al sesgo debido al no balanceo de x entre los grupos B y N.

Pero. mientras que al segundo no recibe el tratamiento. el cual se considera como el “gold standard” de la evaluación de impacto por cumplir (casi) perfectamente la condición de aleatorización de d . cabe la pregunta ¿bajo qué condiciones los datos que se utilizan para evaluar el impacto de políticas cumplirían estos supuestos? La respuesta a esta interrogante se halla en la forma como se generaron estos datos. el cual consiste en el estudio del efecto de un tratamiento sobre un resultado de interés. 18 . una píldora de similar característica a la recibida por los tratados). usualmente al grupo de control se les entrega un placebo absolutamente inofensivo10 (por ejemplo. con el fin de evitar cualquier desviación en la conducta tanto de los tratados como de los no tratados. Como se ha visto. 4. El placebo podría no ser necesario si se trata de experimentos en animales o plantas. 9 10 En las aplicaciones a la economía hemos llamado “grupo beneficiario” al grupo tratamiento.4. el procedimiento consiste en la selección aleatoria de dos subgrupos de individuos llamados “grupo tratamiento”9 y “grupo de control”. ¿de dónde proviene la idea de la aleatorización del tratamiento? Existe en la ciencia un procedimiento conocido como experimento aleatorio controlado.1. Cuando el experimento es aplicado a seres humanos. Experimentos Aleatorios Controlados Estos experimentos tienen su origen en las ciencias biológicas y médicas. Al primero de ellos se les aplica intencionalmente el tratamiento del estudio. la aleatorización del tratamiento d hace que la diferencia de promedios sea un estimador consistente de ATE (y ATET). Luego de haberse definido a una muestra aleatoria de individuos a ser estudiados. ESTUDIOS EXPERIMENTALES Y NO EXPERIMENTALES Habiendo observado la importancia del cumplimiento de los supuestos identificadores de ATE y ATET.

de los determinantes de los resultados observados. Entiéndase el término “parcial” en el sentido utilizado en economía en el análisis de estática comparativa. En lo que se refiere a la aplicación de estos experimentos a economía. los grupos de no tratados (grupo N) y control (grupo C) son exactamente iguales. 11 12 13 Debe tenerse en cuenta que hay dos etapas de aleatorización: la primera ocurre en la selección de la muestra a ser sujeta de estudio de la población. Por ello no necesita el desarrollo de modelos teóricos que modelen la conducta de los agentes en el mundo real12. dado que se estudia el impacto aislado de una variable sobre otra. Por tal razón. el tratamiento es independiente ―estadísticamente hablando― de los resultados potenciales y de las características observables y no observables de los individuos. quienes darán luz sobre el efecto que se espera y su explicación. Esta alta precisión en la medición del impacto es a su vez una desventaja si el objetivo es tener una idea más completa del comportamiento de los agente. En el caso de los experimentos aleatorios controlados. los cuales deberían estar estadísticamente balanceados entre ambos grupos. y la segunda ocurre cuando el tratamiento es asignado aleatoriamente a un subgrupo de la muestra. es decir. este procedimiento es ideal para estudiar el efecto causal entre estas variables. Tal propiedad le da validez interna al estudio pues el resultado de la evaluación de impacto estaría libre de sesgos. 19 .En este procedimiento. los resultados del grupo no tratado simulan bien el escenario contrafactual en donde los tratados no reciben el tratamiento. si la muestra de individuos del análisis fue obtenida de manera aleatoria de la población de interés. al ser sus implicancias absolutamente parciales13 y reducidas a dos variables. Esto no significa de ninguna manera que se ignore a los modelos económicos y a los modelos probabilísticos subyacentes. usaremos el término “grupo de control” o grupo C a aquél conjunto de individuos no tratados que pueden representar bien el escenario contrafactual sin tratamiento. estos resultados son generalizables a toda la población lo que le da validez externa al estudio. Asimismo.11 De ahora en adelante.

Este hecho puede provocar algunas problemas como la autoselección en los programas (pues es difícil que se pueda obligar a las personas a aceptar un tratamiento. principalmente de políticas económicas. y al desgaste ocurrido (no al azar) por el abandono de algunos individuos a seguir en el programa. en los últimos años se ha aplicado esta técnica en estudios de evaluación de impacto. sería muy extraño que se otorguen charlas de capacitación completamente inútiles a los miembros del grupo C con el fin que no noten que son beneficiarios. Por ejemplo. Algo similar podría ocurrir con programas alimentarios. usualmente es difícil encontrar un equivalente al placebo utilizado en medicina por lo que en algunos casos es casi inevitable que los sujetos no solo noten que están siendo sujetos al experimento sino que noten a qué grupo pertenecen (B o C). Todo esto genera serios cuestionamientos de orden ético para la aplicación de experimentos de este tipo para evaluar programas. Algunos ejemplos son: Gertler (2004) quien analiza el impacto del programa mexicano de transferencias condicionales de dinero ―conocido entonces como PROGRESA― en el la salud de los niños. Por ejemplo. el cual es normalmente voluntario). si se pretendiera aplicar este procedimiento a programas que otorgan crédito educativo. para aquellas personas que no lo reciban podrían tener consecuencias negativas muy grandes por el resto de sus vidas (debido a la pérdida de oportunidades). 20 . No obstante para la evaluación en la de programas surgen de algunos la inconvenientes interna del reportados literatura14. En la implementación de este programa se seleccionó a 505 villas de zonas pobres de México. Acerca validez procedimiento. si se tratara de un programa de capacitación laboral.La aplicación de este procedimiento resulta muy atractiva. Existen otros problemas de orden ético si se trata de programas que podrían tener consecuencias en el largo plazo. Pese a estas razones. en donde en una primera etapa se escogió al azar a 14 Stock y Watson (2003) en su capítulo 11 cita algunos inconvenientes que se pueden encontrar en la práctica.

Con ello se cumple que estadísticamente hablando los grupos de beneficiarios y no beneficiarios se encuentren balanceados en sus características observables y no observables. Esta forma de selección y el hecho que el grupo de control no fue informado que sería en el futuro también beneficiario del programa le da características al experimento de ser muy parecido a un experimento aleatorio controlado. escuelas. existiendo entonces dos niveles de aleatorización.320 poblaciones como beneficiarias y 185 como control. tamaño del hogar y edad de los participantes entre los grupos de beneficiarios y no beneficiarios. y se aplica especialmente cuando se selecciona al azar a grupos (como por ejemplo. al encontrar problemas de no cumplimiento en la muestra no de beneficiarios (muchos y hogares al de localidades significativas beneficiarias recibieron tratamiento) haber diferencias en cuanto a composición por género. Apuntes sobre la metodología se pueden encontrar en Donner. Gertler menciona que además controla en la regresión por características socioeconómicas con el fin de mejorar el poder de las estimaciones y reducir la variación idiosincrática en la población. 21 . Esta metodología es usada ampliamente en medicina y psicología. etc. En otro estudio como el de Angrist y Lavy (2002) se utiliza la extensión de esta metodología cuando la aleatorización se hace a niveles de grupos15 y no de individuos. A diferencia de Gertler. Hoddinott y Skoufias (2003) también estudian el mismo programa pero esta vez para calcular el impacto sobre el consumo de alimentos. y 15 Conocido en inglés como Group Randomized Trials. Brown y Basher (1990). lo que convence al autor para estimar el efecto causal mediante una regresión con una variable dummy indicando la participación o no en el programa. comunidades.). hospitales. Sugieren que métodos de regresión controlando por estas variables son una mejor alternativa a la simple e incondicional diferencia de medias. En un estudio similar. estos autores son cautelosos con respecto a la aplicación inmediata de la diferencia de medias como estimador del efecto causal.

luego en una segunda etapa se selecciona a individuos dentro de cada grupo. véase por ejemplo. estudian el efecto de la entrega de cupones a estudiantes secundarios sobre el rendimiento y la asistencia escolar en Colombia. entre otras deficiencias16. como sí lo hacen las aleatorizaciones de individuos. uno donde la aleatorización se hace a nivel de individuos. principalmente debido a la correlación entre los grupos. Debido a esto se utilizó un mecanismo que además de utilizar al azar se tomaba en cuenta el estatus socioeconómico de los estudiantes. debiendo suspenderse en su primer año de aplicación debido a serias controversias desatadas en los medios y la opinión pública. También existieron problemas para implementar el experimento a nivel de escuelas. Por ejemplo. En otro trabajo. Donner y Klar (2004). En el estudio de estos autores se analiza el efecto de un programa de premios monetarios a estudiantes sobre el rendimiento en una prueba académica específica (el Bagrut) en Israel. 22 . Cabe resaltar en este trabajo que los autores tuvieron inconvenientes en el momento de implementar la aleatorización a nivel de individuos debido a preocupaciones de los directivos educativos sobre la elección de los miembros del grupo beneficiario. y para ello conducen dos experimentos. Para más observaciones. de los cuales solo mencionaremos a algunos por razones de espacio. Este es un claro ejemplo de las dificultades que este tipo de estudios experimentales debe enfrentar en el momento de su implementación práctica. Existen numerosos ejemplos que utilizan datos experimentales. existió en él una asignación aleatoria 16 La aleatorización de los grupos no garantiza el balanceo de las características a nivel de individuos. y otro en donde se realiza a nivel de escuelas. Angrist et al (2002). Banerjee et al (2004) realizan dos estudios aleatorizados evaluando el impacto de programas de asistencia educativa a estudiantes con bajo rendimiento sobre el aprendizaje medido como puntaje promedio de sus pruebas académicas. Aunque este estudio no podría catalogarse estrictamente hablando como un experimento controlado. Esta metodología ha demostrado ser menos costosa en su implementación pero presenta menor poder estadístico que los muestreos aleatorios simples.

) 23 . Estudios observacionales Lo que hace que un experimento sea “verdadero” y tenga el poder de medir correctamente el impacto de una variable sobre otra es la aleatorización en la selección de la muestra del estudio y en la aleatorización del tratamiento. Los estudios observacionales no son en si mismos experimentos aunque de alguna manera pretenden simularlos en el sentido que buscan elucidar una relación causal entre dos variables. en muchas ocasiones es difícil garantizar que el tratamiento se asigne en forma aleatoria de la forma como lo planeó el investigador. por cuestiones prácticas es imposible asignar el tratamiento en forma aleatoria. En otras ocasiones.(mediante un sorteo) de los cupones. Como ya se explicó anteriormente.2. telúricos. 4. ambos bajo el control del investigador. etc. el tratamiento pudo ser resultado de cambios en la legislación que afectó a cierto sector de la población pero no a otro. o quizás a cuestiones puramente naturales (fenómenos atmosféricos. si bien es posible distinguir una variable de tratamiento y una o más variables de resultados como posible consecuencia. Normalmente suceden inconvenientes que afectan la validez interna del estudio. Por ejemplo. Como hemos visto en la sección anterior. lo que le dio el carácter de experimento “natural” y facilitó el cálculo del impacto. esta característica garantiza que los grupos de beneficiarios y control sean comparables. Cada vez que tengamos un estudio en donde el tratamiento ha sido asignado en forma no aleatoria sino que se basa en observaciones fuera del control del investigador tendremos un estudio observacional. a aspectos administrativos. En estos casos. En la siguiente sección se explica en qué consisten estos experimentos naturales y los cuasiexperimentos. tal tratamiento no ha sido asignado bajo el control del investigador.

El hecho de que los datos se basen en observaciones genera un potencial problema de validez externa del procedimiento pues no hay la seguridad que tales datos representen a la población total. una asignación del tratamiento fuera del control del investigador presenta un potencial problema de validez interna si es que este tratamiento no es asignado en forma aleatoria18. Una característica frecuente de los cuasiexperimentos (aunque no necesariamente indispensable para su definición) es que los grupos de beneficiarios y control ya existen como grupos definidos antes del tratamiento. Como vimos en la sección anterior. esto representaría una violación al supuesto (I) (y por ende al (II)) de la sección 3. los datos provenientes de programas de capacitación para el empleo podrían no representar a la población total de desempleados si la evaluación del programa se concentra en determinadas áreas geográficas (grandes ciudades. Es por ello que se requiere de un tratamiento estadístico muy cuidadoso con el fin de replicar o simular una 17 18 Véase Rosenbaum (2009).En ocasiones. lo cual invalidaría el cálculo del ATE mediante la diferencia de medias pues no habría la garantía que los grupos B y N sean comparables. En cambio si el tratamiento está lejos de haber sido asignado en forma aleatoria pero el estudio realiza un importante esfuerzo por asegurar la comparabilidad de los tratados versus los no tratados. Sin embargo no se descarta que en algunos casos excepcionales de cuasi experimentos. o si cuentan con medios de información para estar al tanto del programa. el tratamiento sí haya sido asignado en forma aleatoria por pura cuestión del azar.2. En tal caso se suele hablar de un experimento “natural”. el tratamiento puede haber sido asignado en una forma no sistemática que se asemeja bastante bien a lo que hubiera sido un experimento controlado. páginas 4-6. 24 . Por ejemplo. Asimismo. entonces tenemos un “cuasiexperimento”17. Es frecuente encontrar en la literatura que los términos “experimentos naturales” y “cuasiexperimentos” son usados como sinónimos. por ejemplo).

5. Estos estudios son de diferente naturaleza. is to use the very best method possible.19 A pesar de estas dificultades. sobre este problema: “The general ethic. o en otro caso. En ese sentido. Los autores estudiaron la “regla de los Maimonides” en la cual ninguna escuela de Israel debería tener aulas con más de 40 alumnos.” Por ejemplo la llamada “reactividad” que se refiere al cambio en la conducta de las personas sujetas al estudio como el Hawthorne Effect. la regla estaría seleccionando (casi al azar) a un grupo de estudiantes a estudiar en aulas cercanas (por la izquierda) a los 40 alumnos y a otro grupo de 19 20 Tal como menciona Campbell (1969) página 412. But where randomized treatments are not possible. Angrist y Lavy (1999) estudiaron una manera como identificar el efecto del número de estudiantes por aula en escuelas de Israel sobre el rendimiento educativo utilizando datos observacionales. debido fundamentalmente a las ventajas que estos estudios tienen en términos de acceso a datos y a que podrían no sufrir algunos de los efectos perversos que contaminan a los experimentos aleatorios controlados20. 25 .situación de tratamiento aleatorio. algunos en si mismo pueden ser parecidos a los experimentos aleatorios controlados. Si la matrícula excede ese número. existen numerosos estudios que utilizan datos cuasiexperimentales que buscan replicar los resultados de los experimentos controlados. inmediatamente se divide el aula en dos secciones con algo más de 20 alumnos por aula. habiéndose entendido las razones para la no aleatorización. here advocated for public administrators as well as social scientists. mientras que otros pueden ser bastante distintos. tomarlas en cuenta con el fin de obtener estimaciones válidas. aiming at “true experiments” with random control groups. We must do the best we can with what is available to us. En las siguientes secciones veremos estrategias estadísticas que se adaptan a diversos problemas presentados a la hora de evaluar el impacto cuando se tiene este tipo de datos. DISEÑO DE REGRESIÓN DISCONTINUA AGUDA En un destacado paper. a self-critical use of quasiexperimental designs is advocated.

Con ello se lograría identificar el efecto tratamiento promedio al menos localmente alrededor de la discontinuidad en el tamaño de la clase. siempre y cuando se cumplan algunas condiciones básicas. 21 Un par de documentos clásicos que muestran el uso de este enfoque en los 60’s son los de Thistlethwaite y Campbell (1960) y Campbell (1969). Estas son: las entidades se encuentran ordenadas en forma continua con respecto a una variable índice (en este caso la matrícula). 26 . lo cual genera una discontinuidad en el resultado observado en función del índice. Los diseños de regresión discontinua son un caso especial de experimentos naturales en donde es posible identificar el efecto promedio del tratamiento al menos localmente. Aunque el paper original de Angrist y Lavy muestra que tal discontinuidad en la práctica no está tan claramente definida como lo señala la regla (lo cual requiere algunas correcciones adicionales que veremos más adelante). la variable resultado (en este caso. En la literatura reciente de evaluación de programas se ha venido aplicando esta técnica de regresión discontinua.similares características que la a estudiar total en no clases está de menor tamaño. Todd y Van der Klaauw (2001) y otros21. la cual ha sido desarrollada y sistematizada en décadas recientes por Hahn. Pueden consultarse algunas referencias destacables como Imbens y Lemieux (2007). Debido a la similitud de los individuos por encima o debajo del umbral. y además se observa una asignación del tratamiento con respecto a un umbral definido sobre la variable índice. Esta es la base general de los diseños de regresión discontinua aguda. el rendimiento escolar) también está relacionada continuamente con la variable índice. con las Asumiendo matrícula relacionada características de los estudiantes. pero recién en años recientes este método ha recobrado popularidad. el salto en el resultado es el efecto tratamiento promedio alrededor del umbral. la única diferencia entre los dos grupos mencionados sería el tamaño del aula promedio. la importancia de esta nueva corriente estriba en que se puede identificar el efecto tratamiento promedio al menos localmente alrededor de la discontinuidad de una variable.

Es frecuente que la variable X sea re-escalada con tal que el punto de corte se ubique en cero. 27 . y por lo tanto la diferencia de las medias de grupo no es un estimador apropiado del efecto del tratamiento. cualquier discontinuidad observable en E[ y | X ] será el efecto del tratamiento en el punto c. y el de Lee (2005). A la variable X (la cual debe ser una variable se continua) se le conoce como “forcing variable” y es la variable índice que se mencionó líneas arriba pues los valores del tratamiento encuentran completamente determinados por los valores de X encuentran a un lado o al otro de un umbral fijo c. supongamos que el vector de variables observables para cada entidad i se compone de ( X i . E[ y j | X ] para j = 0. las líneas punteadas indican la esperanza condicional de los resultados potenciales dado X . Por el contrario. Mientras tanto. 1. y c es un punto de corte definido exógenamente. la línea continua indica la esperanza condicional del resultado observado. si la relación entre X y los resultados potenciales di si se yj es suave. el cual matemáticamente es: 22 Aquí seguimos el desarrollo de Imbens y Lemieux. En este caso. la idea del método es poder identificar el efecto tratamiento al menos localmente alrededor de c. La idea general es que dado este punto de corte. Evidentemente este es un caso extremo de selección en observables pues los grupos B y C difieren absolutamente en la variable X . Z i ) donde X i es un escalar y Z i es un vector de las demás características observables de i que se asume que no han sido afectadas por el tratamiento.Formalizando lo mencionado en los párrafos anteriores22. en el contexto del modelo de resultados potenciales de Neyman-Rubin. ocurrirá que di = 1[ X i ≥ c] donde 1 es el operador que otorga el valor de 1 si es verdad la condición mencionada y 0 en otro caso. Gráficamente.

lim E[ yi | X i = x] − lim E[ yi | X i = x] x↓c x↑c Es ilustrativo dibujar también la relación entre X y la probabilidad de recibir el tratamiento dado X . Gráfico 2 P[d|X] 1 0 c X 28 . X ] ⋅ Pr[d = 0 | X ] + E[ y | d = 1. el efecto tratamiento es el salto en la esperanza condicional de y dado X . o sea P[d | X ] . X ] ⋅ Pr[d = 1 | X ] Grafico 1 y E(y0 | X) c X En el gráfico 1. Esta relación se muestra en el gráfico 2.E[ y | X ] = E[ y | d = 0.

no hay datos de y0 para X = c por definición. E[ y j | X = x] es E[ y0 | X = c] = lim E[ y0 | X ] = lim E[ y0 | d = 0. En el caso del segundo término. Se hace entonces imperioso que la identificación de estos efectos se haga localmente alrededor de c. para j = 0. X ] = lim E[ y | X ] X ↓c X ↓c X ↓c 29 . 0 < P (d | X ) < 1 . Es por ello que se hacen dos supuestos de Regresión Discontinua Aguda que permiten identificar el efecto (adicionales al supuesto (II’)): Continuidad de la función de regresión condicional: continua en x . La violación de este supuesto genera algunos inconvenientes en la identificación el efecto del tratamiento. para j = 0. 1. X ] = lim E[ y | X ] X ↑c X ↑c X ↑c y similarmente E[ y1 | X = c] = lim E[ y1 | X ] = lim E[ y1 | d = 1. asumimos que Fy j | X (a | b) es continua en a para todo b. seguimos asumiendo que se cumple (II’) pero ya no se está cumpliendo el supuesto de “matching” o “overlaping”. Continuidad de la función de distribución condicional: Sea Fy j | X (a | b) = Pr( y j < a | X = b) . 1. lo cual puede no cumplirse pues X es continua. El efecto tratamiento promedio en el punto c es: ATE = E[ y1 − y0 | X = c] = E[ y1 | X = c] − E[ y0 | X = c] El primer término es estimable con cierta dificultad pues se requiere que exista un número significativo de observaciones de X = c .En este contexto de regresión discontinua aguda. Bajo cualquiera de estos dos supuestos.

Luego. A este supuesto también se le conoce como el supuesto de “intercambiabilidad”. Aquí se cumple que ATE = lim E[ y | X ] − lim E[ y | X ] = β d X ↓c X ↑c En resumen. los supuestos de este modelo podrían no cumplirse en la realidad especialmente cuando se trata del cumplimiento de la regla de asignación 30 . ocurriría entonces que por debajo de c se agruparían individuos con ciertas características no observables. No obstante. tanto en sus características observables como no observables (balanceo en ambas características). Este supuesto podría no cumplirse (lo cual invalidaría la identificación del ATE) si los individuos pudieran alterar su información observable de X con el fin de recibir o no el tratamiento. Si aquellos individuos que estuvieran apenas por encima de c alteraran su ingreso reportado reduciéndolo para hacerse beneficiarios del programa. el ATE es: ATE = lim E[ y | X ] − lim E[ y | X ] X ↓c X ↑c El hecho de afirmar que el efecto tratamiento es identificable localmente alrededor de c indica que estamos suponiendo que los individuos alrededor de c son comparables. Es decir. lo cual le da el carácter de experimento natural a este diseño. quedando por encima de c a otros individuos que difícilmente serían comparables con los “de abajo”. el ATE se puede identificar mediante una regresión semilineal del tipo yi = β d d i + g ( X i ) + ui donde g ( X i ) es una función continua en X = c . Por ejemplo. si se tratara de un programa de ayuda para individuos con ciertos ingresos por debajo de un umbral c. hemos mostrado cómo es posible identificar el efecto tratamiento en el caso de la regresión discontinua aguda. Finalmente. es como si el tratamiento se hubiera asignado aleatoriamente alrededor de c.

una variabilidad natural hace que a veces gane uno u otro candidato (lo cual mostraría que la fuerza de cada partido en su distrito es más o menos similar). En otro trabajo que aplica esta metodología. Moretti y Butler (2004) quienes estudian la conducta (como congresistas) de diputados del Partido Demócrata de los Estados Unidos que han sido elegidos en elecciones ajustadas. en contraste con diputados del Partido Republicano que también han sido elegidos en elecciones con escasa diferencia. DiNardo y Lee (2002) estudian el efecto de la sindicalización de empresas sobre la supervivencia de las mismas. se ha encontrado que en elecciones ajustadas (donde las dos opciones a elegir se encuentran alrededor del 50%) se crea una discontinuidad aguda (o determinística) que puede ser explotada para la identificación local del impacto. sino que ellos adoptan posiciones ya sea un tanto más de izquierda para los Demócratas y de derecha para los Republicanos (esto último medido mediante un índice). Es decir. Es decir. existiendo cierta probabilidad de recibir el tratamiento estando por debajo del umbral. lo cual muestra que al ser elegidos los políticos no representan la voluntad de la población que los eligió sino que siguen sus propios designios ideológicos y los de su partido. se observa que las votaciones en el Congreso de esos diputados elegidos no se acerca a la media. encuentran una significativa discontinuidad en el record de votaciones de estos diputados. Asumiendo que en este tipo de elecciones ajustadas. Ejemplos de esta literatura son Lee. o de no recibirlo estando por encima de él.del tratamiento. es frecuente que el umbral que define al tratamiento no sea tan claro como se menciona aquí sino que algunas entidades no cumplan con la regla. El desarrollo de este caso se presenta en la sección 7. Existen algunos ejemplos de la aplicación de regresión discontinua aguda en estudios de impacto. Los autores explotan el hecho que las empresas se sindicalizan si consiguen al menos el 50% más 1 de los 31 . En la literatura de elecciones.

Se considera entonces que la única diferencia entre este grupo alrededor de los 11 puntos es el programa. nivel II. sin embargo.) definidos sobre un índice de pobreza continuo llamado Sisben. Encuentran que el efecto de la sindicalización sobre la supervivencia de las empresas es muy pequeño. aquellos a la izquierda de 11 se benefician del programa. el cual libera del pago de derechos académicos a estudiantes según ciertos niveles socioeconómicos pre-establecidos. en este caso se cumple el supuesto “overlapping” o “matching” (ver sección 3. En tal sentido. En otro tipo de estudios económico-sociales. A diferencia del diseño de regresión discontinua aguda en donde los grupos de tratados y no tratados se encuentran completamente separados según la variable índice.4) y por ello los individuos de los grupos B y N comparte ciertas características en un rango común. Barrera. Encuentran que participar en el programa incrementa en 3% la probabilidad de matricularse en la escuela para el grupo de estudiantes de educación básica. alrededor de los 11 puntos de Sisben) pueden ser considerados muy similares. lo cual identifica el efecto causal. muestran con datos que las empresas con porcentajes de votación a favor de la sindicalización alrededor del 50% tienen características observables muy similares. pero aquellos a la derecha de 11 puntos no reciben el beneficio. EL MÉTODO DE PAREO O MATCHING El método de pareo es una técnica muy popular usada en el análisis de políticas a través de datos no experimentales. con lo cual se puede atribuir el hecho de de estar sindicalizado o no a factores aleatorios. 6. Con ello. individuos alrededor de los cortes (por ejemplo. etc. La discontinuidad se ubica en los niveles socioeconómicos discretos (nivel I. Linden y Urquiola (2007) encuentran que el programa colombiano Gratuidad.votos de los trabajadores. presenta datos que pueden ser estudiados mediante regresiones discontinuas. 32 .

en especial antes de la aplicación del tratamiento. 33 . Rubin (1973) en donde se compara esta técnica con la de regresión ajustada por sesgo. (3)Se posee un conjunto rico de variables observables.Si bien es cierto que es una técnica estadística relativamente antigua23. Para lograr ese objetivo. 23 Véase por ejemplo. busca definir un subgrupo de no beneficiarios (grupo de control C) tal que cualquier variable confundidora quede balanceada entre los tratados y los controles. Sin embargo. debido al desbalance de esta variable en los grupos B y N. Ante este problema de identificación. Como se mencionó antes el término E ( y0 | d = 1) no es observable. véase Heckman. el método solo logra evitar el sesgo generado por variables confundidoras observables. bajo los cuales sería posible calcular el ATET. 1998)). mediante la conformación de parejas. Esta técnica es especialmente útil cuando: (1)Se busca estimar el ATET (2)Se posee un número grande de individuos en el conjunto N. el método propone unos supuestos “identificadores”. Observando el ATET = E ( y1 − y0 | d = 1) = E ( y1 | d = 1) − E ( y0 | d = 1) . en años recientes ha tenido importantes avances y perfeccionamientos (por ejemplo. En términos generales. el método del pareo. Además si el tratamiento no ha sido asignado en forma aleatoria ―como suele ser el caso en los cuasiexperimentos― no podemos utilizar a un estimador de E ( y0 | d = 0) como una aproximación de E ( y0 | d = 1) pues nada garantiza que las características observables y no observables se encuentren balanceadas entre los grupos de beneficiarios y no beneficiarios. Ichimura y Todd (1997. Cochran y Rubin (1973). busca evitar el problema del “confounder” en estudios con datos observacionales (véase sección 0) que ocurre cuando el efecto del tratamiento sobre el resultado no puede ser distinguido del efecto de una tercera variable relacionada con las dos primeras.

la discusión restante es cómo encontrar dentro de los no tratados a un grupo de control que comparta las mismas características que el grupo beneficiado y que pueda ser utilizado como el escenario contrafactual. su género). y1 )  d | x y que 0 < Pr( d | x) < 1 . es decir ha sido asignado de forma similar a una asignación aleatoria. condicionado a x podemos utilizar al grupo no beneficiario N como el escenario contrafactual buscado (grupo de control.Asumamos que ( y0 . Pero asumiendo que se cumple las condiciones de “strong ignorability”. d = 1) − E ( y0 | x. El segundo supuesto afirma que para cada valor de características observables x . Esta suele ser la principal deficiencia de esta técnica. d = 0) Si x es discreto. 24 Estos supuestos son conocidos como “strong ignorability”. ATET | x = E ( y1 | x. existen individuos que han sido tratados y otros que no han recibido el tratamiento. el estimador de pareo de ATET incondicional es ATET = ∑ ATET | x ⋅ Pr( xi = x | di = 1) x Cabe mencionar que si hay características no observables de los individuos que no están balanceadas. Entonces. C). En términos intuitivos el primer supuesto quiere decir que si controlamos a los individuos según sus características observables (por ejemplo. 34 . en cada subgrupo que corresponde a valores específicos de x el tratamiento es independiente de los resultados. En caso que estos supuestos se cumplan24. entonces la diferencia de medias condicionada a x no sería un buen estimador del efecto tratamiento promedio. Decir que el balanceo se produzca en observables no asegura que tal balanceo también se cumpla en no observables. La principal debilidad de este método es justamente el cumplimiento en la realidad de estos supuestos.

1. aunque no lleguen a tener exactamente las mismas características. Una alternativa a la versión exacta del pareo es la llamada “inexacta”. por ello se suele simular al escenario contrafactual y0 con el promedio de estas unidades 35 . { } donde v( xi ) define a una Las unidades cercanas a i podrían ser numerosas. En este contexto los “pares” de la unidad i son el grupo Ai ( x) = j ∈ N | x j ∈ v( xi ) vecindad cercana a xi . Para cada unidad i ∈ B con características xi . Para ello se definen unos criterios de cercanía. Una primera forma de hacer esta búsqueda es mediante el pareo exacto. se busca una unidad j ∈ N que posea las mismas características.) y por lo tanto el grupo de control C podría tener muy pocos elementos o quizás ninguno. Luego el grupo de control es la unión de todos los i∈B conjuntos Ai . Puesto que en los estudios con datos microeconómicos los individuos suelen tener muchas características observables. Pareo exacto e inexacto La respuesta a la interrogante planteada nos lleva a preguntarnos si efectivamente existirán individuos que tengan las mismas características pero que pertenezcan a grupos distintos según la recepción del tratamiento. Los “pares” de cada unidad i tomando como base a las características x son aquél grupo Ai ( x) = {j ∈ N | xi = x j }. es decir C = ∪ Ai . es posible que para muchas unidades i no exista su par exacto j que comparta todas esas características (por ejemplo. en donde se busca a unidades que sean parecidas a las tratadas. el sexo. la edad. es decir xi = x j . etc.6. Esta forma de hacer pareo tiene un problema conocido como el “problema de la dimensionalidad”. el nivel educativo.

j ) y0 j   j∈ Ai  Veamos a continuación algunos casos especiales de pareo inexacto. una unidad j no beneficiaria no puede ser utilizada para reconstruir el escenario contrafactual de dos unidades i ∈ B distintas. i .cercanas25. 36 . 2002). la fórmula general del estimador de ATET con pareo inexacto es ˆ ATET = 1 nB ∑ y  i∈B   1i  − ∑ ω (i. En este caso Ai ( x) = j | min j xi − x j { } 25 Tal como señalan Dehejia y Wahba (2002). Se escoge a la unidad j que está más cerca de i usando la distancia euclídea. En cualquier caso. Si se hace sin reemplazo. el pareo con reemplazo sí permite que una unidad j pueda ser utilizada más de una vez. j ) ≤ 1 . Para realizar este cálculo se acostumbra promediarlos usando ponderadores ω (i. j ) con 0 ≤ ω (i. j∈ Ai Normalmente los ponderadores estarán relacionados con la cercanía de j a mayor peso a los que se encuentren más cerca. Puesto que esto trae problemas con pérdidas de observaciones. Un caso muy común de pareo es aquél que se realiza según el “vecino más cercano” (nearest neighbor). dándole Es importante notar en este momento que el pareo podría hacerse con reemplazo o sin reemplazo. Tener muchas unidades de comparación incrementa la precisión de la estimación del escenario contrafactual pero genera sesgos debido a que se utilizan unidades que podrían ser muy diferentes a la unidad tratada. el hecho de tener un grupo de comparación unitario o numeroso no es un asunto trivial. y ∑ ω (i. o difieren en los pesos asignados en ω (i. j ) . los cuales difieren ya sea en la conformación del grupo Ai a través de la definición de vecindad. j ) = 1 . siendo de especial utilidad cuando se tienen pocas observaciones (Dehejia y Wahba.

Una forma alternativa de resolver el problema de la dimensionalidad es creando un puntaje o “propensity score” que resuma en una sola variable a todas las características de los individuos. Al ˆ ˆ igual que antes es posible definir una distancia mínima. tendríamos que el conjunto de unidades “pares” a una unidad beneficiaria i es: ˆ ˆ Ai ( P( x)) = j ∈ N | min Pi ( x) − Pj ( x) { } Normalmente este conjunto será unitario pues el propensity score es una variable continua que cuenta con un número ilimitado de decimales. el propensity score es la estimación de la probabilidad de ser beneficiario del programa. Este resultado es de mucha importancia pues permite que el pareo se pueda hacer con base en el propensity score (Dehejia y Wahba.2. En un estudio muy celebrado. Una vez hecha esta estimación. 37 . el vecino más cercano en términos de este puntaje. y0 )  d | x .Normalmente este conjunto debería tener solamente un elemento ( ω (i. Pareo mediante el “propensity score”. Asimismo el investigador puede definir una distancia mínima (llamada “caliper”) como primer filtro. aunque podría tener a más de uno. y0 )  P ( x) . el propensity score es estimado mediante regresiones logit o probit. P ( x) = Pr( d = 1 | x) . se puede hacer un pareo mediante. En términos más x específicos. pudiendo entonces ser el conjunto Ai (x) vacío. 1999. por ejemplo. con el fin de hacer un pareo con individuos que estén realmente cercanos. j ) = 1 para el j más cercano y ω (i. 6. entonces se cumple que ( y1 . 2002). Pi ( x) − Pj ( x) < τ . En la práctica. En este caso. j ) = 0 para cualquier otra unidad). Rosenbaum y Rubin (1983) demostraron que si ( y1 .

la triangular con k ( z ) = (1 − z ) ⋅ 1[ z < 1] . en el caso de radius matching el conjunto Ai ( P( x)) puede tener más de un elemento. k (⋅) es un kernel28 y h es el ancho de la “ventana” el cual determina cuantos valores Pj alrededor de Pi serán incluidas en el cálculo del promedio. y (iv) Véase Heckman. en donde Ai ( P( x)) = j ∈ N | Pi − Pj < r { } A diferencia del vecino más cercano. j ) = P −P ∑ k( j h i ) j∈ N k( donde P es el propensity score. (ii) ∫ k ( z)dz = 1 . Smith y Todd (1998). 2 donde k ( z ) = (1 / 2) ⋅ 1[ z < 1] . Una alternativa propuesta en la literatura es que se permita que las unidades del grupo de comparación Ai ( P( x)) sean muchas alrededor del valor de x . las cuales podrían contener información valiosa en la estimación de los escenarios contrafactuales. Un problema con los métodos del vecino más cercano y radius matching es que consumen mucha información y pierden muchas observaciones. o z → ∞ . (iii) z k ( z) → 0 cuando k ( z) = 0 2 27 28 si z ≥ z0 para un z0 definido. El ATET se estima considerando el promedio simple de los resultados y de los elementos de Ai ( P( x)) . es decir h define implícitamente a 26 Un kernel es una función k (x) que cumple algunas propiedades específicas. Luego el ponderador ω (i. pero ponderándolas según una función ponderadora llamada kernel26 que da más peso a unidades cercanas y menor peso a las alejadas27. la Epanechnikov donde k ( z ) = (3 / 4) ⋅ (1 − z ) ⋅ 1[ z < 1] . Ichimura. y la Gaussiana donde k ( z ) = ( 2π ) 38 −1 / 2 exp( − z / 2) . 2 . ∫ zk ( z)dz = 0 . j ) es: Pi − Pj ) h ω (i. ∫ k ( z) dz < ∞ .Una alternativa es la conocida como radius matching. (i) k (x) es simétrica alrededor de 0 y continua. Algunos ejemplos de funciones kernel muy utilizadas son la uniforme ∫ z k ( z )dz = k < ∞ .

y con el fin de excluir a individuos que no tienen un “par” en el otro grupo. la cual calcula no solo un intercepto sino también una pendiente localmente en la vecindad. si h es muy pequeño. Una alternativa usada es la regresión lineal local. Por otro lado.una vecindad. en el caso de datos no experimentales nada garantiza que eso ocurra. el valor de la regresión no paramétrica simplemente entregaría el promedio de los valores de y del grupo no beneficiario. Por ello es frecuente que el propensity score no tenga el mismo soporte que entre beneficiarios y no beneficiarios. Esta especificación significa que el escenario contrafactual es estimado a través de la estimación de la esperanza condicional de y sobre x mediante una regresión no paramétrica de y sobre x para las unidades del grupo no beneficiario. dada la naturaleza del proceso. En cualquiera de los dos casos. Smith y Todd (1998). una notable diferencia entre esta técnica en comparación con los experimentos aleatorios controlados es en el grupo de control que se genera. Mientras que en los experimentos. se suele definir a un rango o soporte común (common support). Por tal razón. Esta regresión no paramétrica calcula el promedio simple de y en el intervalo seleccionado h . En el extremo caso que h → ∞ . se garantiza que las características observables y no observables tienen la misma distribución entre los beneficiarios y controles. pero incrementa el sesgo que se origina en la estimación al suavizarse una curva29. 39 . se contaría con muy pocas observaciones lo cual resta confiabilidad a las predicciones. en la elección del ancho de la ventana h existirá un trade-off entre eficiencia y sesgo. Ichimura. lo cual estaría alejado de la media condicional de y dado x . Tal como señalan Heckman. que es la intersección de los soportes de los 29 En Caliendo y Kopeinig (2005) se pueden encontrar algunos consejos prácticos a tomar en cuenta para la implementación del propensity score matching. pues una ventana más amplia abarca más observaciones lo cual genera una mayor eficiencia en las estimaciones.

no se podrá realizar el pareo y además será una señal clara que los dos grupos no son comparables.beneficiarios y no beneficiarios en sus scores. Lechner (2000) y Burga (2003) en el caso del programa peruano PROJOVEN. En economía laboral. Dehejia y Wahba (2002). j ) y 0j     donde CS hace referencia a que solo se toma en cuenta a individuos que pertenecen al soporte común. El pareo se va a realizar finalmente solamente entre aquellos individuos que tengan un score dentro de dicho rango común. Para evitar este inconveniente la literatura se ha apoyado en 40 . eliminándose a todos los individuos que queden fuera de él. la distribución del score entre los beneficiarios y el grupo de control debería ser muy parecida. Existen algunos temas adicionales acerca del Método de Pareo que no se presentarán aquí. Ichimura y Todd (1997). Un tema crucial es la principal desventaja del método propuesto en su incapacidad para controlar el sesgo en no variables no observables. en especial en lo que se refiere a programas de desempleo y entrenamiento. Finalmente la expresión general del estimador del ATET con la definición del soporte común es: ˆ ATET = 1 nB   y1i −  i∈B ⊂ CS  ∑ j∈ Ai ⊂ CS ∑ ω (i. Las aplicaciones del método de pareo en economía son numerosísimas y los campos en los que se utiliza crecen día a día. Si el rango en común es muy pequeño o inexistente entre los propensity scores de los beneficiarios y no beneficiarios. Cuando se realiza un pareo de uno-a-uno (como en el caso del vecino más cercano) después de la definición del soporte común. pueden consultarse por ejemplo los mencionados trabajos de Heckman.

por lo que la diferencia de ˆ ˆ medias δ ni la estimación por mínimos cuadrados ordinarios β d en yi = β 0 + β d di + ui son estimadores consistentes del ATE. Algunos estudios han desarrollado este análisis que aun es relativamente nuevo en economía (véase por ejemplo Joffe y Rosenbaum. 41 . es posible extender el procedimiento para el caso de tratamientos múltiples no binarios. en donde es importante la intensidad o heterogeneidad del mismo. algunos estudios los han comparado encontrando algunas ventajas o desventajas entre ellos30. Sobre el tipo de tratamiento. De esta manera no se cumplen los supuestos identificadores del ATE –debido a la autoselección generada.el método tradicional de diferencias en diferencias. Lechner.31 En ocasiones aun si los programas son diseñados para ser asignados en forma aleatoria entre la población objetivo. 1999. el cual desarrollaremos más adelante. En tal situación. en la práctica la recepción o no del tratamiento está en manos de las personas quienes podrían decidir no recibirlo o logran recibirlo sin haber sido pre-seleccionados. 2000. Acerca de la elección entre los algoritmos propuestos para la construcción del escenario contrafactual. 7. las decisiones de las personas influyen en la variable tratamiento d . Una revisión muy intuitiva del método de variables instrumentales se encuentra en Angrist y Krueger (2001). es decir. Un resumen de estas comparaciones se puede encontrar en Vinha (2006). Imbens. por lo cual se le debe considerar como una variable endógena. ENDOGENEIDAD DEL TRATAMIENTO: EL MÉTODO DE VARIABLES INSTRUMENTALES. d 30 31 Un resumen de estas comparaciones se puede encontrar en Vinha (2006). La variable d podría no expresar plenamente el objetivo de la política pues algunas personas podrían decidir participar o no en ella. 2002).

A manera de ejemplo32. si cumple las condiciones usuales de las variables z instrumentales (está correlacionada con d pero no con u). el nivel educativo alcanzado por una persona i) y d indica si el individuo participó o no en el servicio militar. Calculando cov( y. z podría representar un sorteo para designar a los elegidos para el servicio militar.33 Luego. z ) cov(d . como problemas de salud o motivación. z ) . en especial en programas sociales. z ) . 42 . z ) = β d cov(d . las cuales están capturadas en el término de error u . imaginemos que y es algún resultado (por ejemplo. sin importar si cumplieron o no con el tratamiento. El no cumplimiento de la intervención genera endogeneidad en la variable d . Es bastante claro que en aplicaciones a la economía. Imbens y Rubin (1996). Esta variable d no ocurre al azar entre los individuos pues la participación depende de la decisión de ellos.dependería de algunas variables no observables de preferencias. 32 33 Un ejemplo similar desarrolla Angrist (1990). Este no cumplimiento de lo que indica el sorteo puede deberse a muchas razones. z ) = cov(β 0 + β d d + u . En la literatura médica se propone un análisis de la intención del tratamiento (intentionto-treat analysis) en donde se compara el resultado promedio de aquellos seleccionados por el programa versus el de aquellos no seleccionados por el programa. Un análogo muestral de esta expresión es un estimador de variables instrumentales del efecto tratamiento promedio β d . Por ejemplo. Véase también Angrist. No todos los sorteados hacen el servicio militar ni todos los que hacen el servicio fueron sorteados pero es claro que existe una asociación entre el sorteo y la participación en el servicio. tendremos que el parámetro poblacional β d = cov( y. este problema del no cumplimiento es de suma importancia. Supongamos que existe una variable binaria z relacionada con d pero que no con u. entonces podemos identificar y estimar al parámetro β d como el ATE en el modelo yi = β 0 + β d di + ui .

El rol de z en la identificación del ATE mediante variables instrumentales se ubica en que extrae aquella variabilidad de d que no está relacionada con u . Los desafiantes hacen siempre lo contrario. 43 . las cuales son contingentes a los valores de z . Observando los valores de d condicionados a lo que obtengamos de z . Ambas variables toman el valor de 1 si el individuo participa en el programa y 0 si no participa. En esta parte seguiremos las exposiciones simplificadas que son estándares en la literatura (Lee 2005. Wooldridge 2001). Mostraremos la estrategia estándar en la literatura para estudiar la relación entre el instrumento propuesto z y las variables d e y . d1 y d0. con el fin de identificar el efecto tratamiento promedio ATE. Aunque 34 Un desarrollo más general se encuentra en Imbens y Angrist (1994). en la siguiente tabla se muestra los valores de d (en las filas) condicionados a valores de z (por columnas). Para estudiar este último aspecto. vale la pena preguntarse ¿qué es lo que la logra identificar de exactamente las respuestas el de estimador los de variables ante el instrumentales?34 La respuesta a esta pregunta se basa en el análisis de heterogeneidad individuos instrumento. Si bien es cierto que esta estrategia econométrica es útil tiene un costo en términos de la pérdida de información que contienen las variables y y d . Los siempre tomadores participan en el programa salgan o no sorteados. se puede descomponer a d en dos variables dummy. Siguiendo con el ejemplo del servicio militar. Se distinguen cuatro tipos de individuos z=1 1 1 0 0 z=0 0 1 0 1 Tipo Cumplidores Siempre tomadores Nunca tomadores Desafiantes Valores de d Los cumplidores hacen lo que dice el programa. y la asocia con la variabilidad de y relacionada a z . Los nunca tomadores deciden no participar en cualquiera de las contingencias.

en la realidad solo son observables parcialmente. Si participa en el programa. E ( y | z = 1) − E ( y | z = 0) = 1 ⋅ E ( y1 − y0 | d1 − d 0 = 1) ⋅ Pr(d1 − d 0 = 1) + 0 ⋅ E ( y1 − y0 | d1 − d 0 = 0) ⋅ Pr(d1 − d 0 = 0) − 1 ⋅ E ( y1 − y0 | d1 − d 0 = −1) ⋅ Pr(d1 − d 0 = −1) 44 . E ( y | z = 1) = E ( y0 ) + E (d 0 ( y1 − y0 )) + E ((d1 − d 0 )( y1 − y0 )) E ( y | z = 0) = E ( y0 ) + E (d 0 ( y1 − y0 )) Luego. comparando la esperanza de los dos resultados dado que ocurre algún valor específico de z obtenemos E ( y | z = 1) − E ( y | z = 0) = E ((d1 − d 0 )( y1 − y0 )) = E ((d1 − d 0 ) E ( y1 − y0 | d1 − d 0 )) Como d1 – d0 tiene tres posibles resultados: 1. Esta relación entre d y z se puede modelar para cualquier unidad i como di = (1 − zi )d 0i + zi d1i A su vez. d1 y d0.aparentemente ambas dummies sean iguales. entonces vemos que d1 = 1 . Reemplazando la ecuación de di en yi de la página anterior y con un poco de algebra se obtiene (omitiendo el subíndice i ): y = y0 + d 0 ( y1 − y0 ) + z (d1 − d 0 )( y1 − y0 ) Si se asume que z es independiente de y1. si no participa en el programa observaremos que d 0 = 0 . e yi = y1i si di = d1i . 0 y -1. la variable resultado y se relaciona con d mediante la ecuación yi = (1 − di ) y0i + di y1i = y0i + di ( y1i − y0i ) donde claramente yi = y0i si di = d 0i . y0.

Con ello la expresión se reduce a: E ( y | z = 1) − E ( y | z = 0) = E ( y1 − y0 | d1 − d 0 = 1) ⋅ Pr(d1 − d 0 = 1) Dados los tres valores mencionados de que puede tomar d1 − d 0 . No se puede calcular el efecto de los siempre tomadores pues no se observa variabilidad en su conducta. supuesto conocido como “monotonicidad”. z ) = = βd E (d | z = 1) − E (d | z = 0) cov(d . Debido a que solo se está identificando el efecto en un 35 36 Es la condición de relevancia que debe cumplir el instrumento. este valor solo mide la ganancia promedio de los cumplidores pues para ellos d1 − d 0 = 1 .35 Reemplazando esta última ecuación en la penúltima y despejando tenemos E ( y1 − y0 | d1 − d 0 = 1) = Se puede comprobar36 que E ( y | z = 1) − E ( y | z = 0) Efecto de z sobre y = E (d | z = 1) − E (d | z = 0) Efecto de z sobre d E ( y | z = 1) − E ( y | z = 0) cov( y. la probabilidad se puede desmembrar de la siguiente forma: Pr(d1 −d 0) = E (d1 − d 0 ) = E (d1 ) − E (d 0 ) = E (d | z = 1) − E (d | z = 0) = Pr(d = 1 | z = 1) − Pr(d = 1 | z = 0) Aquí es necesario hacer el supuesto que Pr( d = 1 | z = 1) ≠ Pr( d = 1 | z = 0) el cual tiene sentido si el instrumento z afecta a d . página 37. ni el efecto de los nunca tomadores. 45 . Lee (2005). entonces Pr(d1 − d 0 = −1) = 0 con lo cual se elimina el tercer término de la última ecuación. z ) en donde vemos que el rol de z ha sido de identificar el efecto de la variación de d sobre la variación de y (el parámetro β d ). Sin embargo.Si asumimos que d1 ≥ d 0 .

El instrumento utilizado por estos autores es el trimestre de nacimiento. la diferencia promedio de los cumplidores. Este es. Tanto β dIV como β d son estimadores IV consistentes de LATE. El estimador de variables instrumentales de β d (tomando como instrumentos a z y la constante de unos) es el análogo muestral de la razón de covarianzas. Imbens y Rubin (1996) es. el cual predice bastante bien (debido a los reglamentos y leyes en el sistema educativo norteamericano) la cantidad de años que un estudiante finalmente estudiará.subgrupo de la población. ˆ Wald βd  ∑ yi zi ∑ yi (1 − zi )   ∑ di zi ∑ di (1 − zi )  ⋅  = y1 − y0 − = −   ∑z  ∑z ∑ (1 − zi )   i ∑ (1 − zi )  d1 − d0 i   −1 Donde el numerador de la expresión anterior es el estimador “intentionto-treat” del efecto de z sobre y . Existen algunas aplicaciones interesantes del método de variables instrumentales en el análisis de inferencia causal. y el denominador el estimador ˆ ˆ Wald “intention-to-treat” del efecto de z sobre d . Angrist y Krueger (1991) analizan el efecto de los años de educación sobre los ingresos en Estados Unidos. Por ejemplo. 37 Por Local Average Treatment Effect en inglés 46 . ˆ β dIV = n∑ di zi − ∑ di ∑ zi n∑ yi zi − ∑ yi ∑ zi Otro estimador de variables instrumentales que es el análogo muestral de la razón de diferencias de esperanzas condicionales (también conocido como el estimador de Wald) que muestran Angrist. a este impacto se le llama efecto tratamiento promedio local (LATE)37. en donde los años de educación son un regresor endógeno.

en la práctica hubieron problemas de cumplimiento de los establecido por el sorteo. Sin embargo. Shady y Araujo (2008) estudian el impacto del programa Bono de Desarrollo Humano de Ecuador —el cual es un programa de transferencias condicionadas de dinero— sobre la asistencia a la escuela. DISEÑO DE REGRESIÓN DISCONTINUA DIFUSA Volviendo al trabajo de Angrist y Lavy sobre la regla de las Maimonides. En ese sentido. existiendo autoselección en el tratamiento. Si bien el programa se asignó en forma aleatoria entre la población objetivo debido a problemas presupuestarios. considerando a la asignación aleatoria como un instrumento. 47 . existiendo casos en donde no se llevó a cabo la partición o en donde la partición se realizó antes de llegar a lo estipulado por la regla. en algunas escuelas la matrícula en un determinado grado no determina exactamente si las aulas serán partidas o no. los autores estiman el efecto del programa por variables instrumentales. Para superar este problema.En el estudio mencionado sobre la regla de las Maimonides. los autores proponen que el impacto de la variación abrupta del tamaño de clase sobre el rendimiento escolar puede medirse localmente alrededor de la discontinuidad. el diseño de regresión discontinua aguda discutido en la sección 5 podría no funcionar. ni que las aulas divididas tengan el mismo número de alumnos. Angrist y Lavy (1999) encuentran que el tamaño de la clase no coincide exactamente con lo que predice la regla de los Maimonides debido a la presencia de cierta variabilidad en la determinación del número de estudiantes por aula. Sin embargo. 8. En un ejemplo de la aplicación de esta técnica para tratamientos binarios. utilizando a la regla de los Maimonides como un instrumento obtiene estimadores consistentes del efecto del tamaño de la clase sobre el rendimiento escolar en Israel.

habrá algunos alumnos con rendimiento superior al umbral que no solicitarán crédito así como habrá individuos por rendimiento ligeramente por debajo de τ que podrían solicitar y recibir crédito si su situación familiar fuera muy crítica. En términos más generales y continuando con la discusión de la sección 5. en el gráfico 3 se muestra la discontinuidad en la probabilidad de recibir 48 . También podría ocurrir que el comité evaluador de crédito podría ser flexible en algunos casos bajo criterios no controlados por el investigador. En casos como el descrito ocurrirá que δ1 ( X i ) si X i ≥ c Pr(d i = 1 | X i ) =  δ 0 ( X i ) si X i < c donde δ1 ( X i ) ≠ δ 0 ( X i ) y δ1 ( X i ) > δ 0 ( X i ) . en el sentido que depende de la decisión de los agentes participantes.Esta misma situación podría repetirse en otros programas en donde la asignación del tratamiento (recibirlo o no) dependa del valor un indicador continuo. Tomando los gráficos que muestran Imbens y Lemieux (2007). La heterogeneidad en las respuestas de los individuos ante la asignación del tratamiento puede generar problemas de no cumplimiento del mismo. suele ocurrir en algunos casos que la variable asignadora X (aquella cuyos valores determinarán la asignación del beneficio del programa. en un programa de crédito educativo para alumnos que alcancen un rendimiento dado τ . Con esto decimos que para los individuos que están a la derecha de c es más probable que obtengan tratamiento que aquellos que están a la izquierda de c. como la matrícula por grado en el ejemplo mencionado) no determina exactamente la participación o no en el programa aunque si podría alterar la probabilidad de que participe en el mismo. Por ejemplo. En este caso diremos que la participación en el tratamiento es endógena.

y el efecto de esta diferencia sobre los resultados observables pueden apreciarse en el gráfico 4. al ser este no aleatorio sino dependiente de variables no observables: 49 . Gráfico 3 P[d|X] 1 0 c X Gráfico 4 y E(y1 | X) E(y0 | X) c X La consecuencia de esto en el modelo es que tendremos endogeneidad en el tratamiento d i .tratamiento.

Nótese que indica el tratamiento esperado para cada valor de E (d | X ) X.yi = β d d i + g ( X i ) + ui en donde ahora d i está correlacionado con ui . βd = lim E ( y | X ) − lim E ( y | X ) X ↓c X ↑c X ↑c lim E (d | X ) − lim E (d | X ) X ↓c el cual es el valor de ATE. lim E ( y | X ) − lim E ( y | X ) = β d lim E (d | X ) − lim E (d | X ) X ↓c X ↑c X ↓c X ↑c ( ) despejando. Bajo el supuesto que g ( X i ) es continua y dado que lim E (u | X ) = 0 . Supongamos que tenemos individuos heterogéneos en la población. Siendo cuidadosos con lo que identifica este estimador. en donde cada individuo tendrá una respuesta distinta de participación en el tratamiento ante un valor de su propio X i . X →c entonces podemos tomar el límite por la derecha del esperado de la expresión anterior: lim E ( y | X ) = β d lim E (d | X ) + lim g ( X ) + lim E (u | X ) X ↓c X ↓c X ↓c X ↓c mientras que el límite por la izquierda es lim E ( y | X ) = β d lim E (d | X ) + lim g ( X ) + lim E (u | X ) X ↑c X ↑c X ↑c X ↑c Luego. analicemos con cuidado lo que dice el denominador de la expresión anterior. Los grupos mencionados en la sección 7 se definen en el contexto actual como: 50 . mas no X i .

di = 0 si X i < c ) Individuos que aceptan el tratamiento si su Xi se ubica a la derecha de c. el denominador es cero pues no hay variabilidad en d para X alrededor de c. se distorsionaría el efecto del tratamiento. d i = 1 si X i < c ) Siempre participan. Si X provoca saltos en otros determinantes de y . no lo toman si Xi está a la izquierda de c. En la aplicación práctica del método de regresión discontinua aguda o difusa. se podría pensar que los individuos han manipulado sus valores de X con el fin de estar a un lado de c (para recibir o no el tratamiento). hay varias cuestiones a tomar en cuenta. al igual que el estimador de variables instrumentales. Algo que debe observarse también es que la distribución de las observaciones de X a ambos lados de c deberían ser simétricas. Siempre tomadores: (d i = 1 si X i ≥ c. Por lo tanto. el ATE mencionado arriba. Nunca tomadores: (d i = 0 si X i ≥ c. En primer lugar se debería distinguir a qué caso de regresión discontinua corresponde el problema que estamos analizando. Tanto el diseño de regresión discontinua aguda como difusa identifican al ATE únicamente alrededor de X=c. d i = 0 si X i < c ) Nunca participan. Cualquier extrapolación de estos resultados a 51 . los cumplidores. Si se observa una discontinuidad o fuertes asimetrías. El método también presenta algunas limitaciones importantes. En esta etapa. Algo muy importante que se debe verificar antes de empezar es que el salto en la variable resultado y se deba únicamente a los valores de X alrededor del umbral. un análisis gráfico de los datos suele ser de bastante utilidad. En el caso de los siempre tomadores y los nunca tomadores. Incluso el diseño difuso se limita a una subpoblación aún más pequeña. Una de ellas tiene que ver con la validez externa.Cumplidores: (di = 1 si X i ≥ c. Si esto ocurre. solo está identificado para los individuos cumplidores alrededor del punto c. se invalidaría el supuesto de intercambiabilidad de los individuos alrededor de c.

Sin embargo. 52 . el cual podría distorsionar el efecto del programa si se pretende medirlo como la diferencia de los resultados postratamiento. El tradicional método de diferencias en diferencias es un refinamiento del método de diferencias de Rubin de la sección 3.1 considerándose no solo la diferencia promedio de los resultados entre los individuos de los grupos B y C sino también la diferencia de la variable resultado antes y después del tratamiento. EL MÉTODO DE DIFERENCIAS EN DIFERENCIAS Como se mencionó en la sección 6.otras subpoblaciones debe hacerse con cuidado. apoyándonos en la existencia de datos de panel de los individuos antes y después de recibir el tratamiento y asumiendo que las características no observables son invariantes en el tiempo podemos obtener estimaciones confiables del efecto tratamiento. La idea de este procedimiento está en que se pretende eliminar cualquier componente sistemático y común a ambos grupos que vaya cambiando en el tiempo. con lo cual existe un serio riesgo de sesgo en la estimación de este valor. Se requiere de muchas observaciones para tener estimadores confiables y precisos. la diferencia también puede eliminar cualquier otro componente individual no observable de cada grupo. De este modo la diferencia en diferencia es una estrategia identificadora del efecto tratamiento promedio como mostramos a continuación. 9. veremos en esta sección que podemos plantear un método que —bajo ciertos supuestos― es capaz de remover aquél componente no observable de los datos con el fin de tener estimaciones confiables. el principal problema del método de pareo en la estimación del ATET es que no puede controlar las características no observables de los individuos. Asimismo. Otra limitación importante es el número de observaciones con que se cuenta alrededor del corte. En síntesis.

donde j = 0. el resultado observado es yit = yt . Con el fin de evitar una notación engorrosa. t = 0. y jit . Esta variable no solo indica la recepción del tratamiento en cada periodo para la unidad i sino que también indica si estamos hablando del grupo beneficiario ( d1 = 1 ) o del grupo no beneficiario ( d1 = 0 ) en cualquiera de los dos periodos.Los resultados potenciales en este contexto dependerán no solo del individuo sino del tiempo. donde 0 es el periodo antes del tratamiento y 1 después del tratamiento. 1 indica el tiempo. Veamos. Nótese que el indicador del resultado potencial se encuentra ahora como un superíndice. hacemos y jit = ytj en donde se omitirá el subíndice i . en este contexto la diferencia de medias de los beneficiarios y no beneficiarios en el periodo 1 (pos-tratamiento) no identifica al ATET. Por su parte. Sin embargo. e i indica a la unidad i . El efecto tratamiento promedio sobre los tratados se define como 1 δ T = ATET = E ( y1 | d1 = 1) − E ( y10 | d1 = 1) donde puede verse que el segundo término E ( y10 | d1 = 1) no es observable pues es el resultado promedio que hubieran obtenido los beneficiarios en caso no hubieran recibido el tratamiento. Para la variable del tratamiento se escribirá dit = dt . 1 muestra la exposición potencial o no al tratamiento –al igual que en la sección 3-. Se podría pensar en el grupo no beneficiario como el contrafactual del beneficiario. 1 E ( y1 | d1 = 1) − E ( y1 | d1 = 0) = E ( y1 | d1 = 1) − E ( y10 | d1 = 0) Sumando y restando E ( y10 | d1 = 1) se obtiene E ( y1 | d1 = 1) − E ( y1 | d1 = 0) = δ T + E ( y10 | d1 = 1) − E ( y10 | d1 = 0) 53 .

Esa diferencia captura aquel componente individual que no está balanceado entre los dos grupos. Cuando no se cumple esto. entonces la diferencia en medias post-tratamiento no identifica el ATE. captura las diferencias en el resultado potencial 0 para ambos grupos en el periodo 0. la diferencia en medias en el periodo cero para los dos grupos es 0 0 E ( y0 | d1 = 1) − E ( y0 | d1 = 0) = E ( y0 | d1 = 1) − E ( y0 | d1 = 0) la cual debería ser cero ante aleatorización del tratamiento o menos rigurosamente cuando y0  d . Si tales diferencias entre los beneficiarios y no beneficiarios se mantienen en t = 0 y t = 1 . 1 1 E ( y1 | d1 = 1) − E ( y0 | d1 = 1) = E ( y1 | d1 = 1) − E ( y0 | d1 = 1) Sumando y restando E ( y10 | d1 = 1) se obtiene 1 E ( y1 | d1 = 1) − E ( y0 | d1 = 1) = δ T + E ( y10 | d1 = 1) − E ( y0 | d1 = 1) 0 = δ T + E ( y10 | d1 = 1) − E ( y0 | d1 = 1) 54 . entonces ocurrirá que 0 0 E ( y10 | d1 = 1) − E ( y10 | d1 = 0) = E ( y0 | d1 = 1) − E ( y0 | d1 = 0) ≡ ∆d Luego la diferencia de la diferencia identifica al ATET. [E ( y1 | d1 = 1) − E ( y1 | d1 = 0)] − [E ( y0 | d1 = 1) − E ( y0 | d1 = 0)] = δ T Otra forma de obtener el mismo resultado es la siguiente. entonces tal diferencia sería igual a cero. Si se mantiene el supuesto que el tratamiento es independiente en medias condicionales con y 0 . La diferencia en resultados observables antes y después del tratamiento para el grupo B ( d1 = 1 ) es. Si no se cumple.La expresión E ( y10 | d1 = 1) − E ( y10 | d1 = 0) muestra la diferencia en los resultados potenciales en ausencia de tratamiento entre los dos grupos en el periodo 1. Análogamente.

y se tiene información en el periodo t = 1 después de la aplicación del tratamiento. la diferencia de medias antes y después es: 0 E ( y1 | d1 = 0) − E ( y1 | d1 = 0) = E ( y10 | d1 = 0) − E ( y0 | d1 = 0) donde esta diferencia muestra el efecto del tiempo sobre y 0 para los no beneficiarios. ni siquiera en experimentos aleatorios. No hay ninguna razón para asumir que tal efecto es cero.En donde se ha tomado en cuenta que antes del tratamiento. t =1 −y i∈N . Los puntos negros indican valores realizados mientras que el punto blanco indica el resultado potencial no observable. un estimador consistente de ATET es δ T = (y ^ i∈B . t =1 −y i∈B . 0 1 0 E ( y0 | d ) = E ( y0 | d ) . 55 . también para ambos grupos. Para el grupo N ( d1 = 0) . La expresión E ( y10 | d1 = 1) − E ( y0 | d1 = 1) captura el efecto temporal sobre y 0 para los beneficiarios. En este punto se requiere asumir que tales efectos temporales son iguales para B y N (ambos siguen la misma tendencia) 0 0 E ( y10 | d1 = 1) − E ( y0 | d1 = 1) = E ( y10 | d1 = 0) − E ( y0 | d1 = 0) ≡ ∆t Luego la diferencia de la diferencia identifica el ATET [E ( y1 | d1 = 1) − E ( y0 | d1 = 1)] − [E ( y1 | d1 = 0) − E ( y0 | d1 = 0)] = δ T Utilizando análogos muestrales. Nada garantiza que este efecto temporal sobre y 0 sea igual a aquél de los beneficiarios. t = 0 ) En el gráfico 5 se puede apreciar el efecto de la doble diferenciación. En la figura se toma como base al periodo t = 0 en donde se cuenta con observaciones de y para ambos grupos. t = 0 ) − (y i∈N .

E ( y10 | d1 = 1)] . Si tal paralelismo no se cumple. Es decir el cálculo no es válido externamente para otros grupos distintos a los beneficiarios. En términos de regresiones. se puede obtener el estimador de diferencias en diferencias de la regresión yit = β d dit + µi + λt + ε it donde yit es el valor observado del resultado. E ( y10 | d1 = 0)] y la recta 0 [ E ( y0 | d1 = 1). El gráfico anterior muestra claramente que el estimador de diferencias en diferencias es el ATET y no el ATE. el estimador de diferencias en diferencias sería un estimador incorrecto de de ATET. varianza condicional constante y no correlacionado con ninguna de las demás variables ni con 56 . λt es un componente temporal no observable que genera el “efecto periodo” y ε it es un término de error de media cero. µi muestra un efecto individual (efecto fijo) no observable que afecta a la variable resultado.Gráfico 5 y E ( y1 | d1 = 1) 1 δT E ( y1 | d1 = 1) 0 ∆d 0 E ( y0 | d1 = 1) d1 = 0 ) 0 E ( y1 | d1 = 0 ) ∆t 0 E ( y0 | t=0 t=1 Tiempo Puede notarse que el supuesto acerca del mismo efecto temporal en y 0 0 se cumple al ser paralelas las rectas [ E ( y0 | d1 = 0).

Bajo la existencia en un soporte común en las características x .ningún otro error. 57 . y bajo el supuesto de iguales tendencias 0 de yit en los tratados y no tratados condicional a valores de x . No hemos mencionado nada acerca del control en variables x . se puede emplear el método de pareo para calcular el ATET. se puede extender el análisis condicionando a diferentes valores de estas variables de control. en comparación con la diferencia simple de los beneficiarios y el grupo de control en el periodo posttratamiento. k )(y k ∈ Ai ⊂ CS 0 k1  0 − yk 0    ) Donde Ai es el grupo comparable a la unidad i que tiene las características comunes con los beneficiarios. Una metodología usada en datos observacionales en donde no se aprecie una clara aleatorización del tratamiento es el método de pareo en diferencias en diferencias condicional (Heckman et al 1997). Se puede comprobar sin mayor dificultad que la diferencia en diferencia E ( yi1 − yi 0 | d1 = 1) − E ( yi1 − yi 0 | d 0 = 0) es igual al parámetro β d . Sin embargo. Este estimador es (sin omitir el subíndice i del individuo o unidad de análisis): ˆ ATET = 1 nB i∈B ⊂ CS ∑  (y    1 i1 − yi00 − ) ∑ ω (i. Chong y Galdo (2006) estudian el impacto del programa de capacitación 38 Se puede comprobar que en el caso de estudios experimentales existe una ganancia en eficiencia cuando se utiliza el estimador de diferencias en diferencias. y los ponderadores ω (i. k ) son los que se presentaron en la sección 0. el cual es el efecto causal que se desea estimar. Por ejemplo. Existen numerosas aplicaciones del método de diferencias en diferencias en estudios observacionales y también en experimentales38.

Habiendo verificado que la mortalidad infantil mantenía una misma tendencia antes de la aplicación de la política (lo cual sustentaría el supuesto de iguales tendencias de los resultados potenciales sin tratamiento en los grupos beneficiarios y no beneficiarios). Gertler y Schargrodsky (2005) estudian el impacto de la privatización en el suministro de agua en Argentina sobre la mortalidad infantil. 10. tomando datos de un experimento natural surgido de un atentado terrorista en la ciudad de Buenos Aires. sobre un resultado. En otro documento. aunque los autores ajustan el estimador con el fin de analizar variaciones en la calidad del programa. Tras el atentado. En estudios que trabajan con modelos de regresión lineal con efectos fijos. CONSIDERACIONES FINALES El objetivo de este documento ha sido mostrar los métodos más populares utilizados para identificar y estimar el efecto causal de una política con tratamiento binario.juvenil PROJOVEN sobre los salarios ganados y utilizan el estimador de pareo en diferencias en diferencias condicional. se reforzó la seguridad alrededor de los locales de 45 instituciones judías y musulmanas en la ciudad. encuentran un efecto significativo de una mayor presencia policial en el número promedio de autos robados en comparación con vecindarios de similares características socioeconómicas pero que no contaban con presencia policial adicional. Galiani. El énfasis se ha puesto en términos de la identificación de dicho efecto. la regresión con efectos fijos encuentra que la mortalidad infantil se redujo como consecuencia de la privatización. la cual dependerá 58 . Di Tella y Schargrodsky (2004) calculan el impacto de la presencia policial en la reducción del crimen. Aplicando el método de diferencias en diferencias a través de regresiones con datos de panel.

pero debe en todo momento tenerse en cuenta los supuestos bajo los cuales tal método realmente identifica al efecto tratamiento promedio buscado.de una serie de supuestos que se ajustan a los datos que se tiene disponible. La elección final del método debe basarse en la problemática de estudio. 59 .

cies. (2002) “The effect of high school matriculation awards: evidence from randomized trials”. www. pp. Angrist. 15. 444-455. No. Elizabeth King. Imbens y Donald B. Working Paper N° 3492. (2002) “Vouchers for Private Schooling in Colombia: Evidence from a Randomized Natural Experiment”. Erik Bloom.pe/files/active/0/Pb0112. pp. Shawn Cole.nber. http://www.pdf.” The Quarterly Journal of Economics. 92.” Consorcio de Investigación Económica y Social (CIES). 1535-1558. y Alan B. 2001). (2007) “The effects of user fee reductions on enrollment: evidence from a quasi-experiment. Cybele. N° 434 (Junio 1996). Vol. Columbia University. Felipe. pp.org. Esther Duflo.” Mimeo. (1996) “Identification of causal effects using instrumental variables. (2003) “Re-evaluando PROJOVEN: propensity score matching y una evaluación paramétrica. 4 (Autumn. Angrist. Leigh L.pdf Burga. Linden y Miguel Urquiola. (1990) “The effect of veteran benefits on veterans’ education and earnings.columbia.” The Journal of Economic Perspectives. (1999) “Using Maimonides’ rule to estimate the effect of class size on scholastic achievement. Eric Bettinger. 60 . 114 N°2 (May. Michael Kremer.” Mimeo. 6985. (2001) “Instrumental variables and the search for identification: from supply and demand to natural experiments. 533-575. Vol. National Bureau of Economic Research Working Paper N° 9389. Joshua D.” Journal of the American Statistical Association. Angrist. Vol. http://www.BIBLIOGRAFÍA Angrist. 91.org/papers/w9389. Angrist. Rubin. Abhijit. MIT Barrera-Osorio. Krueger.edu/~ll2240/Gratuidad%20Draft%202007-01. and Leigh Linden. Banerjee. The American Economic Review. y Victor Lavy. Joshua D.” National Bureau of Economic Research. (2004) “Remedying Education: Evidence from two randomized experiments in India. 5. 1999). No. Joshua D. Guido W. Joshua. Vol. pp. Joshua.

(1969) “Reforms as experiments. (2005) “Some Practical Guidance for the implementation of propensity score matching. (2004) “Do police reduce crime? Estimates using the allocation of policy forces after a terrorist attack. 61 .” National Bureau of Economic Research. N° 448. Working Paper N°.234-255. Cochran. Vol. Vol. (1965) “The planning of observational studies of human populations. 3:416-422. (2004) “Pitfalls of and controversies in cluster randomization trials”. y Donald B. pp. Vol. y Sadek Wahba. 151-161 Di Nardo. Lee.Caliendo. 1 (Feb. Junio 2002. The Institute for the Study of Labor.” American Psychologist. 35 N°4. 94. Alberto y José Galdo. 555. 94. John y David S. 417446. Series A.” The Review of Economics and Statistics. 24: 409-429.128. William G. 94. 1053-1062. Allan y Neil Klar. Rubin. pp. Marco y Sabine Kopeinig. pp. Donald T. (1973) “Controlling bias in observational studies: a review. No. Series A (general). (2002) “The impact of unionization on establishment closure: A regression discontinuity analysis of representation elections. American Journal of Public Health. Rajeev H.” IZA Discussion Paper N° 1588. 2002).” Journal of the American Statistical Association. Dehejia.” The American Economic Review. N°1. (2002) “Propensity Score-Matching Methods for Nonexperimental Causal Studies. (1999) “Causal effects in nonexperimental studies: reevaluating the evaluation of training programs. Vol.” Sankhya: The Indian Journal of Statistics.. 115-133. William G. N°2. Cochran. Donner.nber. (2006) “Training quality and earnings: the effects of competition on the provision of public-sponsored training programs. Working Paper N° 8993.org/papers/w8993 Di Tella. pp. Vol. pp.” Banco Interamericano de Desarrollo. Chong. 84. Rafael y Ernesto Schargrodsky.” Journal of the Royal Statistical Society. http://www. Campbell.

No. Todd. No. Trygve. N°4. James J.Donner. Vol. iii-115. (1990) “A methodological review of non-therapeutic intervention trials employing cluster randomization. Heckman. (1944) “The probability approach in econometrics. 979-1002. Todd. Gertler. No. pp. 19. No. Stephen Brown y Penny Brasher. 1979-1989”. Vol. (2001) “Identification and Estimation of treatment effects with a regression-discontinuity design”. (2005) “Water for life: the impact of the privatization of water services on child mortality. 94(2): 336-34. Hoddinott.795-800.” Econometrica. 40. Allan. 201-209. 65. Heckman. 66. pp. A. Vol. pp. 1 (Feb. 605-654. Goldberger.. Paul Gertler and Ernesto Schargrodsky. (2003) “The impact of Progresa on food consumption. pp. pp. Haavelmo. Supplement (Julio).” Econometrica. 12. (1998) “Matching as an econometric evaluation estimator. No. 69. 1 (Enero).” American Economic Review: Papers and Proceedings. pp. Vol. Vol. 5 (Septiembre). Hidehiko Ichimura.” The Journal of Political Economy.” The Review of Economic Studies. Galiani. John y Emmanuel Skoufias. (1997) “Matching as an econometric evaluation estimator: evidence from evaluating a job training programme. Hidehiko Ichimura y Petra E. 1-12. 2001). (1972) “Structural Equations Methods in the Social Sciences”. (1997) “Characterizing selection bias using experimental data. Sebastian. Jeffrey Smith y Petra E. Vol. James. Vol.” FCNF Discussion Paper N° 150. pp. pp. 2 (Abril). Paul. 1017-1098.. Special Issue: Evaluation of Training and Other Social Programmes (Octubre). Todd y Van der Klaauw. 261-294. Econometrica Vol. N° 6 (Noviembre). 113. 83-120. 64. (2004) “Do conditional cash transfers improve child health? Evidence from PROGRESA’s control randomized experiment. Hahn. 11. 2005). International Journal of Epidemiology. Washington: IFPRI. 4.” The Review of Economic Studies. Vol. Econometrica.” Econometrica. (1943) “The statistical implications of a system of simultaneous equations. 62 . N°1 (January.

pp. No. Marshall M.” Biometrika. Vol. 150 N°4. No. 119.” American Journal of Epidemiology. Imbens. Imbens. pp. 2000).org/papers/w13039. Guido y Joshua D. Vol.Holland.” The Review of Economics and Statistics. 2 (May. (2007) “Regression discontinuity designs: a guide to practice”. program. Vol. pp. 2004). 76. 35.. Vol. (1994) “Identification and estimation of local average treatment effects. 327-333. Enrico Moretti y Matthew J. and treatment effects. 63 . y Paul R. 4 (Sep). 205-220. Rosenbaum.” Econometrica. pp. N° 2 (Marzo 1994). Lalonde. Angrist. (2000) “An evaluation of public-sector-sponsored continuous vocational training programs in East Germany. 2000).. 467475. 3 (Aug.. National Bureau of Economic Research. Butler. Guido.” The Journal of Human Resources. Lechner. 347-375 Lechner. Imbens. Guido y Thomas Lemieux. (2002) “Program heterogeneity and propensity score matching: an application to the evaluation of active labor market policies. Michael. No. 945-960.” Journal of the American Statistical Association.81. No. Theory and Methods. 2 (Spring. (2004) The Quarterly Journal of Economics. Paul W. The American Economic Review. (1999) “Propensity scores. pp. David S. Robert J. Working Paper N° 13039. (2005) Micro-econometrics for policy. (2000) “The role of the propensity score in estimating dose-response functions. (1985) “Statistics and causal inference. Vol. pp. pp. pp. (1986) Evaluating the econometric evaluations of training programs with experimental data. Lee. 87. Vol. 604-620. 62. N° 396. 807-859. 3 (Sep. Vol. Myoung-Jae. Joffe. No. 2005 Lee. 2002). Michael. 706710. Oxford: Oxford University Press. Vol.nber. http:www. 84.

Section 9. Boston: Addison Wesley. Vol.R.” Statistical Science. Essay on principles. Judea. Reasoning Cambridge University Press.” Statistics Surveys. Campbell.688-701. Katja. Wooldridge. 96-146. (2000) Causality: Models. London: The MIT Press. Journal of Educational Psychology 66. (2009) and Inference. Stock. 3.Neyman. (1983) “The central role of the propensity score in observational studies for causal effects. pp. Jerzy Splawa. pp. (2008) “Cash transfers.” Journal of Educational Psychology 51 (6): 309–317.” Biometrics. N° 2 Spring.41-55 Rubin. Jeffrey. Rubin. Universidad de los Andes. and school enrollment in Ecuador. (1990) “On the application of probability theory to agricultural experiments. y Donald T. 2003. 64 . (2003) Introduction to Econometrics. Vinha. Thistlethwaite. pp. 465-480. Primera Edición. (2006) “A primer on propensity score matching estimators. (1974) “Estimating causal effects of treatments in randomized and nonrandomized experiments”. Shady. conditions. 2001. 29: 159-183. Donald B. N° 4. (2001) Econometric Analysis of Cross Section and Panel Data.” Documento CEDE N° 2006-13. (1960) “Regression-Discontinuity Analysis: An alternative to the ex post facto experiment. 5. N°8. Donald L. 1990. Vol. Vol.” Economía (Journal of the Latin American and Caribbean Economic Association). Pearl. James y Mark Watson. Vol. Cambridge: “Causal inference in statistics: an overview.” Biometrika. Rosenbaum P. (1973) “Matching to remove bias in observational studies. Norbert y Maria Claridad Araujo. Traducción del original publicado en Roczniki Nauk Rolniczych Tom X (1923) 1-51 (Annals of Agricultural Sciences). 70 N°1. y Donald B.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->