Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sascha O. Becker
Andrea Ichino
Resumen. En este documento, ofrecemos una breve descripción general de algunos estimadores de
propensión de emparejamiento sugeridos en la literatura de evaluación, y proporcionamos un
conjunto de programas Stata, que ilustramos utilizando la demostración de National Supported
Work (NSW) ampliamente conocida en economía laboral.
1. Introducción
𝜏 ≡ 𝐸{𝑌1𝑖 − 𝑌0𝑖|𝐷𝑖 = 1}
donde la expectativa de salida es sobre la distribución de (p (Xi) | Di = 1) y Y1i y Y0i son los resultados
potenciales en las dos situaciones contrafactuales de tratamiento (respectivamente) y sin
tratamiento.
Formalmente, se necesitan las siguientes dos hipótesis para derivar (2) dada (1) .1
𝐷 ⊥ 𝑋 | 𝑝(𝑋)
𝑌1 , 𝑌0 ⊥ 𝐷 | 𝑋
𝑌1 , 𝑌0 ⊥ 𝐷 | 𝑝(𝑋)
Si se cumple la hipótesis de equilibrio del Lema 1, las observaciones con el mismo puntaje de
propensión deben tener la misma distribución de características observables (y no observables)
independientemente del estado del tratamiento. En otras palabras, para un puntaje de propensión
dado, la exposición al tratamiento es aleatoria y, por lo tanto, las unidades tratadas y de control
1
See Rosenbaum and Rubin (1983) or Imbens (2000) for a proof.
deben ser en promedio observadas idénticas. Se puede usar cualquier modelo de probabilidad
estándar para estimar la puntuación de propensión.
Por ejemplo, Pr (𝐷𝑖 = 1 | 𝑋𝑖) = F {h (𝑋𝑖)}, donde F (.) Es la distribución acumulativa normal o logística
y h (𝑋𝑖) es una función de covariables con términos lineales y de orden superior.
La elección de qué términos de orden superior incluir se determina únicamente por la necesidad de
obtener una estimación del puntaje de propensión que satisfaga la Hipótesis de Equilibrio. Dado
que la especificación de h(𝑋𝑖) que satisface la hipótesis de equilibrio es más parsimoniosa que el
conjunto completo de interacciones necesarias para hacer coincidir los casos y los controles sobre
la base de observables, el puntaje de propensión reduce el problema de dimensionalidad de las
unidades tratadas y de control en el base del vector multidimensional X2.
Los pasos 2 a 7 del algoritmo se pueden restringir al soporte común. Esta restricción implica que la
prueba de la propiedad de equilibrio se realiza solo en las observaciones cuya puntuación de
2
Es importante tener en cuenta que el resultado no juega ningún papel en el algoritmo para la estimación
de la puntuación de propensión. Esto es equivalente, en este contexto, a lo que sucede en experimentos
controlados en los que el diseño del experimento debe especificarse independientemente del resultado.
3
Tenga en cuenta que la hipótesis de desconcierto del lema 2 no se puede probar.
4
Tenga en cuenta que no es suficiente en el sentido de que el equilibrio puede no ser válido para los
momentos de orden superior de la distribución de características. Entonces, para ser precisos, el programa
no prueba la Hipótesis de Equilibrio, sino solo una de sus implicaciones. En futuras versiones del programa
planeamos agregar pruebas para momentos más altos de la distribución de características.
propensión pertenece a la intersección de los soportes de la puntuación de propensión de los
tratados y los controles. Imponer la condición de soporte común en la estimación de la puntuación
de propensión puede mejorar la calidad de las coincidencias utilizadas para estimar el ATT5.
Una estimación del puntaje de propensión no es suficiente para estimar el ATT de interés usando
(2). La razón es que la probabilidad de observar dos unidades con exactamente el mismo valor de la
puntuación de propensión es en principio cero, ya que p (X) es una variable continua. Se han
propuesto varios métodos en la literatura para superar este problema, y cuatro de los más utilizados
son la concordancia del vecino más cercano, la concordancia de radio, la concordancia de kernel y
la concordancia de estratificación.
Uno de los inconvenientes del método de estratificación es que descarta las observaciones en
bloques donde faltan unidades tratadas o de control. Esta observación sugiere una forma alternativa
de hacer coincidir las unidades tratadas y de control, que consiste en tomar cada unidad tratada y
buscar la unidad de control con el puntaje de propensión más cercano; es decir, el vecino más
cercano. Aunque no es necesario, el método generalmente se aplica con reemplazo, en el sentido
de que una unidad de control puede ser la mejor opción para más de una unidad tratada. Una vez
que cada unidad tratada se hace coincidir con una unidad de control, se calcula la diferencia entre
el resultado de las unidades tratadas y el resultado de las unidades de control emparejadas. El ATT
de interés se obtiene promediando estas diferencias.
Mientras que, en el método de estratificación, puede haber unidades tratadas que se descartan
porque no hay control disponible en su bloque; en el método Vecino más cercano, todas las
unidades tratadas encuentran una coincidencia. Sin embargo, es obvio que algunas de estas
coincidencias son bastante deficientes porque para algunas unidades tratadas el vecino más cercano
puede tener una puntuación de propensión muy diferente y, sin embargo, contribuiría a la
estimación del efecto del tratamiento independientemente de esta diferencia. Los métodos de
Radius Matching y Kernel Matching ofrecen una solución a este problema. Con Radius Matching,
cada unidad tratada se compara solo con las unidades de control cuyo puntaje de propensión cae
en un vecindario predefinido del puntaje de propensión de la unidad tratada. Si se establece que la
dimensión de la vecindad (es decir, el radio) es muy pequeña, es posible que algunas unidades
5
Consulte la siguiente sección para obtener más información sobre la condición de soporte común.
tratadas no coincidan porque la vecindad no contiene unidades de control. Por otro lado, cuanto
menor sea el tamaño del vecindario, mejor será la calidad de los partidos. Con Kernel Matching,
todos los tratados se comparan con un promedio ponderado de todos los controles con pesos que
son inversamente proporcionales a la distancia entre las puntuaciones de propensión de los
tratados y los controles.
De las consideraciones anteriores se desprende claramente que estos cuatro métodos alcanzan
diferentes puntos en la frontera de la compensación entre la calidad y la cantidad de los partidos, y
ninguno de ellos es a priori superior a los otros. Su consideración conjunta, sin embargo, ofrece una
manera de evaluar la solidez de las estimaciones.
También se debe tener en cuenta que, con todos estos métodos, la calidad de los emparejamientos
puede mejorarse imponiendo la restricción de soporte común. Sin embargo, tenga en cuenta que
de esta manera se pueden perder coincidencias de alta calidad en los límites del soporte común y
que la muestra puede reducirse considerablemente, por lo que imponer la restricción del soporte
común no es necesariamente mejor (consulte Lechner 2001). Todos nuestros programas permiten
la opción de soporte común como se explica a continuación.
Ahora pasamos a una descripción más detallada y formal de estos estimadores. Comenzamos con
el análisis conjunto de la concordancia del vecino más cercano y la concordancia del radio, que se
pueden describir en un marco común, al lado de la concordancia del núcleo y la concordancia de la
estratificación.
Sea T el conjunto de unidades tratadas y C el conjunto de unidades de control, y sean 𝑌𝑖𝑇 e 𝑌𝑖𝐶 los
resultados observados de las unidades tratadas y de control, respectivamente. Indique por 𝐶(𝑖) el
conjunto de unidades de control emparejadas con la unidad tratada i con un valor estimado de la
puntuación de propensión de 𝑝(𝑖). Conjuntos coincidentes vecinos más cercanos
eso es un solo en conjunto a menos que haya varios vecinos más cercanos. En la práctica, el caso de
múltiples vecinos más cercanos debería ser muy raro, en particular si el conjunto de características
X contiene variables continuas. La probabilidad de que haya varios vecinos más cercanos se reduce
aún más si la puntuación de propensión se estima y se guarda con doble precisión.
En radio coincidente,
es decir, todas las unidades de control con puntajes de propensión estimados que caen dentro de
un radio 𝑟 desde 𝑝(𝑖) se comparan con la unidad tratada 𝑖.
Tanto el vecino más cercano como el radio coinciden indican el número de controles coincidentes
1
con la observación 𝑖 ∈ 𝑇 para 𝑁𝑖𝐶 y definir los pesos 𝑤𝑖𝑗 = si 𝑗 ∈ 𝐶(𝑖) y 𝑤𝑖𝑗 = 0
𝑁𝑖𝐶
de otra manera. Luego, la fórmula para ambos tipos de estimadores coincidentes se puede escribir
de la siguiente manera:
1
𝜏𝑀 = ∑ (𝑌𝑖𝑇 − ∑ 𝑤𝑖𝑗 𝑌𝑗𝐶 )
𝑁𝑇
𝑖𝜖𝑇 𝑗𝜖𝐶(𝑖)
1
𝜏𝑀 = (∑ 𝑌𝑖𝑇 − ∑ ∑ 𝑤𝑖𝑗 𝑌𝑗𝐶 )
𝑁𝑇
𝑖𝜖𝑇 𝑗𝜖𝐶(𝑖) 𝑖𝜖𝑇
1 1
𝜏𝑀 = 𝑇
∑ 𝑌𝑖𝑇 − 𝑇 ∑ 𝑤𝑗 𝑌𝑗𝐶
𝑁 𝑁
𝑖𝜖𝑇 𝑗𝜖𝐶
(donde M representa la concordancia del vecino más cercano o la coincidencia del radio, y el número
de unidades en el grupo tratado se denota por 𝑁 𝑇 ): donde los pesos wj se definen por wj = Σiwij.
Para derivar las variaciones de estos estimadores, se asume que las ponderaciones son fijas y se
asume que los resultados son independientes entre las unidades.
1 2
𝑉𝑎𝑟(𝜏 𝑀 ) = 𝑇 2 {∑ 𝑉𝑎𝑟 (𝑌𝑖𝑇 ) + ∑(𝑤𝑗 ) 𝑉𝑎𝑟 (𝑌𝑗𝐶 )}
(𝑁 )
𝑖𝜖𝑇 𝑗∈𝐶
1 2
= {𝑁 𝑇 𝑉𝑎𝑟(𝑌𝑖𝑇 ) + ∑(𝑤𝑗 ) 𝑉𝑎𝑟 (𝑌𝑗𝐶 )}
(𝑁 𝑇 )2
𝑗∈𝐶
1 1 2
= 𝑇
𝑉𝑎𝑟(𝑌𝑖𝑇 ) + 𝑇 2 ∑(𝑤𝑗 ) 𝑉𝑎𝑟 (𝑌𝑗𝐶 )
𝑁 (𝑁 )
𝑗∈𝐶
En los programas attnd.ado, attnw.ado y attr.ado, los errores estándar se obtienen analíticamente
con la fórmula anterior o con la opción bootstrap.
𝑃𝑗 − 𝑃𝑖
1 ∑𝑗∈𝐶 𝑌𝐼𝐶 𝐺(
)
𝑀 𝑇 ℎ𝑛
(𝑇 ) = 𝑇 ∑{ 𝑌𝑖 − }
𝑁 𝑃 − 𝑃𝑖
𝑖∈𝑇 ∑𝑘∈𝐶 𝐺( 𝑘 )
ℎ𝑛
donde G (·) es una función del Kernel y ℎ𝑛 es un parámetro de ancho de banda. Bajo condiciones
estándar en el ancho de banda y el kernel,
𝑃𝑗 − 𝑃𝑖
∑𝑗∈𝐶 𝑌𝐼𝐶 𝐺( )
ℎ𝑛
𝑃 − 𝑃𝑖
∑𝑘∈𝐶 𝐺( 𝑘 )
ℎ𝑛
es un estimador consistente del resultado contrafactual 𝑌0𝑖 . En el programa attk.ado, los errores
estándar se obtienen al arrancar usando la opción bootstrap. Los usuarios pueden elegir el Kernel
gaussiano predeterminado o el Kernel Epanechnikov.
Utilizamos datos de Dehejia y Wahba (1999), DW para abreviar, que se basan en el estudio seminal
de Lalonde (1986) de la comparación entre los métodos experimentales y no experimentales para
la evaluación de los efectos causales. Los datos combinan las unidades tratadas de una evaluación
aleatoria de la demostración del Trabajo Nacional Apoyado (NSW) con unidades de comparación no
experimentales extraídas de los datos de la encuesta. Para los fines de esta sección, restringimos
nuestro análisis a la denominada submuestra NSW-PSID-1, que consta de las unidades de
tratamiento masculinas de NSW y la mayor de las tres submuestras de PSID (consulte DW99 para
obtener más detalles). Utilizamos este conjunto de datos por dos razones: primero, es ampliamente
conocido en economía laboral (comenzando con Lalonde (1986), analizado nuevamente por Dehejia
y Wahba (1999 y 2002) y por Smith y Todd (2003) para ilustrar el trabajo de puntaje de propensión
y técnicas de emparejamiento. En segundo lugar, los datos están disponibles públicamente en el
sitio web de Rajeev Dehejia bajo la siguiente dirección:
http://www.columbia.edu/˜rd247/nswdata.html. Intentamos replicar los resultados producidos
por Dehejia y Wahba (1999) pero, al igual que Smith y Todd (2003), no hemos podido replicar
numéricamente todas sus estimaciones debido a la falta de información detallada en algunos casos
cruciales (por ejemplo, número de bloques utilizados en la estratificación, niveles de significación,
procedimiento exacto para probar la propiedad de balanceo). Sin embargo, obtenemos resultados
cualitativamente similares. El resultado de interés es RE78 (ganancias reales en 1978); El
tratamiento T es la participación en el grupo de tratamiento de NSW. Las variables de control son
edad, educación, negro (1 si es negro, 0 de lo contrario), hispano (1 f hispano, 0 de lo contrario),
casado (1 si está casado, 0 de lo contrario), nodegree (1 si no hay título, 0 de lo contrario), RE75
(ganancias en 1975), y RE74 (ganancias en 1974). El grupo de tratamiento contiene 185
observaciones y el grupo de control contiene 2,490 observaciones, por lo que el número total de
observaciones es 2,675.
Cuando no se especifica la opción de detalle, la única salida producida por pscore es una declaración
que indica si se cumple la propiedad de compensación (que es el caso de los datos DW con p = 0,005)
o no. En este último caso, se informa al usuario para qué variable (s) en qué bloque (es) falló la
propiedad de balanceo, y se emite un mensaje que sugiere que se intente una especificación
diferente de la puntuación de propensión.
En caso de que se mantenga la propiedad de equilibrio, la distribución final de los controles tratados
y entre bloques se tabula junto con la parte inferior de cada bloque:
Tenga en cuenta que impusimos la condición de soporte común en este ejemplo usando la opción
comsup. En consecuencia, faltan identificadores de bloque para las observaciones de control fuera
del soporte común, y el número de observaciones en la tabla es de 1.342 en lugar de 2.675.
Después de ejecutar pscore, los usuarios pueden proceder a estimar los efectos promedio del
tratamiento utilizando uno de los programas att *.