Está en la página 1de 12

Aunque atractiva, la aleatorización límite no es infalible.

En la familia ejemplo de
programa de ayuda

y i=β 1 + β d 1 [ x i ≤ $ 20,000 ] + β x xi +u i ,

Es posible que una familia reduzca sus ingresos para calificar para el programa.
Suponga que β d , β x >0 y el ingreso de la familia m sin el programa es superior $

20.000. La ganancia de reducir el ingreso inicial m a $ 20 000 es β d y el costo es β x (m


- 20000). Por tanto, la ganancia neta es positiva, si

βd
β d > β x ( m−2000 ) ↔ m< +20,000.
βx

Si β d es grande y β x es pequeño, entonces las familias con un ingreso inicial mucho


mayor de $ 20 000 puede reducir sus ingresos a $ 20 000. Estas familias pueden tener
características observadas o no observadas muy diferentes de las familias cuyo
ingreso inicial es de $ 20,000 o un poco más bajo. Por lo tanto, la aleatorización límite
falla en este caso. Una forma de comprobar esta posibilidad es observar la distribución
del ingreso alrededor del umbral. Una distribución bastante simétrica alrededor del
umbral apoyaría la aleatorización límite, mientras que la agrupación en un lado
sugeriría lo contrario.

En el ejemplo anterior de calidad escolar y precio de la vivienda, es posible que las


familias con niños se ubicarían en el lado del límite con mayor calidad escuelas,
mientras que las familias sin hijos se ubicarían en el otro lado. Los dos tipos de
familias pueden demandar diferentes tipos de viviendas. Las casas alrededor el límite
entonces diferiría en características observadas o no observadas. Esto también
supondría un problema para la aleatorización límite.

3.3.3 Discontinuidad de regresión no paramétrica difusa

En la literatura, un diseño con d completamente determinado por x i se llama agudo


RDD, mientras que un diseño con d determinado por x y algún término de error ε se
llama un RDD difuso. En la práctica, el RDD agudo sería poco común en los estudios
observacionales, porque la asignación de tratamiento generalmente implica múltiples
decisiones. Sin embargo, si la selección sobre lo observable se mantiene en x ≅ τ si la

puntuación de propensión E( d∨x) tiene un romper en τ , y si, lim E (d∨x )=0


x →τ

entonces la RDD difusa se puede tratar de la siguiente manera.


Recuerde el modelo semilineal para RDD nítido. La principal diferencia en fuzzy RDD
es que E( d∨x) tiene una ruptura en x=τ de magnitud desconocida:

lim E (d∨x )−lim E(d ∨x )≠ 0 .


x↓ τ x↓ τ

Esto no puede ser válido para RDD agudo porque E( d∨x)=d . Desde la

caracterización de β d como el efecto sobre la subpoblación x ≅ τ en la subsección

anterior no depende de la pantalla anterior, la caracterización de β d todavía se


mantiene en RDD difuso.

Para la identificación, observe, para el mismo modelo semilineal,

lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x) y


x↓ τ x↓τ x↓ τ x ↓τ

lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x)


x↓ τ x↑τ x↑ τ x ↑τ

→ lim E( y∨x)−lim E( y∨x)=β d lim E(d∨x)−lim E(d∨x)


x ↓τ x ↑τ { x ↓τ x ↑τ }
lim E( y∨x )−lim E( y∨x )
x↓ τ x↑ τ
→ =β d ;
lim E(d∨x )−lim E(d ∨x)
x↓ τ x↑ τ

tenga en cuenta que lim E (u∨x )=0 . Por lo tanto, β d se identifica por la relación de
x→τ

los lados diferencia derivada, que incluye el caso de RDD agudo como un caso
especial cuando el denominador es uno.

Es instructivo considerar la relación como

efecto total de x sobre y en x =τ


efecto de x sobre d en x=τ

Suponga que el efecto directode x sobre y es insignificante alrededor de x=τ , en

relación con el efecto de x sobre d . El efecto directo se refiere a lim g (x)−lim g( x )


x↓ τ x ↑τ

que es cero por la continuidad de g( x ) en x=τ . Entonces el efecto total se convierte


en el efecto indirecto de x sobre y en x → d → y , que es el producto del efecto de x
sobre d y el efecto de d sobre y — recuerde la subsección 3.1.3. Dado que el
denominador elimina el primero, la relación anterior se convierte en el efecto de d
sobre y . Más tarde, cuando estudiamos la estimación de variables instrumentales
(IVE), una expresión análoga será aparecerán bajo el nombre de "estimador de Wald",
y a RDD se le otorgará un IVE interpretación.

Pasando a estimar los límites en la identificación de β d , en principio, La estimación no


paramétrica se puede hacer reemplazando los límites de E( y∨x) con estimadores no
paramétricos. En la estimación no paramétrica del kernel, se puede usar un kernel

unilateral: para lim E ( y∨x ), un kernel unilateral en τ es K (( xi−τ )/h)1 [xi > τ ], y con
x↓ τ

esto,

∑i K ( ( x i−T /h ) 1 [ x i> T ] y i )
→ p lim E( y ∨x)
∑i K ( ( x i−T /h ) 1 [ x i> T ] y i ) x ↓τ

Sin embargo, el comportamiento de muestra pequeña del estimador de kernel


unilateral podría ser deficiente. Hahn y col. (2001) proponen minimizar para a, b

∑ { y i−a−b ( x i−T ) } K
i
( x −T
h )
i
1 [ x −T ] ,
i

para utilizar el minimizador ˆa como estimador de lim E ( y∨x ). Como alternativa, El


x↓ τ

método de estimación de dos etapas de Robinson (1988) para modelos semilineales


puede utilizarse, como se explica en los dos párrafos siguientes. Para mayor discusión
y para un ejemplo empírico, véase Battistin y Rettore (2002).

3.3 Diseño de regresión discontinua (RDD) y antes-después (BA)

Para el método de dos etapas, recuerde y ji=β dj + g( xi)+u ji y, como se invoca sobre

lim E {( 1−d ) u0 +du1 / x }=0


x↓ τ

que es en esencia una selección sobre observables cerca de τ :


u 0 ⊥ d∨x ,u 1⊥ d ∨x , E(u 0∨x)=0=E (u 1∨x) por x ≅ τ ,
porque estas condiciones implican
E {(1−d )u 0+ du 1∨x }=E (1−d∨x) E(u 0∨x)+ E(d∨x) E(u 1∨x )=0 por x ≅ τ .

Ahora toma E(·∨xi)on yi=βddi + g( xi)+ui por x ≅ τ llegar


E( y∨xi)=βdE(d∨xi)+ g( xi) por x ≅ τ
Resta esto de yi=βddi + g( xi)+ui llegar
yi−E ( y∨xi )=βd {di−E(d∨xi )}+ui por x ≅ τ.
En la primera etapa, E( y∨x i) y E( d∨x i) se estiman no paramétricamente, y en la

segunda etapa, LSE de y i−E ( y∨x i) en d i−E (d∨x i ) se hace para estimar β d . En

ambas etapas, solo las observaciones con x i ∈( τ−c , τ +c ) se utilizan donde c →0


como N → ∞. Esta idea de dos etapas no funciona para RDD nítido porque

d i−E ( d| xi ) =0 ∀i .

Debido a la reducción del vecindario ( τ−c , τ +c ), la tasa de convergencia de la LSE a


β d es más lento de lo habitual √ N velocidad. En la práctica, sin embargo, este aspecto
puede ignorarse, lo que hace que la estimación RDD de dos etapas sea bastante
simple. Ignorar este aspecto significa que asumimos, para algún vecino fijo X τ de x=τ ,

u0 ⊥ d∨x , u1 ⊥ d∨x , E ¿ ¿ ∀ x ∈ X τ y g( x ) está “plano” en x ∈ X τ .

Estas suposiciones rinden β d =E( y 1− y 0 ∨x ∈ X τ ).

Con E N (∙∨xi ) que denota un estimador no paramétrico para E(∙∨x i) usando toda

menos observación i , un estimador para β d es

bd ≡
∑ i { d i−E N ( d|x i ) }{ y i−E N ( y|x i ) } 1 [ xi ∈ X τ ]
2
∑ i {d i−E N ( d|x i ) } 1 [ x i ∈ X τ ]
La varianza asintótica de b d−β d se puede estimar con

2 2
∑ i { d i−E N ( d|x i ) } [ y i−E N ( y|x i )−bd { di −E N ( d|x i) }] 1 [ x i ∈ X τ ]
2 2
∑ i {d i−E N ( d|x i ) } 1 [ x i ∈ X τ ]
Un ejemplo de 1 [ xi ∈ X τ ] es 1 [ ¿ x i−τ∨¿ SD( x) ], o para un problema dado, uno puede

tener alguna idea de X τ sobre qué límite se mantiene la aleatorización. Esta el


procedimiento de dos etapas sería más fácil de usar en la práctica y se comportaría
mejor que la regresión del núcleo (lineal local) para lim ¿x ↓ τ E( y ∨x)¿ y
lim ¿x ↑ τ E( y ∨x)¿

Van der Klaauw (2002) describe un ejemplo de RDD difuso estimando el efecto de la
ayuda financiera en la matrícula universitaria utilizando datos de una costa esta
universidad para el período de 1989 a 1993. Sea que la universidad tenga un índice de
capacidad x y ofrecer, digamos, tres niveles de ayuda financiera dependiendo de

y 1 1 [ x ≥ τ 1 ]+ y 2 1 [ x ≥ τ 2 ]+ y 3 1 [ x ≥ τ 3 ] , donde τ 1 < τ 2< τ 3 son conocidos


La cantidad real de ayuda financiera difiere de esta función escalonada porque los
oficiales de admisión tienen en cuenta otros factores, como las actividades
extracurriculares. y cartas de recomendación, lo que hace que el RDD sea confuso.
Aunque hay es un problema de endogeneidad, que la ayuda financiera de las
universidades competidoras está relacionada con x pero omitido, no discutiremos esto
aquí. En Van der Klaauw (2002), y es binario (inscripción o no) y d es la cantidad de
ayuda financiera medida en los miles de dólares de 1991.

En su Tabla 2, se estima que y 1 , y 2 , y 3 son 1280, 1392, 3145, respectivamente. A


medida que el índice de capacidad supera τ3, la ayuda financiera ofrecida aumenta en
$ 3145 que es y 3. En su Tabla 3, Van der Klaauw (2002) presenta estimaciones no
paramétricas para el efecto del tratamiento (recuerde la razón de dos estimaciones no
paramétricas diferencias). Parte de la Tabla 3, para quienes solicitaron ayuda
financiera federal, es se muestra en la tabla a continuación donde se obtienen las SD
con un "bootstrap".

RDD para el efecto de la ayuda financiera en la inscripción


Umbral 1 Umbral 2 Umbral 3
Efecto (SD) 0.010 (0.238) 0.040 (0.041) 0.067 (0.029)

Solo la última estimación es significativa. El efecto de la oferta de ayuda financiera en


la probabilidad de inscripción es del 6,7% para aquellos estudiantes con un índice de
capacidad de sobreτ 3 .

3.3.4 Antes-después (BA)

Estrechamente relacionado con RDD está el diseño "antes-después (BA)" ("series de


tiempo interrumpidas" diseño o "diseño previo a la rotura y posterior a la rotura") donde
se produce la discontinuidad en dimensión temporal. Aquí, las respuestas de control
provienen de la era anterior al tratamiento, mientras que las respuestas tratadas
provienen de la era posterior al tratamiento. Como en RDD, BA identifica el efecto
post-ruptura E( y1 − y 0∨d =1) bajo y 0 ⊥ d (dado x ). Por ejemplo, si queremos conocer
el efecto de una ley de límite de velocidad d que se introdujo en 1995, sobre el número
de accidentes y por coche, podemos comparar y antes y después de la ley de límite
de velocidad. Cont denotando años, d t =1[t ≥ 1995]. Como en RDD, el
condicionamiento en t es problemático. Condicionamiento det variables que cambian
monótonamente a medida que aumenta t , es problemático porque los períodos antes y
después de la interrupción del tratamiento no son comparables en términos de t y los
variables monotónicas.

Al igual que en RDD, se pueden proporcionar contrafactos como E( y∨d=0 ,t=1996)


por un modelo de regresión paramétrica que involucra d y t . Una regresión mal
especificada. Sin embargo, el modelo puede dar una falsa impresión de que d importa.
Por ejemplo, suponga que la tarifa de registro del automóvil w ha aumentado
constantemente a lo largo de los años para desalentar la conducción, lo que significa
que y disminuye a medida que w aumenta. Suponga que d tiene sin efecto. La relación
entre w e y podría ser no lineal con una pronunciada disminución en 1995, que puede
confundirse con el efecto debido a d . Si w no es disponible, podríamos tomar
y t =β d d t + g(t )+ ut como el modelo verdadero, donde g(t ) captura la influencia omitida
pero suave de w en y . El método no paramétrico para RDD podría aplicarse a este
modelo.

Para que un diseño de BA sea eficaz, el tratamiento (es decir, la rotura) debe definirse
claramente y tener lugar rápidamente, y el efecto debe sentirse rápidamente antes de
que cambien otras covariables (Marcantonio y Cook (1994)). Esto es análogo a la
aleatorización límite de RDD, donde en un pequeño temporal vecindario de
tratamiento, el período justo antes del tratamiento debe ser comparable al período
inmediatamente posterior al tratamiento, porque otros cambios es poco probable que
ocurra en el corto plazo. Si el tratamiento se realiza de forma gradual con el tiempo y si
el efecto se difunde lentamente, entonces es difícil separar el efecto del tratamiento del
"efecto tiempo" debido a otros factores que varían a lo largo del mismo periodo.

Como mostraremos en el próximo capítulo, el diseño de "diferencias en diferencias"


(DD) es una gran mejora con respecto a RDD y BA, ya que hay un grupo de control
que incurre en el efecto del tiempo, pero no en el efecto del tratamiento. Usando el
grupo de control, el efecto del tratamiento se puede identificar incluso si el tratamiento
se lleva a cabo de forma gradual. En un DD, el tratamiento se administra solo a un
cierto grupo de individuos, y aquellos excluidos constituyen el grupo de control. Por el
contrario, en BA (y RDD), todos recibe el tratamiento sin excepción. Por tanto, no
existe un control "contemporáneo" grupo en BA. Solo el pasado del grupo de
tratamiento antes de que el tratamiento esté disponible como grupo de control. En DD,
si nos enfocamos (es decir, condición) en el grupo tratado horas extraordinarias, tal
vez porque el grupo no tratado no constituye un buen grupo de control por alguna
razón, luego obtenemos un BA.
3.4 Estimador del efecto del tratamiento con ponderación *

Cuando se cumple la selección basada en observables, es posible estimar el margen


efecto E( y1 − y 0) o el efecto sobre el (no) tratado sin estimar el condicional significa

E( y1 − y 0∨x , d). Examinamos un enfoque en esta sección, y otro en la siguiente


sección.

Cuando se selecciona una muestra no de toda la población sino de una subpoblación,


podemos corregir la diferencia con ponderación. Por ejemplo, Supongamos que se
muestrea un conjunto de datos de ingresos ( y ) de una región con ingresos densidad
g( y ) , pero deseamos saber E( y)= ∫ yf ( y ) dy donde f ( y ) es el ingreso densidad para
toda la población. Entonces, porque

y g( y)
∫ yf ( y ) dy=∫ r ( y ) g( y )dy , donde r ( y ) ≡
f ( y)
,

N −1 Σ i y i /r ( y i ) es consistente para E( y) .

La ponderación se puede utilizar para corregir la densidad incorrecta en el efecto del


tratamiento análisis, porque el principal problema en el análisis del efecto del
tratamiento es que y j es observado solo para la subpoblación d= j , j=0 , 1 , y las
subpoblaciones pueden difieren en variables observadas y no observadas. Si
pudiéramos crear un artificial mundo, donde tanto y 0 como y 1 se extraen de la misma
población, entonces el problema desaparecería. Tal como está, la ponderación
resuelve la mitad del problema al eliminando el desequilibrio en x . Por tanto, la
ponderación es una alternativa al acondicionamiento en x . En comparación con el
acondicionamiento, en la práctica, la ponderación no tiene problema de dimensión,
porque solo se utilizan pesos escalares. Aunque en teoría, el problema de las
dimensiones sigue apareciendo en la estimación del peso. Esta reducción de
dimensión aspecto se examinará de nuevo en el capítulo siguiente cuando examinar la
"correspondencia de puntuación de propensión". Es posible hacer acondicionamiento y
ponderación para controlar x, aunque esta combinación no se examinará.

Bajo selección en observables y π (x) ≡ E (d∨x ), observe

d ∙ y =d {d y 1+(1−d) y 0 }=d ∙ y 1, y
E { d ∙ y 1∨x }
E
d∙ y
{ } [{
π (x )
=E E
d∙ y
π (x )
∨x =E }] [
π (x) ]
E ( d| x ) E( y1 ∨x)
¿E [ π (x) ]
=E [ E( y 1 ∨x) ]=E ( y 1)

Análogamente,

(1−d ) y
E { 1−π ( x ) }
=E ( y 0)

Primero examinaremos el efecto sobre los no tratados, seguido por el efecto sobre los
tratados y el efecto sobre la población.

La ponderación es útil no solo para corregir el problema de selección en función de la


observación, sino también para aumentar la eficiencia de un estimador. Hahn (1998)
deriva los límites de eficiencia para E( y1 − y 0) y E ( y 1− y 0∨d=1) y propone eficientes
estimadores que alcanzan estos límites. Hirano y col. (2003) proponen una eficiencia
más simple estimadores basados en ponderaciones. Los límites y estimadores serán
descrito en esta sección. Sin embargo, a pesar del atractivo de la idea de ponderación,
demostraremos un ejemplo empírico donde los estimadores de ponderación son poco
fiables. Aquí, el problema surge cuando el peso en el denominador es casi cero.

3.4.1 Efecto sobre los no tratados

Para el efecto sobre los no tratados, observe

d∙y
E
{ } π ( x)
=E ( y 1 )=E ( y 1|d=0 ) P ( d=0 )+ E ( y1|d=1 ) P ( d =1 )

¿ E ( y 1|d=0 ) P ( d =0 ) + E ( d ∙ y ) ,

Porque E ( d ∙ y ) =E ( d ∙ y 1 )=E ( y1|d=1 ) P ( d =1 ) . Resuelve la ecuación para E ( y 1|d=0 )

d∙ y
E ( y 1|d=0 ) P ( d =0 )
−1
[( )E
π(x)
−E( d ∙ y)
]
Por lo tanto, el efecto sobre los no tratados E ( y 1|d=0 )−E ( y|d=0 ) es

d∙y
P ( d=0 )
−1
[( )
E
π (x ) ]
−E (d ∙ y ) −E ( y|d=0 )
d∙y
¿ P ( d=0 )
−1
[( ) ]
E
π(x)
−1
−E (d ∙ y ) −P ( d=0 ) E { (1−d ) y }

d∙y
¿ P ( d=0 )
−1
[( )
E {
π(x)
−E ( dy ) −E ( 1−d ) y }
]
d d −π ( x)
¿ P ( d=0 )−1 E
{( ) }π (x)
−1 y =P ( d=0 )−1 E
π (x )
y
{( )}
Con un estimador consistente πN ( x) para π (x),un estimador consistente para efecto
sobre los no tratados es

−1
N d i−π N (x i)
UN≡ 0
N ( ) ∙N
−1

i
( π N ( xi )
yi .
)
A continuación, asumimos E( d∨x)=Φ( x ' α ) donde Φ es la distribución N (0 , 1)
'
funcionar y estimar α con probit α N . En este caso, π N ( x i ) =ϕ ( x i aN ) .

Dejar √ N ( a N −α ) =N−1 /2 Σi ηi∨+ o p (1) donde ηi es una función de influencia para

probit. Denotando la función de puntuación probit como si, tenemos ηi =E−1 ( s s ' )s i si

donde E−1(∙) denota la inversa de E(·). Denotando la función de densidad N (0 , 1)


como ϕ , define

( di −π ( x i ) ) y i ( d−π ( x ) ) y ϕ( x ' α ) x ' y


λi≡
π ( xi )
−E { π (x) } { −E
π ( x) } ηi

En el apéndice vemos que

E( λ2)
√ N {U N−E ( y 1 − y 0|d=0 ) } → N 0 ,
P(d =0)2 ( )
Un estimador consistente para E( λ2) es su muestra analógica N
−1
∑ λ2¿ , donde
i

( d i−π N ( xi ) ) yi ϕ ( x 'j α N ) x'j y j


λ ¿≡
π N ( xi )
−U N
N0
N
−1
−N ∑
j
{ πN ( x j)
ηN i ,
}
η¿ ≡ ¿ ¿ ¿ y s¿ es la función de puntuación probit estimada:

{ d i−Φ( x 'i a N ) } ϕ( x 'i a N ) x i


s¿ ≡
Φ ( x 'i a N ) {1−Φ ( x 'i a N ) }
3.4.2 Efectos en los tratados y en la población

Por el efecto sobre los tratados E ( y 1− y 0|d=1 ) , observe

( 1−d ) y
E { 1−π ( x ) }
=E ( y 0 )=E ( y 0|d=0 ) P ( d=0 )+ E ( y 0|d=1 ) P ( d=1 )

¿ E ( ( 1−d ) y ) + E ( y 0|d=1 ) P ( d =1 )

Resuelve la ecuación para E ( y 0|d =1 )

E ( y 0|d =1 )=P( d=1)−1 E


[{ ( 1−d ) y
1−π (x) }
−E (1−d ) y¿
]
Por lo tanto, el efecto sobre los tratados E ( y|d=1 )−E ( y 0|d=1 ) es

( 1−d ) y
E ( y|d=1 )−P ( d=1 )−1 E { 1−π ( x ) }
+ P ( d=1 )−1 E ( y 0|d=0 ) P ( d=0 )

(1−d ) y
¿ P ( d=1 )
−1
[ E ( dy )−E { 1−π ( x ) }
+ E { ( 1−d ) y }
]
d−π (x)
¿ P ( d=1 )−1 E 1−
[{ 1−d
1−π (x) }]
y =P ( d =1 )−1 E
1−π (x )
y
[{ }]
Un estimador consistente para esto es

−1
N1 1−di
TN≡
N ( ) N
−1

i
{1− y
1−π N ( x i) i }
−1
N1 d i−π N ( x i )
¿ ( )
N
N−1 ∑
i
{ 1−π N ( x i ) i
y
}
Para la distribución asintótica de T N , vemos en el apéndice que

√ N {T N −E ( y 1− y 0|d =1 ) } → N ¿

ϕ ( x' α ) x' y ( π ( x i )−di ) y i ( π ( x )−d ) y


Donde ζ i ≡−E
1−π ( x ) {
ηi − }
1−π ( xi )
+E {
1−π ( x ) }
Un estimador consistente para E( ζ 2) es su muestra analógica N
−1
∑ ζ 2¿ Ni, donde
i
ϕ ( x 'i aN ) x'j y j ( π N ( x i )−d i) y i
ζ ¿ ≡− N
{ −1

j 1−π N ( x j ) } η¿ −
1−π N ( x i )
+T N
N1
N

En cuanto al efecto sobre la población, observe

d y ( 1−d ) y { d−π ( x ) } y
E ( y 1− y 0 ) =E { −
π ( x ) 1−π ( x )
¿E }( [
π (x)(1−π ) ¿
¿ ])
N0 N1 di 1−d i
A N ≡U N
N
+T N
N
−1
=N ∑
i
− y
π N ( xi ) 1−π N (x i ) i { }
d i−π N ( xi )
¿ N−1 ∑
i { π N ( xi ) ( 1−π N ( x i ) ) } y i → p E( y 1− y 0 )

De A N =U N ( NN )+ T ( NN )
0
N
1
, resulta que

√ N { A N −E( y 1− y 0) }→ N ( 0 , E {( λ+ ζ )2 }) ,

y la varianza asintótica se puede estimar consistentemente con N


−1
∑ ( λ¿ + ζ ¿)2
i

3.4.3 Límites de eficiencia y estimadores eficientes

Define

p ≡ P ( d=1 ) , σ 2j ( x ) ≡V ( y j|x ) , j=0,1 ,

τ ( x )=E ( y 1− y 0|x ) , τ ≡ E ( y 1 − y 0 ) , τ 1 ≡ E ( y 1− y 0|d=1 )

Bajo ( y ¿ ¿ 1 , y 0) II d ∨x ¿, Hahn (1998) demuestra que el semiparamétrico los límites

de eficiencia para τ y τ 1 son, respectivamente,

σ 21 ( x ) σ 20 ( x )
V ≡E [ +
π ( x ) 1−π ( x )
2
+ { τ −τ ( x ) } , ]
2
π ( x)σ 21 (x) π ( x )2 σ 20 (x)
V 1≡ E
[ p 2
+ 2
p { 1−π (x ) }
+
{ τ 1−τ ( x ) }
p 2
π(x)
]
Hahn (1998) también demuestra que, cuando se conoce π (x) , la eficiencia V límite

para τ no cambia, mientras que para τ 1 se convierte en


2
π ( x)σ 21 (x ) π ( x )2 σ 20 (x ) π (x)2
V conocido π (x) ≡ E
[ p2
+
p 2 {1−π (x)}
+
{τ 1−τ ( x ) }
p2 ]
que difiere de V 1 solo en que π ( x )2 en lugar de π ( x) aparece en el último término.

Dado que π ( x )2 < π (x) , V conocido π (x) es menor que V 1. Es decir, saber π (x) es

informativo para estimar el efecto sobre el τ 1 tratado, mientras que no es para el efecto
sobre la población τ . Imbens (2004) explica esto intuitivamente con diferentes pesos

usados para τ y τ 1 como sigue. E ( y 1− y 0 ) es la ponderación f (x)

También podría gustarte