y β β x ≤ $ 20,000 β x u ,: 3.3.3 Discontinuidad de regresión no paramétrica difusa

Aunque atractiva, la aleatorización límite no es infalible.
En la familia ejemplo de
programa de ayuda
y i=β 1 + β d 1 [ x i ≤ $ 20,000 ] + β x xi +u i ,
Es posible que una familia reduzca sus ingresos para calificar para el programa.
Suponga que β d , β x >0 y el ingreso de la familia m sin el programa es superior $
20.000. La ganancia de reducir el ingreso inicial m a $ 20 000 es β d y el costo es β x (m

- 20000). Por tanto, la ganancia neta es positiva, si
βd
β d > β x ( m−2000 ) ↔ m< +20,000.
βx
Si β d es grande y β x es pequeño, entonces las familias con un ingreso inicial mucho

mayor de $ 20 000 puede reducir sus ingresos a $ 20 000. Estas familias pueden tener
características observadas o no observadas muy diferentes de las familias cuyo
ingreso inicial es de $ 20,000 o un poco más bajo. Por lo tanto, la aleatorización límite
falla en este caso. Una forma de comprobar esta posibilidad es observar la distribución
del ingreso alrededor del umbral. Una distribución bastante simétrica alrededor del
umbral apoyaría la aleatorización límite, mientras que la agrupación en un lado
sugeriría lo contrario.
En el ejemplo anterior de calidad escolar y precio de la vivienda, es posible que las

familias con niños se ubicarían en el lado del límite con mayor calidad escuelas,
mientras que las familias sin hijos se ubicarían en el otro lado. Los dos tipos de
familias pueden demandar diferentes tipos de viviendas. Las casas alrededor el límite
entonces diferiría en características observadas o no observadas. Esto también
supondría un problema para la aleatorización límite.
3.3.3 Discontinuidad de regresión no paramétrica difusa
En la literatura, un diseño con d completamente determinado por x i se llama agudo

RDD, mientras que un diseño con d determinado por x y algún término de error ε se
llama un RDD difuso. En la práctica, el RDD agudo sería poco común en los estudios
observacionales, porque la asignación de tratamiento generalmente implica múltiples
decisiones. Sin embargo, si la selección sobre lo observable se mantiene en x ≅ τ si la
puntuación de propensión E( d∨x) tiene un romper en τ , y si, lim E (d∨x )=0

x →τ
entonces la RDD difusa se puede tratar de la siguiente manera.

Recuerde el modelo semilineal para RDD nítido. La principal diferencia en fuzzy RDD
es que E( d∨x) tiene una ruptura en x=τ de magnitud desconocida:
lim E (d∨x )−lim E(d ∨x )≠ 0 .

x↓ τ x↓ τ
Esto no puede ser válido para RDD agudo porque E( d∨x)=d . Desde la
caracterización de β d como el efecto sobre la subpoblación x ≅ τ en la subsección
anterior no depende de la pantalla anterior, la caracterización de β d todavía se

mantiene en RDD difuso.
Para la identificación, observe, para el mismo modelo semilineal,
lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x) y

x↓ τ x↓τ x↓ τ x ↓τ
lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x)

x↓ τ x↑τ x↑ τ x ↑τ
→ lim E( y∨x)−lim E( y∨x)=β d lim E(d∨x)−lim E(d∨x)

x ↓τ x ↑τ { x ↓τ x ↑τ }
lim E( y∨x )−lim E( y∨x )
x↓ τ x↑ τ
→ =β d ;
lim E(d∨x )−lim E(d ∨x)
x↓ τ x↑ τ
tenga en cuenta que lim E (u∨x )=0 . Por lo tanto, β d se identifica por la relación de
x→τ
los lados diferencia derivada, que incluye el caso de RDD agudo como un caso
especial cuando el denominador es uno.
Es instructivo considerar la relación como
efecto total de x sobre y en x =τ

efecto de x sobre d en x=τ
Suponga que el efecto directode x sobre y es insignificante alrededor de x=τ , en
relación con el efecto de x sobre d . El efecto directo se refiere a lim g (x)−lim g( x )

x↓ τ x ↑τ
que es cero por la continuidad de g( x ) en x=τ . Entonces el efecto total se convierte

en el efecto indirecto de x sobre y en x → d → y , que es el producto del efecto de x
sobre d y el efecto de d sobre y — recuerde la subsección 3.1.3. Dado que el
denominador elimina el primero, la relación anterior se convierte en el efecto de d
sobre y . Más tarde, cuando estudiamos la estimación de variables instrumentales
(IVE), una expresión análoga será aparecerán bajo el nombre de "estimador de Wald",
y a RDD se le otorgará un IVE interpretación.
Pasando a estimar los límites en la identificación de β d , en principio, La estimación no

paramétrica se puede hacer reemplazando los límites de E( y∨x) con estimadores no
paramétricos. En la estimación no paramétrica del kernel, se puede usar un kernel
unilateral: para lim E ( y∨x ), un kernel unilateral en τ es K (( xi−τ )/h)1 [xi > τ ], y con
x↓ τ
esto,
∑i K ( ( x i−T /h ) 1 [ x i> T ] y i )
→ p lim E( y ∨x)
∑i K ( ( x i−T /h ) 1 [ x i> T ] y i ) x ↓τ
Sin embargo, el comportamiento de muestra pequeña del estimador de kernel

unilateral podría ser deficiente. Hahn y col. (2001) proponen minimizar para a, b
∑ { y i−a−b ( x i−T ) } K
i
( x −T
h )
i
1 [ x −T ] ,
i
para utilizar el minimizador ˆa como estimador de lim E ( y∨x ). Como alternativa, El

x↓ τ
método de estimación de dos etapas de Robinson (1988) para modelos semilineales

puede utilizarse, como se explica en los dos párrafos siguientes. Para mayor discusión
y para un ejemplo empírico, véase Battistin y Rettore (2002).
3.3 Diseño de regresión discontinua (RDD) y antes-después (BA)
Para el método de dos etapas, recuerde y ji=β dj + g( xi)+u ji y, como se invoca sobre
lim E {( 1−d ) u0 +du1 / x }=0

x↓ τ
que es en esencia una selección sobre observables cerca de τ :

u 0 ⊥ d∨x ,u 1⊥ d ∨x , E(u 0∨x)=0=E (u 1∨x) por x ≅ τ ,
porque estas condiciones implican
E {(1−d )u 0+ du 1∨x }=E (1−d∨x) E(u 0∨x)+ E(d∨x) E(u 1∨x )=0 por x ≅ τ .
Ahora toma E(·∨xi)on yi=βddi + g( xi)+ui por x ≅ τ llegar

E( y∨xi)=βdE(d∨xi)+ g( xi) por x ≅ τ
Resta esto de yi=βddi + g( xi)+ui llegar
yi−E ( y∨xi )=βd {di−E(d∨xi )}+ui por x ≅ τ.
En la primera etapa, E( y∨x i) y E( d∨x i) se estiman no paramétricamente, y en la
segunda etapa, LSE de y i−E ( y∨x i) en d i−E (d∨x i ) se hace para estimar β d . En
ambas etapas, solo las observaciones con x i ∈( τ−c , τ +c ) se utilizan donde c →0

como N → ∞. Esta idea de dos etapas no funciona para RDD nítido porque
d i−E ( d| xi ) =0 ∀i .
Debido a la reducción del vecindario ( τ−c , τ +c ), la tasa de convergencia de la LSE a

β d es más lento de lo habitual √ N velocidad. En la práctica, sin embargo, este aspecto
puede ignorarse, lo que hace que la estimación RDD de dos etapas sea bastante
simple. Ignorar este aspecto significa que asumimos, para algún vecino fijo X τ de x=τ ,
u0 ⊥ d∨x , u1 ⊥ d∨x , E ¿ ¿ ∀ x ∈ X τ y g( x ) está “plano” en x ∈ X τ .
Estas suposiciones rinden β d =E( y 1− y 0 ∨x ∈ X τ ).
Con E N (∙∨xi ) que denota un estimador no paramétrico para E(∙∨x i) usando toda
menos observación i , un estimador para β d es
bd ≡
∑ i { d i−E N ( d|x i ) }{ y i−E N ( y|x i ) } 1 [ xi ∈ X τ ]
2
∑ i {d i−E N ( d|x i ) } 1 [ x i ∈ X τ ]
La varianza asintótica de b d−β d se puede estimar con
2 2
∑ i { d i−E N ( d|x i ) } [ y i−E N ( y|x i )−bd { di −E N ( d|x i) }] 1 [ x i ∈ X τ ]
2 2
∑ i {d i−E N ( d|x i ) } 1 [ x i ∈ X τ ]
Un ejemplo de 1 [ xi ∈ X τ ] es 1 [ ¿ x i−τ∨¿ SD( x) ], o para un problema dado, uno puede
tener alguna idea de X τ sobre qué límite se mantiene la aleatorización. Esta el

procedimiento de dos etapas sería más fácil de usar en la práctica y se comportaría
mejor que la regresión del núcleo (lineal local) para lim ¿x ↓ τ E( y ∨x)¿ y
lim ¿x ↑ τ E( y ∨x)¿
Van der Klaauw (2002) describe un ejemplo de RDD difuso estimando el efecto de la
ayuda financiera en la matrícula universitaria utilizando datos de una costa esta
universidad para el período de 1989 a 1993. Sea que la universidad tenga un índice de
capacidad x y ofrecer, digamos, tres niveles de ayuda financiera dependiendo de
y 1 1 [ x ≥ τ 1 ]+ y 2 1 [ x ≥ τ 2 ]+ y 3 1 [ x ≥ τ 3 ] , donde τ 1 < τ 2< τ 3 son conocidos

La cantidad real de ayuda financiera difiere de esta función escalonada porque los
oficiales de admisión tienen en cuenta otros factores, como las actividades
extracurriculares. y cartas de recomendación, lo que hace que el RDD sea confuso.
Aunque hay es un problema de endogeneidad, que la ayuda financiera de las
universidades competidoras está relacionada con x pero omitido, no discutiremos esto
aquí. En Van der Klaauw (2002), y es binario (inscripción o no) y d es la cantidad de
ayuda financiera medida en los miles de dólares de 1991.
En su Tabla 2, se estima que y 1 , y 2 , y 3 son 1280, 1392, 3145, respectivamente. A

medida que el índice de capacidad supera τ3, la ayuda financiera ofrecida aumenta en
$ 3145 que es y 3. En su Tabla 3, Van der Klaauw (2002) presenta estimaciones no
paramétricas para el efecto del tratamiento (recuerde la razón de dos estimaciones no
paramétricas diferencias). Parte de la Tabla 3, para quienes solicitaron ayuda
financiera federal, es se muestra en la tabla a continuación donde se obtienen las SD
con un "bootstrap".
RDD para el efecto de la ayuda financiera en la inscripción

Umbral 1 Umbral 2 Umbral 3
Efecto (SD) 0.010 (0.238) 0.040 (0.041) 0.067 (0.029)
Solo la última estimación es significativa. El efecto de la oferta de ayuda financiera en

la probabilidad de inscripción es del 6,7% para aquellos estudiantes con un índice de
capacidad de sobreτ 3 .
3.3.4 Antes-después (BA)
Estrechamente relacionado con RDD está el diseño "antes-después (BA)" ("series de

tiempo interrumpidas" diseño o "diseño previo a la rotura y posterior a la rotura") donde
se produce la discontinuidad en dimensión temporal. Aquí, las respuestas de control
provienen de la era anterior al tratamiento, mientras que las respuestas tratadas
provienen de la era posterior al tratamiento. Como en RDD, BA identifica el efecto
post-ruptura E( y1 − y 0∨d =1) bajo y 0 ⊥ d (dado x ). Por ejemplo, si queremos conocer
el efecto de una ley de límite de velocidad d que se introdujo en 1995, sobre el número
de accidentes y por coche, podemos comparar y antes y después de la ley de límite
de velocidad. Cont denotando años, d t =1[t ≥ 1995]. Como en RDD, el
condicionamiento en t es problemático. Condicionamiento det variables que cambian
monótonamente a medida que aumenta t , es problemático porque los períodos antes y
después de la interrupción del tratamiento no son comparables en términos de t y los
variables monotónicas.
Al igual que en RDD, se pueden proporcionar contrafactos como E( y∨d=0 ,t=1996)

por un modelo de regresión paramétrica que involucra d y t . Una regresión mal
especificada. Sin embargo, el modelo puede dar una falsa impresión de que d importa.
Por ejemplo, suponga que la tarifa de registro del automóvil w ha aumentado
constantemente a lo largo de los años para desalentar la conducción, lo que significa
que y disminuye a medida que w aumenta. Suponga que d tiene sin efecto. La relación
entre w e y podría ser no lineal con una pronunciada disminución en 1995, que puede
confundirse con el efecto debido a d . Si w no es disponible, podríamos tomar
y t =β d d t + g(t )+ ut como el modelo verdadero, donde g(t ) captura la influencia omitida
pero suave de w en y . El método no paramétrico para RDD podría aplicarse a este
modelo.
Para que un diseño de BA sea eficaz, el tratamiento (es decir, la rotura) debe definirse
claramente y tener lugar rápidamente, y el efecto debe sentirse rápidamente antes de
que cambien otras covariables (Marcantonio y Cook (1994)). Esto es análogo a la
aleatorización límite de RDD, donde en un pequeño temporal vecindario de
tratamiento, el período justo antes del tratamiento debe ser comparable al período
inmediatamente posterior al tratamiento, porque otros cambios es poco probable que
ocurra en el corto plazo. Si el tratamiento se realiza de forma gradual con el tiempo y si
el efecto se difunde lentamente, entonces es difícil separar el efecto del tratamiento del
"efecto tiempo" debido a otros factores que varían a lo largo del mismo periodo.
Como mostraremos en el próximo capítulo, el diseño de "diferencias en diferencias"

(DD) es una gran mejora con respecto a RDD y BA, ya que hay un grupo de control
que incurre en el efecto del tiempo, pero no en el efecto del tratamiento. Usando el
grupo de control, el efecto del tratamiento se puede identificar incluso si el tratamiento
se lleva a cabo de forma gradual. En un DD, el tratamiento se administra solo a un
cierto grupo de individuos, y aquellos excluidos constituyen el grupo de control. Por el
contrario, en BA (y RDD), todos recibe el tratamiento sin excepción. Por tanto, no
existe un control "contemporáneo" grupo en BA. Solo el pasado del grupo de
tratamiento antes de que el tratamiento esté disponible como grupo de control. En DD,
si nos enfocamos (es decir, condición) en el grupo tratado horas extraordinarias, tal
vez porque el grupo no tratado no constituye un buen grupo de control por alguna
razón, luego obtenemos un BA.
3.4 Estimador del efecto del tratamiento con ponderación *
Cuando se cumple la selección basada en observables, es posible estimar el margen

efecto E( y1 − y 0) o el efecto sobre el (no) tratado sin estimar el condicional significa
E( y1 − y 0∨x , d). Examinamos un enfoque en esta sección, y otro en la siguiente

sección.
Cuando se selecciona una muestra no de toda la población sino de una subpoblación,

podemos corregir la diferencia con ponderación. Por ejemplo, Supongamos que se
muestrea un conjunto de datos de ingresos ( y ) de una región con ingresos densidad
g( y ) , pero deseamos saber E( y)= ∫ yf ( y ) dy donde f ( y ) es el ingreso densidad para
toda la población. Entonces, porque
y g( y)
∫ yf ( y ) dy=∫ r ( y ) g( y )dy , donde r ( y ) ≡
f ( y)
,
N −1 Σ i y i /r ( y i ) es consistente para E( y) .
La ponderación se puede utilizar para corregir la densidad incorrecta en el efecto del

tratamiento análisis, porque el principal problema en el análisis del efecto del
tratamiento es que y j es observado solo para la subpoblación d= j , j=0 , 1 , y las
subpoblaciones pueden difieren en variables observadas y no observadas. Si
pudiéramos crear un artificial mundo, donde tanto y 0 como y 1 se extraen de la misma
población, entonces el problema desaparecería. Tal como está, la ponderación
resuelve la mitad del problema al eliminando el desequilibrio en x . Por tanto, la
ponderación es una alternativa al acondicionamiento en x . En comparación con el
acondicionamiento, en la práctica, la ponderación no tiene problema de dimensión,
porque solo se utilizan pesos escalares. Aunque en teoría, el problema de las
dimensiones sigue apareciendo en la estimación del peso. Esta reducción de
dimensión aspecto se examinará de nuevo en el capítulo siguiente cuando examinar la
"correspondencia de puntuación de propensión". Es posible hacer acondicionamiento y
ponderación para controlar x, aunque esta combinación no se examinará.
Bajo selección en observables y π (x) ≡ E (d∨x ), observe
d ∙ y =d {d y 1+(1−d) y 0 }=d ∙ y 1, y
E { d ∙ y 1∨x }
E
d∙ y
{ } [{
π (x )
=E E
d∙ y
π (x )
∨x =E }] [
π (x) ]
E ( d| x ) E( y1 ∨x)
¿E [ π (x) ]
=E [ E( y 1 ∨x) ]=E ( y 1)
Análogamente,
(1−d ) y
E { 1−π ( x ) }
=E ( y 0)
Primero examinaremos el efecto sobre los no tratados, seguido por el efecto sobre los
tratados y el efecto sobre la población.
La ponderación es útil no solo para corregir el problema de selección en función de la

observación, sino también para aumentar la eficiencia de un estimador. Hahn (1998)
deriva los límites de eficiencia para E( y1 − y 0) y E ( y 1− y 0∨d=1) y propone eficientes
estimadores que alcanzan estos límites. Hirano y col. (2003) proponen una eficiencia
más simple estimadores basados en ponderaciones. Los límites y estimadores serán
descrito en esta sección. Sin embargo, a pesar del atractivo de la idea de ponderación,
demostraremos un ejemplo empírico donde los estimadores de ponderación son poco
fiables. Aquí, el problema surge cuando el peso en el denominador es casi cero.
3.4.1 Efecto sobre los no tratados
Para el efecto sobre los no tratados, observe
d∙y
E
{ } π ( x)
=E ( y 1 )=E ( y 1|d=0 ) P ( d=0 )+ E ( y1|d=1 ) P ( d =1 )
¿ E ( y 1|d=0 ) P ( d =0 ) + E ( d ∙ y ) ,
Porque E ( d ∙ y ) =E ( d ∙ y 1 )=E ( y1|d=1 ) P ( d =1 ) . Resuelve la ecuación para E ( y 1|d=0 )
d∙ y
E ( y 1|d=0 ) P ( d =0 )
−1
[( )E
π(x)
−E( d ∙ y)
]
Por lo tanto, el efecto sobre los no tratados E ( y 1|d=0 )−E ( y|d=0 ) es
d∙y
P ( d=0 )
−1
[( )
E
π (x ) ]
−E (d ∙ y ) −E ( y|d=0 )
d∙y
¿ P ( d=0 )
−1
[( ) ]
E
π(x)
−1
−E (d ∙ y ) −P ( d=0 ) E { (1−d ) y }
d∙y
¿ P ( d=0 )
−1
[( )
E {
π(x)
−E ( dy ) −E ( 1−d ) y }
]
d d −π ( x)
¿ P ( d=0 )−1 E
{( ) }π (x)
−1 y =P ( d=0 )−1 E
π (x )
y
{( )}
Con un estimador consistente πN ( x) para π (x),un estimador consistente para efecto
sobre los no tratados es
−1
N d i−π N (x i)
UN≡ 0
N ( ) ∙N
−1
∑
i
( π N ( xi )
yi .
)
A continuación, asumimos E( d∨x)=Φ( x ' α ) donde Φ es la distribución N (0 , 1)
'
funcionar y estimar α con probit α N . En este caso, π N ( x i ) =ϕ ( x i aN ) .
Dejar √ N ( a N −α ) =N−1 /2 Σi ηi∨+ o p (1) donde ηi es una función de influencia para
probit. Denotando la función de puntuación probit como si, tenemos ηi =E−1 ( s s ' )s i si
donde E−1(∙) denota la inversa de E(·). Denotando la función de densidad N (0 , 1)

como ϕ , define
( di −π ( x i ) ) y i ( d−π ( x ) ) y ϕ( x ' α ) x ' y

λi≡
π ( xi )
−E { π (x) } { −E
π ( x) } ηi
En el apéndice vemos que
E( λ2)
√ N {U N−E ( y 1 − y 0|d=0 ) } → N 0 ,
P(d =0)2 ( )
Un estimador consistente para E( λ2) es su muestra analógica N
−1
∑ λ2¿ , donde
i
( d i−π N ( xi ) ) yi ϕ ( x 'j α N ) x'j y j

λ ¿≡
π N ( xi )
−U N
N0
N
−1
−N ∑
j
{ πN ( x j)
ηN i ,
}
η¿ ≡ ¿ ¿ ¿ y s¿ es la función de puntuación probit estimada:
{ d i−Φ( x 'i a N ) } ϕ( x 'i a N ) x i

s¿ ≡
Φ ( x 'i a N ) {1−Φ ( x 'i a N ) }
3.4.2 Efectos en los tratados y en la población
Por el efecto sobre los tratados E ( y 1− y 0|d=1 ) , observe
( 1−d ) y
E { 1−π ( x ) }
=E ( y 0 )=E ( y 0|d=0 ) P ( d=0 )+ E ( y 0|d=1 ) P ( d=1 )
¿ E ( ( 1−d ) y ) + E ( y 0|d=1 ) P ( d =1 )
Resuelve la ecuación para E ( y 0|d =1 )
E ( y 0|d =1 )=P( d=1)−1 E

[{ ( 1−d ) y
1−π (x) }
−E (1−d ) y¿
]
Por lo tanto, el efecto sobre los tratados E ( y|d=1 )−E ( y 0|d=1 ) es
( 1−d ) y
E ( y|d=1 )−P ( d=1 )−1 E { 1−π ( x ) }
+ P ( d=1 )−1 E ( y 0|d=0 ) P ( d=0 )
(1−d ) y
¿ P ( d=1 )
−1
[ E ( dy )−E { 1−π ( x ) }
+ E { ( 1−d ) y }
]
d−π (x)
¿ P ( d=1 )−1 E 1−
[{ 1−d
1−π (x) }]
y =P ( d =1 )−1 E
1−π (x )
y
[{ }]
Un estimador consistente para esto es
−1
N1 1−di
TN≡
N ( ) N
−1
∑
i
{1− y
1−π N ( x i) i }
−1
N1 d i−π N ( x i )
¿ ( )
N
N−1 ∑
i
{ 1−π N ( x i ) i
y
}
Para la distribución asintótica de T N , vemos en el apéndice que
√ N {T N −E ( y 1− y 0|d =1 ) } → N ¿
ϕ ( x' α ) x' y ( π ( x i )−di ) y i ( π ( x )−d ) y

Donde ζ i ≡−E
1−π ( x ) {
ηi − }
1−π ( xi )
+E {
1−π ( x ) }
Un estimador consistente para E( ζ 2) es su muestra analógica N
−1
∑ ζ 2¿ Ni, donde
i
ϕ ( x 'i aN ) x'j y j ( π N ( x i )−d i) y i
ζ ¿ ≡− N
{ −1
∑
j 1−π N ( x j ) } η¿ −
1−π N ( x i )
+T N
N1
N
En cuanto al efecto sobre la población, observe
d y ( 1−d ) y { d−π ( x ) } y
E ( y 1− y 0 ) =E { −
π ( x ) 1−π ( x )
¿E }( [
π (x)(1−π ) ¿
¿ ])
N0 N1 di 1−d i
A N ≡U N
N
+T N
N
−1
=N ∑
i
− y
π N ( xi ) 1−π N (x i ) i { }
d i−π N ( xi )
¿ N−1 ∑
i { π N ( xi ) ( 1−π N ( x i ) ) } y i → p E( y 1− y 0 )
De A N =U N ( NN )+ T ( NN )
0
N
1
, resulta que
√ N { A N −E( y 1− y 0) }→ N ( 0 , E {( λ+ ζ )2 }) ,
y la varianza asintótica se puede estimar consistentemente con N

−1
∑ ( λ¿ + ζ ¿)2
i
3.4.3 Límites de eficiencia y estimadores eficientes
Define
p ≡ P ( d=1 ) , σ 2j ( x ) ≡V ( y j|x ) , j=0,1 ,
τ ( x )=E ( y 1− y 0|x ) , τ ≡ E ( y 1 − y 0 ) , τ 1 ≡ E ( y 1− y 0|d=1 )
Bajo ( y ¿ ¿ 1 , y 0) II d ∨x ¿, Hahn (1998) demuestra que el semiparamétrico los límites
de eficiencia para τ y τ 1 son, respectivamente,
σ 21 ( x ) σ 20 ( x )
V ≡E [ +
π ( x ) 1−π ( x )
2
+ { τ −τ ( x ) } , ]
2
π ( x)σ 21 (x) π ( x )2 σ 20 (x)
V 1≡ E
[ p 2
+ 2
p { 1−π (x ) }
+
{ τ 1−τ ( x ) }
p 2
π(x)
]
Hahn (1998) también demuestra que, cuando se conoce π (x) , la eficiencia V límite
para τ no cambia, mientras que para τ 1 se convierte en

2
π ( x)σ 21 (x ) π ( x )2 σ 20 (x ) π (x)2
V conocido π (x) ≡ E
[ p2
+
p 2 {1−π (x)}
+
{τ 1−τ ( x ) }
p2 ]
que difiere de V 1 solo en que π ( x )2 en lugar de π ( x) aparece en el último término.
Dado que π ( x )2 < π (x) , V conocido π (x) es menor que V 1. Es decir, saber π (x) es
informativo para estimar el efecto sobre el τ 1 tratado, mientras que no es para el efecto
sobre la población τ . Imbens (2004) explica esto intuitivamente con diferentes pesos
usados para τ y τ 1 como sigue. E ( y 1− y 0 ) es la ponderación f (x)

y β β x ≤ $ 20,000 β x u ,: 3.3.3 Discontinuidad de regresión no paramétrica difusa

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

y β β x ≤ $ 20,000 β x u ,: 3.3.3 Discontinuidad de regresión no paramétrica difusa

Cargado por

Copyright:

Formatos disponibles

Aunque atractiva, la aleatorización límite no es infalible.

20.000. La ganancia de reducir el ingreso inicial m a $ 20 000 es β d y el costo es β x (m

Si β d es grande y β x es pequeño, entonces las familias con un ingreso inicial mucho

En el ejemplo anterior de calidad escolar y precio de la vivienda, es posible que las

3.3.3 Discontinuidad de regresión no paramétrica difusa

En la literatura, un diseño con d completamente determinado por x i se llama agudo

puntuación de propensión E( d∨x) tiene un romper en τ , y si, lim E (d∨x )=0

entonces la RDD difusa se puede tratar de la siguiente manera.

lim E (d∨x )−lim E(d ∨x )≠ 0 .

caracterización de β d como el efecto sobre la subpoblación x ≅ τ en la subsección

anterior no depende de la pantalla anterior, la caracterización de β d todavía se

Para la identificación, observe, para el mismo modelo semilineal,

lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x) y

lim E ( y∨x )=β d lim E (d∨x )−lim G( x)lim E(u∨x)

→ lim E( y∨x)−lim E( y∨x)=β d lim E(d∨x)−lim E(d∨x)

Es instructivo considerar la relación como

efecto total de x sobre y en x =τ

Suponga que el efecto directode x sobre y es insignificante alrededor de x=τ , en

relación con el efecto de x sobre d . El efecto directo se refiere a lim g (x)−lim g( x )

que es cero por la continuidad de g( x ) en x=τ . Entonces el efecto total se convierte

Pasando a estimar los límites en la identificación de β d , en principio, La estimación no

Sin embargo, el comportamiento de muestra pequeña del estimador de kernel

para utilizar el minimizador ˆa como estimador de lim E ( y∨x ). Como alternativa, El

método de estimación de dos etapas de Robinson (1988) para modelos semilineales

3.3 Diseño de regresión discontinua (RDD) y antes-después (BA)

lim E {( 1−d ) u0 +du1 / x }=0

que es en esencia una selección sobre observables cerca de τ :

Ahora toma E(·∨xi)on yi=βddi + g( xi)+ui por x ≅ τ llegar

ambas etapas, solo las observaciones con x i ∈( τ−c , τ +c ) se utilizan donde c →0

Debido a la reducción del vecindario ( τ−c , τ +c ), la tasa de convergencia de la LSE a

u0 ⊥ d∨x , u1 ⊥ d∨x , E ¿ ¿ ∀ x ∈ X τ y g( x ) está “plano” en x ∈ X τ .

Estas suposiciones rinden β d =E( y 1− y 0 ∨x ∈ X τ ).

menos observación i , un estimador para β d es

tener alguna idea de X τ sobre qué límite se mantiene la aleatorización. Esta el

y 1 1 [ x ≥ τ 1 ]+ y 2 1 [ x ≥ τ 2 ]+ y 3 1 [ x ≥ τ 3 ] , donde τ 1 < τ 2< τ 3 son conocidos

En su Tabla 2, se estima que y 1 , y 2 , y 3 son 1280, 1392, 3145, respectivamente. A

RDD para el efecto de la ayuda financiera en la inscripción

Solo la última estimación es significativa. El efecto de la oferta de ayuda financiera en

3.3.4 Antes-después (BA)

Estrechamente relacionado con RDD está el diseño "antes-después (BA)" ("series de

Al igual que en RDD, se pueden proporcionar contrafactos como E( y∨d=0 ,t=1996)

Como mostraremos en el próximo capítulo, el diseño de "diferencias en diferencias"

Cuando se cumple la selección basada en observables, es posible estimar el margen

E( y1 − y 0∨x , d). Examinamos un enfoque en esta sección, y otro en la siguiente

Cuando se selecciona una muestra no de toda la población sino de una subpoblación,

La ponderación se puede utilizar para corregir la densidad incorrecta en el efecto del

Bajo selección en observables y π (x) ≡ E (d∨x ), observe

La ponderación es útil no solo para corregir el problema de selección en función de la

3.4.1 Efecto sobre los no tratados

Para el efecto sobre los no tratados, observe

Porque E ( d ∙ y ) =E ( d ∙ y 1 )=E ( y1|d=1 ) P ( d =1 ) . Resuelve la ecuación para E ( y 1|d=0 )

Dejar √ N ( a N −α ) =N−1 /2 Σi ηi∨+ o p (1) donde ηi es una función de influencia para

donde E−1(∙) denota la inversa de E(·). Denotando la función de densidad N (0 , 1)

( di −π ( x i ) ) y i ( d−π ( x ) ) y ϕ( x ' α ) x ' y

En el apéndice vemos que

( d i−π N ( xi ) ) yi ϕ ( x 'j α N ) x'j y j

{ d i−Φ( x 'i a N ) } ϕ( x 'i a N ) x i

Por el efecto sobre los tratados E ( y 1− y 0|d=1 ) , observe

Resuelve la ecuación para E ( y 0|d =1 )

E ( y 0|d =1 )=P( d=1)−1 E

ϕ ( x' α ) x' y ( π ( x i )−di ) y i ( π ( x )−d ) y

En cuanto al efecto sobre la población, observe

y la varianza asintótica se puede estimar consistentemente con N