Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Otoño 2018
Magı́ster de Análisis Económico - Universidad de Chile
Jaime Ruiz-Tagle∗
∗
jaimert@fen.uchile.cl. Departamento de Economı́a, Universidad de Chile.
Contents
1 Introduction a la Microeconometrı́a (Clases 1,2,3) 6
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a . . . . . . . . . . . . . . 6
1.2 Modelos causales y no causales . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Modelos Estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Identificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Efectos Causales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 El Modelo Causal de Rubin . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5 Estrategias Generales en Modelos Causales . . . . . . . . . . . . . . . 11
1.2.6 Estrategias de Identificación . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Estructuras de Datos Microeconómicos . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Datos observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Datos de Experimentos Sociales . . . . . . . . . . . . . . . . . . . . . 13
1.3.3 Datos de Experimentos Naturales . . . . . . . . . . . . . . . . . . . . 14
1.3.4 Datos de Encuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.5 Imputación de Datos Faltantes . . . . . . . . . . . . . . . . . . . . . 18
2
2.3.3 MCO en 2 etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.4 VI en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3
5.1.1 Hipótesis Lineales en modelos Lineales . . . . . . . . . . . . . . . . . 69
5.1.2 Hipótesis No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.3 El estadı́grafo de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.4 El Método Delta para construir Intervalos de Confianza . . . . . . . . 73
5.2 Test basados en Verosimilitud (Wald,LR,LM) . . . . . . . . . . . . . . . . . 74
5.2.1 Test LR (Likelihood Ratio Test) . . . . . . . . . . . . . . . . . . . . . 75
5.2.2 Test LM (Multiplicador de Lagrange) o Score Test . . . . . . . . . . . 76
5.2.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.4 Discusión y Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Poder y Tamaño de los Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4 Estudios de Monte Carlo y Bootstrap . . . . . . . . . . . . . . . . . . . . . 82
4
8 Modelos de Variable Dependiente Limitada (Clases 17,18,19) 109
8.1 Modelos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.1.1 Modelo Binario General . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.1.2 Motivación de modelos binarios a través de “Variable Latente” . . . . 111
8.1.3 Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.1.4 Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.1.5 Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . 115
8.1.6 Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2 Modelos de Selección y Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.2.1 Modelamiento de los modelos con Censura y Truncamiento . . . . . . 118
8.2.2 Estimador de MV para modelos de censura y truncamiento . . . . . . 119
8.2.3 El Modelo Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.2.4 Medias condicionales en modelos de truncamiento y censura . . . . . 123
8.2.5 Medias condicionales en el modelo Tobit . . . . . . . . . . . . . . . . 124
8.2.6 Efectos marginales en el modelo Tobit . . . . . . . . . . . . . . . . . 125
8.2.7 Estimación del modelo Tobit y sesgo de selección . . . . . . . . . . . 127
5
1 Introduction a la Microeconometrı́a (Clases 1,2,3)
CLASE
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a 1
Capı́tulo
1. Gran heterogeneidad (Observaciones ‘menos’ agregadas: personas, hogares, empresas, I, pág.
3-10.
cursos).
4. Micro
• Dos alumnos se enfrentan a una prueba de econometrı́a. Uno estudia 5 horas y obtiene
un 6.5, el otro estudia 10 horas y obtiene 4.5 ⇒ No vale la pena estudiar más horas de
econometrı́a!
6
i. Incluir propiedades de momentos de variables de respuesta.
ii. Realizar regresiones que resaltan asociaciones entre variables (evidencia cor-
relacional).
Con el Premio Nobel del año 2000 a James Heckman (Sesgo de Selección) y Daniel McFad-
den (Modelos de Elección Discreta), por su contribución a la microeconometrı́a, se termina
de confirmar como subdisciplina de la econometrı́a.
g(yi , zi , ui |θ) = 0
Si se asume que existe una única solución de yi para cada (zi , ui ), entonces se puede
escribir la ecuación de forma explı́cita:
yi = f (zi , ui |π)
7
Esto se conoce como la forma reducida del modelo estructural, dónde π es un vector de
parámetros que es función de θ. Si f (·) tiene una forma funcional conocida y es aditivamente
separable en zi y ui ,
1.2.2 Identificación
CLASE
2
Capı́tulo
• Equivalencia observacional: II, pág.
29,30.
Si dado un conjunto de datos, dos modelos implican una idéntica distribución de prob-
abilidad conjunta de las variables, entonces son observacionalmente equivalentes. Si
esto ocurre, no se logra identificación.
• Identificación:
Dos modelos son identificables si implican distribuciones de probabilidades conjuntas
distintas (a veces se busca sólo identificación parcial).
Al introducir restricciones se puede aumentar la identificación ⇒ Normalizaciones,
exclusiones.
• Ejemplos:
8
– Subsidios de empleo y duración del desempleo.
• Se busca solucionar esto con datos de un “experimento social controlado” (RCT), con
un diseño estadı́stico apropiado ⇒ costosos de implementar.
• Quasi-experimental ⇒ AUGE.
H0 : X es la causa, Y el resultado.
⇒ cambiando X ⇒ movemos Y .
X1 ⇒ Y1
X ⇒Y
| 2 {z }2
9
En Evaluación de Impacto se usa el concepto de la ‘teorı́a del cambio’ que permite
vincular la estadı́stica con la economı́a.
• En economı́a el tratamiento puede ser cualquier cosa: el tamaño del curso, la ca-
pacitación laboral, la información ⇒ Notar que el tratamiento no necesariamente es
exógeno, lo que constituye el elemento central de la identificación causal.
• Si todos los individuos del universo considerado son “potenciales sujetos de tratamiento”,
el conjunto (y1i , y0i , Di ), i = 1, ..., N define la base del problema:
1, si i tratado;
Di =
0, si no.
y , si D = 1; ojo que son mutuamente
1i i
yi =
y , si D = 0. excluyentes
0i i
AT E = E[yi |D = 1] − E[yi |D = 0]
10
1.2.5 Estrategias Generales en Modelos Causales
Capı́tulo
1. Modelos estructurales con información completa (Full-Information Struc- II, pág.
35-38.
tural Models):
2. Eliminación de los parámetros de perturbación: Ej: Dif-Dif para eliminar efectos fijos.
11
4. Muestras sintéticas: Se crea un grupo de comparación a través de un “pareo”.
Muestreo:
• MAS
• Multietápico
– Estratos
– UP Muestreo
– US Muestreo
– ...
– UFinal de Muestreo.
– ⇒ Factores de expansión.
Sesgos:
12
• Sesgo de selección en la muestra.
Calidad de Datos:
• No respuesta de la encuesta.
Tipos de Datos:
• Corte transversal
Gran ventaja:
13
Limitaciones:
Experimento natural cambia X (Ley, terremoto, inundación, mellizos, etc) de manera aleato-
ria.
Ejemplo: Rau Ley Tolerancia Cero, Torche stress guaguas.
Dt = 1 en perı́odo 1,
Dt = 0 en perı́odo 0.
P
(yi1 − yi0 )
β̂ =
N
= ȳ1 − ȳ0
14
Se puede agregar un grupo de comparación no afectado por la intervención:
1, si j = 1;
j
D =
0, si no.
1, si j = t = 1;
Dtj =
0, si no.
1
yi0 = α0 + α2 D1 + ε1i0
Después:
1
yi1 = α0 + α1 + α2 D1 + β + ε1i1
1 1
yi1 − yi0 = α1 + β + ε1i1 − ε1i0
0
yi0 = α0 + ε0i0
0
yi1 = α0 + α1 + ε0i1
15
Y la diferencia:
0 0
yi1 − yi0 = α1 + ε0i1 − ε0i0
Dif en dif:
1 1 0 0
= β + ε1i1 − ε1i0 − ε0i1 − ε0i0
yi1 − yi0 − yi1 − yi0
Lectura:
• Courtemanche and Zapata (2014), “Does Universal Coverage Improve Health? The
Massachusetts Experience” (Journal of Policy Analysis and Management, Vol. 33,
No. 1, 36?69, 2014) [Versión antigua NBER WP 17.893].
• Estructura de la investigación,
• Fuentes de error,
2. Muestreo
16
• Diseño y elección de la muestra
• Tipos de aplicación de encuestas: cara a cara, telefónicas, vı́a correo, vı́a e-mail
o Internet.
– Representación:
∗ Falta de cobertura (hay población que no puede ser elegida, sin internet,
sin teléfono)
∗ Error de muestreo
∗ Error de no respuesta
∗ Error de ajuste
– Medida
∗ Error de medición: cuestionario, entrevistado, encuestador.
∗ Error de procesamiento: digitación, codificación, validación, edición, fac-
tores de expansión.
⇒ Sesgos
⇒ Varianza.
4. Cobertura y No respuesta
• Tipos de No respuesta
– A la encuesta
17
– Al ı́tem
6. Encuestas de Panel
• Diseño muestral,
• No respuesta al instrumento
• No respuesta al ı́tem
18
3. No respuesta al ı́tem, se requiere que el investigador tome decisiones. Esto tiene im-
plicancias sobre la interpretación de los resultados.
• Reconocer el problema
5. Beneficios de Imputar:
• Dependen del tamaño del problema: a menor información faltante menores ben-
eficios.
6. Métodos de Imputación:
• Tipos de Imputación:
19
– Imputación Estocástica: Busca preservar la varianza de la distribución
original. Consiste en imputar la variable de manera aleatoria condicionada
en un vector de covariables de acuerdo al proceso escogido para dicha variable.
7. Imputación en la práctica:
• Tı́picamente las variables continuas se imputan por regresión, las variables disc-
retas por hot-deck.
• Los métodos deben ser simples y transparentes para que la gente los pueda
replicar.
20
2 Métodos Lineales (Clases 4,5)
2.1 MCO-OLS
CLASE
7
y = E[y|X] + u
yi = x0i β + ui
y = Xβ + u
con xi de dimensión k x 1.
El estimador de MCO se define a través del estimador que minimiza la suma de los errores
al cuadrado:
N
X
W = u2i = u0 · u = (y − Xβ)0 (y − Xβ)
i=1
∂W
= 0
∂β
β̂M CO = (X 0 X)−1 · X 0 y
Este estimador se puede obtener siempre que (X 0 X) sea no singular y tenga rango com-
pleto, es decir, sea invertible.
21
(a) E[y|X] = Xβ
(b) Xβ 1 = Xβ 2 ssi β 1 = β 2
(a) Consistencia:
Las propiedades del estimador MCO dependen del proceso de generación de los datos
(dgp). Se asume que el dgp es y = Xβ + u. Luego:
β̂M CO = (X 0 X)−1 · X 0 y
β̂M CO = β − (X 0 X)−1 · X 0 u
TAREA: Simular en STATA (usando ”set seed 1”) ui ∼ N (0, 1) con N = 1, 000;
β = [123], X = vector de variables aleatorias uniformes: X1i = 1∀i, X2i ∈ [20, 100],
X3i ∈ [500, 1500]. Estimar β̂; luego repetir para N = 10, 000.
β̂M CO = β + [N −1 (X 0 X)]−1 · N −1 X 0 u
22
esto se obtiene dado que N −1 (X 0 X) = 1
xi x0i corresponde a un promedio que con-
P
N i
verge en probabilidad a una matriz finita distinta de cero si xi satisface los supuestos
que permiten aplicar la ley de los grandes números a xi x0i .
p
Weak Law of Large Numbers: (X̄N − E[X̄N ]) → 0.
Strong Law of Large Numbers: plimX̄N = limE[X̄N ].
plim β̂M CO = β + [plimN −1 (X 0 X)]−1 · plim N −1 X 0 u
23
(b) Distribución Lı́mite
Dada la consistencia, la distribución lı́mite de β̂M CO es degenerada, esto es, tiene toda
√
su masa en β. Para obtener la distribución lı́mite se escala β̂M CO por N obteniendo:1
√ 1
N (β̂M CO − β) = [N −1 (X 0 X)]−1 · N − 2 X 0 u
Entonces, asumiendo:
(iv) La matriz de K × K
1 X 1 X
Mxx = plimN −1 (X 0 X) = plim xi · x0i = lim E[xi · x0i ]
N i N i
N N
−1 0 0 1 X 2 0 1 X
MxΩx = plimN X uu X = plim ui xi xi = lim E[u2i xi x0i ]
N i=1 N i=1
√ d −1 −1
N (β̂M CO − β) →
− N [0, Mxx MxΩx Mxx ]
1
√
Se escala por N porque, bajo supuestos estándar de corte transversal, la resultante variable aleatoria
tendrá varianza distinta de zero, pero finita asintóticamente.
2
Notar que el hecho que la varianza esté indexada por i implica que se admite heterocedasticidad.
24
(c) Distribución Asintótica:
a
β̂M CO ∼ N [β, N −1 Mxx
−1 −1
MxΩx Mxx ]
simplificando la notación:
a
β̂M CO ∼ N [β, (X 0 X)−1 X 0 ΩX(X 0 X)−1 ]
| {z }
V ar[β̂M CO ]
V ˆar[β̂M CO ] = N −1 Mxx
−1 −1
MxΩx Mxx
White (1980) propone M̂xΩx = N −1 û2i xi x0i . Con esto la varianza queda como:
P
i
25
con Ω̂ = Diag[û2i ] y ûi = yi − x0i β̂. Esta es la estimación heterocedástica consistente, lo
que implica que los errores estándar son heterocedásticos robustos.
yi = x0i β + ui
(4) Los errores tienen media condicionada en los regresores igual a cero:
E[ui |xi ] = 0
26
(5) Los errores son heterocedásticos condicionados en los regresores con:
El séptimo supuesto serı́a normalidad del error. Eso es necesario para obtener la dis-
tribución exacta en muestras pequeñas. En microeconometrı́a nos concentramos en propiedades
asintóticas.
27
donde Ω = E[uu0 |X].
Entonces, dado que E[u|X] = 0, MCO es insesgado (esto no se extiende a los estimadores
no lineales, e incluso IV).
MCO es eficiente ssi Ω = σ 2 I. De otra forma será ineficiente, es decir, no tiene la menor
varianza posible.
Bajo normalidad condicionada del error, entonces MCO tiene distribución condicionada
en X normal.
(b) Consistencia
X
plimN −1 X 0 u = plimN −1 xi ui = 0
i
1 d
N − 2 X 0u →
− N (0, MxΩx )
donde MxΩx = plimN −1 X 0 u0 uX = plimN −1 i u2i xi x0i . Por la ley de los grandes
P
números se cumple que MxΩx = lim N −1 i Exi [σi2 xi x0i ]. Esto implica que MxΩx =
P
28
(d) Errores Estándar Robustos a la Heterocedasticidad
A continuación se muestra los pasos claves para estimar consistentemente MxΩx . Par-
tiendo con la definición original:
X
MxΩx = plimN −1 u2i xi x0i
i
p p
se reemplaza ui por ûi = yi − x0i β̂, donde asintóticamente ûi →
− ui dado que β̂ →
− β. Esto
lleva a la estimación consistente:
N
1 X 2 0
MxΩx = û xi xi = N −1 X 0 Ω̂X
N i=1 i
con Ω̂ = Diag[û2i ]. White (1980) expone supuestos adicionales para potencias mayores.
1 1 1
Ω− 2 y = Ω− 2 Xβ + Ω− 2 u
1 1 1
V [Ω− 2 u] = E[(Ω− 2 u)(Ω− 2 u)0 |X] = I
Los errores en este modelo transformado tienen media cero, no están correlacionados y
son homocedásticos. Por lo tanto, β puede ser estimado de forma eficiente regresionando
1 1
Ω− 2 y contra Ω− 2 X. Con lo que se obtiene:
29
de MCGF.
Por ejemplo, si los errores son heterocedásticos se puede modelar la varianza como
V [u|X] = exp(z 0 γ), donde z corresponde a un subconjunto de X y la función exponen-
cial es utilizada para asegurar que la varianza sea positiva.
√ d
− N 0, (plimN −1 X 0 Ω−1 X)−1
N (β̂M CGF − β) →
Para una variable aleatoria continua el q-ésimo cuantil es el valor µq tal que la probabil-
idad que la variable y sea menor que µq es q:
q = P r[y ≤ µq ] = Fy (µq )
|{z}
c.d.f
⇒ µq = Fy−1 (q)
30
Ejemplo: Si µ0.75 = 3 ⇒ P r[y ≤ 3] = 0.75. Para una normal estándar, µ0.5 = 0, µ0.95 =
1, 645, µ0.975 = 1, 96.
−1
µq (x) = Fy|x (q)
y = x0 β + u
u = x0 α ·
∼ iid[0, σ 2 ]
= P r[u ≤ µq (x, β, α) − x0 β]
= x0 (β + α · F−1 (q))
31
Se aprecia que el cuantil es lineal en x en este caso. Otras formas de heterocedasticidad
pueden llevar a cuantiles no lineales.
Se puede demostrar que µ̂q puede ser expresado como la solución al problema de opti-
mización minimizando con respecto a β:
N
X N
X
q · |yi − β| + (1 − q) · |yi − β|
i:yi ≥β i:yi <β
P
El resultado no es obvio, pero si q=0.5 ⇒ µ0.5 = min i |yi − β|, lo que resulta más
β
intuitivo.
N
X N
X
QN (βq ) = q · |yi − x0i βq | + (1 − q) · |yi − x0i βq |
i:yi ≥x0i β i:yi <x0i β
Esta es la función asimétrica de pérdida absoluta. [Notar que se usa sub-ı́ndice q para
β, para explicitar que β puede ser distinto para cada cuantil].
√ d
− N [0, A−1 BA−1 ]
N (β̂q − β) →
con
32
1 X
A = plim fuq (0|xi )xi x0i
N i
1 X
B = plim q(1 − q)xi x0i
N i
donde fuq (0|xi ) es la función de densidad condicionada del término de error µq = y −x0 βq
evaluada en µq = 0.
15
Actual Data
90th percentile
Median
10th percentile
10
5
0
6 8 10 12
in estimated slopes as q increases as evident in Figure 4.1. Koenker and Bassett (1982)
[OLS nodeveloped quantile
se presenta porregression as a means
ser similar to test for heteroskedastic
a la mediana.] La discrepanciaerrors whenlas
entre thependientes
dgp is the linear model. For such a case a fanning out of the quantile regression lines
is interpreted
a diferentes as evidence
cuantiles of heteroskedasticity.
es evidencia Another interpretation is that the con-
de heterocedasticidad.
ditional mean is nonlinear in x with increasing slope and this leads to quantile slope
coefficients that increase with quantile q.
More detailed illustrations of quantile regression are given in Buchinsky (1994) and
La regresión
Koenkerde andcuantiles es más o menos equivalente a estimar por separado, pero en
Hallock (2001).
un problema multidimensional.
Entonces:
β̂M CO = β + (N −1 X 0 X)−1 N −1 X 0 u
p
β̂M CO →
− β
Dado que el modelo lineal es una aproximación de la forma funcional en Rk , ocurre que
incluso si los regresores están bien escogidos, se puede tener que la media condicional esté
incorrectamente especificada.
Ejemplo de inconsistencia:
White (1980) demostró que MCO converge a un valor de β que minimiza el error
cuadrático de predicción:
2
Ex [ g(x) − X 0 β ]
34
Por lo tanto, MCO es ‘la mejor estimación lineal del modelo no lineal’ (pero esto NO es
muy útil - solo un poco útil a nivel agregado en promedios).
Por otro lado, si hay endogeneidad hay que buscar corregirla. Alternativas:
(e) Efectos fijos en panel (si la endogeneidad proviene de factores constantes en el tiempo)
y = X 0 β + Zα + ν
y = X 0 β + Zα
| {z+ ν}
nuevo error
y = X 0 β + Zα + ν
35
sustituido en β̂M CO = (X 0 X)−1 X 0 y genera:
Hay que notar que en el caso de variables omitidas MCO no estima β, sino que confunde
y estima una función de β, δ y α. Por lo tanto, el efecto causal NO está bien identificado.
Por otro lado, se podrı́a tener una inclusión de variables irrelevantes. Por ejemplo, el
verdadero dgp es y = X 0 β+ν, pero se estima y = X 0 β+Zα+ν. Se puede demostrar que MCO
es consistente pero se pierde eficiencia. ⇒ Tarea: Demostrar que MCO es consistente con variables irreleva
En resumen, omitir variables puede ser muy dañino, y agregar demasiados regresores hace
poco daño. Por lo tanto, en microeconometrı́a, si hay disponibilidad de muchas variables,
en general es mejor incluirlas todas!
36
4.8. INSTRUMENTAL VARIABLES
this example, but not in all such examples, alternative consistent estimators for a subset
Ejemploofde esto es la estimación con datos de panel con efectos aleatorios, donde el in-
the regression parameters are available.
tercepto varı́a entre individuos y la pendiente es común. (Ojo: Esto no es válido en modelos
no lineales). 4.8. Instrumental Variables
Consider the scalar regression model with dependent variable y and single regressor x.
The goal of regression analysis is to estimate the conditional mean function E[y|x]. A
Se busca estimar la función de valor esperado condicional (por conveniencia sin intercepto,
linear conditional mean model, without intercept for notational convenience, specifies
en desvı́os con respecto a la media): E[y|x] = βx. (4.42)
This model without intercept subsumes the model with intercept if dependent and
regressor variables are deviations from their respective means. Interest lies in obtaining
a consistent estimate of β as this E[y|x]
gives the =change
βx in the conditional mean given an
exogenous change in x. For example, interest may lie in the effect in earnings caused
by an increase in schooling attributed to exogenous reasons, such as an increase in the
minimumde
La estimación ageMCO
at which students leave school, that are not a choice of the individual.
será:
The OLS regression model specifies
y = βx + u, (4.43)
The inconsistency
Anteriormente dijimosofque
OLSseisrequerı́a
due to endogeneity of x, meaning
que los regresores that changes
fueran in x are
asintóticamente no cor-
associated not only with changes in y but also changes in the error u. What is needed
−1 0
relacionados
is acon el término
method deonly
to generate error (plimNvariation
exogenous Xu= 0).AnLa
in x. magnitud
obvious way isde la inconsistencia
through a
randomized experiment, but for most economics applications such experiments are too
de MCO será (X 0 X)−1 X 0 u, que es el coeficiente de la regresión de u en x.
expensive or even infeasible.
96
donde z está asociado causalmente con x, pero no con u.
Notar que (1) implica que z no es regresor de y, porque si ası́ lo fuese y se regresiona
y en x solamente, z estarı́a absorbido en el término de error y por lo tanto estarı́an
correlacionados (generando un sesgo).
38
(i) Demanda de Mercado
q = f (p) + u
2.3.1 El estimador de VI
Capı́tulo
IV, pág.
Para una regresión escalar, se tendrá que:
98-99
β̂V I = (z 0 x)−1 zy
39
Si z cumple con (1) y (2), se obtiene una estimación consistente de β en y = βx + u. En
el caso del retorno a la educación, supóngase que un aumento de 1 unidad en z se asocia a
0.2 años más de educación y con $500 más de ingresos (salario por hora por ejemplo). Este
aumento en y es indirecto y es producto del aumento en educación, por lo que un aumento
de 0.2 en educación implica in aumento de $500 en y. Por lo tanto, un aumento de 1 año
$500
de educación implicará 0.2
= $2500 de aumento en y. El efecto causal de β es $2500. En
dx dy
términos matemáticos, estimamos dz
y dz
para obtener:
dy
dz
β̂V I = dx
dz
dy
La manera obvia de obtener dz
es por MCO de y en z para obtener la pendiente (z 0 z)−1 z 0 y.
Del mismo modo, regresionando x en z se obtiene (z 0 z)−1 z 0 x. De modo que:
(z 0 z)−1 z 0 y
β̂V I = 0 −1 0
= (z 0 x)−1 z 0 y
(z z) z x
∆y
= (y 1 − y 0 )
∆z
∆x
= (x1 − x0 )
∆z
Luego:
y1 − y0
β̂V I =
x1 − x0
40
En el caso del retorno a la educación, se asume que se puede distinguir 2 grupos, donde
la pertenencia a cada grupo no determina directamente salarios, pero sı́ años de educación.
Ejemplo: cercanı́a, viven lejos-cerca.
Cov(z, y)
β̂V I =
Cov(z, x)
√
rzy x0 y
ó β̂V I = √
rzx x0 x
x0 y
con rxy = √ la correlación muestral entre x e y.
(X 0 X)(y 0 y)
(1) y (2) son necesarias para que el estimador IV sea consistente. (3) es necesario para
obtener buen desempeño del estimador en muestras finitas (eficiencia).
41
(a) Identificación:
β̂V I = (Z 0 X)−1 Z 0 y
β̂V I = β + (Z 0 X)−1 Z 0 u
β̂V I = β + (N −1 Z 0 X)−1 N −1 Z 0 u
42
Se requiere que la inversa de N −1 Z 0 X exista, para lo cual se asume que Z 0 X es de rango
completo k (supuesto más fuerte que r=k).
donde Ω̂ = Diag[û2i ].
El estimador de VI, aunque consistente, lleva a una pérdida de eficiencia que puede ser
grande en la práctica. Intuitivamente, VI no funcionará bien si la correlación entre Z y
X es baja.
Ejemplo:
43
y = 0 + 0.5X + u
X = 0+Z +v
Z ∼ N (2, 1)
Dado que Z no está correlacionado con v, ello implica que Z es un instrumento para X.
Transformaciones de Z, como Z 3 , también son instrumentos válidos.
⇒ TAREA: Mostrar que Z 3 en el ejemplo también funciona como instrumento recogiendo
el mismo parámetro β = 0.5 original.
2.3.4 VI en la práctica
Capı́tulo
Los problemas de eficiencia se ven amplificados con instrumentos débiles. IV, pág.
103-105
44
Por lo tanto se necesita ver las definiciones de R2 y de estadı́stico F que se utilizan para
ver si un instrumento es débil.
(b) Medidas de R2
Considerando y = β1 x1 + X20 β2 + u
Bond, Jaeger y Baker (1995) sugieren utilizar el R2 parcial (Rp2 ), que se obtiene de
regresionar x1 − x̃1 = (Z − Z̃)0 γ + ν donde x̃1 y Z̃ son valores ajustados (predichos) de
regresionar x1 en X2 y Z en X2 .
2
Notar que si hay solo 1 regresor, y éste es endógeno, la expresión se reduce a rxZ , y se
reduce a Corr(x, z) si hay solo un instrumento.
Con más de una variable endógena el análisis es menos directo. Se han propuesto una
serie de medidas.
Test F de significancia conjunta (todos los coeficientes son iguales a cero). Se utiliza el
test F de la regresión:
X = Z10 π1 + X20 π2 + ν
donde Z1 es un vector de instrumentos y X2 son los regresores exógenos. Notar que esta
es la primera etapa en la interpretación de MC2E de VI.
45
Staiger y Stock (1997) sugieren que un valor menor de 10 es problemático y que menor
que 5 es señal de sesgo en muestras pequeñas.
Por otro lado, si los instrumentos son débiles, una pequeña endogeneidad del instrumento
podrı́a llevar a que VI sea incluso más inconsistente que MCO (Bond, Jaeger y Baker,
1995).
V [β̂M CO ]
= 2
rXZ
2
Entonces con una baja correlación muestral (0,31), se tendrá que rXZ ' 0, 1 ⇒ los
errores estándar se amplifican por 10.
Stock y Yogo (2005) entregan tablas de “reglas de oro” para instrumentos débiles.
46
3 Estimación por Máxima Verosimilitud y MC no lin-
eales (Clases 6,7)
CLASE
12
Capı́tulo
• Puede haber muchos casos en que la media condicional no sea lineal en los parámetros. V, pág.
116-117.
• La censura y truncamiento son dos tı́picos problemas de no linealidades.
λy
f (y|λ) = e−λ · con y=0,1,2,...
y!
E[y] = λ
V [y] = λ
47
λ = exp(X 0 β)
De este modo, la función de densidad del modelo de regresión Poisson con una sola
observación será:
0 [exp(X 0 β)]y
f (y|X, β) = e−exp(X β) ·
y!
Entonces, el estimador de máxima verosimilitud basado en la muestra (yi , xi ) con i =
1, ...., N., maximiza el logaritmo de la función de verosimilitud.
La función de verosimilitud es la función de densidad conjunta, que dado que son obser-
vaciones independientes, será la pitatoria de las funciones de densidad individuales, condi-
cionales en los regresores. Finalmente, al tomar el logaritmo de la expresion se obtiene la
expresion de sumatoria como sigue:
Y
f (yi |xi , β)
i
X
⇒ ln(Π . . . ) = ln[f (yi |xi , β)]
i
N
1 X 0 0
QN (β) = − exp(xi β) + yi xi β − ln(yi !)
N i=1
1
donde se agrega el factor de escala N
para que QN (β) se mantenga finito cuando N → ∞.
El estimador de MV de la Poisson es aquel que soluciona las condiciones de primer orden:
48
∂QN (β)
= 0
∂β β̂
N
1 X 0
⇔ [yi − exp(xi β)]xi = 0
N i=1 β̂
No hay solución explı́cita para β̂ en esta ecuación, de modo que se debe obtener una
solución a través de métodos numéricos.
– Berndt-Hall-Hall-Hausman
– Davidon-Fletcher-Powell
– Broyden-Fletcher-Goldforb-Shanno
– Iteraciones máximas
– Tolerancia
– Valores Iniciales
N
1 X
QN (θ) = q(yi , xi , θ)
N i=1
49
Generalizando, θ̂ es la solución asociada a las CPO:
N
∂QN (θ) 1 X ∂q(yi , xi , θ)
=0 ⇐⇒ =0
∂θ θ̂ N i=1 ∂θ θ̂
√
Lo que interesa es el comportamiento de N (θ̂ − θ0 ). Para la mayorı́a de los problemas
microeconómicos, este estimador converge en distribución a una normal multivariada.
Se puede demostrar que (Tarea: Demostrarlo - se obtiene por expansión de Taylor), el
estimador MV se puede escribir como:
N −1 N
√ 1 X ∂qi2 (θ)
1 X ∂qi (θ)
N (θ̂ − θ0 ) = − ·√
N i=1 ∂θ∂θ0 θ+ N i=1 ∂θ θ0
| {z } | {z }
(a) (b)
Con θ+ algún valor entre θ̂ y θ0 , y asumiendo que las segundas derivadas existen.
Entonces, se puede demostrar que esto lleva a la siguiente distribución lı́mite del esti-
mador de MV.
√ d
− N [0, A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 ]
50
donde A−1
0 corresponde al lı́mite en probabilidad de (a). Se asume que (b) converge a
V (θ̂) = N −1 A−1 −1
0 B0 A0 = Varianza Asintótica
(c) Ejemplo:
Volviendo al ejemplo de la distribución Poisson, tenı́amos que
∂q(β)
= y − exp(X 0 β0 )X
∂β
Dado que:
∂ 2 q(β)
= −exp(X 0 β0 )X 0 X
∂β∂β 0
Se obtiene que:
N
1 X ∂qi2 (θ)
1 X
A0 = plim = −plim exp(x0i β)xi x0i
N i=1 ∂θ∂θ0 θ0 N i
N
1 X ∂qi ∂qi 1 X
B0 = plim · 0 = plim V [yi |xi ]xi x0i
N i=1 ∂θ ∂θ θ0 N i
Entonces:
a
β̂ ∼ N [θ0 , N −1 Â−1 B̂ Â−1 ]
1 X
 = exp(x0i β̂)xi x0i
N i
1 X
B̂ = [yi − exp(x0i β̂)]2 xi x0i
N i
51
3.2 Interpretación de coeficientes en Regresiones no lineales
3.2.1 Efectos Marginales
Capı́tulo
Además de testear la significancia (para lo cual ya se estimó la varianza), tı́picamente interesa V, pág.
122-123
la predicción, para lo cual se requiere conocer los “Efectos Marginales”.
∂E[y|X] ∂exp(X 0 β)
En el caso no lineal, por ejemplo de la Poisson, se tendrá ∂X
= ∂X
= exp(X 0 β)β,
que es un función tanto de los parámetros como de los regresores.
E[y|X] = g(X, β)
(ii) Efecto marginal del ‘individuo promedio’ (X) [Notar que el individuo promedio podrı́a
ser un individuo inexistente]:
∂E[y|X]
∂X X
52
Notar que en el modelo lineal estos efectos marginales todos iguales. Sin embargo, en
modelos no lineales incluso podrı́a cambiar el signo (con respecto al efecto marginal del
modelo lineal).
Ejemplo: Probit, Logit, Tobit. El efecto marginal se obtiene por cálculo diferencial:
∂E[y|X]
= g 0 (X 0 β) · βj
∂xj
[Notar que esto solo ocurre en modelos de ı́ndice simple; en otros puede ser más complejo].
El “efecto relativo” de los regresores será:
∂E[y|X]
∂xj βj
∂E[y|X]
=
βk
∂xk
Notar que, si g(·) es una función monotónica, entonces el signo de los coeficientes indica
también el signo del efecto marginal.
Cabe señalar, que este método se utiliza para regresores continuos.
∆E[y|X]
= g(X + ej , β) − g(X, β)
∆x
|{z}j
∆ en 1 unidad
53
ej es un vector con j-ésimo elemento = 1 y todo el resto igual a cero. Este método se
utiliza para regresores que toman valores enteros (incluye a variables dummies). Notar que
en el modelo lineal ambos efectos son idénticos.
∂E[y|X]
= exp(X 0 β) · βj = E[y|X] · βj
∂xj
∂E[y|X]
E[y|X]
⇐⇒ = βj → Semi-Elasticidad
∂xj
∆E[y|X]
= exp(X 0 β + βj ) − exp(X 0 β)
∆xj
= exp(X 0 β) · exp(βj ) − exp(X 0 β)
= exp(X 0 β) · (exp(βj ) − 1)
∆E[y|X]
exp(X 0 β)
= exp(βj ) − 1
∆xj
= exp(0, 2) − 1
= 1, 2214 − 1
= 22, 14%
54
Por lo tanto, si bien los resultados son parecidos en este ejemplo, no son iguales, y la
diferencia depende de la especificación del modelo.
Ha : Rθa − r 6= 0
Por ejemplo: si θ = [θ1 , θ2 , θ3 ] y se quiere testear θ10 − θ20 = 2 ⇒ R = [1, −1, 0] y r = −2.
√ d a
Suponga que − N [0, C0 ] con C0 = A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 , entonces θ̂ ∼ N [θ0 , N
−1
C0 ].
Por lo tanto, si H0 es cierta, se tendrá que:
a
Rθ̂ − r ∼ N [0, R(N −1 C0 )R0 ]
d
W = (Rθ̂ − r)[R(N −1 Ĉ)R0 ]−1 (Rθ̂ − r) →
− χ2 (h)
55
Se requiere que R(N −1 Ĉ)R0 sea de rango completo (h), lo que se cumple bajo la H0 . Ĉ
es una estimación consistente de C0 .
Si el estadı́grafo de Wald es tal que W > χ2α (h), se rechaza H0 al nivel de confianza α.
W
También se puede usar el estadı́grafo F = h
, para luego comparar con la distribución
F (h, N −h), esperando una mejor aproximación en muestras finitas. [Esto porque, si N → ∞,
entonces h · F → χ2 (h)].
Luego,
2
θˆj
W =
N −1 ĉjj
con ĉjj es el i-ésimo elemento de la diagonal de Ĉ. Tomando raı́z cuadrada se obtiene
que:
θ̂j d
t = →
− N [0, 1]
se[θ̂j ]
p
bajo H0 . donde además, se[θ̂j ] = N −1 ĉjj es el error estándar asintótico de θ̂j . El test-t (a
diferencia de W ) se puede utilizar como test de 1 cola.
56
√
Notar que formalmente W es un z-statistic (es Normal), pero se usa ‘t’ por convención.
En muestras finitas, algunos software usan distribución normal y otros t para computar
p-values e intervalos de confianza. Notar que en muestras finitas ninguno es completamente
correcto (a menos que se tenga el caso lineal con errores normales).
∂ 2 QN (θ)
ÂH =
∂θ∂θ0 θ̂
∂ 2 QN (θ)
ÂEH = E
∂θ∂θ0 θ̂
ÂH no requiere supuestos de distribución, pero ÂEH es más probable de ser negativa
definida e invertible.
57
Esto se puede simplificar con supuestos simples a:
N
1 X ∂qi (θ) ∂qi (θ)
B̂OP = ·
|{z} N i=1 ∂θ θ̂ ∂θ0 θ̂
Outer Product
For cross-section data the observations (yi , xi ) are independent over i with condi-
tional density!
log-normal son utilizadasfunction f (yi |xi , θ).deThen
en modelos by independence the joint conditional density
duración.
N
f (y|X, θ) = i=1 f (yi |xi , θ), leading to the (conditional) log-likelihood function
N
1 "
Q N (θ) = N −1 L N (θ) = ln f (yi |xi , θ), (5.39)
N i=1
3.4 MC No Lineales
where we divide by N so that the objective function is an average.
Capı́tulo
Resultsa extend to multivariate data, V, pág.
La generalización Mı́nimos Cuadrados Nosystems of equations,
Lineales and panel
se da a través de data by re-
la generalización de
placing the scalar yi by vector yi and letting f (yi |xi , θ) be the joint density of yi 150-151
la función conditional on xi . See de
de valor esperado alsolaSection 5.7.5.
variable:
donde yAcross
es unaescalar,
wide range
g(·)ofesdata
unatypes the following
función method
particular, X esiselused to generate
vector fully explicati-
de variables
parametric cross-section regression models. First choose the one-parameter or two-
vas y βk×1 parameter
es el vector desome
(or in parámetros. El modelo MCO
rare cases three-parameter) es el caso
distribution thatparticular en for
would be used que se asume
the dependent variable y in the iid case studied in a basic statistics course. Then pa-
que E[yi |xi ] = X 0 β.
rameterize the one or two underlying parameters in terms of regressors x and para-
meters θ.
Some commonly used distributions and parameterizations are given in Table 5.3.
RazonesAdditional
para especificar
distributionslaaremedia
given incondicional comoalso
Appendix B, which unapresents
función no lineal
methods to drawson restric-
pseudo-random variates.
ciones como que ésta deba ser positiva o por la especificación de demandas, ofertas, costos o
For continuous data on (−∞, ∞), the normal is the standard distribution. The clas-
sical
gastos que estánlinear regression model
debidamente sets µ = x# β and assumes σ 2 is constant.
microfundados.
For discrete binary data taking values 0 or 1, the density is always the Bernoulli,
a special case of the binomial with one trial. The usual parameterizations for the
Bernoulli probability lead to the logit model, given in Table 5.3, and the probit model
El problema que se# soluciona es análogo al de MCO. Se busca minimizar la suma de los
with p = Φ(x β), where Φ(·) is the standard normal cumulative distribution function.
These models
errores al cuadrado, are analyzed
donde in Chapter
los errores 14.
se definen como yi − g(xi , β).
For positive continuous data on (0, ∞), notably duration data considered in Chap-
ters 17–19, the richer Weibull, gamma, and log-normal models are often used in addi-
tion to the exponential given in Table 5.3.
For integer-valued count data taking values 58 0, 1, 2, . . . (see Chapter 20) the richer
negative binomial is often used in addition to the Poisson presented in Section 5.2.1.
Setting λ = exp(x# β) ensures a positive conditional mean.
Notar que MV y MCO no lineales en sus versiones más estándar se pueden estimar di-
rectamente en los paquetes estadı́sticos. En otros casos menos estándar de funciones de
densidad, paquetes como STATA proveen una rutina en que el usuario provee la función de
densidad, y eventualmente la primera derivada, y hasta la segunda.
59
4 Método Generalizado de momentos y Sistema de
Ecuaciones (Clases 8,9)
CLASE
14
Capı́tulo
• El MM y GMM es más amplio que MV y MCO no lineales. VI, pág.
166-167.
• Estos estimadores se basan en el principio de analogı́a en que las condiciones de mo-
mentos muestrales llevan a condiciones de momentos poblacionales.
60
Entonces,
E[X(y − X 0 β)] = 0
E[Z(y − X 0 β)] = 0
que corresponde al estimador lineal de VI. Esto muestra que el estimador lineal de VI es
un caso particular de MM.
61
4.1.3 Datos de Panel
Capı́tulo
VI, pág.
Suponga yit = x0it β + uit con i=individuo y t=tiempo. Se puede estimar vı́a MM con la
167-168
‘muestra completa’ (pooled sample) basado en la condición E[xit uit ] = 0.
Con datos de panel, se puede usar condiciones de momento adicionales. Por ejemplo,
suponga que se asume que E[xst uit ] = 0 para s 6= t. Esto provee una condición de momento
adicional que puede ser usada para obtener una estimación más eficiente.
Ejemplos:
• Demanda por distintos commodities en un momento del tiempo para muchos individ-
uos.
• En datos de panel, en que una ecuación es observada en varios momentos del tiempo
para distintos individuos
– Ganancia en eficiencia.
62
4.2.1 Sistema de Ecuaciones Lineales
Capı́tulo
VI, pág.
Con G variables dependientes, se tiene un marco como:
207-208
yi = Xi β + ui i=1,...,N
Se asume inicialmente que los errores no están correlacionados entre individuos, E[ui ·
u0j ] = 0 para i 6= j, pero puede haber variaciones a través del individuo, de modo que la
matriz de varianzas condicional para el i-ésimo individuo será: Ωi = E[ui · u0i |Xi ].
y1 X1 u
1
.. . .
. = .. β + ..
yn Xn un
| {z } | {z } | {z }
y X u
β̂M CO = (X 0 X)−1 X 0 Y
β̂V I = (Z 0 X)−1 Z 0 Y
β̂M CO = (X 0 X)−1 X 0 Y
N
!−1 N
X X
= Xi0 Xi Xi0 yi
i=1 i=1
63
El estimador es asintóticamente normal y, asumiendo independencia entre los individuos
i, la estimación sándwich robusta se puede seguir aplicando:
N
!−1 N N
!−1
X X X
V̂ [β̂SM CO ] = Xi0 Xi Xi0 ûi û0i Xi Xi0 Xi
i=1 i=1 i=1
Esta estimación permite que las varianzas y covarianzas condicionales sean distintas entre
individuos. Si existe esa correlación a nivel de individuo, se puede utilizar esta información
para obtener estimadores más eficientes.
−1 −1 −1
Ωi 2 yi = Ωi 2 Xi β + Ωi 2 ui
−1
donde Ωi es la matriz de varianza y covarianzas E[ui u0i ]. El error transformado Ωi 2 ui
tiene media igual a cero y varianza:
−1 −1 −1 − 12
E[(Ωi 2 ui )0 (Ωi 2 ui )|Xi ] = Ωi 2 E[u0i ui |Xi ]Ωi
−1 − 12
= Ωi 2 Ωi Ωi
= IG
De modo que MCO es eficiente porque los nuevos errores son homocedásticos y no cor-
Los nuevos errores son homocedásticos !!
relacionados a través de las G ecuaciones.
La implementación requiere conocer Ωi = Ωi (γ), lo que se hace vı́a Ωi (γ̂), donde γ̂ es una
estimación consistente de γ, dando origen a MCGF en sistema de ecuaciones:
64
N
!−1 N
X X
β̂SM CGF = Xi0 Ω̂−1 Xi Xi0 Ω̂−1 yi
i=1 i=1
N
!−1 N N
!−1
X X X
V̂ [β̂M CO ] = Xi0 Ω̂−1
i Xi Xi0 Ω̂−1 0 −1
i ûi ûi Ω̂i Xi Xi0 Ω̂−1
i Xi
i=1 i=1 i=1
N
1 X
Ω̂ = ûi û0i
N i=1
h i−1
0 −1 0 −1
β̂SM CGF = X (Ω̂ ⊗ IN )X X Ω̂ ⊗ IN y 0
65
Por ejemplo, datos de demanda de G bienes para N individuos, donde yig es el gasto en
el bien g del individuo i.
P −1 P
N 0 N
β̂ i=1 Xi1 Xi1 i=1 Xi1 yi1
1
.. ..
. =
.
−1
PN 0
PN
β̂G i=1 XiG XiG i=1 XiG yiG
Lo que es equivalente a MCO en cada ecuación (al tratar los errores como no relaciona-
dos). Al usar MCGF se puede obtener mejores estimaciones.
66
que es similar al sistema de G ecuaciones ahora con T ecuaciones y β constante entre los
perı́odos t. Ası́, el estimador de Panel MCO puede expresarse como:
N X
T
!−1 N X
T
X X
β̂P M CO = Xit Xit0 Xit yit
i=1 t=1 i=1 t=1
67
5 Test de Hipótesis (Clases 10,11,12)
CLASE
15
Capı́tulo
Repaso distribuciones: VII,
pág.
223.
Z ∼ N (0, 1)
Z 2 ∼ χ21
N
X
Zi2 ∼ χ2N
i=1
xi /a
F (a, b) ∼ con xi ∼ χ2a , yi ∼ χ2b
yi /b
• Consideraciones prácticas:
– El test puede tener el ‘tamaño equivocado’: Se cree que es 5%, pero puede ser
mucho más. Tı́picamente ocurre en muestras pequeñas. La solución puede ser
utilizar Bootstrap.
– Los test pueden tener bajo ‘poder’ (existe baja probabilidad de rechazar H0
cuando H0 es incorrecta). Poder del test -> probabilidad de rechazar H_{0} cuando es incorrecta.
68
5.1.1 Hipótesis Lineales en modelos Lineales
Capı́tulo
Se parte del caso lineal para luego generalizar. VII,
pág.
224-225
Para un test lineal de 2 colas de un modelo y = X 0 β + u:
H0 : Rβ0 − r = 0
Ha : Rβ0 − r 6= 0
R es de h x K
1 0 0 0 1
R= , r=
0 1 −1 0 2
El test de Wald de Rβ0 − r = 0 es un test de cercanı́a a cero del análogo muestral Rβ̂ − r,
donde β̂ es la estimación no restringida por MCO.
Bajo el supuesto fuerte que u ∼ N (0, σ02 I), se tiene que β̂ ∼ N (β0 , σ02 (X 0 X)−1 ) y entonces
Rβ̂ − r ∼ N (0, σ02 R(X 0 X)−1 R0 ). Tomando la forma cuadrática:
d
W2 = (Rβ̂ − r)0 [s2 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2h
69
Con errores normales, bajo la hipótesis lineal, se puede encontrar la distribución exacta
en muestras pequeñas:
W2
W3 = ∼ F (h, n − k)
h
2
P
i ûi
con s2 = n−k
donde û es el residuo de estimar por MCO.
H0 : h(θ0 ) = 0
Ha : h(θ0 ) 6= 0
Ejemplos lineales:
h(θ0 ) = θj = 0
h(θ0 ) = θ2 = 0
Ejemplos no lineales:
θ1
h(θ0 ) = −1=0
θ2
70
5.1.3 El estadı́grafo de Wald
Capı́tulo
a
La intuición implica que h(θ̂) ' 0. Si h(θ̂) ∼ N (0, V [h(θ̂)]) bajo H0 , entonces: VII,
pág.
h i−1
a 226-229
W = h(θ̂)0 V [h(θ̂)] h(θ̂) ∼ χ2h
Usando una expansión de Taylor de primer orden bajo la hipótesis nula, h(θ̂) tiene la
misma distribución lı́mite que:
∂h(θ)
R(θ0 )(θ̂ − θ0 ) = (θ̂ − θ0 )
∂θ0 θ0
Entonces h(θ̂) es asintóticamente normal bajo H0 con media cero y matriz de varianzas
√
R(θ0 )V [θ̂]R(θ0 )0 . Un estimador consistente es: R̂N −1 Ĉ R̂0 , donde R̂ = R(θ̂) y N (θ̂ −
d
θ0 ) →
− N [0, C0 ], y Ĉ es un estimador consistente de C0 . Con esto se obtiene comúnmente el
estadı́grafo de Wald como:
Equivalentemente:
W
F = ∼ F (h, N − q)
h
71
Si N → ∞ entrega el mismo p-value.
Para una sola restricción, la raı́z de W es una normal estándar, lo que permite un test
de una cola. Para h(θ) escalar, el estadı́grafo de Wald z-test:
ĥ
WZ = p
r̂N −1 Ĉ r̂0
∂h(θ)
con ĥ = h(θ̂); r̂ = ∂θ0
es de 1 x k.
θ̂
También si N → ∞, entonces WZ ∼ tN −q .
Ojo que hay variadas formas de estimar consistentemente C0 ⇒ hay variados valores para
el test de Wald.
−1
1
ĉ ĉ ···
θ1
2 h i 11 12 θ2
−θ1
W =N − 1 · θ1 0 ĉ21 ĉ22 · · · −θ
1
θ2 θ22 θ2
2
.. .. . .
. . . 0
a
W = N [θ̂2 (θ̂1 − θ̂2 )]2 (θ̂22 ĉ11 − 2θ̂1 θ̂2 ĉ12 + θ̂12 ĉ22 )−1 ∼ χ2(1) bajo H0
√ a
W ∼ N (0, 1) bajo H0
72
5.1.4 El Método Delta para construir Intervalos de Confianza
Capı́tulo
El método usado para derivar el test de Wald se llama método delta porque la aproximación VII,
pág.
de Taylor para h(θ̂) implica derivar h(θ). Este método también puede usarse para construir 231-232
intervalos de confianza.
Suponga que se quiere hacer inferencia sobre el vector γ = h(θ) que es estimado por
√ d
γ̂ = h(θ̂), donde la distribución lı́mite de N (θ̂ − θ0 ) →
− N (0, C0 ).
√ √
Dado que N (h(θ̂) − h(θ0 )) = R(θ+ ) N (h(θ̂) − h(θ0 )) con θ+ ∈ (θ̂, θ0 ). [Proviene de la
derivación del estadı́grafo con aproximación de Taylor alrededor de θ0 ]. Se tendrá que:
√ d
− N [0, R0 C0 R00 ]
N (γ̂ − γ0 ) →
∂h(θ)
donde R(θ) = ∂θ0
.
γ ∈ γ̂ ± Z α2 · SE[γ̂]
p
SE[γ̂] = r̂N −1 Ĉ r̂0
r̂ = r(θ̂)
∂γ ∂h(θ)
r(θ) = =
∂θ0 ∂θ0
Ejemplos:
73
cuando X = Xp . Entonces,
h(β) = exp(Xp0 β)
∂h(β)
= exp(Xp0 β)Xp0
∂β 0
q
0 0
SE[exp(Xp β̂)] = exp(Xp β̂) · Xp0 N −1 ĈXp
(ii) Suponga que se busca un IC para exp(β) en vez de β (un coeficiente escalar). Entonces:
h(β) = exp(β)
∂h(β)
= exp(β)
∂β
SE[exp(β̂)] = exp(β̂) · SE[β̂]
Cabe señalar que el método delta genera intervalos simétricos alrededor de γ̂. En el
último ejemplo existirı́a el problema que se podrı́a predecir un IC con valores negativos
cuando exp(β) > 0 por definición. Esto último se puede corregir tomando exponencial
de los términos en el IC:
⇒ P r[exp(β̂ − 1.96 · SE[β̂]) < epx(β) < exp(β̂ + 1.96 · SE[β̂])] = 0.95
74
Se define θ̂u como el vector de parámetros estimado por MV en el modelo no restringido.
θ̃r corresponde al vector de parámetros estimado en el modelo restringido.
L = ln(L(θ)) − λ0 h(θ)
Los tres test convergen a una distribución χ2(h) bajo la hipótesis nula.
La demostración es un poco compleja, por lo que sólo se verá un esquema. Por simpli-
cidad, se considerará el caso simple en que H0 : θ = θ, de modo que no habrı́a error de
estimación en θ̃r = θ. Tomando una expansión de Taylor de segundo orden de ln(L(θ)) en
75
torno a ln(L(θ̂u )) se obtiene:
2
∂lnL 1 0 ∂ lnL
ln(L(θ)) = ln(θ̂u ) + (θ − θ̂u ) + (θ − θ̂u ) (θ − θ̂u ) + R
∂θ0 θ̂u
2 ∂θ∂θ0 θ̂u
∂lnL
donde R es un término de residuo. Dado que por las CPO ∂θ = 0, se obtiene:
θ̂u
2
0 ∂ lnL
−2[ln(L(θ)) − ln(L(θ̂u ))] = −(θ − θ̂u ) (θ − θ̂u ) + R
∂θ∂θ0 θ̂u
√
h i−1
d ∂ 2 lnL
Dado que N (θ̂u − θ) →
− N 0, plim ∂θ∂θ0 , entonces el lado derecho de la ecuación
converge a una χ2(h) bajo H0 : θ = θ.
∂lnL
La implementación requiere conocer la distribución asintótica de ∂θ
. Ası́ se obtiene
θ̃u
el estadı́grafo:
∂lnL ∂lnL
−N −1 Ã−1
LM =
∂θ0 θ̃r ∂θ0 θ̃r
76
5.2.3 Test de Wald
Capı́tulo
VII,
La motivación es que si H0 es cierto, θ̂u debiera satisfacer las restricciones de H0 , entonces
pág.
h(θ̂u ) deberı́a ser muy cercano a cero. 234
V [θ̂u ] = −N −1 · A−1
0
2
−1 ∂ lnL
A0 = plim N
∂θ∂θ0 θˆu
Esto implica que el test de Wald queda como:
h i
0 −1
W = −N · ĥ · R̂ · Â · R̂ · ĥ
ĥ = h(θ̂u )
R̂ = R(θ̂u )
∂h(θ)
R =
∂θ0
y  es una estimación consistente de Ao (Ao es negativa definida, por lo que lleva signo
(-) delante).
LR = 2 [lnL(y) − lnL(µ∗ )] = N (y − µ∗ )2
77
El test de Wald se basa en que y − µ∗ ' 0, de modo que es fácil demostrar que y − µ∗ ∼
N 0, N1 bajo H0 , lo que lleva a la forma cuadrática:
−1
1 ∗
W = (y − µ ) (y − µ∗ )
N
∂ 2 lnL(µ)
Dado que Ã(µ∗ ) = −1 porque ∂µ2
= −N . Entonces,
LM = N −1 (N (y − µ∗ )) [−1]−1 (N (y − µ∗ )) = N (y − µ∗ )2
de modo que W = LR = LM .
En este caso de curvatura constante de la función de verosimilitud, los tres tests son
idénticos. En general en muestras finitas difieren, siendo asintóticamente equivalentes.
Suponga que y dado x se distribuye como una Poisson con media condicional exp(X 0 β).
Entonces, el log de la función de verosimilitud será:
N
X
lnL(β) = {−exp(Xi0 β) + yi Xi0 β − ln(y!)}
i=1
78
y la matriz de varianza lı́mite será −A−1 , con
N
X
−1
A = −plim N exp(Xi0 β)Xi Xi0 .
i=1
El test LR se calcula entonces con los valores maximizados de las funciones de verosimil-
itud del modelo restringido y no restringido.
El test LM se basa en :
N
∂lnL(β) X
= (yi − exp(Xi0 β)) Xi
∂β i=1
0
donde ũi = yi − exp(X1i β̃1 ) es el residuo de la estimación restringida. Por lo tanto, el
test LM queda como:
" N
#0 " N
#−1 " N
#
X X X
0
LM = Xi ũi exp(X1i β̃1 )Xi Xi0 Xi ũi
i=1 i=1 i=1
79
1. Los tres tests son asintóticamente distribuidos χ2(h) .
80
5.3 Poder y Tamaño de los Tests
CLASE
16
Capı́tulo
Cuando un test tiene poca capacidad para diferenciar entre una hipótesis nula y una alter- VII,
pág.
nativa se dice que “tiene poco poder”, lo que implica que la probabilidad de rechazar la 246-247
hipótesis nula cuando es falsa, es baja. No siempre los softwares reportan el valor del poder,
pero se puede obtener por métodos de Monte Carlo.
Por otro lado, el “tamaño verdadero del test” puede variar significativamente del valor
nominal obtenido por teorı́a asintótica. La regla de oro que para una variable en que el
tamaño muestral es N > 30 es suficiente para resultados asintóticos, no se cumple para
modelos con múltiples regresores. La aproximación es peor en las colas de las distribuciones,
que son justamente lo que se utiliza para los tests. Usualmente el valor crı́tico está sub-
estimado. Se puede corregir el valor crı́tico vı́a Monte Carlo.
Decisiones correctas:
• Rechazar H0 si H0 es falsa.
• No Rechazar H0 si H0 es correcta.
Errores:
81
Tı́picamente se define la probabilidad de error Tipo I (usualmente 5%) y se deja la prob-
abilidad del error Tipo II no especificada.
α = P r [Error Tipo I]
Si la probabilidad de error Tipo II tiende a cero, el poder tiene a 1 (caso ideal). Para de-
terminar el poder de un test se requiere conocimiento acerca de la distribución del estadı́grafo
bajo Ha . En general siempre se puede determinar el poder de un test para cualquier caso
aplicado.
donde Φ(·) es la cdf de una normal estándar, x ∼ N [0, 1], (β1 , β2 ) = (0, 1), u ∼ N [0, 1] e
1 si x + u > 0
y=
0 si no
82
En el ejercicio de Monte Carlo se generán N observaciones de x e y, y se estima por MV
(también se puede mantener x y simular N valores de y).
Para establecer el “tamaño real del test” se requiere muchas simulaciones, porque se basa
en la cola de la distribución.
Entonces, en 95% de los casos el ejercicio de Monte Carlo estimará tamaño del test en el
q
intervalo α ± 1.96 α(1−α)
S
.
Ejemplo de Bootstrap:
Bootstrap es una variante de simulaciones de Monte Carlo que requiere de menos supuestos
de parametrización y poco esfuerzo de programación más allá del original para estimar el
modelo.
Se requiere que el estimador verdadero tenga distribución lı́mite y que las muestras de
bootstrap sean iid.
83
Bootstrap tiene dos casos generales. Primero, se puede usar como un método alternativo
para calcular errores estándar sin tener que hacer refinamientos asintóticos (por ejemplo
cuando las fórmulas analı́ticas son complejas). Segundo, para obtener un refinamiento de la
teorı́a asintótica usual de estadı́grafos en muestras finitas.
Suponga que se genera una muestra del tamaño N = 40, y se estima β̂M V = 0.817 y
1−0.817
se[β̂M V ] = 0.294. Se obtiene entonces un z − stat = 0.294
= −0.623. Bajo teorı́a asintótica
z0.25 = 1.96, de modo que H0 no se rechaza.
Con B = 1.000 por ejemplo se encuentra que el intervalo fue (-1.89,1.80) en vez de ±1.96.
84
6 Test de Especificación y Selección de Modelos (Clases
13,14)
6.1 Test de Hausman Compara dos estimadores.
CLASE
17
Capı́tulo
Los test de comparación de dos estimadores normalmente se llaman test de Hausman (1978). VIII,
pág.
271-273
Considere un test de endogeneidad de 1 regresor en una ecuación. Alternativas son OLS
y 2SLS, donde se utiliza instrumentos para controlar la posible endogeneidad.
85
El test de Hausman se puede aplicar a un subconjunto de parámetros. Por ejemplo,
sólo al coeficiente del regresor potencialmente endógeno. (Ojo que la conclusión puede ser
distinta que si se aplica a todos los parámetros).
Si θ̂ es el estimador eficiente bajo H0 , entonces Cov[θ̂, θ̃] = V [θ̂]. Entonces, V [θ̂ − θ̃] =
V [θ̃] − V [θ̂], de modo que:
h i−1
H = (θ̂ − θ̃)0 V̂ [θ̃] − V̂ [θ̂] (θ̂ − θ̃)
En el ejemplo, bajo H0 θ̂OLS es eficiente y θ̂2OLS también. Se debe tener cuidado en que
la estimación de V̂ [θ̃] y V̂ [θ̂] debe ser consistente y que utilicen la misma estimación de la
varianza de los errores σ 2 .
(θ̂ − θ̃)
H = ∼ χ2(1)
S̃ 2 − Ŝ 2
Un test de endogeneidad de los regresores compara MCO vs VI. Si los regresores son
endógenos, la distribución lı́mite diferirá, pero si son exógenos serán iguales. De este modo,
86
una diferencia importante entre MCO y VI se puede interpretar como evidencia de endo-
geneidad.
Ojo que se puede demostrar que V̂ [β̃] − V̂ [β̂] no es de rango completo, por lo que se
requiere una inversa generalizada con grados de libertad igual a dim(β1 ).
Pero Hausman (1978) muestra que se puede testear de manera más simple en una re-
gresión de MCO aumentada:
testeando γ = 0, donde X̂1 es el valor predicho del regresor endógeno en la forma reducida
de la regresión multivariada de X1 en los instrumentos Z.
87
En corte transversal se debe presumir heterocedasticidad, por lo que esta forma de testear
es muy útil si se usan los errores estándar estimados robustamente.
También se puede hacer otros tests simples con regresores exógenos y potencialmente
exógenos, ası́ como generalizaciones para MCNL. También se puede hacer un Sargan test
(OIR - Over Identification Restrictions) y sus generalizaciones.
y = X 0β + u
asumiendo que los regresores entran de manera lineal y no están correlacionados con el
error. Una manera directa de testear por no linealidad es incluir funciones de potencia de
los regresores exógenos, tı́picamente al cuadrado, como regresores adicionales y testear la
significancia de esas variables adicionales con un test de Wald o F .
Notar que se requiere tener buenas razones para suponer no linealidades, y que esto no
funciona con regresores categóricos (variables categóricas).
Ramsey propuso un test de variables omitidas. La idea es obtener una regresión ini-
cial y generar nuevos regresores. Entonces, con ŷ = X 0 β̂ se crean nuevos regresores W =
[(X 0 β̂)2 , (X 0 β̂)3 , ..., (X 0 β̂)p ] = [ŷ 2 , ŷ 3 , ..., ŷ p ].
88
6.3 Discriminación entre modelos no anidados
Capı́tulo
VIII,
Un modelo es anidado si es un caso particular de otro. Discriminar entre modelos anidados
pág.
es simple a través de un test de hipótesis de restricciones sobre los parámetros. 278
La intuición es que existe una tensión entre el ajuste de un modelo (medido por el valor
maximizado de la función de verosimilitud), y el principio de parsimonia que favorece a un
modelo simple. El ajuste del modelo puede mejorar con un modelo más complejo, pero el
equilibrio se busca en la medida que ello compense la pérdida de parsimonia.
Los diferentes criterios de información varı́an de acuerdo a qué tan fuerte se penaliza la
complejidad del modelo.
AIC = −2lnL + 2q
[Notar que lnL es siempre negativo, y que mientras mayor la probabilidad L, más bajo
será su valor absoluto].
−2lnL + g(q, N )
donde g(q, N ) representa otro ajuste asociado a los grados de libertad que penaliza más
que 2q.
89
(b) Bayesian Information Criterion (BIC) (Schwarz, 1978):
(c) Otros
90
t-value N
2.15 102 =100
3.03 104 =10000
3.72 106 =1000000
Generalizando, para un estadı́grado con distribución χ2(h) , el criterio BIC sugiere usar un
valor crı́tico h · lnN en vez de χ20.05 (h).
Si bien los Criterios de Información se utilizan para selección de modelos, debe primar el
concepto de “para qué se quiere utilizar el modelo”.
91
Ejemplo: [Dibujar datos de una cúbica] ¿Cuál modelo es mejor: lineal, cuadrático,
cúbico?
|
| *
| * *\*
| * * * \ * **
| * *\ * *
| **\* *
| * *\ * *
| *\ * *
| **\* *
| * * \ * *
| * * \ * * *
| * * \ * * * *
| * \* *
| \
|_________________________________
92
6.4 Diagnóstico de Modelos
Capı́tulo
En modelos lineales con K regresores, la medida más directa de bondad de ajuste es el error VIII,
pág.
estándar de la regresión: 287 y
Capı́tulo
XV, pág
# 12
499.
" N
1 X
S = · (yi − ŷi )2
N − K i=1
N
X N
X N
X N
X
2 2 2
(yi − y i ) = (yi − ŷi ) + (ŷi − y i ) + 2 (yi − ŷi )(ŷi − y i )
|i=1 {z } |i=1 {z } |i=1 {z } | i=1
{z }
T SS RSS ESS =0 en modelo lineal con intercepto
2 RSS
RRES = 1−
T SS
2 ESS
REXP =
T SS
2 2
En MCO con intercepto RRES = REXP , pero en otros modelos no.
lnL̂completo
Pseudo R2 de McFadden = 1 −
lnL̂intercepto
93
lnL̂completo
lnL̂intercepto
≈ nivel de mejoramiento que se obtiene con modelo completo.
Dado que L es una probabilidad, ∈ [0, 1]. Luego, el logaritmo de un número que está
entre [0, 1] ∈ [−∞, 0].
Si L̂completo es mayor que L̂intercepto , entonces lnL̂completo > lnL̂intercepto , es decir, menos
negativo. Ahora bien, como es una razón, se cancelan los negativos. Luego, en valor absoluto
se da que |lnL̂intercepto | > |lnL̂completo |. De esta forma, si el modelo completo aumenta la
probabilidad, entonces el Pseudo-R2 aumenta.
Adicionalmente existe una expresión del Pseudo-R2 de McFadden ajustado, que penaliza
la inclusión de muchos regresores:
lnL̂completo − k
Pseudo R2 de McFadden Ajustado = 1 −
lnL̂intercepto
94
PN
− ŷj(i) )2
j=1 (ŷj
Di =
k · M SE
ŷj = Valores predichos con la muestra completa
k = Número de regresores
En esencia, la distancia de Cook mide cómo se afecta la predicción promedio del modelo
al incluir una observación en particular.
4
Di >
N − (k + 1)
Se debe considerar investigar esa observación.
Ejemplo STATA:
sysuse auto
reg price mpg
predict Di, cooksd
6.6 Multicolinealidad
Ocurre cuando los regresores están correlacionados entre si (es casi imposible encontrar cor-
relación empı́rica igual a cero).
95
• Método de recolección de información utilizada (se usa una submuestra muy particu-
lar).
3. Los coeficientes tienen signos opuestos a los esperados por la economı́a, o tienen mag-
nitudes poco creı́bles.
1
V IFk = .
1 − Rk2
La “regla de oro” es que si V IFk > 10 se debe estudiar eliminar del modelo la variable
k.
96
7 Métodos Semiparamétricos (Clases 15,16)
CLASE
18
Capı́tulo
Se busca minimizar los supuestos respecto al proceso de generación de datos. IX, pág.
294-297
Estos métodos tienen múltiples usos, entre los que destacan descripción de datos, simu-
laciones y análisis exploratorio.
Los modelos no paramétricos limitan el análisis multidimensional, por lo que los econometris-
tas prefieren modelos semiparamétricos. Estos modelos incluyen un componente paramétrico,
que captura la multidimensionalidad sin hacer el modelo intratable, y agregad un compo-
nente no paramétrico.
La teorı́a asintótica difiere de la usual, donde los métodos no paramétricos suelen tener
convergencia asintótica más lenta.
Por otro lado, los modelos no paramétricos son métodos de promedios locales, de modo
que la definición de “local” también determina los resultados. Es común utilizar el método
poco cientı́fico de escoger un ancho de banda para definir localidad de acuerdo a lo que se
vea bien gráficamente.
En general se dice que todos los métodos de ‘suavización’ son, en un sentido asintótico,
equivalentes a la suavización de Kernel.
97
SEMIPARAMETRIC METHODS
.6
A continuación se presentan ejemplos de estos métodos:
.4
Density
1. Histograma:
.2
SEMIPARAMETRIC METHODS
0
0 1 2 3 4 5
.6
Log Hourly Wage
Figure 9.1: Histogram for natural logarithm of hourly wage. Data for 175 U.S. women aged
36 years who worked in 1993.
.4
Density
unusually narrow bin width for only 175 observations, but many details are lost with
.2
a larger bin width. The log-wage data seem to be reasonably symmetric, though they
are possibly slightly left-skewed.
0
The standard smoothed nonparametric density estimate is the kernel density esti-
0 1 2 3 4 5
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
Log Hourly Wage
The essential decision in implementation is the choice of bandwidth. For this ex-
FigureSilverman’s
ample 9.1: Histogram for natural
plug-in logarithm
estimate of hourly
defined wage.
in (9.13) Databandwidth
yields for 175 U.S.
ofwomen aged
h = 0.545.
36 years who worked in 1993.
Then the kernel estimate is a weighted average of those observations that have log
wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed
unusually narrowon bindata closest
width to the175
for only current point of evaluation.
observations, Figure are
but many details 9.2 lost
presents
with
2. three kernel
Kernela larger
con bin density estimates,
width. The log-wage
diferentes with
anchosdata bandwidths
de seem
Banda: of 0.273, 0.545 and 1.091, respectively
to be reasonably symmetric, though they
are possibly slightly left-skewed.
The standard smoothed nonparametric density estimate is the kernel density esti-
Density Estimates as Bandwidth Varies
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
The essential decision in implementation is the choice of bandwidth. For this ex-
.8
One-half plug-in
ample Silverman’s plug-in estimate defined in (9.13) yieldsPlug-inbandwidth of h = 0.545.
Kernel density estimates
wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed on data closest to the current point of evaluation. Figure 9.2 presents
.4
three kernel density estimates, with bandwidths of 0.273, 0.545 and 1.091, respectively
.2
0 1 2 3 4
One-half 5
plug-in
Log Hourly Wage Plug-in
Kernel density estimates
Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.
.4
296
.2
0
0 1 2 3 4 5
Log Hourly Wage
Figure 9.2: Kernel density estimates for log wage for three different bandwidths using the
Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.
296
98
Figure 9.3 gives a scatter plot of log wage against education and three Lowess
regression curves for bandwidths of 0.8, 0.4 and 0.1. The first two bandwidths give
similar curves. The relationship appears to be quadratic, but this may be speculative as
the data are relatively sparse at low education levels, with less than 10% of the sample
having less than 10 years of schooling. For the majority of the data a linear relationship
may also work well. For simplicity we have not presented 95% confidence intervals or
3. Regresión Nomight
bands that paramétrica:
also be provided.
5
Actual data Bandwidth h=0.8
Bandwidth h=0.4 Bandwidth h=0.1
4
Log Hourly Wage
3
2
1
0
0 5 10 15 20
Years of Schooling
Figure 9.3: Nonparametric regression of log wage on education for three different band-
widths using Lowess regression. Same sample as Figure 9.1.
297
En todos los casos anteriores se puede mostrar curvas por distinto género, ubicación
geográfica, o nivel socioeconómico por ejemplo.
7.2 Histograma
Capı́tulo
Un histograma es una estimación de densidad formada a través de dividir el rango de x en IX, pág.
298
intervalos con igual espaciado y calcular la fracción de la muestra en cada intervalo.
Una definición más formal (que se extiende luego a la suavización Kernel) es la siguiente:
99
Para una muestra {xi , i = 1, ..., N } de tamaño N, esto sugiere utilizar el estimador:
N
1 X 1(x0 − h < xi < x0 + h)
fˆHIST (x0 ) =
N i=1 2h
Nótese que el estimador pondera de la misma manera a cada una de las observaciones en
el intervalo x0 ± h, y se puede reescribir como:
N
xi − x0
1 X1
fˆHIST (x0 ) = · 1 <1
N h i=1 2 h
Esto lleva a que, si bien la variable es continua, se obtiene una step function o función
discontinua escalonada.
100
7.3 Estimador de Densidad Kernel
Capı́tulo
IX, pág.
Rosenblatt (1956) generaliza el estimador del histograma usando una función de ponderación
299-300
alternativa:
N
xi − x0
1 X
fˆ(x0 ) = K
Nh i=1 h
donde la función de ponderación K(·) se llama “función Kernel” y debe satisfacer ciertas
propiedades. El parámetro h es un parámetro de suavizamiento llamado “ancho de banda”
(bandwith) y dos veces h es la “ventana”.
(iii) Ocurre: (a) K(z)=0 si |z| ≥ z0 para algún z0 , o : (b) |z|K(z) → 0 si |z| → ∞.
R
(iv) z 2 K(z)dz = κ =constante
101
Kernel Kernel Function K (z) δ
1
Uniform (or box or rectangular) 2
× 1(|z| < 1) 1.3510
Triangular (or triangle) (1 − |z|) × 1(|z| < 1) –
3
Epanechnikov (or quadratic)
SEMIPARAME
(1 − z 2 ) × 1(|z| < 1)
4 TRIC METHODS
1.7188
15
Quartic (or biweight) 16
(1 − z 2 )2 × 1(|z| < 1) 2.0362
Table
Triweight 35
9.1. Kernel Functions: Commonly
32
Used
(1 ) × 1(|z|a < 1)
2 3
− zExamples 2.3122
70
Tricubic 81
(1 − |z|3 )3 × 1(|z| < 1) –
Kernel Kernel Function 2K (z)
−1/2 δ
Gaussian (or normal) (2π) exp(−z /2) 0.7764
11
Uniform (or box
Fourth-order or rectangular)
Gaussian × 1(|z| 2< 1) −1/2
2 2 (3 − z) (2π) exp(−z 2 /2) 1.3510
–
Triangular (or quartic
Fourth-order triangle) (115−
(3|z|) × 1(|z|
− 10z 2
+ 7z<4 )1)× 1(|z| < 1) ––
32
3
Epanechnikov (or quadratic) 4
(1 − z 2 ) × 1(|z| < 1) 1.7188
a The constant δ is defined in (9.11) and is used to obtain Silverman’s plug-in estimate given in (9.13).
15 2 2
Quartic (or biweight) 16
(1 − z ) × 1(|z| < 1) 2.0362
35
Triweight 32
(1 − z 2 )3 × 1(|z| < 1) 2.3122
9.3.4. Kernel 70 Density 3 3Example
Tricubic 81
(1 − |z| ) × 1(|z| < 1) –
The key choice of bandwidth h has already−1/2
Gaussian (or normal) (2π) been illustrated
2
exp(−z /2) in Figure 9.2. 0.7764
Here we illustrate
Fourth-order Gaussian the choice of kernel
1 using2 generated
(3 − z) (2π) −1/2 data,
exp(−z /2)2 a random sample of
–
2
size 100 drawn from the N [0, 252 ] distribution. 15 2
For the4
particular sample drawn the
Fourth-order quartic (3 − 10z + 7z ) × 1(|z| < 1) –
sample mean is 2.81 and the sample standard 32 deviation is 25.27.
aFigure 9.4 shows the effect of using different kernels.plug-in
The constant δ is defined in (9.11) and is used to obtain Silverman’s For Epanechnikov, Gaussian,
estimate given in (9.13).
quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
9.3.4. Kernel Density Example
La estimates
elección are very es
del Kernel similar, even for the
nuevamente ununiform
tema kernel which produces
de preferencias a running
basado en que “se vea
histogram.
The Theofvariation
key choice bandwidth in density estimate
h has already with
been kernel choice
illustrated in Figureis much
9.2. less than the
bien”: variation
Here wewith bandwidth
illustrate choiceof
the choice evident
kernelinusing
Figure 9.2.
generated data, a random sample of
size 100 drawn from the N [0, 252 ] distribution. For the particular sample drawn the
sample mean is 2.81 and the sample standard deviation is 25.27.
Figure 9.4 shows the effectDensity of usingEstimates as Kernel Varies
different kernels. For Epanechnikov, Gaussian,
.6
quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
Kernel density estimates
estimates are very similar, even for the uniform kernel which produces a running
.4
Epanechnikov (h=0.545)
histogram. The variation in density estimate with kernel choice is much less than the
Gaussian (h=0.246)
variation with bandwidth choice evident in Figure 9.2.Quartic (h=0.646)
Uniform (h=0.214)
.2
0 1 2 3 4 5
Log Hourly Wage
.4
Epanechnikov (h=0.545)
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
Gaussian (h=0.246)
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.
Quartic (h=0.646)
Uniform (h=0.214)
.2
300
0
0 1 2 3 4 5
Log Hourly Wage
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.
300
102
7.4 Inferencia Estadı́stica
Capı́tulo
IX, pág.
(a) Media y Varianza El sesgo depende del ancho de banda. 301-305
Para encontrar el primer y segundo momento de fˆ(x0 ) se asume que la segunda derivada
R
de f (x) existe y es acotada; y que el kernel satisface zK(z)dz = 0.
El estimador de la densidad del Kernel es sesgado con un término de sesgo b(x0 ) que
depende del ancho de banda, de la curvatura verdadera de la función de densidad y del
Kernel utilizado:
Z
1
b(x0 ) = E[fˆ(x0 )] − f (x0 ) = h2 f 00 (xo ) z 2 K(z)dz
2
Z
1 1
V [fˆ(x0 )] = f (xo ) 2
K(z) dz + O
Nh Nh
con O(·) función de sesgo. La varianza depende del tamaño de la muestra, del ancho de
banda, de la verdadera función de densidad y del Kernel utilizado.
103
También se puede demostrar normalidad asintótica del Kernel.
Existe tensión entre escoger un ancho de banda pequeño para reducir el sesgo y elegir un
ancho de banda grande para asegurar suavizamiento [Hacer dibujo de histograma con
distintos anchos de banda]. Habitualmente se utiliza la métrica del Error Cuadrático
Medio (MSE).
Por otro lado, se puede demostrar que el Kernel óptimo es el Epanechnikov, pero el
MISE varı́a poco según el Kernel.
La elección del ancho de banda es más importante que la elección del kernel
La elección del ancho de banda es más importante que el Kernel. Silverman propuso un
plug-in estimate del ancho de banda como una función simple que depende de N y de la
desviación estándar muestral.
Usualmente se puede usar variaciones del plug-in. También se puede obtener intervalos
de confianza para la estimación Kernel.
104
7.5 Regresión No paramétrica Local
Capı́tulo
Variable dependiente e independiente son escalares: IX, pág.
307
yi = m(xi ) + i , i=1,...,N.
i ∼ iid(0, σ2 )
1
N0
Si xi = x0
ωi0 =
0 Si xi 6= x0
105
El peso varı́a con el punto de evaluación x0 y con el tamaño de la muestra en ese punto N0 .
PN
donde ωi0,h = ω(xi , x0 , h) y i=1 ωi0,h = 1, donde además los pesos aumentan cuando xi
se acerca a x0 . h es el parámetro de ancho de ventana.
Una alternativa son los ‘vecinos más cercanos’, para lo cual se debe utilizar una métrica
que permita seleccionar con cuáles vecinos se calculará el ponderador.
El estimador de regresión local lineal Lowess propone una estimación suavizada de m(x)
usando los Kernel como pesos. Ejemplo de vecino más cercano:
9.4. NONPARAMETRIC LOCAL REGRESSION
Actual Data
kNN (k=5)
Linear OLS
300
Dependent variable y
kNN (k=25)
250
200
150
0 20 40 60 80 100
Regressor x
Figure 9.5: k-nearest neighbors regression curve for two different choices of k, as well as
OLS regression line. The data are generated from a cubic polynomial model.
The slope of m
! (x) is flatter at the end points when k = 25 rather than k = 5. This
k
Lowess: illustrates a boundary problem in estimating m(x) at the end points. For example,
for the smallest regressor value x1 there are no lower valued observations on x
to be included, and the average becomes a one-sided average m !k (x1 ) = (y1 + · · · +
y1+(k−1)/2 )/[(k + 1)/2]. Since for these data m k (x) is increasing in x in this region,
this leads to m!k (x1 ) being an overestimate and the overstatement is increasing in k.
Such boundary problems are reduced by instead using methods given in Section 9.6.2.
350
Actual Data
Lowess (k=25)
Dependent variable y
OLS Cubic Regression
300
250
200
150
0 20 40 60 80 100
Regressor x
Figure 9.6: Nonparametric regression curve using Lowess, as well as a cubic regression
curve. Same generated data as Figure 9.5.
7.6 SubstitutingSemiparamétrica
Regresión yi = m(xi ) + εi into the definition of m
!(x0 ) leads directly to
N
" N
" Capı́tulo
!(x0 ) −
m wi0,h m(xi ) = wi0,h εi , IX, pág.
Combina un componente paramétrico i=1
y uno semi-paramétrico.
i=1
322-323
which implies with fixed regressors, and if εi are iid N [0, σε2 ], that
# $
El ejemplo más sencillo es el modelo" N
parcialmente2 " N
lineal:
2
!(x0 ) ∼ N
m wi0,h m(xi ), σε wi0,h . (9.18)
i=1 i=1
1/2
where c(N ) is a function of the sample size√ with O(c(N )) < N that can vary with
the local estimator. For example, c(N ) = N h for kernel regression and c(N ) = N 0.4
7.7 Consideraciones Prácticas
for kernel regression with optimal bandwidth. Then
# $ Capı́tulo
N
"
c(N ) (!
m (x0 )univariada
− m(x0 ) − b(xes
d 2 2 2 IX, pág.
La estimación de densidad 0 )) → N 0, y
sencilla lim c(N ) en w
σε directa los
i0,h paquetes
, (9.20)
actuales usando
i=1 333
Epanechnikov o gaussian Kernels.%
where b(x ) = m(x )−
0 w 0 i i0,h m(x i ). Note that (9.20) yields (9.18) for the asymp-
!(x0 ).
totic distribution of m
Clearly, the distribution of m!(x0 ), a simple weighted average, can be obtained un-
La der alternative distributional assumptions.
regresión no paramétrica univariada también For example, for heteroskedastic
es bastante errors
sencilla más allá del prob-
310En vez de un plug-in como punto de partida
lema de escoger un ancho de banda adecuado.
para el ancho de banda se utiliza el método de “validación cruzada” (leave-one-out) en que se
busca minimizar los errores de predicción ponderados dejando una observación fuera a la vez.
107
[Mostrar gráficos de Splines].
108
8 Modelos de Variable Dependiente Limitada (Clases
17,18,19)
Los modelos de variable dependiente limitada implican que la variable del lado izquierdo no
está definida en conjunto de los números reales, sino que tiene algún tipo de limitación en
los valores que puede tomar. Los casos más simples son los modelos binarios. Por otro lado,
casos más complejos son los modelos con truncamiento o censura, que dan origen a modelos
de selección y Tobit. Por último, otras variantes que no se verán en este curso incluyen
modelos de variables discretas ordenadas y modelos multinomiales.
Se escoge los valores 0 y 1 solo por simplicidad (podrı́an ser cualquier par de valores).
Asumiento inicialmente un solo regresor X, hacer MCO de yi en xi ignorarı́a la discreción
de la variable dependiente y no acotarı́a las probabilidades predichas entre 0 y 1.
109
BINARY OUTCOME MODELS
1.5
Actual Data (jittered)
Logit
Probit
Predicted probability
1
OLS
.5
0
-.5 -2 0 2 4
110
14.3. LOGIT AND PROBIT MODELS
where F ! (z) = ∂ F(z)/∂z. The marginal effects differ with the point of evaluation xi ,
as for any nonlinear model, and differ with different choices of F(·). The last column
(a) Modelos of Table 14.3 gives the
de Función marginal effects for the common binary outcome models.
Índice
Marginal effects for nonlinear models are discussed in Section 5.2.4. Given a spe-
Se asume cificlamodel
existencia
there arede unaways
several variable aleatoria
to compute subyacente
an average continua
marginal effect. notoobservada y ∗ .
It is best
"
use N −1 i F ! (xi! #β)# β j , the sample average of the marginal effects. Some programs
Lo únicoinstead
que se observa es una variable binaria y que toma
evaluate at the sample average of the regressors, F ! (x̄!# β)#
valor 1 o 0 de acuerdo a si
β j . An easily con-
structed
y ∗ es mayor measure que
o menor evaluates at ȳ, the
un cierto sample average of y, so that F(x! β) = ȳ and
umbral.
! ! ! −1
F (x β) = F (F ( ȳ)). This is especially simple for the logit model as then this yields
estimated marginal effect ȳ(1 − ȳ)# β j . Further discussion for specific models is given
in Sections 14.3.4–14.3.7.
SupóngaseMany que studies instead
y ∗ es una report only
variable the regression
latente que indica coefficients.
el “deseo Thede standard
trabajar”binaryen un modelo
outcome models are single-index models, so the ratio of coefficients for two different
de ofertaregressors
laboral.equals the ratio of natural
La regresión the marginal effects. The sign of the coefficient gives
serı́a:
the sign of the marginal effect, since F ! (·) > 0. The coefficients can be used to obtain
an upper bound on the marginal effects. For the logit model ∂ p/∂ x j ≤ 0.25# β j , since
"(x! β)(1 − "(x! β)) ≤ 0.25, with maximum when √ "(x! β) = 0.5 and x! β = 0. For the
probit model ∂ p/∂ x j ≤ 0.4# β j , since φ(x! β) ≤ 1/ 2π & 0.4, with maximum when
$(x β) = 0.5 and x β = 0.
! ! y∗ = X 0β + u
111
donde el umbral cero es una normalización (podrı́a ser cualquier valor para el umbral).
Entonces,
= P r[X 0 β + u > 0]
= P r[−u < X 0 β]
= F (X 0 β)
donde F (·) es la cdf de −u, que es igual a la cdf de u si ocurre que u se distribuye
simétricamente alrededor de cero.
Para obtener identificación de los parámetros se debe fijar la varianza del error. Por
π2
ejemplo, en el caso normal será V [u] = 1, y en el caso logı́stico V [u] = 3
.
UA = VA + A
UB = VB + B
112
donde VA,B son componentes determinı́sticos de la utilidad y A y B son componentes
aleatorios de la utilidad.
= P r[VA + A > VB + B ]
= P r[B − A < VA − VB ]
= F [VA − VB ]
∂P r[y = 1|Xi ]
= F 0 [Xi0 β]βj
∂Xij
∂F (Z)
donde F 0 (Z) = ∂Z
.
El efecto marginal cambia con el punto de evaluación Xi , como en cualquier caso general
de modelo no lineal. Existen tres tipos de efectos marginales:
113
N
1 X 0 0
· F [Xi β̂]β̂j
N i=1
0
F 0 [X β̂]β̂j
0
F 0 [X ∗ β̂]β̂j
Dado que F 0 (·) > 0, el signo del coeficiente indica el signo del efecto marginal.
Por otro lado, dado que el modelo binario es de ı́ndice simple, la razón de los efectos
marginales es igual a la razón de los coeficientes:
∂P r
∂Xij F 0 [Xi0 β]βj βj
∂P r
= 0 0
=
∂Xik
F [Xi β]βk βk
Es por esto que en muchos casos sólo se reportan los coeficientes (y no los efectos
marginales).
8.1.4 Estimación
Capı́tulo
XIV,
En el modelo binario, la función de probabilidad es (Bernoulli):
pág.
467-468
f (yi |xi ) = pyi i (1 − pi )1−yi , yi = 0, 1
0
donde pi = F (Xi β). Luego, se estimará utilizando el método de Máxima Verosimilitud
ya que permite estimar modelos no lineales cuando la función de distribución es conocida.
Entonces, el logaritmo de la verosimilitud viene dado por:
N
0 0
X
LN (β) = yi · ln F (Xi β) + (1 − yi ) · ln 1 − F (Xi β)
i=1
114
Lo que entrega las CPO:
N 0
X yi − F (Xi β) 0
0 0
· F (Xi β) · Xi = 0.
i=1
F (Xi β) 1 − F (Xi β)
E[y] = 1 · p + 0 · (1 − p) = p
115
p
Notar que 1−p
es la probabilidad que y = 1 en relación a la probabilidad que y = 0, lo
que se llama razón de probabilidades (odds-ratio en inglés). Entonces, en el caso logit, la
razón de probabilidades es lineal en los regresores.
Luego, si se estimó por ejemplo β̂j = 0.1, ello implica que la razón de probabilidades
aumentará en exp(0.1) ' 1.105; Es decir, aumentará en 10.5% (interpretación usual en
bioestadı́stica).
Por otro lado, la relación entre los coeficientes estimados por MCO, Probit y Logit se
puede caracterizar c través de la siguiente regla de oro:
116
8.1.6 Selección de Modelos
Capı́tulo
XIV,
Se utilizan los conceptos presentados anteriormente de pseudo-R2 y criterios de información,
pág.
sin haber alguna estrategia que domine a las otras. 473-474
117
8.2 Modelos de Selección y Tobit
CLASE
20
Capı́tulo
Son modelos en que la variable dependiente se observa de manera incompleta o cuando la XVI,
pág.
variable dependiente se observa de manera completa, pero solo para una muestra seleccionada 529-530,
que no es representativa de la población. muestra no aleatoria. 532
Lo que tienen en común es que incluso en caso de una parametrización lineal, MCO será
inconsistente.
y = g(y ∗ )
118
(b) Censura por la derecha (arriba)
y∗ si y ∗ < U
y=
U si y ∗ ≥ U
2. Truncamiento
y = y ∗ si y ∗ > L
y = y ∗ si y ∗ < U
2000
0
-2000
Uncensored Mean
1 2 3 4 5
This is a Tobit model, studied in detail in Section 16.3. The model implies that the
wage elasticity is 1000/y ∗ , which equals, for example, 0.5 for full-time work (2,000
8.2.2 Estimador
hours). Forde
eachMV para inmodelos
1% increase wage, annualdehours
censura
increaseybytruncamiento
10 hours.
∗ Capı́tulo
Figure 16.1 presents a scatter plot of y and ln w for a generated sample of 200
Los modelosobservations. The unconditional
de truncamiento y censura mean for y ∗ , which
modifican is −2500
tanto + 1000de
la función ln w, is given
densidad condicional XVI,
by the lowest curve, which is a straight line. pág.
como la mediaWith
condicional.
censoring at zero, negative values of y ∗ are set to zero because people with 533-534
negative desired hours of work choose not to work. For this particular sample this
is the case for about 35% of the observations. This pushes up the mean for low
119
wages, since the many negative values of the y ∗ are shifted up to zero. It has little
impact for high wages, since then few observations on y ∗ are zero. The middle curve
in Figure 16.1 gives the resulting censored mean, using the formula given later in
1. Censura por abajo
La función de densidad es:
f ∗ (y|X) si y > L
f (y|X) =
F ∗ (L|X) si y = L
Se permite que L varı́e por individuo, siendo Li , solo para mayor generalidad.
120
8.2.3 El Modelo Tobit
Capı́tulo
XVI,
El modelo de regresión normal con censura se llama Tobit (1958).
pág.
536-538
Se asume censura por abajo en cero y variable latente lineal en los regresores con error
aditivo:
y∗ = X 0β +
∼ N (0, σ2 )
Luego, y ∗ ∼ N (X 0 β, σ2 )
donde ‘-’ representa un dato faltante (missing value), pero usualmente es igual a cero.
y si y ∗ > L
β1 + X20 β2 + > L
F ∗ (0) = P r[y ∗ ≤ 0]
= P r[X 0 β + ≤ 0]
X 0β
= Φ −
σ
0
Xβ
= 1−Φ
σ
con Φ(·) cdf normal estándar.
121
1. Censura por abajo
Ameniya (1973) demostró que la teorı́a usual se aplica a este caso particular de mezcla
entre variable discreta y continua.
Si existe truncamiento por abajo, la función de verosimilitud del modelo Tobit será:
N 0
2
X 1 1 2
1 0 2 Xβ
lnLN (β, σ ) = − ln (2π) − ln σ − 2 (yi − Xi β) − ln Φ .
i=1
2 2 2σ σ
122
8.2.4 Medias condicionales en modelos de truncamiento y censura
Capı́tulo
1. Truncamiento por abajo (izquierda) XVI,
pág.
538-540
E[y] = E[y ∗ |y ∗ > 0]
123
2. Censura por abajo
E[y] = Ed Ey|d [y|d] /Por simplicidad se suprime notación condicional en x
En resumen, para el modelo lineal, con censura y truncamiento por abajo de cero, las
medias condicionales son:
Censura por izq. en cero: E[y|X] = P r[y ∗ > 0] · {X 0 β + E[| > −X 0 β]}
| {z }
P r[>−X 0 β]
124
Si Z ∼ N (0, 1), entonces los momentos truncados por izquierda son:
φ(c) φ(c)
(i) E[Z|Z > c] = y E[Z|Z > −c] =
1 − Φ(c) Φ(c)
1 + cφ(c)
(ii) E[Z 2 |Z > c] =
1 − Φ(c)
1 + cφ(c) φ(c)2
(iii) V [Z|Z > c] = +
1 − Φ(c) (1 − Φ(c))2
−X 0 β
0
E[| > −X β] = σE >
σ σ σ
0
φ Xσβ
= σ· 0
1 − Φ −Xσ β
0
φ Xσβ
= σ· 0
Φ Xσβ
0
Xβ
= σ·λ
σ
φ(·)
donde λ(·) = Φ(·)
se define como ‘el inverso de la razón de Mill’.
125
∂E[y ∗ |X]
Variable latente: =β
∂X
∂E[y ∗ |X, y > 0]
Truncamiento por izq. en cero: = [1 − ω · λ(ω) − λ(ω)2 ] · β
∂X
∂E[y|X]
Censura por izq. en cero: = Φ(ω) · β
∂X
X 0 β ∂Φ(Z) ∂φ(Z)
con ω = σ
; ∂Z = φ(Z); ∂Z
= −Zφ(Z).
∂E[y ∗ |X]
Tı́picamente estamos interesados en ∂X
= β (por ejemplo en variables de ingreso
censuradas por arriba).
Dado que los modelos (ii) y (iii) son bastante lineales en X (aunque inconsistentes), la
aproximación por MCO sigue siendo ilustrativa.
126
8.2.7 Estimación del modelo Tobit y sesgo de selección
Capı́tulo
Se puede estimar por MV y MCNL asumiendo distribución del término de error. XVI,
pág.
543,547-
Heckman (1976,1979) propuso estimar en 2 etapas el modelo con censura (heckit): 548 y
550-551
X 0β
0
E[y|X, ] = X β + σ · λ
σ
2a Etapa: en el modelo truncado estimar por MCO y en X y en λ(X 0 α̂) para obtener
una estimación consistente de β y σ.
y1∗ = X10 β1 + 1
y2∗ = X20 β2 + 2
127
El modelo Tobit es el caso particular en que y1∗ = y2∗ .
1a Etapa: regresionar y1 en x1 para obtener β̂1 dado que P r[y1∗ > 0] = Φ(X10 β1 ) y
φ(X10 β̂1 )
λ(X10 β̂1 ) = Φ(X10 β̂1 )
es el inverso de la razón de Mill.
σ̂12
La correlación entre los dos errores (de la 1a y 2a etapa) será ρ̂ = σ̂2
. Luego, un test
sobre ρ = 0 es un test sobre la necesidad de corregir el sesgo de selección. Notar que basta
un test de Wald sobre σ12 = 0.
De esta manera, se obtiene una estimación consistente de β2 con una pequeña pérdida
de eficiencia respecto a MV, pero sin tener que suponer normalidad conjunta de 1 , 2 . El
supuesto que se requiere es que: 2 = δ1 + ε. Con esto E[y2 |y1∗ > 0] = X20 β2 + δE[1 |1 >
−X10 β1 ] otorgándole una mayor flexibilidad al modelo al poder incluir errores 1 no normales.
128
9 Datos de Panel (Clases 20,21)
CLASE
21
Capı́tulo
Los datos de panel son observaciones repetidas del mismo corte transversal (individuos, fir- XXI,
pág.
mas, etc) por al menos dos perı́odos de tiempo. 697-742
Un tercer atractivo es de los datos de panel es aprender acerca de la dinámica del com-
portamiento individual (dinámicas de pobreza, correlación de ingresos en el tiempo es debido
a caracterı́sticas individuales o al historial de empleo-desempleo).
129
9.1 Revisión de Modelos y Estimadores
Un modelo muy general de datos de panel permite que tanto el intercepto como los coefi-
cientes de pendiente varı́en entre individuos y a través del tiempo:
con Xit de K × 1.
Este modelo tan general simplemente no se puede estimar porque hay más parámetros
que observaciones, por lo que se debe aplicar restricciones sobre la variación de αit o βit , o
sobre el término de error.
Si el modelo está bien especificado y los regresores no están correlacionados con el término
de error, entonces puede ser estimado usando pooled OLS. El problema es que usualmente
hay correlación entre los errores de un mismo individuo, lo que sesga los errores estándar
hacia abajo. Además, si el modelo correcto es de efectos fijos, pooled OLS será inconsistente.
La variante del modelo anterior que permite que el intercepto varı́e por individuo y a lo
130
largo del tiempo mientras las pendientes permanecen constantes es:
o alternativamente:
N
X T
X
yit = αj dj,it + γs ds,it + Xit0 β + uit ,
i=1 i=2
Este modelo tiene N + (T − 1) + dim[X] parámetros que pueden ser estimados consisten-
temente si es que tanto N → ∞ como T → ∞. Al concentrarnos en paneles cortos (donde
N → ∞ pero T no), los γs se pueden estimar consistentmente, y las (T − 1) dummies son
simplemente incorporadas en los regresores Xit . El desafı́o entonces es estimar los parámetros
β controlando por los N interceptos individuales αi . Una posibilidad es estimar agrupando
los individuos (por región por ejemplo), lo que requiere analizar métodos de clustering. El
problema se complica cuando N → ∞.
El modelo de efectos individuales especı́ficos permite que cada unidad de corte transversal
tenga un término de intercepto diferente aunque las pendientes son las mismas, de modo que:
donde εit es iid sobre i y t. Esta es una forma más parsimoniosa con las dummies temporales
incluidas en los regresores Xit . Los αi son variables aleatorias que capturan la heterogeneidad
no observada.
131
de modo que el término de error se asume que tiene media igual a cero condicional en regre-
sores pasados, presentes y futuros.
Si se trata αi como una variable aleatoria potencialmente correlacionada con los regre-
sores Xit , se trata del modelo de efectos fijos (Fixed Effects - FE). La estimación por pooled
OLS será inconsistente, por lo que se requiere una estimación alternativa.
La otra variante del modelo asume que los efectos individuales no observados αi son vari-
ables aleatorias distribuidas independientemente de los regresores. Este es el modelo llamado
de efectos aleatorios (Random Effects - RE), que usualmente asume además que αi ∼ (α, σα2 )
y εi ∼ (0, σε2 ) (el efecto aleatorio y el error son iid).
El estimador OLS combinado (pooled) se obtiene de apilar los datos sobre i y sobre t en
una regression con N × T observaciones y estimar por OLS
132
Esto es más claro al re-escribir el modelo como:
donde la correlación entre los regresores Xit y el efecto individual αi se transfiere directa-
mente al término de error combinado.
Tomando el modelo de efectos individuales especı́ficos, pero asumiendo que αi y εit son iid,
se puede estimar consistentemente por OLS, pero más eficientemente por GLS (Generalized
Least Squares). El estimador de FGLS del modelo de efecots aleatorios, llamado estimador
133
de efectos aleatorios, se puede estimar por OLS con el modelo transformado:
donde se debe estimar σε2 y σα2 . Notar que λ̂ = 0 corresponde al caso de ‘pooled OLS’. [Esto
es un estimador de dos etapas de β].
Por otro lado, los errores estándar se deben estimar a través de la estimación sandwich,
lo que NO es estándar en los paquetes estadı́sticos.
El análasis de datos de panel puede controlar por estos deseos de trabajar no observados
bajo el supuesto que esos deseos son invariantes en el tiempo. El modelo a estimar es
134
sobre t para un i dado. En el modelo, se espera que β sea positivo y pequeño. [Se puede
agregar otros controles por edad, hijos, salud, etc.]
Se presume que una mayor tasa de impuesto a la cerveza podrı́a disminuir la ingesta de
alcohol en los conductores y por tanto reducir la fatalidad de los accidentes de autos. Se
dispone de un panel de 48 Estados en EEUU par el periodo 1982 - 1988.
min ≈ U S$0.04
max ≈ U S$2.70
En las regresiones de corte transversal se observa que a mayor tasa de impuesto mayor
fatalidad!
⇒ Insensato económicamente! → Se sospecha de variable omitida relevante.
Ejemplos:
135
fi,t+1 = β0 + β1 Imptoi,t+1 + γwi + ui,t+1
⇒ β̂1 = −0.87 → Se podrı́a reducir casi a la mitad las muertes (de 2 a 1.13) si se sube
en US $1 el impuesto por caja de cerveza.
Los paquetes estadı́sticos usuales tienen varias rutinas que incorporan el manejo de paneles
desbalanceados. De este modo, se puede estimar por múltiples métodos, debiendo tener un
cuidado especial con la especificación de los errores estándar. Para estimar errores estándar
robustos se puede usar bootstrap, o también usar estimación robusta por clusters. Es im-
portante llevar a cabo un test de Hausman para establecer si el modelo debe ser de efectos
fijos o no.
136
10 Evaluación de Programas (Clases 22,23,24)
CLASE
22
Suponga variable latente y1∗ que determina si se observa una variable de resultado y2∗ o
y3∗ . Especı́ficamente,
1 Si y1∗ > 0
y1 =
0 Si y1∗ ≤ 0
Se observa luego:
y∗ Si y1∗ > 0
2
y=
y∗ Si y1∗ ≤ 0
3
y1∗ = X10 β1 + 1
y2∗ = X20 β2 + 2
y3∗ = X30 β3 + 3
X30 β = X20 β + α
137
0 1 σ12 σ13
1
2 ∼ N 0 , σ21 σ22 σ23
3 0 σ31 σ32 σ33
Entonces, se puede estimar por Heckman en 2 etapas aplicado a las medias truncadas:
Si solo el intercepto varı́a a través de los dos posibles resultados, digamos en un monto
α, el modelo de Roy se reduce a dos variables latentes:
y1∗ = X10 β1 + 1
y ∗ = X 0 β + αy1 +
Por simplicidad, se asume inicialmente que todos los que son asignados al tratamiento lo
reciben. La variable de resultado será y1 para los tratados e y0 para los no tratados.
138
Se busca obtener una medición del impacto del programa. Naturalmente se puede com-
parar las medias de los resultados de ambos grupos. Si los grupos no son aleatorios, se puede
incluir el caso de datos observacionales.
donde uj es el error del modelo de regresión. Esto implica que la decisión de participación
en el programa no afecta la distribución de los resultados potenciales.
y = X 0 β + αD + u
Se tiene entonces que E[u|D] = E[y − X 0 β − αD|D] = 0, por lo que se puede obtener
una estimación consistente del efecto del tratamiento.
También se puede utilizar un supuesto un poco más débil y0 ⊥ D|X, que implica in-
dependencia entre y0 y participación (lo que permite identificar efectos promedio sobre los
tratados).
139
La comparación base, ‘cómo le iba sin tratamiento’, no está correlacionada con D, pero
cómo le va después puede estar correlacionado, de modo que a algunos les irá mejor que a
otros, pero en lı́nea base es igual.
Por otro lado, el supuesto de superposición (necesario para ‘pareo’ o ‘matching’), implica
que, para cada valor de X, hay tanto tratados como no tratados. Esto es, 0 < P r[D =
1|X] < 1.
140
Se define:
AT E = E[∆i |Xi = xi ]
Dada una muestra de participantes se puede obtener E[y1i |xi , Di = 1], pero el problema
es que E[y0i |xi , , Di = 0] no se observa para los participantes (porque tienen D=1), lo que
constituye el problema fundamental de la evaluación de impacto.
Los ESC usan participantes elegibles que son excluidos del tratamiento como una proxy
para el contrafactual (apoyados en la ley de los grandes números).
y1 = E[y1 |X] + u1
= µ1 (X) + u1
141
y para los no participantes se tiene que:
y0 = E[y0 |X] + u0
= µ0 (X) + u0
Este es el tipo de “Switching regression” del modelo de Roy, en el sentido que partici-
pantes y no participantes tienen distinta función de media condicional.
µ1 (X) = µ0 (X) + αD
y = Dy1 + (1 − D)y0
142
TREATMENT EVALUATION
observables queThe
afecten
observeddicha diferencia.
outcome y is written as
Because D = 1 or 0, the second term in the regression “switches” on and off. The
El supuesto de term
second in (25.27) measures
independencia the benefit
condicional of participation;
permite descartarthe first component
problema de variables omi-
µ1 (x) − µ0 (x) measures the average gain to a participant with characteristics x and
theun
tidas. Pero es second component
supuesto (u 1 −yu 0muchas
fuerte, ) is individual-specific benefit. The second component
veces ‘no creı́ble’.
may be observable by the participant, but not by the investigator.
The expressions for ATE and ATET are given in Table 25.2, for the general case
and the specialization (25.25).
Average selection bias is the difference between program participants and nonpar-
10.2.3 Selección en observables
ticipants in the base state. This effect cannot be attributed to the program. A special Capı́tulo
case is E[u 1 − u 0 |x, D = 1] = 0, which can arise if there are no unobservable compo- XXV,
En estudios nents
observacionales
of the benefit or el problema
if the de estimate
best individual selecciónof u se resuelve utilizando métodos de
1 − u 0 is zero.
pág.
Selection bias arises when the treatment variable is correlated with the error in the
“pareo” (matching). También se pueden hacer con un caso más simple. Suponga el caso
outcome equation. This correlation could be induced by incorrectly omitted observable
869
variables that partly determine D and y. Then the omitted variable component of the
especial en que:
regression error will be correlated with D – the case of selection on observables.
Another source comprises unobserved factors that partly determine both D and y. This
yi = Xi0 β The
is the case of selection on unobservables. + αD conditional
i + ui independence assumption
essentially rules out confounding caused by omitted variables.
868 Z que determinan D y que están correla-
Suponga que hay un conjunto de variables
cionadas con y (lo que implica sesgo por variable omitida). El error será:
143
Dada la selección en no observables, se puede tener que E[ui |Zi ] 6= 0. Entonces:
Di∗ = Zi0 γ + i
144
Notar que σ1 6= 0 y σ0 6= 0 reflejan la endogeneidad de la variable de tratamiento. σ10 se
asume igual a cero porque no se observa a ningún individuo en ambos estados. σ se asume
igual a 1 por normalización. Entonces, dado que el modelo es paramétrico se puede estimar
por MV. El efecto de participar será:
φ(Zi0 γ)
y1i − E[y0i |Di = 1] = y1i − Xi0 β0 + σ0 ·
(1 − Φ(Zi0 γ))
φ(Zi0 γ)
⇔ E[y1i |Di = 1] − E[y0i |Di = 1] = Xi0 (β1 − β0 ) + (σ0 − σ1 ) ·
Φ(Zi0 γ)
| {z }
Efecto de Selección
10.3 Pareo
Capı́tulo
XXV,
El método de pareo puede ser útil solamente cuando hay selección en observables. Además,
pág.
exige que se cumpla la condición de soporte común, que implica que por cada vector X que 871-873
participa, exista una probabilidad positiva de no participar.
Básicamente, si Di = 1, se le imputa un y0i usando µ̂0 (Xi ) a partir de los “vecinos más
cercanos” (o algún otro criterio). Esto último require de una métrica basada en observables.
El método de pareo es atractivo si:
Suponga que todos los tratados son pareados de acuerdo a los observables, de modo que
todas las diferencias entre tratados son controladas, se tendrá:
E[y1i |Di = 1] − E[y0i |Di = 1] = E[y1i − y0i |Di = 1] + {E[y0i |Di = 1] − E[y0i |Di = 0]}
| {z } | {z }
ATET Sesgo
145
El sesgo será igual a cero con asignación aleatoria. Condicionando en covariables Xi y
pareando:
E[y1i |Di = 1] − E[y0i |Di = 1] = E [{E[y1i |Xi , Di = 1] − E[y0i |Xi , Di = 1]} |Di = 1]
Existen métodos de “pareo exacto”, que requiren que los X sean discretos y que X no
contenga demasiados elementos para que el N sea suficiente.
También existen métodos de “pareo inexacto” (como propensity score matching) que ba-
jan la dimensionalidad del problema mapeando X tı́picamente a un escalar.
146