Apunte Econometría Aplicada I

Econometrı́a Aplicada I
Otoño 2018
Magı́ster de Análisis Económico - Universidad de Chile
Jaime Ruiz-Tagle∗
March 11, 2019
∗
jaimert@fen.uchile.cl. Departamento de Economı́a, Universidad de Chile.
Contents
1 Introduction a la Microeconometrı́a (Clases 1,2,3) 6
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a . . . . . . . . . . . . . . 6
1.2 Modelos causales y no causales . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Modelos Estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Identificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Efectos Causales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 El Modelo Causal de Rubin . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5 Estrategias Generales en Modelos Causales . . . . . . . . . . . . . . . 11
1.2.6 Estrategias de Identificación . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Estructuras de Datos Microeconómicos . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Datos observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Datos de Experimentos Sociales . . . . . . . . . . . . . . . . . . . . . 13
1.3.3 Datos de Experimentos Naturales . . . . . . . . . . . . . . . . . . . . 14
1.3.4 Datos de Encuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.5 Imputación de Datos Faltantes . . . . . . . . . . . . . . . . . . . . . 18
2 Métodos Lineales (Clases 4,5) 21

2.1 MCO-OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Modelo de Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Distribución del Estimador MCO . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Supuestos para Corte Transversal . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Derivación del Estimador de MCO . . . . . . . . . . . . . . . . . . . 27
2.1.5 MCG y MCGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.6 Algunos casos de heterocedasticidad: Regresión de Mediana y Cuantiles 30
2.2 Especificación del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 Heterogeneidad de los parámetros . . . . . . . . . . . . . . . . . . . . 36
2.3 Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1 El estimador de VI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2 El estimador de VI para regresión múltiple . . . . . . . . . . . . . . . 41
2
2.3.3 MCO en 2 etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.4 VI en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Estimación por Máxima Verosimilitud y MC no lineales (Clases 6,7) 47

3.1 Estimadores No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Ejemplo de la Regresión Poisson . . . . . . . . . . . . . . . . . . . . . 47
3.1.2 Generalización de estimadores no lineales de MV . . . . . . . . . . . 49
3.1.3 Propiedades asintóticas de MV . . . . . . . . . . . . . . . . . . . . . 50
3.2 Interpretación de coeficientes en Regresiones no lineales . . . . . . . . . . . . 52
3.2.1 Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Modelos de Índice Simple . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.3 Método de Diferencia Finita . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Inferencia estadı́stica: Restricciones lineales a través del test de Wald . . . . 55
3.3.1 Test Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.2 Test de un solo regresor . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.3 Estimación de la Varianza . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 MC No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4 Método Generalizado de momentos y Sistema de Ecuaciones (Clases 8,9) 60

4.1 Ejemplos de GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.1 Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.2 Regresión de Variables Instrumentales . . . . . . . . . . . . . . . . . 61
4.1.3 Datos de Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 Sistema de Ecuaciones Lineales . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.1 Sistema de Ecuaciones Lineales . . . . . . . . . . . . . . . . . . . . . 63
4.2.2 MCGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Regresión Aparentemente No Relacionada (Seemingly Unrelated Re-
gression - SUR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.4 Panel de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 Test de Hipótesis (Clases 10,11,12) 68

5.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3
5.1.1 Hipótesis Lineales en modelos Lineales . . . . . . . . . . . . . . . . . 69
5.1.2 Hipótesis No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.3 El estadı́grafo de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.4 El Método Delta para construir Intervalos de Confianza . . . . . . . . 73
5.2 Test basados en Verosimilitud (Wald,LR,LM) . . . . . . . . . . . . . . . . . 74
5.2.1 Test LR (Likelihood Ratio Test) . . . . . . . . . . . . . . . . . . . . . 75
5.2.2 Test LM (Multiplicador de Lagrange) o Score Test . . . . . . . . . . . 76
5.2.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.4 Discusión y Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Poder y Tamaño de los Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4 Estudios de Monte Carlo y Bootstrap . . . . . . . . . . . . . . . . . . . . . 82
6 Test de Especificación y Selección de Modelos (Clases 13,14) 85

6.1 Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.1 Test de Hausman de Endogeneidad . . . . . . . . . . . . . . . . . . . 86
6.2 Regression Equation Specification Error Test (RESET) . . . . . . . . . . . . 88
6.3 Discriminación entre modelos no anidados . . . . . . . . . . . . . . . . . . . 89
6.3.1 Criterios de Información . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.4 Diagnóstico de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.5 Factor de Influencia de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.6 Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7 Métodos Semiparamétricos (Clases 15,16) 97

7.1 Estimación de Densidad de Kernel . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.3 Estimador de Densidad Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.4 Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.5 Regresión No paramétrica Local . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.5.1 Método de promedio locales ponderados . . . . . . . . . . . . . . . . 105
7.6 Regresión Semiparamétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.7 Consideraciones Prácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4
8 Modelos de Variable Dependiente Limitada (Clases 17,18,19) 109
8.1 Modelos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.1.1 Modelo Binario General . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.1.2 Motivación de modelos binarios a través de “Variable Latente” . . . . 111
8.1.3 Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.1.4 Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.1.5 Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . 115
8.1.6 Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2 Modelos de Selección y Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.2.1 Modelamiento de los modelos con Censura y Truncamiento . . . . . . 118
8.2.2 Estimador de MV para modelos de censura y truncamiento . . . . . . 119
8.2.3 El Modelo Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.2.4 Medias condicionales en modelos de truncamiento y censura . . . . . 123
8.2.5 Medias condicionales en el modelo Tobit . . . . . . . . . . . . . . . . 124
8.2.6 Efectos marginales en el modelo Tobit . . . . . . . . . . . . . . . . . 125
8.2.7 Estimación del modelo Tobit y sesgo de selección . . . . . . . . . . . 127
9 Datos de Panel (Clases 20,21) 129

9.1 Revisión de Modelos y Estimadores . . . . . . . . . . . . . . . . . . . . . . . 130
9.2 Ejemplos de Panel Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
9.3 Consideraciones Prácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10 Evaluación de Programas (Clases 22,23,24) 137

10.1 El Modelo de Roy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.2 Marco general para efectos de tratamiento . . . . . . . . . . . . . . . . . . . 138
10.2.1 Propensión al tratamiento (Propensity Score) . . . . . . . . . . . . . 140
10.2.2 ATE y ATET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.3 Selección en observables . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2.4 Selección en no observables . . . . . . . . . . . . . . . . . . . . . . . 144
10.3 Pareo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5
1 Introduction a la Microeconometrı́a (Clases 1,2,3)
CLASE
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a 1
Capı́tulo
1. Gran heterogeneidad (Observaciones ‘menos’ agregadas: personas, hogares, empresas, I, pág.
3-10.
cursos).
2. Discrecionalidad y No linealidades. (La desagregación lleva a discontinuidades y falta

de suavización. Ej: soluciones esquina como ‘gasto semanal’, ‘horas trabajadas’, etc).
3. Variable Dependiente Limitada.
4. Micro
(a) Gran cantidad de información (datos).
(b) Investigación empı́rica derivada de modelos teóricos microeconómicos.
(c) Enfoque Estructural vs. Enfoque Reducido. (Endogeneidad es un problema solo

en el segundo caso).
(d) Desagregación, Heterogeneidad y Confounding Effects (Ej: Efectos fijos y efectos

aleatorios; si no se controloa adecuadamente por la heterogeneidad se puede tener
efectos que se confunden).
Ejemplo de efectos confusos:
• Dos alumnos se enfrentan a una prueba de econometrı́a. Uno estudia 5 horas y obtiene
un 6.5, el otro estudia 10 horas y obtiene 4.5 ⇒ No vale la pena estudiar más horas de
econometrı́a!
Lo fundamental de la microeconometrı́a es lo que podemos aprender con datos desagre-

gados (más allá del desafı́o que representa trabajar con este tipo de datos).
1.2 Modelos causales y no causales

Capı́tulo
1. Objetivos de la Microeconometrı́a: II, pág.
18.
(a) Descripción de lo Datos:
6
i. Incluir propiedades de momentos de variables de respuesta.
ii. Realizar regresiones que resaltan asociaciones entre variables (evidencia cor-
relacional).
(b) Inferencia Causal
i. Relaciones causales que buscan confirmar/plantear hipótesis microeconómicas

⇒ Modelos Estructurales v/s Modelos Reducidos
Con el Premio Nobel del año 2000 a James Heckman (Sesgo de Selección) y Daniel McFad-
den (Modelos de Elección Discreta), por su contribución a la microeconometrı́a, se termina
de confirmar como subdisciplina de la econometrı́a.
La microeconometrı́a está presente en casi todas las áreas de la microeconomı́a y otras

disciplinas relacionadas a la economı́a como ciencia polı́tica, sociologı́a y geografı́a.
1.2.1 Modelos Estructurales

Capı́tulo
II, pág.
Sea un conjunto de variables W, que se puede particionar por conveniencia en [Y Z]. En-
20,21.
tonces diremos que:
g(yi , zi , ui |θ) = 0
con g una función conocida, representa un modelo estructural y θ es el parámetro estruc-

tural.
Si se asume que existe una única solución de yi para cada (zi , ui ), entonces se puede
escribir la ecuación de forma explı́cita:
yi = f (zi , ui |π)
7
Esto se conoce como la forma reducida del modelo estructural, dónde π es un vector de
parámetros que es función de θ. Si f (·) tiene una forma funcional conocida y es aditivamente
separable en zi y ui ,
yi = g(zi |Π) + ui = E[yi |zi ] + ui
La forma reducida tiene un rol práctico en realizar predicciones condicionales de yi dado

(zi , ui ). ¿Significa esto que estemos en presencia de una relación causal? → En general no,
esto da pie al problema de identificación.
1.2.2 Identificación
CLASE
2
Capı́tulo
• Equivalencia observacional: II, pág.
29,30.
Si dado un conjunto de datos, dos modelos implican una idéntica distribución de prob-
abilidad conjunta de las variables, entonces son observacionalmente equivalentes. Si
esto ocurre, no se logra identificación.
• Identificación:
Dos modelos son identificables si implican distribuciones de probabilidades conjuntas
distintas (a veces se busca sólo identificación parcial).
Al introducir restricciones se puede aumentar la identificación ⇒ Normalizaciones,
exclusiones.
Ejemplo: Modelos de salarios de KH vs. modelo de Signalling.
1.2.3 Efectos Causales

Capı́tulo
II, pág.
• Particularmente importantes cuando el foco está en el impacto de una polı́tica pública
31,32.
y/o en una decisión privada.
• Ejemplos:
8
– Subsidios de empleo y duración del desempleo.
– Tamaño de los cursos y aprendizaje.
– Incentivos a los profesores y desempeño.
– Cambios en cobertura de salud y estado de salud de la población.
• En muchos casos las mismas variables son decisiones ⇒ endógena.
• Cuando se tienen “datos observacionales” ⇒ identificación compleja.
• Se busca solucionar esto con datos de un “experimento social controlado” (RCT), con
un diseño estadı́stico apropiado ⇒ costosos de implementar.
• Experimentos naturales ⇒ terremotos, leyes.
• Quasi-experimental ⇒ AUGE.
• “El problema fundamental de la inferencia causal” (Holland, 1986) ⇒ Statistics and

causal inference.
H0 : X es la causa, Y el resultado.
⇒ cambiando X ⇒ movemos Y .
X1 ⇒ Y1
X ⇒Y
| 2 {z }2
Pero si X1 cambia a X2 , entonces ya no es posible Y1 .

⇒ se requiere una hipótesis respecto a lo que habrı́a pasado si X no cambia. ⇒ com-
parar el caso factual vs. el contrafactual.
En evaluación de programas, este marco de trabajo se llama Modelo Causal de Rubin

(RCM, Rubin 1974, 1978), aunque todo parte formalmente en econometrı́a con Roy
(1951).
9
En Evaluación de Impacto se usa el concepto de la ‘teorı́a del cambio’ que permite
vincular la estadı́stica con la economı́a.
1.2.4 El Modelo Causal de Rubin

Capı́tulo
II, pág.
Tı́picamente se habla de “tratamiento” o “causa”.
33,34.
• Herencia de las ciencias médicas en que se tienen “tratados” y “no tratados” con una
nueva droga. ⇒ El efecto causal es la diferencia promedio entre los grupos.
• En economı́a el tratamiento puede ser cualquier cosa: el tamaño del curso, la ca-
pacitación laboral, la información ⇒ Notar que el tratamiento no necesariamente es
exógeno, lo que constituye el elemento central de la identificación causal.
• Si todos los individuos del universo considerado son “potenciales sujetos de tratamiento”,
el conjunto (y1i , y0i , Di ), i = 1, ..., N define la base del problema:

 1, si i tratado;
Di =
 0, si no.
 
 y , si D = 1;  ojo que son mutuamente
1i i
yi =
 y , si D = 0.  excluyentes
0i i
• El efecto de D en el individuo i es (y1i −y0i ), y el “efecto promedio” (Average Treatment

Effect - ATE):
AT E = E[yi |D = 1] − E[yi |D = 0]
• Solución al problema de no observar factual, contrafactual ⇒ generar una asignación

aleatoria del tratamiento.
– De esta manera, la variable de participación puede ser considerada exógena (no

correlacionada con el resultado).
– Además, la omisión de variables relevantes se limita.
10
1.2.5 Estrategias Generales en Modelos Causales
Capı́tulo
1. Modelos estructurales con información completa (Full-Information Struc- II, pág.
35-38.
tural Models):
• Se basa en la especificación de la distribución conjunta de las variables endógenas

condicionada en las variables exógenas.
• Se estima todo junto vı́a MV (Wolpin, Todd).
• Problema central: algunas ecuaciones pueden estar mal especificadas.
• El modelo no proviene necesariamente de un proceso de optimización.
2. Modelos estructurales con información incompleta:
• Se requiere saber acerca de 1 ó 2 parámetros claves solamente.
• Se explota la interdependencia con otras ecuaciones.
• IV, métodos multietápicos, MV con info limitada.
• Marco: 1 ó 2 ecuaciones estructurales, otras ecuaciones en su forma reducida.
3. Formas reducidas identificables:
• Se usan restricciones para identificar ⇒ Ejemplo de VAR en series de tiempo.
1.2.6 Estrategias de Identificación
1. Exogeneización: Ej: Experimento natural, cuasi experimentos.
2. Eliminación de los parámetros de perturbación: Ej: Dif-Dif para eliminar efectos fijos.
3. Controlar por los factores de confusión:
• Variables omitidas genera sesgo ⇒ no se puede identificar correctamente.
• Se puede introducir “variables de control” en el modelo (Control Function Ap-

proach), que buscan controlar por el efecto de las variables omitidas. Ej: un
conjunto de notas en SIMCE puede ser una proxy de habilidad.
11
4. Muestras sintéticas: Se crea un grupo de comparación a través de un “pareo”.
5. Variables Instrumentales: Difı́cil en la práctica. Un experimento natural puede ser un

instrumento válido (Angrist y Kruger con fechas de nacimiento).
6. Muestras re balanceadas: La inferencia no es válida para la población si la muestra no

representa a la población.
1.3 Estructuras de Datos Microeconómicos

CLASE
3
Lo más común son encuestas y censos.
• Datos observacionales (en contraposición a datos experimentales)
• Marco Muestral (población que se quiere representar)
• Diseño Muestral (muestra aleatoria simple vs. estratificada)
• Alcance Muestral (corte transversal vs. datos longitudinales)
1.3.1 Datos observacionales
Muestreo:
• MAS
• Multietápico
– Estratos
– UP Muestreo
– US Muestreo
– ...
– UFinal de Muestreo.
– ⇒ Factores de expansión.
Sesgos:
12
• Sesgo de selección en la muestra.
Calidad de Datos:
• No respuesta de la encuesta.
• No respuesta de un ı́tem (missing data → “missing at random”. Datos faltantes).
Tipos de Datos:
• Corte transversal
• Corte transversal repetido
• Datos longitudinales (Panel) → problema de desgaste de la muestra (attrition).
1.3.2 Datos de Experimentos Sociales

CLASE
4
Fisher (1928) introdujo los ensayos aleatorios en la estadı́stica.
Desde los 70s en EEUU → muy caros de implementar.
Gran ventaja:
• Elimina la correlación entre caracterı́sticas no observadas y observadas ⇒ elimina sesgo.
• Si el impacto depende de otros observables, al usarlos se mejora la precisión de la

estimación del impacto.
13
Limitaciones:
• Costosos de implementar ($ y RRHH (administrativo, comunicacional)).
• Pureza de la aleatorización siempre difı́cil.
• Sesgo de selección por la voluntariedad de participar ⇒ poca validez externa (Ej.

PAME con mujeres con 65% con empleo).
• Desgaste de la muestra ⇒ sesgo.
– ⇒ Uso de bandas (Lee, 2008).
• Contaminación del experimento (spillover).
1.3.3 Datos de Experimentos Naturales
Experimento natural cambia X (Ley, terremoto, inundación, mellizos, etc) de manera aleato-
ria.
Ejemplo: Rau Ley Tolerancia Cero, Torche stress guaguas.
Alternativamente se puede generar un instrumento.
• Diferencias en diferencias (Antes y después):
yit = α + βDt + εit , i = 1, ..., N, t = 0, 1.
Dt = 1 en perı́odo 1,
Dt = 0 en perı́odo 0.
P
(yi1 − yi0 )
β̂ =
N
= ȳ1 − ȳ0
Se asume que el grupo es comparable en el tiempo.
14
Se puede agregar un grupo de comparación no afectado por la intervención:
yitj = α0 + α1 Dt + α2 Dj + α3 Dtj + εjit , i = 1, ..., N, t = 0, 1. j = grupo.

 1, si j = 1;
j
D =
 0, si no.

 1, si j = t = 1;
Dtj =
 0, si no.
Para los tratados, antes de la intervención:
1
yi0 = α0 + α2 D1 + ε1i0
Después:
1
yi1 = α0 + α1 + α2 D1 + β + ε1i1
Luego el impacto serı́a:
1 1
yi1 − yi0 = α1 + β + ε1i1 − ε1i0
Para los no tratados:
0
yi0 = α0 + ε0i0
0
yi1 = α0 + α1 + ε0i1
15
Y la diferencia:
0 0
yi1 − yi0 = α1 + ε0i1 − ε0i0
Dif en dif:
1 1 0 0
= β + ε1i1 − ε1i0 − ε0i1 − ε0i0

yi1 − yi0 − yi1 − yi0
Luego, asumiendo E [(ε1i1 − ε1i0 ) − (ε0i1 − ε0i0 )] = 0, se obtiene el impacto β.
Lectura:
• Courtemanche and Zapata (2014), “Does Universal Coverage Improve Health? The
Massachusetts Experience” (Journal of Policy Analysis and Management, Vol. 33,
No. 1, 36?69, 2014) [Versión antigua NBER WP 17.893].
1.3.4 Datos de Encuestas

CLASE
5
También existen:
• Grupos focales: Se discute en grupo poniendo foco en un tema.
• Encuestas cognitivas: Se estudia qué entiende la gente cuando le preguntan por un

tema en particular.
• Datos administrativos: Complementan datos de encuestas.
1. Utilidad de las encuestas en el análisis de las polı́ticas públicas
• Estructura de la investigación,
• Fuentes de error,
• Medición del objetivo.
2. Muestreo
16
• Diseño y elección de la muestra
– Diseño: probabilı́stico, estratificado, multietápico.

– Representatividad: población objetivo y elección de la muestra ⇒ Ajustes
post-encuesta (post-estratificación)
• Tipos de aplicación de encuestas: cara a cara, telefónicas, vı́a correo, vı́a e-mail
o Internet.
• Error de medida (o de levantamiento de información):
– Representación:
∗ Falta de cobertura (hay población que no puede ser elegida, sin internet,
sin teléfono)
∗ Error de muestreo
∗ Error de no respuesta
∗ Error de ajuste
– Medida
∗ Error de medición: cuestionario, entrevistado, encuestador.
∗ Error de procesamiento: digitación, codificación, validación, edición, fac-
tores de expansión.
⇒ Sesgos
⇒ Varianza.
3. Diseño y evaluación del Cuestionario
• Medición del objetivo de la investigación a través del cuestionario,
• Estructura del cuestionario,
• Métodos de testeo del cuestionario.
4. Cobertura y No respuesta
• Tipos de No respuesta
– A la encuesta
17
– Al ı́tem
• Incentivos → aleatorización de incentivos.
5. Prácticas de Integridad Cientı́fica
• Investigación con personas,
• Confidencialidad de los datos,
• Acceso a los microdatos.
6. Encuestas de Panel
• Diseño muestral,
• Desgaste y No-Respuesta, incentivos (motivos de desgaste deben ser estudiados)
• Cálculo de los Factores de Expansión Longitudinales
7. Diseño práctico de una encuesta para minimizar el error total de la encuesta
• El balance entre el costo de la encuesta, el error de la encuesta y otras carac-

terı́sticas de calidad,
• Documentando la calidad de la encuesta,
• Hechos organizacionales relativos a la calidad de la encuesta.
1.3.5 Imputación de Datos Faltantes

CLASE
1. Dos fuentes de problemas por no respuesta: 6
• No respuesta al instrumento
• No respuesta al ı́tem
2. No respuesta al instrumento genera problemas en la representatividad. Se debe ajustar

los factores de expansión. El problema central surge si es que hay correlación entre la
probabilidad de no respuesta y el objetivo del estudio.
18
3. No respuesta al ı́tem, se requiere que el investigador tome decisiones. Esto tiene im-
plicancias sobre la interpretación de los resultados.
4. Si la no respuesta al ı́tem es no aleatoria, entonces se debe:
• Reconocer el problema
• Intentar identificar los potenciales sesgos. Se puede utilizar el diseño muestral

(estratificación) para explorar el tema.
• Identificar el tamaño de los sesgos
• Itentar corregir la información faltante
5. Beneficios de Imputar:
• Dependen del tamaño del problema: a menor información faltante menores ben-
eficios.
• Determinar si el mecanismo implı́cito detrás de la información faltante es aleatorio

o no.
6. Métodos de Imputación:
• El objetivo es preservar la distribución de información completa.
• Se busca identificar la existencia de no respuesta aleatoria condicionada en los

observables. [Missing at Random Conditional on Observables].
• A veces se requiere consistencia dentro de las encuestas.
• Tipos de Imputación:
– Imputación Multietápica secuencial: Inicialmente se imputa variables

que tengan menor problema de no respuesta, para posteriormente utilizar
las observaciones con información completa (incluyendo las ya imputadas)
para imputar las variables siguientes que presenten secuencialmente mayores
problemas de información faltante. Se realiza este proceso hasta econtrar
convergencia: 3 iteraciones pueden ser suficientes.
19
– Imputación Estocástica: Busca preservar la varianza de la distribución
original. Consiste en imputar la variable de manera aleatoria condicionada
en un vector de covariables de acuerdo al proceso escogido para dicha variable.
– Imputación por celda (hot-deck): Se debe seleccionar un vector de vari-

ables y buscar a aquellos individuos que comparten las mismas caracterı́sticas
contenidas en ese vector y utilizarlas como donantes. Lo más simple es uti-
lizar un estadı́grafo del grupo de donantes (media, mediana, percentil). Esto
genera que se comprima la varianza. Alternativamente se puede elegir un
donante de forma aleatoria.
– Imputación por regresión: Usualmente se estima por MCO para obtener

coeficientes y con ellos predecir fuera de muestra, incluyendo un término de
error aleatorio. Dado que cada observación tiene un vector de covariables
disponibles distintos se puede/debe llevar a cabo una regresión para cada
observación.
7. Imputación en la práctica:
• Se debe considerar la magnitud del problema y la relevancia de las variables con

información incompleta (más de 20% es muy malo).
• Se debe considerar con qué información se podrı́a llevar a cabo la imputación.
• Se debe considerar la relevancia de la variable a imputar, porque las propiedades

asintóticas podrı́an no acompañar.
• Tı́picamente las variables continuas se imputan por regresión, las variables disc-
retas por hot-deck.
• Los métodos deben ser simples y transparentes para que la gente los pueda
replicar.
20
2 Métodos Lineales (Clases 4,5)
2.1 MCO-OLS
CLASE
7
2.1.1 Modelo de Regresión Lineal

Capı́tulo
Modelo de regresión general con error aditivo se puede escribir como: IV, pág.
70,71.
y = E[y|X] + u
Nota: en ausencia de subı́ndices, y es vector de yi con i=1,....,N; X es una matriz de

vectores Xki con k=1,...,K. Por lo tanto u está compuesto por ui , que son errores no observ-
ables.
El modelo de regresión lineal se puede escribir como:
yi = x0i β + ui
y = Xβ + u
con xi de dimensión k x 1.
El estimador de MCO se define a través del estimador que minimiza la suma de los errores
al cuadrado:
N
X
W = u2i = u0 · u = (y − Xβ)0 (y − Xβ)
i=1
∂W
= 0
∂β
β̂M CO = (X 0 X)−1 · X 0 y
Este estimador se puede obtener siempre que (X 0 X) sea no singular y tenga rango com-
pleto, es decir, sea invertible.
Se dice que β es identificable si:
21
(a) E[y|X] = Xβ
(b) Xβ 1 = Xβ 2 ssi β 1 = β 2
lo anterior implica que la media condicionada de y está correctamente especificada, y que

(X’X) es no singular, es decir, tiene solución única.
2.1.2 Distribución del Estimador MCO

Capı́tulo
IV, pág.
El objetivo de esta sección es ver las propiedades asintóticas del estimador MCO. Primero se
72-75
demuestra la consistencia del estimador y luego se obtiene la distribución lı́mite y distribución
asintótica, finalmente se muestra cómo obtener errores estándares robustos.
(a) Consistencia:
Las propiedades del estimador MCO dependen del proceso de generación de los datos
(dgp). Se asume que el dgp es y = Xβ + u. Luego:
β̂M CO = (X 0 X)−1 · X 0 y
β̂M CO = (X 0 X)−1 · X 0 (Xβ + u)
β̂M CO = (X 0 X)−1 · X 0 Xβ + (X 0 X)−1 · X 0 u
β̂M CO = β − (X 0 X)−1 · X 0 u
TAREA: Simular en STATA (usando ”set seed 1”) ui ∼ N (0, 1) con N = 1, 000;
β = [123], X = vector de variables aleatorias uniformes: X1i = 1∀i, X2i ∈ [20, 100],
X3i ∈ [500, 1500]. Estimar β̂; luego repetir para N = 10, 000.
Para probar consistencia reescribimos la expresión anterior de la forma:
β̂M CO = β + [N −1 (X 0 X)]−1 · N −1 X 0 u
22
esto se obtiene dado que N −1 (X 0 X) = 1
xi x0i corresponde a un promedio que con-
P
N i
verge en probabilidad a una matriz finita distinta de cero si xi satisface los supuestos
que permiten aplicar la ley de los grandes números a xi x0i .
p
Weak Law of Large Numbers: (X̄N − E[X̄N ]) → 0.
Strong Law of Large Numbers: plimX̄N = limE[X̄N ].
Recordatorio I: Propiedades de la probabilidad del lı́mite (plim):
(i) Si θ̂ es un estimador consistente de θ y g(·) es una función continua, entonces:

plim[g(θ̂)] = g(plimθ̂) = g(θ).
(ii) Si θˆ1 y θˆ2 son estimadores consistentes de θ1 y θ2 respectivamente, entonces:
plim(θˆ1 + θˆ2 ) = plimθˆ1 + plimθˆ2
plim(θˆ1 · θˆ2 ) = plimθˆ1 · plimθˆ2

θˆ1 plimθˆ1
plim =
θˆ2 plimθˆ2
Recordatorio II: Teorema de Slutsky

p
Sea {Xn }∞
i=1 una sucesión, entonces si Xn →
− X y g(·) es una función continua en R,
p
entonces g(Xn ) →
− g(X).
Siguiendo con la demostración y usando el teorema de Slutsky:

plim β̂M CO = β + [plimN −1 (X 0 X)]−1 · plim N −1 X 0 u

Por lo tanto, MCO es consistente si plim (N −1 X 0 u) = 0. Si la ley de los grandes números

se puede aplicar al promedio N −1 X 0 u = N −1 i xi u, entonces una condición necesaria
P
para que se cumpla la condición de consistencia es que E[xi ui ] = 0.
23
(b) Distribución Lı́mite
Dada la consistencia, la distribución lı́mite de β̂M CO es degenerada, esto es, tiene toda
√
su masa en β. Para obtener la distribución lı́mite se escala β̂M CO por N obteniendo:1
√ 1
N (β̂M CO − β) = [N −1 (X 0 X)]−1 · N − 2 X 0 u
Entonces, asumiendo:
(i) El proceso generador de datos es y = Xβ + u
(ii) Los datos son independientes entre si con:
E[u|X] = 0 ; E[u · u0 |X] = Ω = Diag[σi2 ].2
(iii) X es de rango completo, i.e., Xβ 1 = Xβ 2 ssi β 1 = β 2 .
(iv) La matriz de K × K
1 X 1 X
Mxx = plimN −1 (X 0 X) = plim xi · x0i = lim E[xi · x0i ]
N i N i
existe, es finita y no singular.

1 d
(v) El vector de K × 1: N − 2 · X · u →
− N (0, MxΩx ), donde
N N
−1 0 0 1 X 2 0 1 X
MxΩx = plimN X uu X = plim ui xi xi = lim E[u2i xi x0i ]
N i=1 N i=1
Entonces β̂M CO es un estimador consistente de β y cumple con:
√ d −1 −1
N (β̂M CO − β) →
− N [0, Mxx MxΩx Mxx ]
1
√
Se escala por N porque, bajo supuestos estándar de corte transversal, la resultante variable aleatoria
tendrá varianza distinta de zero, pero finita asintóticamente.
2
Notar que el hecho que la varianza esté indexada por i implica que se admite heterocedasticidad.
24
(c) Distribución Asintótica:
a
β̂M CO ∼ N [β, N −1 Mxx
−1 −1
MxΩx Mxx ]
simplificando la notación:
a
β̂M CO ∼ N [β, (X 0 X)−1 X 0 ΩX(X 0 X)−1 ]
| {z }
V ar[β̂M CO ]
y luego la varianza estimada:
V âr[β̂M CO ] = N −1 Mxx
−1 −1
MxΩx Mxx
es la denominada estimación sandwich.
Diferencia entre distribución lı́mite y distribución asintótica: En distribución

asintótica se asume que N es suficientemente grande, pero no demasiado como
p
para llegar a la distribución degenerada en que β̂OLS → β, pero en términos
algebraicos son equivalentes como un espejo. [Ver Anexo A.6.4 de Cameron &
Trivedi.]
(d) Errores estándares robustos:
Se escoge M̂xx = N −1 X 0 X y M̂xΩx dependerá del supuesto acerca de la distribución de

los errores. El supuesto habitual en microeconomı́a es heterocedasticidad condicionada,
con V [ui |xi ] = E[u2i |xi ] = σi2 con σi 6= σj ∀i 6= j.
White (1980) propone M̂xΩx = N −1 û2i xi x0i . Con esto la varianza queda como:
P
i
V âr[β̂M CO ] = (X 0 X)−1 X 0 Ω̂X(X 0 X)−1

X N −1 X N
X −1
ˆ
V ar[β̂M CO ] = 0
xi xi 2 0
ûi xi xi 0
xi xi
i=1 i i=1
25
con Ω̂ = Diag[û2i ] y ûi = yi − x0i β̂. Esta es la estimación heterocedástica consistente, lo
que implica que los errores estándar son heterocedásticos robustos.
El supuesto habitual de homocedasticidad implica que Ω = σ 2 I por lo tanto X 0 ΩX =

σ 2 X 0 X lo que implica que MxΩx = σ 2 Mxx . Luego, Ṽ [β̂M CO ] = s2 (X 0 X)−1 con s2 =
(N − K)−1 i û2i .
P
[Ajuste para comparabilidad ⇒ multiplicar V âr[β̂M CO ] por N

N −K
]
Si no se cumple el supuesto de homocedasticidad se puede sobre o sub estimar la varianza.

Por lo tanto, siempre se deben usar errores estándares heterocedásticos robustos.
2.1.3 Supuestos para Corte Transversal

CLASE
8
Capı́tulo
(1) Los datos (yi , xi ) son independientes y no idénticamente distribuidos sobre i (inid - IV, pág.
76-79
Necesario en muestras no estratificadas).
(2) El modelo está correctamente especificado
yi = x0i β + ui
es decir, es lineal, no hay variables omitidas y no hay error de medida.
(3) El vector de regresores xi es posiblemente estocástico con segundo momento finito.

Esto implica que Mxx = lim N −1 X 0 X existe (usualmente las encuestas tienen regresores
aleatorios).
(4) Los errores tienen media condicionada en los regresores igual a cero:
E[ui |xi ] = 0
esto es exogeneidad débil (fuerte implica no causalidad a la Granger).
26
(5) Los errores son heterocedásticos condicionados en los regresores con:
σi2 = E[u2i |xi ],
Ω = E[uu0 |X] = Diag[σi2 ],
con Ω una matriz de N x N definida positiva.
(6) La matriz MxΩx existe y es positiva definida de rango K.
Notar que no se asume regresores no estocásticos y no se asume normalidad.
El séptimo supuesto serı́a normalidad del error. Eso es necesario para obtener la dis-
tribución exacta en muestras pequeñas. En microeconometrı́a nos concentramos en propiedades
asintóticas.
2.1.4 Derivación del Estimador de MCO

Capı́tulo
IV, pág.
(a) Distribución en muestras pequeñas
79-81
El estimador MCO es insesgado si se cumplen los supuestos (1)-(4):
E[β̂M CO ] = β + Ex,u [(X 0 X)−1 X 0 u]
= β + Ex [Eu|x {(X 0 X)−1 X 0 u|X}]
= β + Ex [(X 0 X)−1 X 0 Eu|x {u|X}]

| {z }
=0
= β
La varianza del estimador viene dada por:
V [β̂M CO ] = Ex [(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ]
= (X 0 X)−1 X 0 ΩX(X 0 X)−1
27
donde Ω = E[uu0 |X].
Entonces, dado que E[u|X] = 0, MCO es insesgado (esto no se extiende a los estimadores
no lineales, e incluso IV).
MCO es eficiente ssi Ω = σ 2 I. De otra forma será ineficiente, es decir, no tiene la menor
varianza posible.
Bajo normalidad condicionada del error, entonces MCO tiene distribución condicionada
en X normal.
(b) Consistencia
Para Obtener consistencia se requiere que
X
plimN −1 X 0 u = plimN −1 xi ui = 0
i
lo que se obtiene si E[xi ui ] = 0, dado que ui es inid.
(c) Distribución Lı́mite
Usando los supuestos y el Teorema Central del Lı́mite se obtiene que:
1 d
N − 2 X 0u →
− N (0, MxΩx )
donde MxΩx = plimN −1 X 0 u0 uX = plimN −1 i u2i xi x0i . Por la ley de los grandes
P
números se cumple que MxΩx = lim N −1 i Exi [σi2 xi x0i ]. Esto implica que MxΩx =
P
lim N −1 i E[X 0 ΩX] con Ω = Diag[σi2 ].

P
28
(d) Errores Estándar Robustos a la Heterocedasticidad
A continuación se muestra los pasos claves para estimar consistentemente MxΩx . Par-
tiendo con la definición original:
X
MxΩx = plimN −1 u2i xi x0i
i
p p
se reemplaza ui por ûi = yi − x0i β̂, donde asintóticamente ûi →
− ui dado que β̂ →
− β. Esto
lleva a la estimación consistente:
N
1 X 2 0
MxΩx = û xi xi = N −1 X 0 Ω̂X
N i=1 i
con Ω̂ = Diag[û2i ]. White (1980) expone supuestos adicionales para potencias mayores.
2.1.5 MCG y MCGF

Capı́tulo
− 21
(Ω · Ω = Ω) de modo que: IV, pág.
1 1
Si Ω es conocida y no singular, se puede premultiplicar por Ω 2 2
81-82
1 1 1
Ω− 2 y = Ω− 2 Xβ + Ω− 2 u
Algo de álgebra lleva a:
1 1 1
V [Ω− 2 u] = E[(Ω− 2 u)(Ω− 2 u)0 |X] = I
Los errores en este modelo transformado tienen media cero, no están correlacionados y
son homocedásticos. Por lo tanto, β puede ser estimado de forma eficiente regresionando
1 1
Ω− 2 y contra Ω− 2 X. Con lo que se obtiene:
β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y
Pero dado que Ω es tı́picamente desconocida se busca estimarla. Si Ω = Ω(γ) y γ̂ puede

ser estimado consistentemente para formar Ω̂ = Ω(γ̂), entonces se puede obtener el estimador
29
de MCGF.
Por ejemplo, si los errores son heterocedásticos se puede modelar la varianza como
V [u|X] = exp(z 0 γ), donde z corresponde a un subconjunto de X y la función exponen-
cial es utilizada para asegurar que la varianza sea positiva.
Con esto se puede obtener el estimador de MCGF.
β̂M CGF = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y
Bajo los supuestos anteriores,
√ d
− N 0, (plimN −1 X 0 Ω−1 X)−1

N (β̂M CGF − β) →
2.1.6 Algunos casos de heterocedasticidad: Regresión de Mediana y Cuantiles

CLASE
9
Capı́tulo
MCO se concentra en el promedio, que es sensible a valores extremos (outliers). La estimación IV, pág.
85-88
de mediana es la más robusta a ello. Puede haber heterogeneidad de efecto de los regresores,
luego la regresión de cuantiles ayuda a interpretar resultados.
(a) Cuantiles Poblacionales
Para una variable aleatoria continua el q-ésimo cuantil es el valor µq tal que la probabil-
idad que la variable y sea menor que µq es q:
q = P r[y ≤ µq ] = Fy (µq )
|{z}
c.d.f
⇒ µq = Fy−1 (q)
30
Ejemplo: Si µ0.75 = 3 ⇒ P r[y ≤ 3] = 0.75. Para una normal estándar, µ0.5 = 0, µ0.95 =
1, 645, µ0.975 = 1, 96.
En términos de regresión, se tiene que:
−1
µq (x) = Fy|x (q)
Suponiendo una pgd lineal y heterocedasticidad multiplicativa:
y = x0 β + u
u = x0 α ·
∼ iid[0, σ 2 ]
asumiendo x0 α > 0. Entonces el q-ésimo cuantil poblacional de y condicionado en x es

la función µq (x, β, α) tal que:
q = P r[y ≤ µq (x, β, α)]
= P r[u ≤ µq (x, β, α) − x0 β]
= P r[ ≤ {µq (x, β, α) − x0 β}/x0 α]
= F [{µq (x, β, α) − x0 β}/x0 α]
con u = y − x0 β y = u/x0 α, y F cdf de .
Aplicando F−1 (·) se obtiene:
µq (x, β, α) = x0 β + x0 α · F−1 (q)
= x0 (β + α · F−1 (q))
31
Se aprecia que el cuantil es lineal en x en este caso. Otras formas de heterocedasticidad
pueden llevar a cuantiles no lineales.
(b) Cuantiles Muestrales
Se puede demostrar que µ̂q puede ser expresado como la solución al problema de opti-
mización minimizando con respecto a β:
N
X N
X
q · |yi − β| + (1 − q) · |yi − β|
i:yi ≥β i:yi <β
P
El resultado no es obvio, pero si q=0.5 ⇒ µ0.5 = min i |yi − β|, lo que resulta más
β
intuitivo.
Expandiendo a la regresión lineal:
N
X N
X
QN (βq ) = q · |yi − x0i βq | + (1 − q) · |yi − x0i βq |
i:yi ≥x0i β i:yi <x0i β
Esta es la función asimétrica de pérdida absoluta. [Notar que se usa sub-ı́ndice q para
β, para explicitar que β puede ser distinto para cada cuantil].
No se puede obtener optimización vı́a gradiente, ya que la función no es derivable. Pero

por métodos de programación lineal se obtiene solución rápida para β̂q .
Se puede demostrar que:
√ d
− N [0, A−1 BA−1 ]
N (β̂q − β) →
con
32
1 X
A = plim fuq (0|xi )xi x0i
N i
1 X
B = plim q(1 − q)xi x0i
N i
donde fuq (0|xi ) es la función de densidad condicionada del término de error µq = y −x0 βq
evaluada en µq = 0.
La varianza es difı́cil de obtener, de modo que tı́picamente se obtienen errores estándar

para β̂q vı́a “bootstrap” [en STATA los comandos son qreg, iqreg (interquartile), bsqreg
(con bootstrap std errors)].
LINEAR MODELS
Regression Lines as Quantile Varies

Log Household Total Expenditure
15
Actual Data
90th percentile
Median
10th percentile
10
5
0
6 8 10 12
Log Household Medical Expenditure

Figure 4.2: Quantile regression estimated lines for q = 0.1, q = 0.5 and q = 0.9 from re-
gression of natural logarithm of medical expenditure on natural logarithm of total expenditure.
Data for 5006 Vietnamese households with positive medical expenditures in 1997.
in estimated slopes as q increases as evident in Figure 4.1. Koenker and Bassett (1982)
[OLS nodeveloped quantile
se presenta porregression as a means
ser similar to test for heteroskedastic
a la mediana.] La discrepanciaerrors whenlas
entre thependientes
dgp is the linear model. For such a case a fanning out of the quantile regression lines
is interpreted
a diferentes as evidence
cuantiles of heteroskedasticity.
es evidencia Another interpretation is that the con-
de heterocedasticidad.
ditional mean is nonlinear in x with increasing slope and this leads to quantile slope
coefficients that increase with quantile q.
More detailed illustrations of quantile regression are given in Buchinsky (1994) and
La regresión
Koenkerde andcuantiles es más o menos equivalente a estimar por separado, pero en
Hallock (2001).
un problema multidimensional.
4.7. Model Misspecification
The term “model misspecification” in its broadest

33 sense means that one or more of the
assumptions made on the data generating process are incorrect. Misspecifications may
occur individually or in combination, but analysis is simpler if only the consequences
of a single misspecification are considered.
2.2 Especificación del Modelo
CLASE
10
Capı́tulo
Puede haber dudas sobre alguno de los supuestos del proceso generador de datos. Esto puede IV, pág.
90-93
llevar a que la especificación del modelo sea errónea, lo que a su vez implica que se puede
generar problemas de inconsistencia y de identificación de parámetros de interés.
Para demostrar consistencia, requerı́amos de dos supuestos:
(a) El dgp sea lineal y = xβ + u
(b) El dgp implica que plimN −1 X 0 u = 0.
Entonces:
β̂M CO = β + (N −1 X 0 X)−1 N −1 X 0 u
p
β̂M CO →
− β
Luego, si el modelo verdadero (dgp) no es lineal, o si hay correlación de los regresores

con el error, se tendrá inconsistencia.
Dado que el modelo lineal es una aproximación de la forma funcional en Rk , ocurre que
incluso si los regresores están bien escogidos, se puede tener que la media condicional esté
incorrectamente especificada.
Ejemplo de inconsistencia:
Si el dgp no es lineal: y = g(x) + ν con E[ν|X] = 0, el modelo lineal y = X 0 β + u será

erróneo. La verdadera relación es: E[yi |xi ] = g(xi ).
White (1980) demostró que MCO converge a un valor de β que minimiza el error
cuadrático de predicción:
2
Ex [ g(x) − X 0 β ]
34
Por lo tanto, MCO es ‘la mejor estimación lineal del modelo no lineal’ (pero esto NO es
muy útil - solo un poco útil a nivel agregado en promedios).
Por otro lado, si hay endogeneidad hay que buscar corregirla. Alternativas:
(a) Variables Instrumentales
(b) Control por variables de confusión
(c) Dif en Dif con datos de panel
(d) Cortes transversales Repetidos
(e) Efectos fijos en panel (si la endogeneidad proviene de factores constantes en el tiempo)
(f) Regresión Discontinua
La otra fuente de inconsistencia es la omisión de variables relevantes.
Supóngase que el verdadero proceso generador de datos es:
y = X 0 β + Zα + ν
donde Z es un regresor escalar (por simplicidad 1 sola variable) y ν es un término de

error no correlacionado con Z y X. Si se estima usando X y Z se obtiene una estimación
consistente de β y α. Por el contrario, si se omite Z se tendrá:
y = X 0 β + Zα
| {z+ ν}
nuevo error
ν no está correlacionado con X, pero si Z está correlacionado con X, entonces el nuevo

error estará correlacionado con X y β̂M CO será inconsistente.
El verdadero dgp en forma matricial:
y = X 0 β + Zα + ν
35
sustituido en β̂M CO = (X 0 X)−1 X 0 y genera:
β̂M CO = β + (N −1 X 0 X)−1 (N −1 X 0 Z) α + (N −1 X 0 X)−1 (N −1 X 0 ν)

| {z }
δ
Si X no está correlacionado con ν ⇒ plim(N −1 X 0 X)−1 (N −1 X 0 ν) = 0, luego plim(N −1 X 0 X)−1 (N −1 X 0 Z)

plim(δα) será el sesgo de variable omitida. Si este término es distinto de cero habrá incon-
sistencia. Es decir, si X está correlacionado con Z habrá inconsistencia. Puede ser positiva
o negativa (puede alterar el signo del estimador MCO).
Ejemplo: Habilidad y Educación, se espera que tengan correlación positiva. Se espera

que δ > 0 y que α > 0. ⇒ sesgo positivo (sobre estimación del parámetro).
Hay que notar que en el caso de variables omitidas MCO no estima β, sino que confunde
y estima una función de β, δ y α. Por lo tanto, el efecto causal NO está bien identificado.
Por otro lado, se podrı́a tener una inclusión de variables irrelevantes. Por ejemplo, el
verdadero dgp es y = X 0 β+ν, pero se estima y = X 0 β+Zα+ν. Se puede demostrar que MCO
es consistente pero se pierde eficiencia. ⇒ Tarea: Demostrar que MCO es consistente con variables irreleva
En resumen, omitir variables puede ser muy dañino, y agregar demasiados regresores hace
poco daño. Por lo tanto, en microeconometrı́a, si hay disponibilidad de muchas variables,
en general es mejor incluirlas todas!
2.2.1 Heterogeneidad de los parámetros

Capı́tulo
Hasta acá se asumió que los regresores y los errores podı́an variar por individuo, pero que IV, pág.
94
β es el mismo entre ellos. Supóngase yi = xi βi + ui (Random Parameter model). Se asume
que βi es iid sobre i, pero que no depende de xi . Si β = E[βi ], entonces podemos reescribir
el modelo como:
yi = x0i β + [ui + x0i (βi − β)]

| {z }
No correlacionado con xi
Entonces, se puede estimar consistentemente β regresionando y en x. Aunque ui sea

homocedástico, se tendrá un error heterocedástico.
36
4.8. INSTRUMENTAL VARIABLES
this example, but not in all such examples, alternative consistent estimators for a subset
Ejemploofde esto es la estimación con datos de panel con efectos aleatorios, donde el in-
the regression parameters are available.
tercepto varı́a entre individuos y la pendiente es común. (Ojo: Esto no es válido en modelos
no lineales). 4.8. Instrumental Variables
A major complication that is emphasized in microeconometrics is the possibility of

inconsistent parameter estimation caused by endogenous regressors. Then regression
estimates measure
2.3 Variables only the magnitude of association, rather than the magnitude and
Instrumentales
direction of causation, both of which are needed for policy analysis. CLASE
The instrumental variables estimator provides a way to nonetheless obtain consis- 11
tent parameter estimates. This method, widely used in econometrics and rarely used Capı́tulo
elsewhere, is conceptually difficult and easily misused.
Si hay endogeneidad
We providela aestimación es inconsistente.
lengthy expository La regresión
treatment that defines solo medirá
an instrumental magnitud de IV, pág.
variablelaand
95-98
explains how the instrumental variables method works in a simple setting.
la asociación, pero no la magnitud y dirección de la causalidad (la cual que se requiere para
el análisis económico más profundo y deInconsistency
4.8.1. polı́tica). of OLS
Consider the scalar regression model with dependent variable y and single regressor x.
The goal of regression analysis is to estimate the conditional mean function E[y|x]. A
Se busca estimar la función de valor esperado condicional (por conveniencia sin intercepto,
linear conditional mean model, without intercept for notational convenience, specifies
en desvı́os con respecto a la media): E[y|x] = βx. (4.42)
This model without intercept subsumes the model with intercept if dependent and
regressor variables are deviations from their respective means. Interest lies in obtaining
a consistent estimate of β as this E[y|x]
gives the =change
βx in the conditional mean given an
exogenous change in x. For example, interest may lie in the effect in earnings caused
by an increase in schooling attributed to exogenous reasons, such as an increase in the
minimumde
La estimación ageMCO
at which students leave school, that are not a choice of the individual.
será:
The OLS regression model specifies
y = βx + u, (4.43)
where u is an error term. Regression

y of=y on u OLS estimate !
yields
βxx + β of β.
Standard regression results make the assumption that the regressors are uncorrelated
with the errors in the model (4.43). Then the only effect of x on y is a direct effect via
y β̂M COthe
será
termconsistente
βx. We havebajo los supuestos
the following habituales,
path analysis diagram:luego:
x −→ y
#
u
where there is no association between L I N E AxR and
MOD u.E So
L S x and u are independent causes
of y.
such as ability.
However, in Suppose a person there
some situations has a may
high be
level ofassociation
anel u, as a result of highregressors
between (unobserved)and
x y u afectan
ability.
porincreases
This
canales independientes.
earnings, since y =
En+ u,
ejemplo
but it may
de
also
escolaridad,
lead to higher
silev-
la habilidad
errors. For example, consider regression of log-earnings (y) on years of schooling (x).
βx
els
Theoferror
está en el término x, since
term
de schooling
y x esis años
u embodies
error likely
all to be
factors
de higher
other thanfor
escolaridad those
e y eswith
schooling thathigh ability.
determine
salario, A more
earnings,
entonces:
appropriate path diagram is then the following:
95
x −→ y
↑ $
u
where now there is an association between x and u.
What are the consequences of this correlation between x and u? Now higher levels
of x have two effects on y. From (4.43) there is both a direct effect via βx and an
37
indirect effect via u affecting x, which in turn affects y. The goal of regression is
to estimate only the first effect, yielding an estimate of β. The OLS estimate will
instead combine these two effects, giving ! β > β in this example where both effects
to estimate only the first effect, yielding an estimate of β. The OLS estimate will
instead combine these two effects, giving ! β > β in this example where both effects
are positive. Using calculus, we have y = βx + u(x) with total derivative
dy du
=β+ . (4.44)
dx dx
The data give information on dy/d x, so OLS estimates the total effect β + du/d x
rather than β alone. The OLS estimator is therefore biased and inconsistent for β,
⇒ u(x)between
unless there is no association → elxerror
and u.es función de x.
A more formal treatment of the linear regression model with K regressors leads to
the same
Si habilidad conclusion.
está From Section
en el término 4.7.1 asenecessary
de error, tendrá condition
una sobrefor estimación
consistency ofde
OLS
β porque:
is that plim N −1 X% u = 0. Consistency requires that the regressors are asymptotically
uncorrelated with the errors. From (4.37) the magnitude of the inconsistency of OLS
" #−1 %
is X% X X u, the OLS coefficient from regression of u on x. This is just the OLS
dy d(xβ + u(x)) du(x)
estimate of du/dx, confirming
= the intuitive =result
β +in (4.44).
dx dx | dx
{z }
4.8.2. Instrumental Variable
Sesgo e Inconsistencia
The inconsistency
Anteriormente dijimosofque
OLSseisrequerı́a
due to endogeneity of x, meaning
que los regresores that changes
fueran in x are
asintóticamente no cor-
associated not only with changes in y but also changes in the error u. What is needed
−1 0
relacionados
is acon el término
method deonly
to generate error (plimNvariation
exogenous Xu= 0).AnLa
in x. magnitud
obvious way isde la inconsistencia
through a
randomized experiment, but for most economics applications such experiments are too
de MCO será (X 0 X)−1 X 0 u, que es el coeficiente de la regresión de u en x.
expensive or even infeasible.
(a) Definición de Instrumento Definition of an Instrument

A crude experimental or treatment approach is still possible using observational data,
Se diceprovided
que z there
es unexists
“instrumento” si tiene la propiedad que cambios en z se asocian a
an instrument z that has the property that changes in z are asso-
ciated
cambios withpero
en x, changes in xybut
no en do not lead to change in y (aside from the indirect route
(directamente).
via x). This leads to the following path diagram:
z −→ x −→ y
↑ $
u
96
donde z está asociado causalmente con x, pero no con u.
Más formalmente, z se llama “instrumento” para el regresor x en el modelo de regresión

escalar y = βx + u si:
(1) z no está correlacionado con el error u
(2) z está correlacionado con el regresor x
Notar que (1) implica que z no es regresor de y, porque si ası́ lo fuese y se regresiona
y en x solamente, z estarı́a absorbido en el término de error y por lo tanto estarı́an
correlacionados (generando un sesgo).
El segundo supuesto requiere que exista alguna relación entre z y x. Ejemplos:
38
(i) Demanda de Mercado
q = f (p) + u
q= cantidad, p=precio. Pero p = g(q)... los precios se determinan en el mercado.

Un instrumento podrı́a ser una variable que afecte la oferta (y por lo tanto el pre-
cio), pero no la demanda (Ej: Clima y la cosecha).
(ii) Estimación de retorno a la educación
La habilidad es tı́picamente omitida (comúnmente no hay medidas buenas) y se

correlaciona con educación. Se requiere un instrumento z que esté correlacionado
con educación, pero no con salarios (ni con el término de error).
Card(1995) utilizó la distancia a un College (o Universidad) como instrumento para

los años de escolaridad terciaria. La distancia cumple con el supuesto (2), porque
si viven más lejos es menos probable que asistan al College. También cumplirı́a con
el supuesto (1), pero se puede argumentar que no lo cumple porque los que viven
más lejos tendrı́an trabajos de menor salario (y no podrı́an pagar el College).
Para la educación secundaria, el instrumento del mes de nacimiento de Angrist y

Krueger (1991) cumple con (1) y (2), dado que la ley obliga a asistir al colegio
hasta los 16 años, pero es débil (Bond, Jaeger y Baker, 1995, ası́ lo demuestran).
2.3.1 El estimador de VI
Capı́tulo
IV, pág.
Para una regresión escalar, se tendrá que:
98-99
β̂V I = (z 0 x)−1 zy
con z, x, y son de Nx1.
39
Si z cumple con (1) y (2), se obtiene una estimación consistente de β en y = βx + u. En
el caso del retorno a la educación, supóngase que un aumento de 1 unidad en z se asocia a
0.2 años más de educación y con $500 más de ingresos (salario por hora por ejemplo). Este
aumento en y es indirecto y es producto del aumento en educación, por lo que un aumento
de 0.2 en educación implica in aumento de $500 en y. Por lo tanto, un aumento de 1 año
$500
de educación implicará 0.2
= $2500 de aumento en y. El efecto causal de β es $2500. En
dx dy
términos matemáticos, estimamos dz
y dz
para obtener:
dy
dz
β̂V I = dx
dz
dy
La manera obvia de obtener dz
es por MCO de y en z para obtener la pendiente (z 0 z)−1 z 0 y.
Del mismo modo, regresionando x en z se obtiene (z 0 z)−1 z 0 x. De modo que:
(z 0 z)−1 z 0 y
β̂V I = 0 −1 0
= (z 0 x)−1 z 0 y
(z z) z x
Un caso particular del estimador IV corresponde al Estimador de Wald (o de grupos).

Asumiendo z un “instrumento binario”, y denotando los promedios de las submuestras x e
y como x1 y y 1 cuando z=1 y x0 , y 0 cuando Z=0. Entonces:
∆y
= (y 1 − y 0 )
∆z
∆x
= (x1 − x0 )
∆z
Luego:
y1 − y0
β̂V I =
x1 − x0
40
En el caso del retorno a la educación, se asume que se puede distinguir 2 grupos, donde
la pertenencia a cada grupo no determina directamente salarios, pero sı́ años de educación.
Ejemplo: cercanı́a, viven lejos-cerca.
En términos de correlaciones (o covarianzas),
Cov(z, y)
β̂V I =
Cov(z, x)
√
rzy x0 y
ó β̂V I = √
rzx x0 x
x0 y
con rxy = √ la correlación muestral entre x e y.
(X 0 X)(y 0 y)
2.3.2 El estimador de VI para regresión múltiple

Capı́tulo
Sea y = X 0 β + u con Xk×1 . Sea Zr×1 un vector de instrumentos, con r ≥ k, esto es, más IV, pág.
99-101
instrumentos que variables a instrumentalizar. Asumimos:
(1) Z no está correlacionado con u
(2) Z está correlacionado con el vector X
(3) Z está fuertemente correlacionado, en vez de débilmente correlacionado, con X.
(1) y (2) son necesarias para que el estimador IV sea consistente. (3) es necesario para
obtener buen desempeño del estimador en muestras finitas (eficiencia).
Z y X pueden compartir elementos. Algunos componentes de X, regresores exógenos,

pueden no estar correlacionados con u, y por ello podrı́an ser buenos instrumentos si satis-
facen (1) y (2).
Particionamos X = [X10 , X20 ]0 , donde X1 contiene a los regresores endógenos y X2 a los

exógenos. Entonces, un instrumento válido será Z = [Z10 , X20 ]0 , donde X2 puede ser instru-
mento de si mismo, pero se requiere Z1 para X1 .
41
(a) Identificación:
La “condición de orden” para identificar implica que se requieren al menos la misma

cantidad de instrumentos como de regresores endógenos, de modo que r ≥ k. El modelo
es exactamente identificado si r = k y sobre identificado si r > k.
Si el instrumento falla en (1), se dice que es inválido.

Si el instrumento falla en (2), se dice que es irrelevante.
Si el instrumento falla en (3), se dice que el instrumento es débil.
El modelo puede estar no identificado si hay muy pocos instrumentos relevantes.
(b) El estimador IV:
Cuando r = k se tiene la generalización obvia del caso univariado:
β̂V I = (Z 0 X)−1 Z 0 y
con ZN ×K , que contiene vectores Zi0 . Luego, si reemplazamos el modelo poblacional en

el estimador se obtiene:
β̂V I = (Z 0 X)−1 Z 0 [Xβ + u]
β̂V I = β + (Z 0 X)−1 Z 0 u
β̂V I = β + (N −1 Z 0 X)−1 N −1 Z 0 u
Luego, el estimador de VI es consistente si:
plimN −1 Z 0 u = 0 ⇒ condición (1)
plimN −1 Z 0 X 6= 0 ⇒ condición (2)
42
Se requiere que la inversa de N −1 Z 0 X exista, para lo cual se asume que Z 0 X es de rango
completo k (supuesto más fuerte que r=k).
Con errores heterocedásticos, el estimador de VI es asintóticamente normal con media

β, matriz de varianzas estimada consistentemente por:
V̂ [β̂V I ] = (Z 0 X)−1 Z 0 Ω̂Z(X 0 Z)−1
donde Ω̂ = Diag[û2i ].
El estimador de VI, aunque consistente, lleva a una pérdida de eficiencia que puede ser
grande en la práctica. Intuitivamente, VI no funcionará bien si la correlación entre Z y
X es baja.
2.3.3 MCO en 2 etapas

Capı́tulo
Si se tiene un modelo sobre identificado y se deja de lado ciertos instrumentos, se tendrá IV, pág.
101-103
pérdida en eficiencia. Ası́, se prefiere usar MC2E:
β̂M C2E = [X 0 Z(Z 0 Z)−1 Z 0 X]−1 [X 0 Z(Z 0 Z)−1 Z 0 Y ]
El estimador de MC2E es un estimador de VI. Si r = k es equivalente al caso anterior.
En un modelo sobre identificado, el estimador MC2E es igual al anterior si los instru-

mentos son X̂ = Z(Z 0 Z)−1 Z 0 X que es la predicción de regresionar X en Z. Esto es:
• 1a Etapa: Regresionar X en Z para obtener X̂.
• 2a Etapa: Regresionar y en X̂ para obtener β̂M C2E .
Ejemplo:
43
y = 0 + 0.5X + u
X = 0+Z +v
Z ∼ N (2, 1)
u, v ∼ Normal conjunta (0,1, corr=0.8)
Dado que Z no está correlacionado con v, ello implica que Z es un instrumento para X.
Transformaciones de Z, como Z 3 , también son instrumentos válidos.
⇒ TAREA: Mostrar que Z 3 en el ejemplo también funciona como instrumento recogiendo
el mismo parámetro β = 0.5 original.
2.3.4 VI en la práctica
Capı́tulo
Los problemas de eficiencia se ven amplificados con instrumentos débiles. IV, pág.
103-105
(a) Instrumentos débiles: Distintas definiciones
• Regresor escalar x e instrumento escalar z ⇒ un instrumento débil es aquel en que

2
rx,z es pequeño.
• Regresor escalar x y vector de instrumentos Z ⇒ los instrumentos son débiles si el

R2 de la regresión de x en Z, Rx,Z
2
, es pequeño o si el estadı́stico F de significancia
conjunta es pequeño.
• Múltiples regresores X y solo uno endógeno ⇒ un instrumento es débil si el R2

parcial es bajo o si el estadı́stico F parcial es bajo.
• Múltiples regresores X con muchos endógenos: Hay muchas medidas...
44
Por lo tanto se necesita ver las definiciones de R2 y de estadı́stico F que se utilizan para
ver si un instrumento es débil.
(b) Medidas de R2
Considerando y = β1 x1 + X20 β2 + u
con x1 regresor escalar endógeno, X2 vector exógeno y z1 instrumento escalar.
Una medida posible es el R2 de la regresión de x1 en Z = (z1 , X2 ), pero esto reflejarı́a

también la correlación entre x1 y X2 , que no es lo que se busca.
Bond, Jaeger y Baker (1995) sugieren utilizar el R2 parcial (Rp2 ), que se obtiene de
regresionar x1 − x̃1 = (Z − Z̃)0 γ + ν donde x̃1 y Z̃ son valores ajustados (predichos) de
regresionar x1 en X2 y Z en X2 .
2
Notar que si hay solo 1 regresor, y éste es endógeno, la expresión se reduce a rxZ , y se
reduce a Corr(x, z) si hay solo un instrumento.
Con más de una variable endógena el análisis es menos directo. Se han propuesto una
serie de medidas.
(c) Medidas de F − stat parcial
Test F de significancia conjunta (todos los coeficientes son iguales a cero). Se utiliza el
test F de la regresión:
X = Z10 π1 + X20 π2 + ν
donde Z1 es un vector de instrumentos y X2 son los regresores exógenos. Notar que esta
es la primera etapa en la interpretación de MC2E de VI.
45
Staiger y Stock (1997) sugieren que un valor menor de 10 es problemático y que menor
que 5 es señal de sesgo en muestras pequeñas.
Por otro lado, si los instrumentos son débiles, una pequeña endogeneidad del instrumento
podrı́a llevar a que VI sea incluso más inconsistente que MCO (Bond, Jaeger y Baker,
1995).
Si un instrumento z se relaciona con cambios exógenos en x (es un instrumento), pero

lo hace con mucho ruido, entonces se tendrá menor precisión en la estimación. Esto se
incrementa con instrumentos débiles.
Ejemplo: Caso simple de un regresor endógeno y un instrumento con errores iid. La

varianza asintótica de VI será:
V [β̂V I ] = σ 2 (X 0 Z)−1 Z 0 Z(Z 0 X)−1

σ2Z 0Z
=
(Z 0 X)2
σ2
X0X
= (Z 0 X)2
(Z 0 Z)(X 0 X)
V [β̂M CO ]
= 2
rXZ
2
Entonces con una baja correlación muestral (0,31), se tendrá que rXZ ' 0, 1 ⇒ los
errores estándar se amplifican por 10.
¿Qué hacer entonces con instrumentos débiles?
(i) Limitar el número de instrumentos (botar algunos o cambiarlos)
(ii) Alternativas tipo GMM
(iii) Menos problemático en muestras grandes
Stock y Yogo (2005) entregan tablas de “reglas de oro” para instrumentos débiles.
46
3 Estimación por Máxima Verosimilitud y MC no lin-
eales (Clases 6,7)
CLASE
12
Capı́tulo
• Puede haber muchos casos en que la media condicional no sea lineal en los parámetros. V, pág.
116-117.
• La censura y truncamiento son dos tı́picos problemas de no linealidades.
• Tı́picamente se considera resultados asintóticos, centrados en consistencia y normalidad

asintótica.
• En modelos no lineales tı́picamente no se puede demostrar con fórmulas como en mod-

elos lineales.
• Uno de los desafı́os centrales es la interpretación de los resultados de la regresión.
3.1 Estimadores No Lineales

3.1.1 Ejemplo de la Regresión Poisson
Capı́tulo
Poisson es apropiada para valores de y que solo pueden ser no negativos enteros: 0,1,2,3,4... V, pág.
117-118
Tı́picamente en números de ocurrencias de un evento: visitas al doctor, postulaciones a un
crédito, etc.
La función de densidad de la Poisson es:
λy
f (y|λ) = e−λ · con y=0,1,2,...
y!
E[y] = λ
V [y] = λ
En un modelo de regresión, se especifica que el parámetro λ varı́e entre individuos de

acuerdo a una función especı́fica de los regresores X y el vector de parámetros β. Tı́picamente
se especifica como [Hacer la comparación con modelo lineal]:
47
λ = exp(X 0 β)
con lo cual se asegura que λ > 0.
De este modo, la función de densidad del modelo de regresión Poisson con una sola
observación será:
0 [exp(X 0 β)]y
f (y|X, β) = e−exp(X β) ·
y!
Entonces, el estimador de máxima verosimilitud basado en la muestra (yi , xi ) con i =
1, ...., N., maximiza el logaritmo de la función de verosimilitud.
La función de verosimilitud es la función de densidad conjunta, que dado que son obser-
vaciones independientes, será la pitatoria de las funciones de densidad individuales, condi-
cionales en los regresores. Finalmente, al tomar el logaritmo de la expresion se obtiene la
expresion de sumatoria como sigue:
Y
f (yi |xi , β)
i
X
⇒ ln(Π . . . ) = ln[f (yi |xi , β)]
i
Para el caso de la distribución Poisson, se tendrá para la observación i-ésima:
ln[f (yi |xi , β)] = −exp(x0i β) + yi x0i β − ln(yi !)
Con lo que el estimador de MV de la Poisson, β̂, maximiza la función:
N
1 X 0 0
QN (β) = − exp(xi β) + yi xi β − ln(yi !)
N i=1
1
donde se agrega el factor de escala N
para que QN (β) se mantenga finito cuando N → ∞.
El estimador de MV de la Poisson es aquel que soluciona las condiciones de primer orden:
48

∂QN (β)
= 0
∂β β̂
N
1 X 0

⇔ [yi − exp(xi β)]xi = 0
N i=1 β̂
No hay solución explı́cita para β̂ en esta ecuación, de modo que se debe obtener una
solución a través de métodos numéricos.
• Existen distintos algoritmos de maximización numérica disponibles:
– Newton-Raphson (Stata Default)
– Berndt-Hall-Hall-Hausman
– Davidon-Fletcher-Powell
– Broyden-Fletcher-Goldforb-Shanno
• Se requiere fijar un conjunto de Parámetros:
– Iteraciones máximas
– Tolerancia
– Valores Iniciales
3.1.2 Generalización de estimadores no lineales de MV

Capı́tulo
V, pág.
Un “m-estimator” (maximum-likelihood) θ̂ del vector de parámetros θ de q × 1 es aquel que
118-119
maximiza la función objetivo que corresponde a la suma o promedio de subfunciones:
N
1 X
QN (θ) = q(yi , xi , θ)
N i=1
q(·) es un función escalar, yi es la variable dependiente (podrı́a ser un vector, lo que

permite incluir modelos multivariados de sistemas de ecuaciones y datos de panel). En
nuestro ejemplo de distribución Poisson (en que θ = β), se tiene que q(y, x, θ) = −exp(X 0 β)+
yX 0 β − ln(yi !).
49
Generalizando, θ̂ es la solución asociada a las CPO:
N
∂QN (θ) 1 X ∂q(yi , xi , θ)
=0 ⇐⇒ =0
∂θ θ̂ N i=1 ∂θ θ̂
que corresponde a un sistema de q ecuaciones con q incógnitas, que en modelos no lineales

tı́picamente no tiene solución analı́tica (puede tener solución numérica).
3.1.3 Propiedades asintóticas de MV

Capı́tulo
(a) Consistencia: V, pág.
119-122
Se asume que existe el “valor verdadero” de θ llamado θ0 , que genera los datos. θ̂ nunca
p
será idéntico a θ0 , incluso en muestras grandes. Lo que se requiere es que θ̂ →
− θ0 .
(b) Distribución Lı́mite Normal:

Dada la consistencia, cuando N → ∞, θ̂ tiene toda su masa en θ0 . Al igual que en MCO,
√
se reescala por N para no tener una función que se degenere cuando N → ∞.
√
Lo que interesa es el comportamiento de N (θ̂ − θ0 ). Para la mayorı́a de los problemas
microeconómicos, este estimador converge en distribución a una normal multivariada.
Se puede demostrar que (Tarea: Demostrarlo - se obtiene por expansión de Taylor), el
estimador MV se puede escribir como:
N −1 N
√ 1 X ∂qi2 (θ)

1 X ∂qi (θ)
N (θ̂ − θ0 ) = − ·√
N i=1 ∂θ∂θ0 θ+ N i=1 ∂θ θ0
| {z } | {z }
(a) (b)
Con θ+ algún valor entre θ̂ y θ0 , y asumiendo que las segundas derivadas existen.
Entonces, se puede demostrar que esto lleva a la siguiente distribución lı́mite del esti-
mador de MV.
√ d
− N [0, A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 ]
50
donde A−1
0 corresponde al lı́mite en probabilidad de (a). Se asume que (b) converge a
una distribución N (0, B0 ). Esto implica que:

a
θ̂ ∼ N [θ0 , V (θ̂)]
V (θ̂) = N −1 A−1 −1
0 B0 A0 = Varianza Asintótica
y la varianza asintótica estimada será:
V̂ (θ̂) = N −1 Â−1 B̂ Â−1
donde Â y B̂ son estimadores consistentes de A0 y B0 .
(c) Ejemplo:
Volviendo al ejemplo de la distribución Poisson, tenı́amos que
∂q(β)
= y − exp(X 0 β0 )X
∂β
Dado que:
∂ 2 q(β)
= −exp(X 0 β0 )X 0 X
∂β∂β 0
Se obtiene que:
N
1 X ∂qi2 (θ)

1 X
A0 = plim = −plim exp(x0i β)xi x0i
N i=1 ∂θ∂θ0 θ0 N i
N
1 X ∂qi ∂qi 1 X
B0 = plim · 0 = plim V [yi |xi ]xi x0i
N i=1 ∂θ ∂θ θ0 N i
Entonces:
a
β̂ ∼ N [θ0 , N −1 Â−1 B̂ Â−1 ]
1 X
Â = exp(x0i β̂)xi x0i
N i
1 X
B̂ = [yi − exp(x0i β̂)]2 xi x0i
N i
Notar que el cálculo de las expresiones anteriores Â y B̂ es trivial.
51
3.2 Interpretación de coeficientes en Regresiones no lineales
3.2.1 Efectos Marginales
Capı́tulo
Además de testear la significancia (para lo cual ya se estimó la varianza), tı́picamente interesa V, pág.
122-123
la predicción, para lo cual se requiere conocer los “Efectos Marginales”.
El efecto marginal es el cambio en la media condicional de y cuando los regresores x se

∂E[y|X]
cambian en una unidad. En el caso lineal, E[y|X] = X 0 β ⇒ ∂X
= β, por lo que el
coeficiente tiene la interpretación de efecto marginal directamente.
∂E[y|X] ∂exp(X 0 β)
En el caso no lineal, por ejemplo de la Poisson, se tendrá ∂X
= ∂X
= exp(X 0 β)β,
que es un función tanto de los parámetros como de los regresores.
En el caso general, se tiene:
E[y|X] = g(X, β)
Tı́picamente se presentan diversas estimaciones de los efectos marginales:
(i) Efecto marginal ‘promedio para todos los individuos’:

N
−1
X ∂E[yi |xi ]
N
i=1
∂xi
(ii) Efecto marginal del ‘individuo promedio’ (X) [Notar que el individuo promedio podrı́a
ser un individuo inexistente]:

∂E[y|X]
∂X X
donde X corresponde a las caracterı́sticas del individuo promedio.
(iii) Efecto marginal de un ‘individuo representativo’ con X = X ∗ [Notar que se podrı́a

evaluar para un inviduo que no existe]:

∂E[y|X]
∂X X ∗
donde X ∗ corresponde a las caracterı́sticas del individuo representativo.
52
Notar que en el modelo lineal estos efectos marginales todos iguales. Sin embargo, en
modelos no lineales incluso podrı́a cambiar el signo (con respecto al efecto marginal del
modelo lineal).
3.2.2 Modelos de Índice Simple

Capı́tulo
V, pág.
E[y|X] = g( X 0β ) 123
|{z}
ı́ndice simple
Ejemplo: Probit, Logit, Tobit. El efecto marginal se obtiene por cálculo diferencial:
∂E[y|X]
= g 0 (X 0 β) · βj
∂xj
[Notar que esto solo ocurre en modelos de ı́ndice simple; en otros puede ser más complejo].
El “efecto relativo” de los regresores será:
∂E[y|X]
∂xj βj
∂E[y|X]
=
βk
∂xk
Entonces, si βj = 2βk ⇒ el efecto relativo será 2. Es decir, el efecto relativo será

constante.
Notar que, si g(·) es una función monotónica, entonces el signo de los coeficientes indica
también el signo del efecto marginal.
Cabe señalar, que este método se utiliza para regresores continuos.
3.2.3 Método de Diferencia Finita

Capı́tulo
V, pág.
Compara 2 medias condicionales a distintos valores de xj :
123-124
∆E[y|X]
= g(X + ej , β) − g(X, β)
∆x
|{z}j
∆ en 1 unidad
53
ej es un vector con j-ésimo elemento = 1 y todo el resto igual a cero. Este método se
utiliza para regresores que toman valores enteros (incluye a variables dummies). Notar que
en el modelo lineal ambos efectos son idénticos.
Ejemplo de Efectos Marginales: Capı́tulo

V, pág.
Consideremos la interpretación de una función de media condicional: E[y|X] = exp(X 0 β).
124
Por el método de cálculo diferencial se obtiene la semi-elasticidad:
∂E[y|X]
= exp(X 0 β) · βj = E[y|X] · βj
∂xj
∂E[y|X]
E[y|X]
⇐⇒ = βj → Semi-Elasticidad
∂xj
Entonces, si βj = 0.2, un cambio de 1 unidad de xj generará un aumento de 20% en

E[y|X].
Utilizando el método de diferencia finita, se obtiene:
∆E[y|X]
= exp(X 0 β + βj ) − exp(X 0 β)
∆xj
= exp(X 0 β) · exp(βj ) − exp(X 0 β)
= exp(X 0 β) · (exp(βj ) − 1)
Entonces si βj = 0.2; la semi-elasticidad será:
∆E[y|X]
exp(X 0 β)
= exp(βj ) − 1
∆xj
= exp(0, 2) − 1
= 1, 2214 − 1
= 22, 14%
54
Por lo tanto, si bien los resultados son parecidos en este ejemplo, no son iguales, y la
diferencia depende de la especificación del modelo.
3.3 Inferencia estadı́stica: Restricciones lineales a través del test

de Wald
CLASE
13
Capı́tulo
Suponga el testeo de h restricciones linealmente independientes: V, pág.
135-136
H0 : Rθ0 − r = 0
Ha : Rθa − r 6= 0
con Rh×q matriz de constantes, rh×1 vector de constantes.
Por ejemplo: si θ = [θ1 , θ2 , θ3 ] y se quiere testear θ10 − θ20 = 2 ⇒ R = [1, −1, 0] y r = −2.
El test de Wald rechaza H0 si Rθ̂ − r es significativamente distinto de cero. Por lo tanto,

se requiere conocer la distribución de Rθ̂ − r.
√ d a
Suponga que − N [0, C0 ] con C0 = A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 , entonces θ̂ ∼ N [θ0 , N
−1
C0 ].
Por lo tanto, si H0 es cierta, se tendrá que:
a
Rθ̂ − r ∼ N [0, R(N −1 C0 )R0 ]
3.3.1 Test Chi-Cuadrado

Capı́tulo
V, pág.
Es conveniente tomar la forma cuadrática porque lo que interesa es “cuán distinto de cero”
136
es el estadı́grafo Rθ̂ − r para cada restricción pero en conjunto. Ası́, se forma el estadı́grafo
de Wald [Notar que se pasa de una normal multivariada a la suma de normales estándar al
cuadrado. Si z1 , ..., zk ∼ N (0, 1) ⇒ ki=1 zi2 = Q ∼ χ2 (k)]:
P
d
W = (Rθ̂ − r)[R(N −1 Ĉ)R0 ]−1 (Rθ̂ − r) →
− χ2 (h)
55
Se requiere que R(N −1 Ĉ)R0 sea de rango completo (h), lo que se cumple bajo la H0 . Ĉ
es una estimación consistente de C0 .
Si el estadı́grafo de Wald es tal que W > χ2α (h), se rechaza H0 al nivel de confianza α.
W
También se puede usar el estadı́grafo F = h
, para luego comparar con la distribución
F (h, N −h), esperando una mejor aproximación en muestras finitas. [Esto porque, si N → ∞,
entonces h · F → χ2 (h)].
Por otro lado, la estimación de W cambiará con la estimación de la varianza (C). En

W
el caso lineal, tenı́amos que reemplazar σ 2 por s2 , y entonces h
se distribuı́a exactamente
como una F si los errores eran normales.
3.3.2 Test de un solo regresor

Capı́tulo
Suponga que interesa el j-ésimo regresor, de modo que: V, pág.
136-137
H0 : Rθ0 − r = θj = 0
Luego,
2
θˆj
W =
N −1 ĉjj
con ĉjj es el i-ésimo elemento de la diagonal de Ĉ. Tomando raı́z cuadrada se obtiene
que:
θ̂j d
t = →
− N [0, 1]
se[θ̂j ]
p
bajo H0 . donde además, se[θ̂j ] = N −1 ĉjj es el error estándar asintótico de θ̂j . El test-t (a
diferencia de W ) se puede utilizar como test de 1 cola.
56
√
Notar que formalmente W es un z-statistic (es Normal), pero se usa ‘t’ por convención.
En muestras finitas, algunos software usan distribución normal y otros t para computar
p-values e intervalos de confianza. Notar que en muestras finitas ninguno es completamente
correcto (a menos que se tenga el caso lineal con errores normales).
3.3.3 Estimación de la Varianza

Capı́tulo
√ V, pág.
La distribución lı́mite de N (θ̂ − θ0 ) tiene como varianza A−1 0−1
0 B0 A0 . De lo cuál se deriva
136-137
que θ̂ tiene una varianza asintótica N −1 A−1
0 B A
0 0
0−1
.
Una estimación ‘sandwich’ de la varianza de θ̂ es una estimación de la forma:
V [θ̂] = N −1 Â−1 B̂ Â0−1
donde Â y B̂ son estimadores consistentes de A0 y B0 respectivamente. Estimación robusta

sandwich también se llama ‘Huber’ (1967), ‘Eikker-White’ (1967 y 1980), y ‘Newey-West’
(1987).
Dos estimadores estándar de A0 son la estimación Hessiana:
∂ 2 QN (θ)

ÂH =
∂θ∂θ0 θ̂
y la estimación del Hessiano esperado:
∂ 2 QN (θ)

ÂEH = E
∂θ∂θ0 θ̂
ÂH no requiere supuestos de distribución, pero ÂEH es más probable de ser negativa
definida e invertible.
Paralelamente, para B0 se utilizan supuestos distribucionales para obtener:

∂QN (θ) ∂QN (θ)
B̂E = E N ·
∂θ ∂θ0
θ̂
57
Esto se puede simplificar con supuestos simples a:
N
1 X ∂qi (θ) ∂qi (θ)
B̂OP = ·
|{z} N i=1 ∂θ θ̂ ∂θ0 θ̂
Outer Product
[Tarea: Derivar ÂH y B̂OP para el caso Poisson.]
MAXIMUM LIKELIHOOD AND NONLINEAR LEAST-SQUARES ESTIMATION
A continuación se presentan ejemplos de distribuciones usadas en MV: Weibull, gamma,

Table 5.3. Maximum Likelihood: Commonly Used Densities
Model Range of y Density f (y) Common Parameterization

2
/2σ 2
Normal (−∞, ∞) [2π σ 2 ]−1/2 e−(y−µ) µ = x# β, σ 2 = σ 2
Logit p = ex β /(1 + ex β )
# #
Bernoulli 0 or 1 p y (1 − p)1−y
λ = ex β or 1/λ = ex β
# #
Exponential (0, ∞) λe−λy
λ = ex β
#
−λ y
Poisson 0, 1, 2, . . . e λ /y!
For cross-section data the observations (yi , xi ) are independent over i with condi-
tional density!
log-normal son utilizadasfunction f (yi |xi , θ).deThen
en modelos by independence the joint conditional density
duración.
N
f (y|X, θ) = i=1 f (yi |xi , θ), leading to the (conditional) log-likelihood function
N
1 "
Q N (θ) = N −1 L N (θ) = ln f (yi |xi , θ), (5.39)
N i=1
3.4 MC No Lineales
where we divide by N so that the objective function is an average.
Capı́tulo
Resultsa extend to multivariate data, V, pág.
La generalización Mı́nimos Cuadrados Nosystems of equations,
Lineales and panel
se da a través de data by re-
la generalización de
placing the scalar yi by vector yi and letting f (yi |xi , θ) be the joint density of yi 150-151
la función conditional on xi . See de
de valor esperado alsolaSection 5.7.5.
variable:
E[yi |xi ] = g(xi , β)

Examples
donde yAcross
es unaescalar,
wide range
g(·)ofesdata
unatypes the following
función method
particular, X esiselused to generate
vector fully explicati-
de variables
parametric cross-section regression models. First choose the one-parameter or two-
vas y βk×1 parameter
es el vector desome
(or in parámetros. El modelo MCO
rare cases three-parameter) es el caso
distribution thatparticular en for
would be used que se asume
the dependent variable y in the iid case studied in a basic statistics course. Then pa-
que E[yi |xi ] = X 0 β.
rameterize the one or two underlying parameters in terms of regressors x and para-
meters θ.
Some commonly used distributions and parameterizations are given in Table 5.3.
RazonesAdditional
para especificar
distributionslaaremedia
given incondicional comoalso
Appendix B, which unapresents
función no lineal
methods to drawson restric-
pseudo-random variates.
ciones como que ésta deba ser positiva o por la especificación de demandas, ofertas, costos o
For continuous data on (−∞, ∞), the normal is the standard distribution. The clas-
sical
gastos que estánlinear regression model
debidamente sets µ = x# β and assumes σ 2 is constant.
microfundados.
For discrete binary data taking values 0 or 1, the density is always the Bernoulli,
a special case of the binomial with one trial. The usual parameterizations for the
Bernoulli probability lead to the logit model, given in Table 5.3, and the probit model
El problema que se# soluciona es análogo al de MCO. Se busca minimizar la suma de los
with p = Φ(x β), where Φ(·) is the standard normal cumulative distribution function.
These models
errores al cuadrado, are analyzed
donde in Chapter
los errores 14.
se definen como yi − g(xi , β).
For positive continuous data on (0, ∞), notably duration data considered in Chap-
ters 17–19, the richer Weibull, gamma, and log-normal models are often used in addi-
tion to the exponential given in Table 5.3.
For integer-valued count data taking values 58 0, 1, 2, . . . (see Chapter 20) the richer
negative binomial is often used in addition to the Poisson presented in Section 5.2.1.
Setting λ = exp(x# β) ensures a positive conditional mean.
Notar que MV y MCO no lineales en sus versiones más estándar se pueden estimar di-
rectamente en los paquetes estadı́sticos. En otros casos menos estándar de funciones de
densidad, paquetes como STATA proveen una rutina en que el usuario provee la función de
densidad, y eventualmente la primera derivada, y hasta la segunda.
Se debe estimar siempre los efectos marginales y ser cuidadoso en la interpretación.
59
4 Método Generalizado de momentos y Sistema de
Ecuaciones (Clases 8,9)
CLASE
14
Capı́tulo
• El MM y GMM es más amplio que MV y MCO no lineales. VI, pág.
166-167.
• Estos estimadores se basan en el principio de analogı́a en que las condiciones de mo-
mentos muestrales llevan a condiciones de momentos poblacionales.
• El MM y GMM soluciona ‘condiciones de momentos muestrales’ que corresponden a

‘condiciones de momentos poblacionales’ (Ejemplo: La media poblacional puede ser
estimada utilizando la media muestral).
• Estos métodos generan ganancias en eficiencia.

Estos métodos generan ganancias en eficiencia.
4.1 Ejemplos de GMM

4.1.1 Regresión Lineal
Capı́tulo
Estimación de la media poblacional cuando y es iid con media µ. Poblacionalmente: VI, pág.
167
E[y − µ] = 0
Reemplazando el valor esperado por el promedio, el momento muestral es:

N
1 X
(yi − µ) = 0
N i=1
Resolviendo para µ se obtiene µ̂M M = N −1 i yi = y. Luego el estimador del MM de la

P
media poblacional es la media muestral.
Se puede extender al modelo de regresión lineal y = X 0 β + u, con X y β vectores de k × 1.

La condición E[u|X] = 0 lleva a k condiciones de momentos incondicionales E[Xu] = 0,
dado que, utilizando la ley de expectativas iteradas:
E[Xu] = Ex [E[Xu|X]] = Ex [XE[u|X]] = Ex [X · 0] = 0
60
Entonces,
E[X(y − X 0 β)] = 0
El estimador MM es la solución a la correspondiente condición de momento muestral:

N
1 X
xi (yi − x0i β) = 0
N i=1
−1
0
P P
lo que lleva a que β̂M M = i xi xi i xi yi . Lo que implica que MCO es un caso
particular de MM.
4.1.2 Regresión de Variables Instrumentales

Capı́tulo
Considere y = X 0 β + u. Con alguno(s) componente(s) de X correlacionados con el error. VI, pág.
184-185
Asumiendo que existe un instrumento Z no correlacionado con el término de error y sı́
correlacionado con X, tal que E[u|Z] = 0. Entonces, E[y−X 0 β|Z] = 0. Luego, multiplicando
por Z para obtener k condiciones de momentos poblacionales incondicionales:
E[Z(y − X 0 β)] = 0
El MM resuelve la correspondiente condición de momento muestral:

N
1 X
zi (yi − x0i β) = 0
N i=1
Si la dimensión de z = k implica que:

X −1 X
0
β̂M M = zi xi zi yi
i i
que corresponde al estimador lineal de VI. Esto muestra que el estimador lineal de VI es
un caso particular de MM.
Cuando se tiene sobreidentificación (más instrumentos que regresores) se produce el prob-

lema que no hay solución única. Para no perder instrumentos, GMM permite hacer un
‘weighting’ para evitar usar menos instrumentos (lo que llevarı́a a pérdida de la eficiencia).
Así seguir ganando en términos de eficiencia.
61
4.1.3 Datos de Panel
Capı́tulo
VI, pág.
Suponga yit = x0it β + uit con i=individuo y t=tiempo. Se puede estimar vı́a MM con la
167-168
‘muestra completa’ (pooled sample) basado en la condición E[xit uit ] = 0.
Con datos de panel, se puede usar condiciones de momento adicionales. Por ejemplo,
suponga que se asume que E[xst uit ] = 0 para s 6= t. Esto provee una condición de momento
adicional que puede ser usada para obtener una estimación más eficiente.
4.2 Sistema de Ecuaciones Lineales

Capı́tulo
VI, pág.
• La principal ventaja es la ganancia en eficiencia que resulta de incorporar la correlación
206-207
entre no observables entre ecuaciones para un mismo individuo.
• La estimación conjunta puede además ser necesaria si existen restricciones de parámetros

“entre ecuaciones”.
Ejemplos:
• Demanda por distintos commodities en un momento del tiempo para muchos individ-
uos.
– En SUR, todos los regresores son exógenos.
– En Eq. Simultáneas, algunos regresores son endógenos.
• En datos de panel, en que una ecuación es observada en varios momentos del tiempo
para distintos individuos
– Ganancia en eficiencia.
– Obtener instrumentos cuando hay algún regresor endógeno.
62
4.2.1 Sistema de Ecuaciones Lineales
Capı́tulo
VI, pág.
Con G variables dependientes, se tiene un marco como:
207-208
yi = Xi β + ui i=1,...,N
con yi , ui son vectores de G × 1, Xi es una matriz de G × K y β es de K × 1.
Se asume inicialmente que los errores no están correlacionados entre individuos, E[ui ·
u0j ] = 0 para i 6= j, pero puede haber variaciones a través del individuo, de modo que la
matriz de varianzas condicional para el i-ésimo individuo será: Ωi = E[ui · u0i |Xi ].
Visto como un panel para N individuos, se tiene:
     
y1 X1 u
 1
 ..   .  .
   
 .  =  ..  β +  .. 
     
yn Xn un
| {z } | {z } | {z }
y X u
β̂M CO = (X 0 X)−1 X 0 Y
β̂V I = (Z 0 X)−1 Z 0 Y
(En el caso de identificación exacta con VI).
La única diferencia es que el supuesto de matriz de varianza diagonal se reemplaza por

‘diagonal en bloque’.
La estimación del sistema de ecuaciones por MCO es directa:
β̂M CO = (X 0 X)−1 X 0 Y
N
!−1 N
X X
= Xi0 Xi Xi0 yi
i=1 i=1
63
El estimador es asintóticamente normal y, asumiendo independencia entre los individuos
i, la estimación sándwich robusta se puede seguir aplicando:
N
!−1 N N
!−1
X X X
V̂ [β̂SM CO ] = Xi0 Xi Xi0 ûi û0i Xi Xi0 Xi
i=1 i=1 i=1
donde ûi = yi − Xi β̂.
Esta estimación permite que las varianzas y covarianzas condicionales sean distintas entre
individuos. Si existe esa correlación a nivel de individuo, se puede utilizar esta información
para obtener estimadores más eficientes.
4.2.2 MCGF Mínimos cuadrados generalizados

Capı́tulo
VI, pág.
Si las observaciones son independientes a través de i, se puede aplicar MCG al sistema de
208-209
ecuaciones:
−1 −1 −1
Ωi 2 yi = Ωi 2 Xi β + Ωi 2 ui
−1
donde Ωi es la matriz de varianza y covarianzas E[ui u0i ]. El error transformado Ωi 2 ui
tiene media igual a cero y varianza:
−1 −1 −1 − 12
E[(Ωi 2 ui )0 (Ωi 2 ui )|Xi ] = Ωi 2 E[u0i ui |Xi ]Ωi
−1 − 12
= Ωi 2 Ωi Ωi
= IG
De modo que MCO es eficiente porque los nuevos errores son homocedásticos y no cor-
Los nuevos errores son homocedásticos !!
relacionados a través de las G ecuaciones.
La implementación requiere conocer Ωi = Ωi (γ), lo que se hace vı́a Ωi (γ̂), donde γ̂ es una
estimación consistente de γ, dando origen a MCGF en sistema de ecuaciones:
64
N
!−1 N
X X
β̂SM CGF = Xi0 Ω̂−1 Xi Xi0 Ω̂−1 yi
i=1 i=1
Este estimador es asintóticamente normal y para prevenir algún problema de especifi-

cación de Ωi (γ) se usa la estimación sándwich:
N
!−1 N N
!−1
X X X
V̂ [β̂M CO ] = Xi0 Ω̂−1
i Xi Xi0 Ω̂−1 0 −1
i ûi ûi Ω̂i Xi Xi0 Ω̂−1
i Xi
i=1 i=1 i=1
donde Ω̂i = Ωi (γ̂).
Lo más usual es asumir que Ωi no varı́a entre i, desechando la posibilidad de heterocedas-

ticidad entre i. En ese caso, se tendrá que Ωi = ΩG×G , que se puede estimar consistentemente
para G finito y N → ∞ como:
N
1 X
Ω̂ = ûi û0i
N i=1
donde ûi = yi − Xi β̂SM CO . Con lo que:
h i−1
0 −1 0 −1
β̂SM CGF = X (Ω̂ ⊗ IN )X X Ω̂ ⊗ IN y 0
con ⊗ producto kronecker.
4.2.3 Regresión Aparentemente No Relacionada (Seemingly Unrelated Regres-

sion - SUR)
Capı́tulo
En SUR se tiene G ecuaciones para N individuos: VI, pág.
209-210
yig = Xig0 βg + uig g = 1, . . . , G. , i = 1, . . . , N.
Xig se asume exógeno y βg es un vector de kg × 1.
65
Por ejemplo, datos de demanda de G bienes para N individuos, donde yig es el gasto en
el bien g del individuo i.
Lo importante es que se asume G pequeño y N → ∞. La correlación entre yig e yih es

indirecta, a través de los errores de las diferentes ecuaciones (no es directa a través de un
sistema de ecuaciones). Para cada individuo se tendrá:
       
0
y X 0 0 β u
 i1   i1   1   i1 
 ..  . .
. . 0  ·  ..  +  ... 
 .  =  0
    

       
0
yiG 0 0 XiG βG uiG
yi = Xi β + ui
con las definiciones de yi , ui de G x 1 con g-ésimo elemento yig , uig . Xi es la matriz de

G×K con g-ésima fila [0...Xig0 ...0] y β = [β10 , ..., βG0 ] es el vector de K×1 con K = K1 +...+KG .
Se puede demostrar que:
   P −1 P 
N 0 N
β̂ i=1 Xi1 Xi1 i=1 Xi1 yi1
 1
 ..  ..
 
 .  = 
 
. 
−1
   
PN 0
PN
β̂G i=1 XiG XiG i=1 XiG yiG
Lo que es equivalente a MCO en cada ecuación (al tratar los errores como no relaciona-
dos). Al usar MCGF se puede obtener mejores estimaciones.
En sistemas de ecuaciones se puede tener restricciones de parámetros entre ecuaciones,

como restricciones de simetrı́a, por ejemplo: β2 = −β1 . Ası́, se puede definir Xi = [Xi1 −Xi2 ]0
y β = β1 .
4.2.4 Panel de Datos

Capı́tulo
VI, pág.
En el caso de datos de panel también puede verse como un sistema de ecuaciones (con T
211
relativamente pequeño y N → ∞):
yit = Xit0 β + uit t = 1, . . . , T. , i = 1, . . . , N.
66
que es similar al sistema de G ecuaciones ahora con T ecuaciones y β constante entre los
perı́odos t. Ası́, el estimador de Panel MCO puede expresarse como:
N X
T
!−1 N X
T
X X
β̂P M CO = Xit Xit0 Xit yit
i=1 t=1 i=1 t=1
Tı́picamente se usa la estimación robusta de la varianza o modelos más complejos con

efectos individuales (fijo o aleatorios).
67
5 Test de Hipótesis (Clases 10,11,12)
CLASE
15
Capı́tulo
Repaso distribuciones: VII,
pág.
223.
Z ∼ N (0, 1)
Z 2 ∼ χ21
N
X
Zi2 ∼ χ2N
i=1
xi /a
F (a, b) ∼ con xi ∼ χ2a , yi ∼ χ2b
yi /b
• Se busca testear hipótesis posiblemente no lineales en los parámetros.
• Hay que encontrar la distribución asintótica del estadı́grafo.
• Se busca linealizar las hipótesis y los estimadores.
• Consideraciones prácticas:
– El test puede tener el ‘tamaño equivocado’: Se cree que es 5%, pero puede ser
mucho más. Tı́picamente ocurre en muestras pequeñas. La solución puede ser
utilizar Bootstrap.
– Los test pueden tener bajo ‘poder’ (existe baja probabilidad de rechazar H0
cuando H0 es incorrecta). Poder del test -> probabilidad de rechazar H_{0} cuando es incorrecta.
5.1 Test de Wald REQUIERE LA ESTIMACIÓN DEL MODELO SIN RESTRICCIONES.

Capı́tulo
VII,
El test de Wald (1943) es el más ampliamente usado en microeconometrı́a. Requiere la es-
pág.
timación del modelo sin restricciones (sin imponer la hipótesis nula). Los softwares actuales 224
permiten estimar el modelo sin restricciones incluso si es más complicado que el modelo
restringido, y además permite estimar la varianza de manera robusta bajo supuestos débiles.
68
5.1.1 Hipótesis Lineales en modelos Lineales
Capı́tulo
Se parte del caso lineal para luego generalizar. VII,
pág.
224-225
Para un test lineal de 2 colas de un modelo y = X 0 β + u:
H0 : Rβ0 − r = 0
Ha : Rβ0 − r 6= 0
con h restricciones , R es de h × K de rango completo h. β es de K × 1, r es de h × 1, y

h ≤ K.
Ejemplo: Test conjunto de β1 = 1 y β2 − β3 = 2 con k = 4 será:
    R es de h x K
1 0 0 0 1
R=  , r= 
0 1 −1 0 2
El test de Wald de Rβ0 − r = 0 es un test de cercanı́a a cero del análogo muestral Rβ̂ − r,
donde β̂ es la estimación no restringida por MCO.
Bajo el supuesto fuerte que u ∼ N (0, σ02 I), se tiene que β̂ ∼ N (β0 , σ02 (X 0 X)−1 ) y entonces
Rβ̂ − r ∼ N (0, σ02 R(X 0 X)−1 R0 ). Tomando la forma cuadrática:
W1 = (Rβ̂ − r)0 [σ02 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2h
Se distribuye exactamente χ2h bajo la hipótesis nula. En la práctica el test no se puede

computar porque σ02 es desconocido.
En muestras grandes, al reemplazar σ02 por su estimación s2 no afecta la distribución

σ02 σ2
lı́mite, dado que es equivalente a premultiplicar W1 por s2
, en que se cumple que plim s20 = 1;
entonces:
d
W2 = (Rβ̂ − r)0 [s2 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2h
69
Con errores normales, bajo la hipótesis lineal, se puede encontrar la distribución exacta
en muestras pequeñas:
W2
W3 = ∼ F (h, n − k)
h
2
P
i ûi
con s2 = n−k
donde û es el residuo de estimar por MCO.
En modelos no lineales tı́picamente no se puede obtener W3 , y se trabaja asintóticamente

con W2 .
5.1.2 Hipótesis No Lineales

Capı́tulo
Modelo no lineal: Vector de parámetros θq×1 , con h restricciones (en modelo lineal se tenı́a VII,
pág.
βk×1 ): 225
H0 : h(θ0 ) = 0
Ha : h(θ0 ) 6= 0
con h(·)k×1 ‘función vectorial’.
Ejemplos lineales:
h(θ0 ) = θj = 0
h(θ0 ) = θ2 = 0
Ejemplos no lineales:
θ1
h(θ0 ) = −1=0
θ2
Se asume que h(θ) es tal que:

∂h(θ)
R(θ)h x q =
∂θ0
es de rango h al ser evaluada en θ = θ0 (equivalente al caso lineal).
70
5.1.3 El estadı́grafo de Wald
Capı́tulo
a
La intuición implica que h(θ̂) ' 0. Si h(θ̂) ∼ N (0, V [h(θ̂)]) bajo H0 , entonces: VII,
pág.
h i−1
a 226-229
W = h(θ̂)0 V [h(θ̂)] h(θ̂) ∼ χ2h
La única dificultad es estimar V [h(θ̂)].
Usando una expansión de Taylor de primer orden bajo la hipótesis nula, h(θ̂) tiene la
misma distribución lı́mite que:

∂h(θ)
R(θ0 )(θ̂ − θ0 ) = (θ̂ − θ0 )
∂θ0 θ0
Entonces h(θ̂) es asintóticamente normal bajo H0 con media cero y matriz de varianzas
√
R(θ0 )V [θ̂]R(θ0 )0 . Un estimador consistente es: R̂N −1 Ĉ R̂0 , donde R̂ = R(θ̂) y N (θ̂ −
d
θ0 ) →
− N [0, C0 ], y Ĉ es un estimador consistente de C0 . Con esto se obtiene comúnmente el
estadı́grafo de Wald como:
W = N ĥ0 [R̂Ĉ R̂0 ]−1 ĥ

∂h(θ)

con ĥ = h(θ̂); R̂ = ∂θ0
.
θ̂
Equivalentemente:
W = ĥ0 [R̂V̂ [θ̂]R̂0 ]−1 ĥ
donde V̂ [θ̂] = N −1 Ĉ es la varianza asintótica de θ̂.
W se distribuye asintóticamente como χ2h bajo H0 . H0 se rechaza al nivel de confianza α

si W > χ2α (h). Esto es, H0 se rechaza al nivel de confianza α si el p-value= P r[χ2h > W ] < α.
También se puede hacer, asintóticamente, un test-F :
W
F = ∼ F (h, N − q)
h
71
Si N → ∞ entrega el mismo p-value.
Para una sola restricción, la raı́z de W es una normal estándar, lo que permite un test
de una cola. Para h(θ) escalar, el estadı́grafo de Wald z-test:
ĥ
WZ = p
r̂N −1 Ĉ r̂0

∂h(θ)

con ĥ = h(θ̂); r̂ = ∂θ0
es de 1 x k.
θ̂
También si N → ∞, entonces WZ ∼ tN −q .
En resumen, el test de Wald no lineal es similar al lineal, con la desviación estimada de

la hipótesis nula h(θ̂) en vez de (Rβ̂ − r).
Ojo que hay variadas formas de estimar consistentemente C0 ⇒ hay variados valores para
el test de Wald.
Ejemplo de restricción no lineal:

θ1
H0 : h(θ) = −1=0
θ2
∂h 1 ∂h −θ1
R(θ) es de 1 × q con primer elemento ∂θ1
= θ2
, segunda elemento ∂θ2
= θ22
y el resto
igual a cero. Siendo ĉjk el jk-ésimo elemento de Ĉ, se tiene:
    −1
1
ĉ ĉ ···

θ1
2 h i  11 12   θ2 
−θ1
W =N − 1 ·  θ1 0 ĉ21 ĉ22 · · ·  −θ
    1 
θ2 θ22   θ2 

 2
.. .. . .

. . . 0
donde 0 es una matriz de (q − 2) × q de ceros, con lo cual se tiene:
a
W = N [θ̂2 (θ̂1 − θ̂2 )]2 (θ̂22 ĉ11 − 2θ̂1 θ̂2 ĉ12 + θ̂12 ĉ22 )−1 ∼ χ2(1) bajo H0
√ a
W ∼ N (0, 1) bajo H0
72
5.1.4 El Método Delta para construir Intervalos de Confianza
Capı́tulo
El método usado para derivar el test de Wald se llama método delta porque la aproximación VII,
pág.
de Taylor para h(θ̂) implica derivar h(θ). Este método también puede usarse para construir 231-232
intervalos de confianza.
Suponga que se quiere hacer inferencia sobre el vector γ = h(θ) que es estimado por
√ d
γ̂ = h(θ̂), donde la distribución lı́mite de N (θ̂ − θ0 ) →
− N (0, C0 ).
√ √
Dado que N (h(θ̂) − h(θ0 )) = R(θ+ ) N (h(θ̂) − h(θ0 )) con θ+ ∈ (θ̂, θ0 ). [Proviene de la
derivación del estadı́grafo con aproximación de Taylor alrededor de θ0 ]. Se tendrá que:
√ d
− N [0, R0 C0 R00 ]
N (γ̂ − γ0 ) →
∂h(θ)
donde R(θ) = ∂θ0
.
Equivalentemente, se dice que γ̂ es asintóticamente normal con varianza asintótica V̂ [γ̂] =

R̂N −1 Ĉ R̂0 , la que puede ser utilizada para construir intervalos de confianza.
En particular, un Intervalo de Confianza de 100(1 − α)% para un parámetro escalar γ

será:
γ ∈ γ̂ ± Z α2 · SE[γ̂]
p
SE[γ̂] = r̂N −1 Ĉ r̂0
r̂ = r(θ̂)
∂γ ∂h(θ)
r(θ) = =
∂θ0 ∂θ0
Ejemplos:
(i) Suponga E[y|X] = exp(X 0 β) y se busca un IC para la media condicional predicha
73
cuando X = Xp . Entonces,
h(β) = exp(Xp0 β)
∂h(β)
= exp(Xp0 β)Xp0
∂β 0
q
0 0
SE[exp(Xp β̂)] = exp(Xp β̂) · Xp0 N −1 ĈXp
donde Ĉ es una estimación consistente de la matriz de covarianzas en la distribución

√
lı́mite de N (β̂ − β0 ).
(ii) Suponga que se busca un IC para exp(β) en vez de β (un coeficiente escalar). Entonces:
h(β) = exp(β)
∂h(β)
= exp(β)
∂β
SE[exp(β̂)] = exp(β̂) · SE[β̂]
exp(β) ∈ exp(β̂) ± 1, 96 · exp(β̂) · SE[β̂]
Cabe señalar que el método delta genera intervalos simétricos alrededor de γ̂. En el
último ejemplo existirı́a el problema que se podrı́a predecir un IC con valores negativos
cuando exp(β) > 0 por definición. Esto último se puede corregir tomando exponencial
de los términos en el IC:
P r[β̂ − 1.96 · SE[β̂] < β < β̂ + 1.96 · SE[β̂]] = 0.95
⇒ P r[exp(β̂ − 1.96 · SE[β̂]) < epx(β) < exp(β̂ + 1.96 · SE[β̂])] = 0.95
Esta es una transformación usual en modelos binarios o de duración, y además se puede

generalizar a otras transformaciones γ = h(θ) siempre y cuando h(·) sea monotónica.
5.2 Test basados en Verosimilitud (Wald,LR,LM)

Capı́tulo
L(θ) denota la función de verosimilitud dado X y los parámetros θ. Se puede plantear la VII,
pág.
hipótesis nula H0 : h(θ0 ) = 0. 233-234
74
Se define θ̂u como el vector de parámetros estimado por MV en el modelo no restringido.
θ̃r corresponde al vector de parámetros estimado en el modelo restringido.
El modelo restringido corresponde a la maximización del lagrangiano:
L = ln(L(θ)) − λ0 h(θ)
donde λ es un vector de h × 1 de multiplicadores de Lagrange.
En el caso simple de restricciones de exclusión, se tiene por ejemplo: h(θ) = θ2 = 0

con θ = (θ10 , θ20 ). Luego el vector de parámetros restringido será θ̃r0 = (θ̃1r
0
, 00 ), donde θ̃1r
se obtiene de la maximización con respecto a θ1 de la función de verosimilitud restringida
L(θ1 , 0) donde 0 es un vector de ceros de (q − h) × 1.
Los tres test convergen a una distribución χ2(h) bajo la hipótesis nula.
El máximo de la función de verosimilitud con el modelo restringido y

5.2.1 Test LR (Likelihood Ratio Test) del sin restringir debieran ser iguales. H_{0} sería cierta.
Capı́tulo
La motivación del test LR es que, si H0 es cierta, entonces el máximo de la función de VII,
pág.
verosimilitud del modelo restringido y el no restringido debieran ser iguales. Entonces, se 234 y
usa una función de la diferencia entre los valores de ln(L(θ̂ )) y ln(L(θ̃ )). 237
u r
La interpretación requiere obtener la distribución lı́mite de esa diferencia. Se puede

demostrar que 2 veces esta diferencia se distribuye asintóticamente χ2 bajo H0 . Con lo cual
el estadı́grafo del test LR será:
!
L(θ̃r )
LR = −2[ln(L(θ̃r )) − ln(L(θ̂u ))] = −2ln
L(θ̂u )
La demostración es un poco compleja, por lo que sólo se verá un esquema. Por simpli-
cidad, se considerará el caso simple en que H0 : θ = θ, de modo que no habrı́a error de
estimación en θ̃r = θ. Tomando una expansión de Taylor de segundo orden de ln(L(θ)) en
75
torno a ln(L(θ̂u )) se obtiene:
2

∂lnL 1 0 ∂ lnL

ln(L(θ)) = ln(θ̂u ) + (θ − θ̂u ) + (θ − θ̂u ) (θ − θ̂u ) + R
∂θ0 θ̂u
2 ∂θ∂θ0 θ̂u

∂lnL
donde R es un término de residuo. Dado que por las CPO ∂θ = 0, se obtiene:
θ̂u
2

0 ∂ lnL

−2[ln(L(θ)) − ln(L(θ̂u ))] = −(θ − θ̂u ) (θ − θ̂u ) + R
∂θ∂θ0 θ̂u
√
h i−1
d ∂ 2 lnL
Dado que N (θ̂u − θ) →
− N 0, plim ∂θ∂θ0 , entonces el lado derecho de la ecuación
converge a una χ2(h) bajo H0 : θ = θ.
5.2.2 Test LM (Multiplicador de Lagrange) o Score Test

Capı́tulo
∂lnL
Una motivación para el test LM es que la gradiente = 0 en el valor máximo de VII,
∂θ θ̂u pág.
234,
| {z }
Score vector
la función. Si H0 es cierto, entonces
este máximo también deberı́a ocurrir en el modelo 235.

restringido, de modo que ∂lnL ' 0. Esto porque imponer la restricción deberı́a tener casi
∂θ
θ̃r
nulo impacto en el valor estimado de θ.
Una motivación alternativa es medir la cercanı́a a cero de los multiplicadores de Lagrange

del modelo de optimización restringida.
Al maximizar L = ln(L(θ)) − λ0 h(θ) con respecto a θ implica:

∂h(θ)0

∂lnL
= · λ̃r
∂θ θ̃u ∂θ θ̃r
∂h
Esto es equivalente a basar el test en la gradiente porque ∂θ0
se asume de rango completo.

∂lnL
La implementación requiere conocer la distribución asintótica de ∂θ
. Ası́ se obtiene
θ̃u
el estadı́grafo:

∂lnL ∂lnL
−N −1 Ã−1

LM =
∂θ0 θ̃r ∂θ0 θ̃r
donde Ã es una estimación consistente de A0 evaluada en θ̃r en vez de θ̂u .
76
5.2.3 Test de Wald
Capı́tulo
VII,
La motivación es que si H0 es cierto, θ̂u debiera satisfacer las restricciones de H0 , entonces
pág.
h(θ̂u ) deberı́a ser muy cercano a cero. 234
La implementación requiere conocer la distribución asintótica de h(θ̂u ) (visto anterior-

mente).
La generalización ocurre porque la matriz de información implica la igualdad
V [θ̂u ] = −N −1 · A−1
0
2

−1 ∂ lnL

A0 = plim N
∂θ∂θ0 θû
Esto implica que el test de Wald queda como:
h i
0 −1
W = −N · ĥ · R̂ · Â · R̂ · ĥ
ĥ = h(θ̂u )
R̂ = R(θ̂u )
∂h(θ)
R =
∂θ0
y Â es una estimación consistente de Ao (Ao es negativa definida, por lo que lleva signo
(-) delante).
5.2.4 Discusión y Ejemplo

Capı́tulo
Considere el caso iid de yi ∼ N (µ0 , 1) y el test de H0 : µ0 = µ . De este modo µ̂u = y y VII,
∗
pág.
ũr = µ∗ . 235-237
Para el test LR:

N 1X
lnL(µ) = − ln(2π) − (yi − µ)2
2 2 i
Lo que después del álgebra se puede expresar como:
LR = 2 [lnL(y) − lnL(µ∗ )] = N (y − µ∗ )2
77
El test de Wald se basa en que y − µ∗ ' 0, de modo que es fácil demostrar que y − µ∗ ∼
N 0, N1 bajo H0 , lo que lleva a la forma cuadrática:

−1
1 ∗
W = (y − µ ) (y − µ∗ )
N
lo que se simplifica en N (y − µ∗ )2 , entonces W = LR.
El test LM está basado en la cercanı́a a cero de :

∂lnL(µ) X
= N (y − µ∗ )

= (y i − µ)
∂µ
µ∗ i
∗
µ
∂ 2 lnL(µ)
Dado que Ã(µ∗ ) = −1 porque ∂µ2
= −N . Entonces,
LM = N −1 (N (y − µ∗ )) [−1]−1 (N (y − µ∗ )) = N (y − µ∗ )2
de modo que W = LR = LM .
En este caso de curvatura constante de la función de verosimilitud, los tres tests son
idénticos. En general en muestras finitas difieren, siendo asintóticamente equivalentes.
Ejemplo con la distribución Poisson:
Suponga que y dado x se distribuye como una Poisson con media condicional exp(X 0 β).
Entonces, el log de la función de verosimilitud será:
N
X
lnL(β) = {−exp(Xi0 β) + yi Xi0 β − ln(y!)}
i=1
Para h restricciones de exclusión se tendrá: H0 : h(β) = β2 = 0, donde β = (β10 , β20 )0 con

β2 de h x 1 y β1 de (k − h) × 1.
El modelo sin restringir maximiza con respecto a β con CPO:

N
X
(yi − exp(Xi0 β)) Xi = 0
i
78
y la matriz de varianza lı́mite será −A−1 , con
N
X
−1
A = −plim N exp(Xi0 β)Xi Xi0 .
i=1
El modelo restringido implica β̃ = (β̃10 , 00 )0 donde β̃1 maximiza la función de verosimilitud

0
anterior con respecto a β1 , con Xi0 β reemplazado por X1i β1 (dado que β2 = 0). Entonces, β̃1
resuelve las CPO:
N
X
0
(yi − exp(X1i β1 )) X1i = 0
i
El test LR se calcula entonces con los valores maximizados de las funciones de verosimil-
itud del modelo restringido y no restringido.
El test de Wald para restricciones de exclusión se calcula como:
W = −N β̂20 Â22 β̂2

22 −1 −1
PN 0 0 ∂h(θ)

con Â el bloque (2,2) de Â y Â = −N i exp(Xi β̂)Xi Xi porque ∂θ0
= β̂2 .
θ̂
El test LM se basa en :
N
∂lnL(β) X
= (yi − exp(Xi0 β)) Xi
∂β i=1
En el modelo restringido se tendrá que:

N
∂lnL(β) X
= Xi ũi
∂β i=1
0
donde ũi = yi − exp(X1i β̃1 ) es el residuo de la estimación restringida. Por lo tanto, el
test LM queda como:
" N
#0 " N
#−1 " N
#
X X X
0
LM = Xi ũi exp(X1i β̃1 )Xi Xi0 Xi ũi
i=1 i=1 i=1
¿Qué test utilizar?:
79
1. Los tres tests son asintóticamente distribuidos χ2(h) .
2. En muestras finitas las distribuciones difieren.
3. En el caso de regresión lineal con normalidad se puede obtener un test F.
4. El test de Wald no es invariante a la parametrización algebraica equivalente de la

hipótesis nula. El LR sı́. No todas las formas de LM lo son.
5. LR requiere estimar 2 veces (restringido y sin restringir).
6. W requiere el modelo sin restringir.
7. LM requiere solo el modelo restringido (esto es útil cuando el modelo restringido es

más simple - autocorrelación, heterocedasticidad).
LR requiere estimar con y sin restricciones.
W solamente sin restricciones.
LM solamente con restricciones.
80
5.3 Poder y Tamaño de los Tests
CLASE
16
Capı́tulo
Cuando un test tiene poca capacidad para diferenciar entre una hipótesis nula y una alter- VII,
pág.
nativa se dice que “tiene poco poder”, lo que implica que la probabilidad de rechazar la 246-247
hipótesis nula cuando es falsa, es baja. No siempre los softwares reportan el valor del poder,
pero se puede obtener por métodos de Monte Carlo.
Por otro lado, el “tamaño verdadero del test” puede variar significativamente del valor
nominal obtenido por teorı́a asintótica. La regla de oro que para una variable en que el
tamaño muestral es N > 30 es suficiente para resultados asintóticos, no se cumple para
modelos con múltiples regresores. La aproximación es peor en las colas de las distribuciones,
que son justamente lo que se utiliza para los tests. Usualmente el valor crı́tico está sub-
estimado. Se puede corregir el valor crı́tico vı́a Monte Carlo.
Decisiones correctas:
• Rechazar H0 si H0 es falsa.
• No Rechazar H0 si H0 es correcta.
Errores:
• Tipo I: Rechazar H0 si H0 es correcta.
• Tipo II: No Rechazar H0 si H0 es falsa.
En la práctica, una disminución del error Tipo I implica un aumento en la probabilidad

del error Tipo II. De la misma forma, un aumento de la probabilidad de cometer el error
Tipo II implica un aumento en la probabilidad del error Tipo I.
81
Tı́picamente se define la probabilidad de error Tipo I (usualmente 5%) y se deja la prob-
abilidad del error Tipo II no especificada.
El tamaño de un test (o nivel de significancia) será:
α = P r [Error Tipo I]
= P r [Rechazar H0 |H0 es correcta]
En el caso del poder de un test se tiene:
Poder = P r [Rechazar H0 |Ha es correcta]
= 1 − P r [No rechazar H0 |Ha es correcta]
= 1 − P r [Error Tipo II]
Si la probabilidad de error Tipo II tiende a cero, el poder tiene a 1 (caso ideal). Para de-
terminar el poder de un test se requiere conocimiento acerca de la distribución del estadı́grafo
bajo Ha . En general siempre se puede determinar el poder de un test para cualquier caso
aplicado.
5.4 Estudios de Monte Carlo y Bootstrap

Capı́tulo
Ejemplo de Monte Carlo: VII,
pág.
Suponga que se quiere hacer inferencia sobre la pendiente en un modelo probit. El p.g.d. 250-256
es un probit, con regresor binario y probabilidad:
P r[y = 1|x] = Φ(β1 + β2 x)
donde Φ(·) es la cdf de una normal estándar, x ∼ N [0, 1], (β1 , β2 ) = (0, 1), u ∼ N [0, 1] e

 1 si x + u > 0
y=
 0 si no
Dado el p.g.d., la mitad de las veces se tendrá y = 1.
82
En el ejercicio de Monte Carlo se generán N observaciones de x e y, y se estima por MV
(también se puede mantener x y simular N valores de y).
Para establecer el “tamaño real del test” se requiere muchas simulaciones, porque se basa
en la cola de la distribución.
Si se hacen S simulaciones para un test de tamaño verdadero α, la proporción de veces

que la hipótesis nula se rechazará correctamente es el resultados de S ensayos binomiales con
α(1−α)
media α y varianza S
.
Entonces, en 95% de los casos el ejercicio de Monte Carlo estimará tamaño del test en el
q
intervalo α ± 1.96 α(1−α)
S
.
Con S = 100 y N = 40 se tiene un intervalo (0.007,0.093) cuando α = 0.05, lo que no es

muy bueno.
Para S = 10.000 se obtiene:
α = 0.01 ⇒ (0.008, 0.012)
α = 0.05 ⇒ (0.046, 0.054)
α = 0.10 ⇒ (0.094, 0.106)
Ejemplo de Bootstrap:
Bootstrap es una variante de simulaciones de Monte Carlo que requiere de menos supuestos
de parametrización y poco esfuerzo de programación más allá del original para estimar el
modelo.
Se requiere que el estimador verdadero tenga distribución lı́mite y que las muestras de
bootstrap sean iid.
83
Bootstrap tiene dos casos generales. Primero, se puede usar como un método alternativo
para calcular errores estándar sin tener que hacer refinamientos asintóticos (por ejemplo
cuando las fórmulas analı́ticas son complejas). Segundo, para obtener un refinamiento de la
teorı́a asintótica usual de estadı́grafos en muestras finitas.
Suponga el ejemplo probit de y binario con y = 1 con probabilidad p = Φ(γ + βx).

H0 : β = 1, H1 : β 6= 1 y α = 0.05.
Suponga que se genera una muestra del tamaño N = 40, y se estima β̂M V = 0.817 y
1−0.817
se[β̂M V ] = 0.294. Se obtiene entonces un z − stat = 0.294
= −0.623. Bajo teorı́a asintótica
z0.25 = 1.96, de modo que H0 no se rechaza.
En el ejercicio de Bootstrap se crean B pseudo-muestras de tamaño N aleatoriamente

con reemplazo de los datos originales {(yi , xi ), i = 1, ..., N.}. Con esto se obtienen B
estimaciones del parámetro β, β̂1∗ , ..., β̂B∗ , que se usan para estimar las caracteristicas de la
distribución original de β̂. Se puede usar las estimaciones de β̂B∗ para estimar se[β̂B ].
Se puede también hacer un refinamiento asintótico con la distribución empı́rica de los

β̂B . Entonces, los percentiles 2.5 por abajo y por arriba de la distribución empı́rica entregan
los valores crı́ticos.
Con B = 1.000 por ejemplo se encuentra que el intervalo fue (-1.89,1.80) en vez de ±1.96.
84
6 Test de Especificación y Selección de Modelos (Clases
13,14)
6.1 Test de Hausman Compara dos estimadores.
CLASE
17
Capı́tulo
Los test de comparación de dos estimadores normalmente se llaman test de Hausman (1978). VIII,
pág.
271-273
Considere un test de endogeneidad de 1 regresor en una ecuación. Alternativas son OLS
y 2SLS, donde se utiliza instrumentos para controlar la posible endogeneidad.
Si hay endogeneidad, OLS es inconsistente, de modo que ambos estimadores tendrán

diferente distribución lı́mite. Si no hay endogeneidad, OLS y 2SLS son ambos consistentes y
con la misma distribución lı́mite. Esto sugiere testear endogeneidad a través de la diferencia
de los estimadores.
Generalizando, considere dos estimadores θ̂ y θ̃,
H0 : plim (θ̂ − θ̃) = 0
Ha : plim (θ̂ − θ̃) 6= 0

√
Asuma que los 2 estimadores bajo H0 son N consistentes con media 0 y distribución
lı́mite normal, entonces:
√ d
N (θ̂ − θ̃) →
− N [0, VH ]
con VH matriz de varianzas en la distribución lı́mite.
Entonces, el estadı́grafo del test de Hausman será:

h i−1
H = (θ̂ − θ̃)0 N −1 V̂H (θ̂ − θ̃) ∼ χ2(q)
bajo H0 . Se rechaza H0 a nivel α si H > χ2α (q).
85
El test de Hausman se puede aplicar a un subconjunto de parámetros. Por ejemplo,
sólo al coeficiente del regresor potencialmente endógeno. (Ojo que la conclusión puede ser
distinta que si se aplica a todos los parámetros).
Calcular el test de Hausman es en principio simple, pero complejo en la práctica porque

requiere una estimación consistente de VH . En general:
N −1 VH = V [θ̂ − θ̃] = V [θ̂] + V [θ̃] − 2Cov[θ̂, θ̃]
lo complejo es estimar la covarianza.
Si θ̂ es el estimador eficiente bajo H0 , entonces Cov[θ̂, θ̃] = V [θ̂]. Entonces, V [θ̂ − θ̃] =
V [θ̃] − V [θ̂], de modo que:
h i−1
H = (θ̂ − θ̃)0 V̂ [θ̃] − V̂ [θ̂] (θ̂ − θ̃)
En el ejemplo, bajo H0 θ̂OLS es eficiente y θ̂2OLS también. Se debe tener cuidado en que
la estimación de V̂ [θ̃] y V̂ [θ̂] debe ser consistente y que utilicen la misma estimación de la
varianza de los errores σ 2 .
Si sólo se testea un componente del vector de parámetros, el test de Hausman será

simplemente:
(θ̂ − θ̃)
H = ∼ χ2(1)
S̃ 2 − Ŝ 2
con Ŝ y S̃ los errores estándar de θ̂ y θ̃ respectivamente.
6.1.1 Test de Hausman de Endogeneidad Si se usa IV sin endogeneidad se pierde eficiencia.

Capı́tulo
Recordemos que VI solo debe usarse si hay un regresor endógeno, de lo contrario habrı́a VII,
pág.
pérdida de eficiencia importante. 275-276
Un test de endogeneidad de los regresores compara MCO vs VI. Si los regresores son
endógenos, la distribución lı́mite diferirá, pero si son exógenos serán iguales. De este modo,
86
una diferencia importante entre MCO y VI se puede interpretar como evidencia de endo-
geneidad.
Considere la regresión: y = X10 β1 + X20 β2 + u, donde X1 es potencialmente endógeno y

X2 es exógeno. Sea β̂ el estimador por MCO y β̃ el estimador por VI. Asumiendo homo-
cedasticidad, MCO es eficiente bajo la hipótesis nula de no endogeneidad.
El test de Hausman de endogeneidad de X1 se puede calcular como:

h i−1
0
H = (β̂ − β̃) V̂ [β̃] − V̂ [β̂] (β̂ − β̃)
Ojo que se puede demostrar que V̂ [β̃] − V̂ [β̂] no es de rango completo, por lo que se
requiere una inversa generalizada con grados de libertad igual a dim(β1 ).
Pero Hausman (1978) muestra que se puede testear de manera más simple en una re-
gresión de MCO aumentada:
y = X10 β1 + X20 β2 + X̂10 γ + u
testeando γ = 0, donde X̂1 es el valor predicho del regresor endógeno en la forma reducida
de la regresión multivariada de X1 en los instrumentos Z.
Esto es equivalente a testear γ = 0 en la regresión MCO aumentada:
y = X10 β1 + X20 β2 + ν̂10 γ + u
donde ν̂1 es el residuo de la regresión de X1 en Z.
La intuición es que, si u no está correlacionado con X1 ni con X2 , entonces γ = 0. Ahora

bien, si u está correlacionado con X1 , esto será capturado por la significancia de transforma-
ciones adicionales de X1 , como X̂1 y ν̂1 .
87
En corte transversal se debe presumir heterocedasticidad, por lo que esta forma de testear
es muy útil si se usan los errores estándar estimados robustamente.
También se puede hacer otros tests simples con regresores exógenos y potencialmente
exógenos, ası́ como generalizaciones para MCNL. También se puede hacer un Sargan test
(OIR - Over Identification Restrictions) y sus generalizaciones.
6.2 Regression Equation Specification Error Test (RESET)

Capı́tulo
Este test fue presentado por Ramsey (1969). Este test es sobre ausencia de no linealidades VIII,
pág.
en algunos regresores. 277-278
Considere la regresión:
y = X 0β + u
asumiendo que los regresores entran de manera lineal y no están correlacionados con el
error. Una manera directa de testear por no linealidad es incluir funciones de potencia de
los regresores exógenos, tı́picamente al cuadrado, como regresores adicionales y testear la
significancia de esas variables adicionales con un test de Wald o F .
Notar que se requiere tener buenas razones para suponer no linealidades, y que esto no
funciona con regresores categóricos (variables categóricas).
Ramsey propuso un test de variables omitidas. La idea es obtener una regresión ini-
cial y generar nuevos regresores. Entonces, con ŷ = X 0 β̂ se crean nuevos regresores W =
[(X 0 β̂)2 , (X 0 β̂)3 , ..., (X 0 β̂)p ] = [ŷ 2 , ŷ 3 , ..., ŷ p ].
Luego se estima el modelo y = X 0 β + W 0 γ + u y se usa un test de Wald sobre las p

restricciones en H0 : γ = 0. Usualmente se usa p = 2 ó 3.
88
6.3 Discriminación entre modelos no anidados
Capı́tulo
VIII,
Un modelo es anidado si es un caso particular de otro. Discriminar entre modelos anidados
pág.
es simple a través de un test de hipótesis de restricciones sobre los parámetros. 278
6.3.1 Criterios de Información

Capı́tulo
VII,
Son criterios de logaritmo de verosimilitud con ajustes de grados de libertad. Los modelos
pág.
con menor criterio de información son los preferidos. 278-279
La intuición es que existe una tensión entre el ajuste de un modelo (medido por el valor
maximizado de la función de verosimilitud), y el principio de parsimonia que favorece a un
modelo simple. El ajuste del modelo puede mejorar con un modelo más complejo, pero el
equilibrio se busca en la medida que ello compense la pérdida de parsimonia.
Los diferentes criterios de información varı́an de acuerdo a qué tan fuerte se penaliza la
complejidad del modelo.
(a) Akaike Information Criterion (AIC) (Akaike, 1973):
AIC = −2lnL + 2q
donde q es el número de parámetros (penalización por mayor complejidad).
[Notar que lnL es siempre negativo, y que mientras mayor la probabilidad L, más bajo
será su valor absoluto].
Este criterio se puede extender a la forma:
−2lnL + g(q, N )
donde g(q, N ) representa otro ajuste asociado a los grados de libertad que penaliza más
que 2q.
89
(b) Bayesian Information Criterion (BIC) (Schwarz, 1978):
BIC = −2lnL + ln(N ) · q
Si la parsimonia (simpleza) es importante BIC es preferible
(c) Otros
CAIC - Consistent AIC = −2lnL + [1 + ln(N )] · q

AIC −2lnL + 2q
También: =
N N
BIC −2lnL + ln(N ) · q
=
N N
Si la parsimonia es importante, BIC es preferible.
Ejemplo: Considere dos modelos anidados (por motivos de exposición) con q1 y q2

parámetros respectivamente, donde q2 = q1 + h.
!
L(θ̃r )
LR = −2ln
L(θ̂u )
Se puede hacer un test LR que favorece el modelo más grande (sin restringir) con 5% de
significancia, si 2lnL se incrementa en χ20.05 (h).
Por otro lado, el AIC favorece el modelo más grande si 2lnL se incrementa en más de 2h
(lo que es una penalización menor que LR-test si h < 7).
En particular, si h=1, χ20.05 (1) = 3.84 será el valor crı́tico del LR, mientras que AIC usa
2. [χ20.05 (6) = 12.59, χ20.05 (7) = 14. Si h=7, entonces 2h = 14].
Finalmente, el BIC favorece el modelo más grande si 2lnL aumenta en h·lnN , con una pe-
nalización mucho más grande que AIC o LR al 5% (a menos que N sea demasiado pequeño).
[ln(200)=5.2, ln(1000)=6.9].
Es importante notar que el BIC aumenta la penalización cuando aumenta N, mientras

que los test de hipótesis tradicionales al 5% no.
Por ejemplo, para modelos anidados con q2 = q1 +1, escoger el modelo más grande basado
√
en un menor BIC es equivalente a usar un t-test (de dos colas) con valor crı́tico lnN , que
es equivalente a:
90
t-value N
2.15 102 =100
3.03 104 =10000
3.72 106 =1000000
que son mayores que el tradicional 1.96.
Generalizando, para un estadı́grado con distribución χ2(h) , el criterio BIC sugiere usar un
valor crı́tico h · lnN en vez de χ20.05 (h).
Si bien los Criterios de Información se utilizan para selección de modelos, debe primar el
concepto de “para qué se quiere utilizar el modelo”.
91
Ejemplo: [Dibujar datos de una cúbica] ¿Cuál modelo es mejor: lineal, cuadrático,
cúbico?
|
| *
| * *\*
| * * * \ * **
| * *\ * *
| **\* *
| * *\ * *
| *\ * *
| **\* *
| * * \ * *
| * * \ * * *
| * * \ * * * *
| * \* *
| \
|_________________________________
⇒ Para predicción, el modelo cúbico parece mejor.

⇒ Para graficar caracterı́sticas generales el lineal o cuadrático pueden ser mejores.
92
6.4 Diagnóstico de Modelos
Capı́tulo
En modelos lineales con K regresores, la medida más directa de bondad de ajuste es el error VIII,
pág.
estándar de la regresión: 287 y
Capı́tulo
XV, pág
# 12
499.
" N
1 X
S = · (yi − ŷi )2
N − K i=1
La medida más utilizada en modelos lineales es el coeficiente de determinación múltiple

R2 . Se puede demostrar que:
N
X N
X N
X N
X
2 2 2
(yi − y i ) = (yi − ŷi ) + (ŷi − y i ) + 2 (yi − ŷi )(ŷi − y i )
|i=1 {z } |i=1 {z } |i=1 {z } | i=1
{z }
T SS RSS ESS =0 en modelo lineal con intercepto
con TSS=Total Sum of Squares, ESS=Explained Sum of Squares, RSS=Residual Sum of

Squares. Luego, se define el R2 como:
2 RSS
RRES = 1−
T SS
2 ESS
REXP =
T SS
2 2
En MCO con intercepto RRES = REXP , pero en otros modelos no.
En modelos no lineales se usa tı́picamente el Pseudo-R2 . En realidad hay muchas inter-

pretaciones del Pseudo-R2 . STATA usa McFadden:
lnL̂completo
Pseudo R2 de McFadden = 1 −
lnL̂intercepto
L̂completo = Valor maximizado de la función de verosimilitud del modelo completo.

L̂intercepto =Valor maximizado de la función de verosimilitud del modelo solo con un in-
tercepto (aproxima la suma total de los cuadrados).
93
lnL̂completo
lnL̂intercepto
≈ nivel de mejoramiento que se obtiene con modelo completo.
Dado que L es una probabilidad, ∈ [0, 1]. Luego, el logaritmo de un número que está
entre [0, 1] ∈ [−∞, 0].
Si L̂completo es mayor que L̂intercepto , entonces lnL̂completo > lnL̂intercepto , es decir, menos
negativo. Ahora bien, como es una razón, se cancelan los negativos. Luego, en valor absoluto
se da que |lnL̂intercepto | > |lnL̂completo |. De esta forma, si el modelo completo aumenta la
probabilidad, entonces el Pseudo-R2 aumenta.
Adicionalmente existe una expresión del Pseudo-R2 de McFadden ajustado, que penaliza
la inclusión de muchos regresores:
lnL̂completo − k
Pseudo R2 de McFadden Ajustado = 1 −
lnL̂intercepto
6.5 Factor de Influencia de Cook

Cook
(1997)
Al usar datos de encuestas, los datos son de naturaleza probabilı́stica. Es decir, son una
realización del proceso generador de datos subyacente cuando las variables son aleatorias en
si mismas. Entonces, es posible obtener valores “muy grandes” o “muy pequeños”, extremos
que pueden influenciar mucho los resultados de la regresión.
Paralelamente, puede ocurrir que resultados de la estimación se vean “manejados” por

valores extremos, siendo estos poco probables. En algunos casos los modelos no lineales
pueden ser útiles para acomodar tales datos, pero es importante y útil saber si hay algunas
observaciones desproporcionadamente influyentes en la regresión.
Cook (1977) propuso un estadı́grafo para identificar observaciones extremadamente in-

fluyentes en modelos lineales.
La “distancia de Cook” mide el efecto de eliminar una observación:
94
PN
− ŷj(i) )2
j=1 (ŷj
Di =
k · M SE
ŷj = Valores predichos con la muestra completa
ŷj(i) = Valores predichos sin la observación i
k = Número de regresores
M SE = Error cuadrático medio.
En esencia, la distancia de Cook mide cómo se afecta la predicción promedio del modelo
al incluir una observación en particular.
Cook demostró que es equivalente a un test de Wald con H0 : βj = β0 , donde β0 = β̂j(i) ,

coeficiente obtenido sin la observación i, de modo que se puede usar un test F (k, N − k)
para un nivel de signficancia 1 − α.
La “regla de oro” de Cook en definitiva es que si:
4
Di >
N − (k + 1)
Se debe considerar investigar esa observación.
Ejemplo STATA:
sysuse auto
reg price mpg
predict Di, cooksd
6.6 Multicolinealidad
Ocurre cuando los regresores están correlacionados entre si (es casi imposible encontrar cor-
relación empı́rica igual a cero).
Puede haber diversas fuentes de multicolinealidad:
95
• Método de recolección de información utilizada (se usa una submuestra muy particu-
lar).
• Existencia de restricciones en el modelo o en la población.
No existe una única forma de detectar multicolinealidad. No obstante se debe sospechar

si:
1. R2 es alto pero los parámetros no son significativos ⇒ Varianzas infladas en V (β̂) =

σ 2 (X 0 X)−1 porque (X 0 X)−1 es ‘casi’ no singular.
2. Pequeños cambios en los datos generan grandes cambios en β̂M CO .
3. Los coeficientes tienen signos opuestos a los esperados por la economı́a, o tienen mag-
nitudes poco creı́bles.
Estadı́sticamente se puede revisar el factor de inflación de la varianza (VIF):
1
V IFk = .
1 − Rk2
Donde Rk2 es el R2 de la regresión del regresor k en el resto de las variables explicativas

del modelo. Si Rk2 es grande implica que Xk se puede expresar como una combinación lineal
de las otras variables del modelo:
Xk = δ̂0 + δ̂1 X1 + δ̂2 X2 + ... + δ̂k−1 Xk−1 + δ̂k Xk
Se debe sospechar del modelo si el promedio de los factores de inflación de la varianza es

mayor a 10 (V IF K > 10).
La “regla de oro” es que si V IFk > 10 se debe estudiar eliminar del modelo la variable
k.
96
7 Métodos Semiparamétricos (Clases 15,16)
CLASE
18
Capı́tulo
Se busca minimizar los supuestos respecto al proceso de generación de datos. IX, pág.
294-297
Estos métodos tienen múltiples usos, entre los que destacan descripción de datos, simu-
laciones y análisis exploratorio.
Los modelos no paramétricos limitan el análisis multidimensional, por lo que los econometris-
tas prefieren modelos semiparamétricos. Estos modelos incluyen un componente paramétrico,
que captura la multidimensionalidad sin hacer el modelo intratable, y agregad un compo-
nente no paramétrico.
La teorı́a asintótica difiere de la usual, donde los métodos no paramétricos suelen tener
convergencia asintótica más lenta.
Por otro lado, los modelos no paramétricos son métodos de promedios locales, de modo
que la definición de “local” también determina los resultados. Es común utilizar el método
poco cientı́fico de escoger un ancho de banda para definir localidad de acuerdo a lo que se
vea bien gráficamente.
En general se dice que todos los métodos de ‘suavización’ son, en un sentido asintótico,
equivalentes a la suavización de Kernel.
97
SEMIPARAMETRIC METHODS
Histogram for Log Wage
.6
A continuación se presentan ejemplos de estos métodos:
.4
Density
1. Histograma:
.2
Histogram for Log Wage
0
0 1 2 3 4 5
.6
Log Hourly Wage
Figure 9.1: Histogram for natural logarithm of hourly wage. Data for 175 U.S. women aged
36 years who worked in 1993.
.4
Density
unusually narrow bin width for only 175 observations, but many details are lost with
.2
a larger bin width. The log-wage data seem to be reasonably symmetric, though they
are possibly slightly left-skewed.
0
The standard smoothed nonparametric density estimate is the kernel density esti-
0 1 2 3 4 5
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
Log Hourly Wage
The essential decision in implementation is the choice of bandwidth. For this ex-
FigureSilverman’s
ample 9.1: Histogram for natural
plug-in logarithm
estimate of hourly
defined wage.
in (9.13) Databandwidth
yields for 175 U.S.
ofwomen aged
h = 0.545.
36 years who worked in 1993.
Then the kernel estimate is a weighted average of those observations that have log
wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed
unusually narrowon bindata closest
width to the175
for only current point of evaluation.
observations, Figure are
but many details 9.2 lost
presents
with
2. three kernel
Kernela larger
con bin density estimates,
width. The log-wage
diferentes with
anchosdata bandwidths
de seem
Banda: of 0.273, 0.545 and 1.091, respectively
to be reasonably symmetric, though they
are possibly slightly left-skewed.
The standard smoothed nonparametric density estimate is the kernel density esti-
Density Estimates as Bandwidth Varies
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
The essential decision in implementation is the choice of bandwidth. For this ex-
.8
One-half plug-in
ample Silverman’s plug-in estimate defined in (9.13) yieldsPlug-inbandwidth of h = 0.545.
Kernel density estimates
Two times plug-in

Then the kernel estimate is a weighted average of those observations that have log
.6
wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed on data closest to the current point of evaluation. Figure 9.2 presents
.4
three kernel density estimates, with bandwidths of 0.273, 0.545 and 1.091, respectively
.2
Density Estimates as Bandwidth Varies

.8 0
0 1 2 3 4
One-half 5
plug-in
Log Hourly Wage Plug-in
Two times plug-in

Figure 9.2: Kernel density estimates for log wage for three different bandwidths using the
.6
Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.
.4
296
.2
0
0 1 2 3 4 5
Log Hourly Wage
Figure 9.2: Kernel density estimates for log wage for three different bandwidths using the
Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.
296
98
Figure 9.3 gives a scatter plot of log wage against education and three Lowess
regression curves for bandwidths of 0.8, 0.4 and 0.1. The first two bandwidths give
similar curves. The relationship appears to be quadratic, but this may be speculative as
the data are relatively sparse at low education levels, with less than 10% of the sample
having less than 10 years of schooling. For the majority of the data a linear relationship
may also work well. For simplicity we have not presented 95% confidence intervals or
3. Regresión Nomight
bands that paramétrica:
also be provided.
Nonparametric Regression as Bandwidth Varies
5
Actual data Bandwidth h=0.8
Bandwidth h=0.4 Bandwidth h=0.1
4
Log Hourly Wage
3
2
1
0
0 5 10 15 20
Years of Schooling
Figure 9.3: Nonparametric regression of log wage on education for three different band-
widths using Lowess regression. Same sample as Figure 9.1.
297
En todos los casos anteriores se puede mostrar curvas por distinto género, ubicación
geográfica, o nivel socioeconómico por ejemplo.
7.1 Estimación de Densidad de Kernel
La estimación de densidad de Kernel es un método de ‘suavización’. Se busca suavización

para identifcar comportamientos ‘estilizados’ de las variables. A mayor suavización, más
fácil interpretar razgos fundamentales, pero se pierden detalles de comportamiento no lineal.
7.2 Histograma
Capı́tulo
Un histograma es una estimación de densidad formada a través de dividir el rango de x en IX, pág.
298
intervalos con igual espaciado y calcular la fracción de la muestra en cada intervalo.
Una definición más formal (que se extiende luego a la suavización Kernel) es la siguiente:
Considere la estimación de la función de densidad f (x0 ) de una variable continua escalar

dF (x0 )
evaluada en x0 . Dado que dx
= f (x0 ):
F (x0 + h) − F (x0 − h)
f (x0 ) = lim
h→0 2h
P r[x0 − h < x0 < x0 + h]
= lim
h→0 2h
99
Para una muestra {xi , i = 1, ..., N } de tamaño N, esto sugiere utilizar el estimador:
N
1 X 1(x0 − h < xi < x0 + h)
fˆHIST (x0 ) =
N i=1 2h
donde la función indicador es:


 1 Si el evento A ocurre
1(A) =
 0 Si no
Este estimador es una estimación de histograma centrada en x0 con ancho 2h. Evaluando
fˆHIST para un rango de x se obtiene el histograma.
Nótese que el estimador pondera de la misma manera a cada una de las observaciones en
el intervalo x0 ± h, y se puede reescribir como:
N
xi − x0

1 X1
fˆHIST (x0 ) = · 1 <1
N h i=1 2 h
Esto lleva a que, si bien la variable es continua, se obtiene una step function o función
discontinua escalonada.
100
7.3 Estimador de Densidad Kernel
Capı́tulo
IX, pág.
Rosenblatt (1956) generaliza el estimador del histograma usando una función de ponderación
299-300
alternativa:
N
xi − x0

1 X
fˆ(x0 ) = K
Nh i=1 h
donde la función de ponderación K(·) se llama “función Kernel” y debe satisfacer ciertas
propiedades. El parámetro h es un parámetro de suavizamiento llamado “ancho de banda”
(bandwith) y dos veces h es la “ventana”.
La función de densidad se obtiene de evaluar fˆ(x0 ) en un conjunto de valores bastante

más ancho alrededor de x0 (usualmente toda la muestra).
La función K(·) es continua, simétrica alrededor de cero y tiene integral igual a 1. Se

asume que la función Kernel satisface:
(i) K(z) es simétrica alrededor de cero y continua.

R R R
(ii) K(z)dz = 1, zK(z)dz = 0 y |K(z)|dz < ∞
(iii) Ocurre: (a) K(z)=0 si |z| ≥ z0 para algún z0 , o : (b) |z|K(z) → 0 si |z| → ∞.
R
(iv) z 2 K(z)dz = κ =constante
Usualmente, z ∈ [−1, 1] ⇒ cumple (iii) (a).
Las funciones de Kernel más comunes son:
101
Kernel Kernel Function K (z) δ
1
Uniform (or box or rectangular) 2
× 1(|z| < 1) 1.3510
Triangular (or triangle) (1 − |z|) × 1(|z| < 1) –
3
Epanechnikov (or quadratic)
SEMIPARAME
(1 − z 2 ) × 1(|z| < 1)
4 TRIC METHODS
1.7188
15
Quartic (or biweight) 16
(1 − z 2 )2 × 1(|z| < 1) 2.0362
Table
Triweight 35
9.1. Kernel Functions: Commonly
32
Used
(1 ) × 1(|z|a < 1)
2 3
− zExamples 2.3122
70
Tricubic 81
(1 − |z|3 )3 × 1(|z| < 1) –
Kernel Kernel Function 2K (z)
−1/2 δ
Gaussian (or normal) (2π) exp(−z /2) 0.7764
11
Uniform (or box
Fourth-order or rectangular)
Gaussian × 1(|z| 2< 1) −1/2
2 2 (3 − z) (2π) exp(−z 2 /2) 1.3510
–
Triangular (or quartic
Fourth-order triangle) (115−
(3|z|) × 1(|z|
− 10z 2
+ 7z<4 )1)× 1(|z| < 1) ––
32
3
Epanechnikov (or quadratic) 4
(1 − z 2 ) × 1(|z| < 1) 1.7188
a The constant δ is defined in (9.11) and is used to obtain Silverman’s plug-in estimate given in (9.13).
15 2 2
Quartic (or biweight) 16
(1 − z ) × 1(|z| < 1) 2.0362
35
Triweight 32
(1 − z 2 )3 × 1(|z| < 1) 2.3122
9.3.4. Kernel 70 Density 3 3Example
Tricubic 81
(1 − |z| ) × 1(|z| < 1) –
The key choice of bandwidth h has already−1/2
Gaussian (or normal) (2π) been illustrated
2
exp(−z /2) in Figure 9.2. 0.7764
Here we illustrate
Fourth-order Gaussian the choice of kernel
1 using2 generated
(3 − z) (2π) −1/2 data,
exp(−z /2)2 a random sample of
–
2
size 100 drawn from the N [0, 252 ] distribution. 15 2
For the4
particular sample drawn the
Fourth-order quartic (3 − 10z + 7z ) × 1(|z| < 1) –
sample mean is 2.81 and the sample standard 32 deviation is 25.27.
aFigure 9.4 shows the effect of using different kernels.plug-in
The constant δ is defined in (9.11) and is used to obtain Silverman’s For Epanechnikov, Gaussian,
estimate given in (9.13).
quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
9.3.4. Kernel Density Example
La estimates
elección are very es
del Kernel similar, even for the
nuevamente ununiform
tema kernel which produces
de preferencias a running
basado en que “se vea
histogram.
The Theofvariation
key choice bandwidth in density estimate
h has already with
been kernel choice
illustrated in Figureis much
9.2. less than the
bien”: variation
Here wewith bandwidth
illustrate choiceof
the choice evident
kernelinusing
Figure 9.2.
generated data, a random sample of
size 100 drawn from the N [0, 252 ] distribution. For the particular sample drawn the
sample mean is 2.81 and the sample standard deviation is 25.27.
Figure 9.4 shows the effectDensity of usingEstimates as Kernel Varies
different kernels. For Epanechnikov, Gaussian,
.6
quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
estimates are very similar, even for the uniform kernel which produces a running
.4
Epanechnikov (h=0.545)
histogram. The variation in density estimate with kernel choice is much less than the
Gaussian (h=0.246)
variation with bandwidth choice evident in Figure 9.2.Quartic (h=0.646)
Uniform (h=0.214)
.2
Density Estimates as Kernel Varies

.6
0
0 1 2 3 4 5
Log Hourly Wage
.4
Epanechnikov (h=0.545)
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
Gaussian (h=0.246)
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.
Quartic (h=0.646)
Uniform (h=0.214)
.2
300
0
0 1 2 3 4 5
Log Hourly Wage
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.
300
102
7.4 Inferencia Estadı́stica
Capı́tulo
IX, pág.
(a) Media y Varianza El sesgo depende del ancho de banda. 301-305
Para encontrar el primer y segundo momento de fˆ(x0 ) se asume que la segunda derivada
R
de f (x) existe y es acotada; y que el kernel satisface zK(z)dz = 0.
El estimador de la densidad del Kernel es sesgado con un término de sesgo b(x0 ) que
depende del ancho de banda, de la curvatura verdadera de la función de densidad y del
Kernel utilizado:
Z
1
b(x0 ) = E[fˆ(x0 )] − f (x0 ) = h2 f 00 (xo ) z 2 K(z)dz
2
El sesgo desaparece asintóticamente si h → 0 y N → ∞.

El sesgo desaparece asintóticamente si el ancho de banda tiene a 0 y la muestra tiende a infinito
Asumiendo que h → 0 y N → ∞, la varianza del estimador de la densidad del Kernel

es:
Z
1 1
V [fˆ(x0 )] = f (xo ) 2
K(z) dz + O
Nh Nh
con O(·) función de sesgo. La varianza depende del tamaño de la muestra, del ancho de
banda, de la verdadera función de densidad y del Kernel utilizado.
La varianza desaparece si N h → ∞, lo que requiere que h → 0 más lento que N → ∞.

La varianza desaparece si el producto del tamaño muestral con el ancho de banda tiende a infinito. El ancho de banda tiene que tender a 0 más lento de lo
que la muestra tiende a infinito.
Entonces el estimador de Kernel es consistente puntualmente. Esto es, para un punto

en particular x = x0 , si el sesgo y la varianza desaparecen, será consistente. Esto ocurre
si h → 0 y N h → ∞.
103
También se puede demostrar normalidad asintótica del Kernel.
(b) Elección del ancho de banda
Existe tensión entre escoger un ancho de banda pequeño para reducir el sesgo y elegir un
ancho de banda grande para asegurar suavizamiento [Hacer dibujo de histograma con
distintos anchos de banda]. Habitualmente se utiliza la métrica del Error Cuadrático
Medio (MSE).
Minimizando el Mean Integrated Squared Error (MISE) se puede obtener un ancho de

banda óptimo (que minimice el MISE) de acuerdo al Kernel (Silverman, 1986).
El ancho de banda óptimo depende de la curvatura de la función de densidad, donde h∗

será más pequeño si f (x) es altamente variable.
Por otro lado, se puede demostrar que el Kernel óptimo es el Epanechnikov, pero el
MISE varı́a poco según el Kernel.
La elección del ancho de banda es más importante que la elección del kernel
La elección del ancho de banda es más importante que el Kernel. Silverman propuso un
plug-in estimate del ancho de banda como una función simple que depende de N y de la
desviación estándar muestral.
A mayor varianza, mayor ancho de banda. A mayor N, menor ancho de banda.
Usualmente se puede usar variaciones del plug-in. También se puede obtener intervalos
de confianza para la estimación Kernel.
104
7.5 Regresión No paramétrica Local
Capı́tulo
Variable dependiente e independiente son escalares: IX, pág.
307
yi = m(xi ) + i , i=1,...,N.
i ∼ iid(0, σ2 )
Como no se conoce m(·), no se puede aplicar MCNL.
7.5.1 Método de promedio locales ponderados

Capı́tulo
Suponga que para un valor de xo hay múltiples observaciones de y (N0 observaciones). Por IX, pág.
307-308
ejemplo, x0 podrı́a ser Educación Primaria o 7 años de educación. Un estimador obvio para
m(x0 ) es el promedio de y en las N0 observaciones, que llamaremos m̃(x0 ).
m̃(x0 ) ∼ [m(x0 ), N0−1 σ2 ]
m̃(x0 ) es insesgado, pero no consistente.
La inconsistencia se puede entender de la siguiente manera. Para variables continuas de

x se puede tener muy pocas observaciones N0 para un x0 dado. Para variables discretas
también puede ocurrir lo mismo. Entonces si N → ∞, no está garantizado que N0 → ∞, y
por lo tanto tampoco que V [m̃(x0 )] → 0.
El problema de la falta de densidad de datos en x0 se puede compensar promediando

alrededor de x0 (agregando a x0 aquellas observaciones cercanas a x0 ). El estimador m̃(x0 )
se puede expresar como:
X
m̃(x0 ) = ωi0 yi
i

1

N0
Si xi = x0
ωi0 =
 0 Si xi 6= x0
105
El peso varı́a con el punto de evaluación x0 y con el tamaño de la muestra en ese punto N0 .
Más generalmente, el estimador de promedios locales ponderados será:

X
m̂(x0 ) = ωi0,h × yi
i
PN
donde ωi0,h = ω(xi , x0 , h) y i=1 ωi0,h = 1, donde además los pesos aumentan cuando xi
se acerca a x0 . h es el parámetro de ancho de ventana.
Una alternativa son los ‘vecinos más cercanos’, para lo cual se debe utilizar una métrica
que permita seleccionar con cuáles vecinos se calculará el ponderador.
El estimador de regresión local lineal Lowess propone una estimación suavizada de m(x)
usando los Kernel como pesos. Ejemplo de vecino más cercano:
9.4. NONPARAMETRIC LOCAL REGRESSION
k-Nearest Neighbors Regression as k Varies

350
Actual Data
kNN (k=5)
Linear OLS
300
Dependent variable y
kNN (k=25)
250
200
150
0 20 40 60 80 100
Regressor x
Figure 9.5: k-nearest neighbors regression curve for two different choices of k, as well as
OLS regression line. The data are generated from a cubic polynomial model.
The slope of m
! (x) is flatter at the end points when k = 25 rather than k = 5. This
k
Lowess: illustrates a boundary problem in estimating m(x) at the end points. For example,
for the smallest regressor value x1 there are no lower valued observations on x
to be included, and the average becomes a one-sided average m !k (x1 ) = (y1 + · · · +
y1+(k−1)/2 )/[(k + 1)/2]. Since for these data m k (x) is increasing in x in this region,
this leads to m!k (x1 ) being an overestimate and the overstatement is increasing in k.
Such boundary problems are reduced by instead using methods given in Section 9.6.2.
9.4.3. Lowess Regression Example

Using alternative weights to those used to form the symmetrized k–NN estimator can
lead to better estimates of m(x).
An example is the Lowess estimator, defined in Section 9.6.2. This provides a
smoother estimate of m(x) as it uses kernel106 weights rather than an indicator func-
tion, analogous to a kernel density estimate being smoother than a running histogram.
It also has smaller bias (see Section 9.6.2), which is especially beneficial in estimating
m(x) at the end points.
Lowess Nonparametric Regression
350
Actual Data
Lowess (k=25)
Dependent variable y
OLS Cubic Regression
300
250
200
150
0 20 40 60 80 100
Regressor x
Figure 9.6: Nonparametric regression curve using Lowess, as well as a cubic regression
curve. Same generated data as Figure 9.5.
7.6 SubstitutingSemiparamétrica
Regresión yi = m(xi ) + εi into the definition of m
!(x0 ) leads directly to
N
" N
" Capı́tulo
!(x0 ) −
m wi0,h m(xi ) = wi0,h εi , IX, pág.
Combina un componente paramétrico i=1
y uno semi-paramétrico.
i=1
322-323
which implies with fixed regressors, and if εi are iid N [0, σε2 ], that
# $
El ejemplo más sencillo es el modelo" N
parcialmente2 " N
lineal:
2
!(x0 ) ∼ N
m wi0,h m(xi ), σε wi0,h . (9.18)
i=1 i=1
Note that in general m

E[y|X, z] = X 0 β + λ(z)
!(x0 ) is biased and the distribution is not necessarily centered
around m(x0 ).
Withparamétrica
donde la parte stochastic regressors
es β and
y lanonnormal errors, we es
no paramétrica condition
λ(·). onOtros . , x N and
x1 , . .Ejemplos:
apply a central limit theorem for U-statistics that is appropriate for double summations
(see, for example, Pagan and Ullah, 1999, p. 359). Then [0, σε2 ],
Índice Simple: E[y|X, z] = g(X 0 β) for εi iid / g(·) no paramétrico
# $
N
" "N
d
c(N )
Parcialmente lineal Generalizado: εi → N
E[y|X,
wi0,h z] 0,=σε2 lim
g(X 0 )2
c(Nβ + λ(z))2
wi0,h , / g(·) y λ(·) (9.19)no paramétricos
i=1 i=1
1/2
where c(N ) is a function of the sample size√ with O(c(N )) < N that can vary with
the local estimator. For example, c(N ) = N h for kernel regression and c(N ) = N 0.4
7.7 Consideraciones Prácticas
for kernel regression with optimal bandwidth. Then
# $ Capı́tulo
N
"
c(N ) (!
m (x0 )univariada
− m(x0 ) − b(xes
d 2 2 2 IX, pág.
La estimación de densidad 0 )) → N 0, y
sencilla lim c(N ) en w
σε directa los
i0,h paquetes
, (9.20)
actuales usando
i=1 333
Epanechnikov o gaussian Kernels.%
where b(x ) = m(x )−
0 w 0 i i0,h m(x i ). Note that (9.20) yields (9.18) for the asymp-
!(x0 ).
totic distribution of m
Clearly, the distribution of m!(x0 ), a simple weighted average, can be obtained un-
La der alternative distributional assumptions.
regresión no paramétrica univariada también For example, for heteroskedastic
es bastante errors
sencilla más allá del prob-
310En vez de un plug-in como punto de partida
lema de escoger un ancho de banda adecuado.
para el ancho de banda se utiliza el método de “validación cruzada” (leave-one-out) en que se
busca minimizar los errores de predicción ponderados dejando una observación fuera a la vez.
107
[Mostrar gráficos de Splines].
La regresión semi-paramétrica es más compleja por los problemas de suavizamiento mul-

tivariado.
108
8 Modelos de Variable Dependiente Limitada (Clases
17,18,19)
Los modelos de variable dependiente limitada implican que la variable del lado izquierdo no
está definida en conjunto de los números reales, sino que tiene algún tipo de limitación en
los valores que puede tomar. Los casos más simples son los modelos binarios. Por otro lado,
casos más complejos son los modelos con truncamiento o censura, que dan origen a modelos
de selección y Tobit. Por último, otras variantes que no se verán en este curso incluyen
modelos de variables discretas ordenadas y modelos multinomiales.
8.1 Modelos Binarios

CLASE
19
Capı́tulo
Son modelos en que solo hay 2 posibles resultados de la variable dependiente. XIV,
pág.
463-466
Dado el carácter binario, la distribución de los datos es necesariamente una Bernoulli.
Por esto, dado que la distribución es conocida, se estima por MV.
La variable dependiente binaria se define como:


 1 Si ocurre algún evento, caracterı́stica, elección, etc.
yi =
 0 Si no
Se escoge los valores 0 y 1 solo por simplicidad (podrı́an ser cualquier par de valores).
Asumiento inicialmente un solo regresor X, hacer MCO de yi en xi ignorarı́a la discreción
de la variable dependiente y no acotarı́a las probabilidades predichas entre 0 y 1.
109
BINARY OUTCOME MODELS
Predicted Probabilities Across Models
1.5
Actual Data (jittered)
Logit
Probit
Predicted probability
1
OLS
.5
0
-.5 -2 0 2 4
Log relative price (lnrelp)

Figure 14.1: Charter boat fishing: predicted probability from logit and probit models and
OLS prediction when the single regressor is the natural logarithm of relative price. Actual
outcomes of 1 or 0 are also plotted after jittering for readability. Data for 620 individuals.
8.1.1 Modelo Binario General

14.3.1. General Binary Outcome Model Capı́tulo
For binary outcome data the dependent variable y takes one of two values. We let XIV,
Se asume que:
!
pág.
1 with probability p, 466
y=

 1 0 with probability 1 − p.
con probabilidad p
yi =
There is no loss of generality
 in 0 setting
contheprobabilidad
values to 1 and 01if−
allpthat is being modeled
is p, which determines the probability of the outcome. In introductory statistics this
No hay model describes
pérdida the outcome
de generalidad enoftomar
a coin valores
toss where0y heads leads que
1, dado to y =la1atención
and occursestá centrada
with probability p.
en p. A regression model is formed by parameterizing the probability p to depend on a
regressor vector x and a K × 1 parameter vector β. The commonly used models are
of single-index form with conditional probability given by
La parametrización para el modelo de regresión se forma de manera tal que la probabil-
pi ≡ Pr[yi = 1|x] =F(xi$ β), (14.1)
idad p depende de un vector de regresores X de k × 1 y un parámetro de vectores β.
where F(·) is a specified function. To ensure that 0 ≤ p ≤ 1 it is natural to specify
F(·) to be a cumulative distribution function.
Los modelos Table 14.3 presents
usualmente the most commonly
propuestos son de laused binary
forma deoutcome
‘ı́ndicemodels.
simple’The logit
(single-index), con
model arises if F(·) is the cdf of the logistic distribution and the probit model arises
probabilidadifcondicional dada normal
F(·) is the standard por: cdf. Note that if F(·) is a cdf, then this cdf is only
being used to model the parameter p and does not denote the cdf of y itself. The
less-used complementary log-log model arises if F(·) is the 0 cdf of the extreme value
p = P r[y = 1|X] = F (X β) around zero and is
distribution. It differs from the other models in being asymmetric
i i i
used when one of the outcomes is rare. The linear probability model does not use a
cdf es
donde F (·) anduna
instead = xi$ β.
lets pi especı́fica.
función Para asegurar que 0 ≤ p ≤ 1 ‘es natural’ especificar
466
que F (·) sea una función de distribución acumulada.
Algunas funciones usuales:
110
14.3. LOGIT AND PROBIT MODELS
Table 14.3. Binary Outcome Data: Commonly Used Models
Model Probability ( p = Pr[y = 1|x]) Marginal Effect (∂p/∂xj )

x! β
e
Logit "(x! β) = "(x! β)[1 − "(x! β)]β j
!1 x+
!
e x! β
! β
Probit $(x β) = −∞ φ(z)dz φ(x! β)β j
Complementary log-log C(x! β) = 1 − exp(− exp(x! β)) exp(− exp(x! β)) exp(x! β)β j
Linear probability x! β βj
8.1.2 Motivación de modelos 14.3.2.

binariosMarginal Effects de “Variable Latente”
a través
Capı́tulo
Interest lies in determining the marginal effect of change in a regressor on the condi-
XIV,
Una variabletional probability
latente es unathatvariable
y = 1. Forque
general probabilitydemodel
se observa (14.1)incompleta.
manera and change in the
A continuación
jth regressor, assumed to be continuous, this is
pág.
se revisará la motivación a través de modelos de función ı́ndice y de modelos de utilidad 475-478
∂ Pr[yi = 1|xi ]
aleatoria. = F ! (xi! β)β j , (14.2)
∂ xi j
where F ! (z) = ∂ F(z)/∂z. The marginal effects differ with the point of evaluation xi ,
as for any nonlinear model, and differ with different choices of F(·). The last column
(a) Modelos of Table 14.3 gives the
de Función marginal effects for the common binary outcome models.
Índice
Marginal effects for nonlinear models are discussed in Section 5.2.4. Given a spe-
Se asume cificlamodel
existencia
there arede unaways
several variable aleatoria
to compute subyacente
an average continua
marginal effect. notoobservada y ∗ .
It is best
"
use N −1 i F ! (xi! #β)# β j , the sample average of the marginal effects. Some programs
Lo únicoinstead
que se observa es una variable binaria y que toma
evaluate at the sample average of the regressors, F ! (x̄!# β)#
valor 1 o 0 de acuerdo a si
β j . An easily con-
structed
y ∗ es mayor measure que
o menor evaluates at ȳ, the
un cierto sample average of y, so that F(x! β) = ȳ and
umbral.
! ! ! −1
F (x β) = F (F ( ȳ)). This is especially simple for the logit model as then this yields
estimated marginal effect ȳ(1 − ȳ)# β j . Further discussion for specific models is given
in Sections 14.3.4–14.3.7.
SupóngaseMany que studies instead
y ∗ es una report only
variable the regression
latente que indica coefficients.
el “deseo Thede standard
trabajar”binaryen un modelo
outcome models are single-index models, so the ratio of coefficients for two different
de ofertaregressors
laboral.equals the ratio of natural
La regresión the marginal effects. The sign of the coefficient gives
serı́a:
the sign of the marginal effect, since F ! (·) > 0. The coefficients can be used to obtain
an upper bound on the marginal effects. For the logit model ∂ p/∂ x j ≤ 0.25# β j , since
"(x! β)(1 − "(x! β)) ≤ 0.25, with maximum when √ "(x! β) = 0.5 and x! β = 0. For the
probit model ∂ p/∂ x j ≤ 0.4# β j , since φ(x! β) ≤ 1/ 2π & 0.4, with maximum when
$(x β) = 0.5 and x β = 0.
! ! y∗ = X 0β + u
donde y ∗ es la variable latente. 14.3.3. ML Estimation

We consider estimation given a sample (yi , xi ), i = 1, . . . , N , where we assume inde-
pendence over i. Results are given for pi defined in (14.1), with specialization to logit
Sin and probit
embargo, comospecifications given later.
no se observa y ∗ , no se puede estimar. En cambio, se observa una
467
función ı́ndice: 
 1 si y ∗ > 0
y=
 0 si y ∗ ≤ 0
111
donde el umbral cero es una normalización (podrı́a ser cualquier valor para el umbral).
Entonces,
P r[y = 1|X] = P r[y ∗ > 0]
= P r[X 0 β + u > 0]
= P r[−u < X 0 β]
= F (X 0 β)
donde F (·) es la cdf de −u, que es igual a la cdf de u si ocurre que u se distribuye
simétricamente alrededor de cero.
Entonces, la función F (·) proviene de la distribución del término de error u. Lo más

usual es usar una distribución normal o logı́stica, donde los parámetros β estarán ‘escal-
ados’ de acuerdo a la varianza de u.
Para obtener identificación de los parámetros se debe fijar la varianza del error. Por
π2
ejemplo, en el caso normal será V [u] = 1, y en el caso logı́stico V [u] = 3
.
(b) Modelos de Utilidad Aleatoria
Se asume que un consumidor escoge entre alternativas A y B de acuerdo a su nivel de

satisfacción o utilidad.
La variable discreta y toma valor igual a 1 si la alternativa A le genera mayor bienestar

y 0 si la alternativa B legenera mayor bienestar.
El modelo de utilidad aleatoria aditiva especifica entonces las alternativas:
UA = VA + A
UB = VB + B
112
donde VA,B son componentes determinı́sticos de la utilidad y A y B son componentes
aleatorios de la utilidad.
Un ejemplo simple es VA = X 0 βA y VB = X 0 βB , aunque sólo se puede identificar

(βA − βB ).
La alternativa con mayor utilidad es la escogida, de modo que se observa y = 1 si

UA > UB . Ası́:
P r[y = 1] = P r[UA > UB ]
= P r[VA + A > VB + B ]
= P r[B − A < VA − VB ]
= F [VA − VB ]
donde F (·) es la cdf de (B − A ). Finalmente P r[y = 1] = F (X 0 β) si VA − VB = X 0 β.
8.1.3 Efectos Marginales

Capı́tulo
Para un modelo general de probabilidad, asumiendo un regresor j continuo, el efecto marginal XIV,
pág.
del regresor j será: 467
∂P r[y = 1|Xi ]
= F 0 [Xi0 β]βj
∂Xij
∂F (Z)
donde F 0 (Z) = ∂Z
.
El efecto marginal cambia con el punto de evaluación Xi , como en cualquier caso general
de modelo no lineal. Existen tres tipos de efectos marginales:
(i) Efecto marginal promedio:
113
N
1 X 0 0
· F [Xi β̂]β̂j
N i=1
(ii) Efecto marginal del individuo promedio:
0
F 0 [X β̂]β̂j
(iii) Efecto marginal del individuo representativo:
0
F 0 [X ∗ β̂]β̂j
Dado que F 0 (·) > 0, el signo del coeficiente indica el signo del efecto marginal.
Por otro lado, dado que el modelo binario es de ı́ndice simple, la razón de los efectos
marginales es igual a la razón de los coeficientes:
∂P r
∂Xij F 0 [Xi0 β]βj βj
∂P r
= 0 0
=
∂Xik
F [Xi β]βk βk
Es por esto que en muchos casos sólo se reportan los coeficientes (y no los efectos
marginales).
8.1.4 Estimación
Capı́tulo
XIV,
En el modelo binario, la función de probabilidad es (Bernoulli):
pág.
467-468
f (yi |xi ) = pyi i (1 − pi )1−yi , yi = 0, 1
0
donde pi = F (Xi β). Luego, se estimará utilizando el método de Máxima Verosimilitud
ya que permite estimar modelos no lineales cuando la función de distribución es conocida.
Entonces, el logaritmo de la verosimilitud viene dado por:
N
0 0
X
LN (β) = yi · ln F (Xi β) + (1 − yi ) · ln 1 − F (Xi β)
i=1
114
Lo que entrega las CPO:
N 0
X yi − F (Xi β) 0
0 0
· F (Xi β) · Xi = 0.
i=1
F (Xi β) 1 − F (Xi β)
La solución de estas ecuaciones corresponde al estimador de máxima verosimilitud. No ex-

iste solución única para los parámetros, de modo que se tiene que utilizar métodos numéricos
iterativos como Newton-Raphson. Dado que en los modelos probit y logit el logaritmo de la
verosimilitud es globalmente cóncavo, NR converge bastante rápido.
La consistencia de la estimación por MV se basa en la correcta especificación de la función

de distribución. Dada la naturaleza binaria, la función de densidad es Bernoulli, de modo
que el único posible error de especificación viene dado por la probabilidad de la Bernoulli.
Entonces, MV es consistente si pi = F (Xi0 β). Dada la naturaleza binaria de los datos,

esto es equivalente a:
E[y] = 1 · p + 0 · (1 − p) = p
⇒ E[yi |xi ] = F (Xi0 β)
Este resultado de la media condicional correctamente especificada se cumple para las

funciones de la ‘familia exponencial lineal’ (Linear exponential family-LEF), y la Bernoulli
es LEF.
8.1.5 Interpretación de los parámetros

Capı́tulo
En la parametrización logit: XIV,
pág.
469-473
exp(X 0 β)
p = F (X 0 β) =
1 + exp(X 0 β)
p
⇔ = exp(X 0 β)
1−p

p
⇒ ln = X 0β
1−p
115
p
Notar que 1−p
es la probabilidad que y = 1 en relación a la probabilidad que y = 0, lo
que se llama razón de probabilidades (odds-ratio en inglés). Entonces, en el caso logit, la
razón de probabilidades es lineal en los regresores.
Entonces, si Xj aumenta en 1 unidad, se tendrá que exp(X 0 β) será exp(X 0 β + βj ) =

exp(X 0 β) · exp(βj ).
Luego, si se estimó por ejemplo β̂j = 0.1, ello implica que la razón de probabilidades
aumentará en exp(0.1) ' 1.105; Es decir, aumentará en 10.5% (interpretación usual en
bioestadı́stica).
En economı́a es más usual la interpretación de βj como una semi-elasticidad. Esto es, un

aumento de 1 unidad en Xj genera un aumento proporcional 0.1 en la razón de probabili-
dades.
Por otro lado, la relación entre los coeficientes estimados por MCO, Probit y Logit se
puede caracterizar c través de la siguiente regla de oro:
β̂Logit ' 4β̂M CO
β̂P robit ' 2.5β̂M CO
β̂Logit ' 1.6β̂P robit
Lo que funciona bastante bien si 0.1 ≤ p ≤ 0.9.
En general, en un modelo de variable dependiente binaria, se dice que para datos de

variables del lado derecho distribuidas normalmente, estimar efectos marginales promedio
usando OLS es tan bueno como Probit o Logit.
116
8.1.6 Selección de Modelos
Capı́tulo
XIV,
Se utilizan los conceptos presentados anteriormente de pseudo-R2 y criterios de información,
pág.
sin haber alguna estrategia que domine a las otras. 473-474
Alternativamente, en el caso binario se puede utilizar la proporción de observaciones

correctamente clasificadas. Esto se obtiene haciendo ŷ = 1 si p̂ > c, donde el umbral c se
debe seleccionar. En STATA:
estat class, lfit
por omisión usa c = 0.5.
HATA AQUÍ PARA LA SOLEMNE II !!
117
8.2 Modelos de Selección y Tobit
CLASE
20
Capı́tulo
Son modelos en que la variable dependiente se observa de manera incompleta o cuando la XVI,
pág.
variable dependiente se observa de manera completa, pero solo para una muestra seleccionada 529-530,
que no es representativa de la población. muestra no aleatoria. 532
Lo que tienen en común es que incluso en caso de una parametrización lineal, MCO será
inconsistente.
Las causas de observación incompleta son tı́picamente truncamiento y censura.
Truncamiento: algunas observaciones de la variable dependiente y de las independientes

no se observan. [Por ejemplo, en los datos del seguro de cesantı́a no se observa a los
trabajadores informales - por construcción].
Censura: algunas observaciones de la variable dependiente no se observan, pero sı́ se

observan los regresores. [Por ejemplo, en los datos del seguro de cesantı́a no se observa el
valor de los ingresos mayores que 74.3 UF].
Entonces, truncamiento conlleva una mayor pérdida de información que la censura.
La formulación general implica la existencia de una variable latente y ∗ , de modo que:
y = g(y ∗ )
8.2.1 Modelamiento de los modelos con Censura y Truncamiento

Capı́tulo
1. Censura XVI,
pág.
532-533
(a) Censura por la izquierda (abajo)

 y∗ si y ∗ > L
y=
 L si y ∗ ≤ L
118
(b) Censura por la derecha (arriba)

 y∗ si y ∗ < U
y=
 U si y ∗ ≥ U
Notar que los regresores X siempre se observan de manera completa en el caso de

censura.
2. Truncamiento
(a) Truncamiento por la izquierda (abajo)
y = y ∗ si y ∗ > L
(b) Truncamiento por la derecha (arriba)
y = y ∗ si y ∗ < U
Un ejemplo de la censura y el truncamiento se observa en la siguiente figura:

16.2. CENSORED AND TRUNCATED MODELS
Tobit: Censored and Truncated Means

4000
Different Conditional Means
2000
0
-2000
Actual Latent Variable

Truncated Mean
Censored Mean
-4000
Uncensored Mean
1 2 3 4 5
Natural Logarithm of Wage

Figure 16.1: Tobit regression of hours on log wage: uncensored conditional mean
(bottom), censored conditional mean (middle), and truncated conditional mean (top) for
censoring/truncation from below at zero hours. Data are generated from a classical linear
regression model.
This is a Tobit model, studied in detail in Section 16.3. The model implies that the
wage elasticity is 1000/y ∗ , which equals, for example, 0.5 for full-time work (2,000
8.2.2 Estimador
hours). Forde
eachMV para inmodelos
1% increase wage, annualdehours
censura
increaseybytruncamiento
10 hours.
∗ Capı́tulo
Figure 16.1 presents a scatter plot of y and ln w for a generated sample of 200
Los modelosobservations. The unconditional
de truncamiento y censura mean for y ∗ , which
modifican is −2500
tanto + 1000de
la función ln w, is given
densidad condicional XVI,
by the lowest curve, which is a straight line. pág.
como la mediaWith
condicional.
censoring at zero, negative values of y ∗ are set to zero because people with 533-534
negative desired hours of work choose not to work. For this particular sample this
is the case for about 35% of the observations. This pushes up the mean for low
119
wages, since the many negative values of the y ∗ are shifted up to zero. It has little
impact for high wages, since then few observations on y ∗ are zero. The middle curve
in Figure 16.1 gives the resulting censored mean, using the formula given later in
1. Censura por abajo
La función de densidad es:

 f ∗ (y|X) si y > L
f (y|X) =
 F ∗ (L|X) si y = L
De forma análoga al caso binario, se genera el indicador:


 1 si y > L
d=
 0 si y = L
Entonces, la función de densidad condicional será:
f (y|X) = f ∗ (y|X)d F ∗ (L|X)1−d
Luego, para N observaciones, la estimación MV del modelo censurado será:

N
X
lnLN (θ) = {di · ln [f ∗ (yi |Xi , θ)] + (1 − di ) · ln [F ∗ (Li |Xi , θ)]} .
i=1
Se permite que L varı́e por individuo, siendo Li , solo para mayor generalidad.
El modelo de MV censurado es consistente y asintóticamente normal si f ∗ (y|X, θ) está

correctamente especificado.
2. Truncamiento por abajo

La función de densidad del modelo con truncamiento es:
f (y) = f ∗ (y|y > L)

f ∗ (y)
=
P r[y|y > L]
f ∗ (y)
=
[1 − F ∗ (L)]
Notar que no se condiciona sobre X, porque también se pierde esa información.
El modelo MV truncado será entonces:

X N
lnLN (θ) = {ln [f ∗ (yi |Xi , θ)] − ln [1 − F ∗ (Li |Xi , θ)]} .
i=1
120
8.2.3 El Modelo Tobit
Capı́tulo
XVI,
El modelo de regresión normal con censura se llama Tobit (1958).
pág.
536-538
Se asume censura por abajo en cero y variable latente lineal en los regresores con error
aditivo:
y∗ = X 0β +
∼ N (0, σ2 )
Luego, y ∗ ∼ N (X 0 β, σ2 )
La observación y se define con L = 0, de modo que:


 y∗ si y ∗ > 0
y=
 − si y ∗ ≤ 0
donde ‘-’ representa un dato faltante (missing value), pero usualmente es igual a cero.
Notar que la normalización de L = 0 ayuda porque sólo se puede identificar de la siguiente

manera:
y si y ∗ > L
β1 + X20 β2 + > L
Solo se puede identificar β1 − L.
Aplicando entonces la formulación general para una distribución normal se obtiene:
F ∗ (0) = P r[y ∗ ≤ 0]
= P r[X 0 β + ≤ 0]
X 0β

= Φ −
σ
0
Xβ
= 1−Φ
σ
con Φ(·) cdf normal estándar.
121
La función de densidad con censura se puede expresar como:

d 0 1−d
1 1 0 2 Xβ
f (y) = √ exp − 2 (y − X β) · 1−Φ
2πσ 2 2σ σ
Con lo que el logaritmo de la verosimilitud será:

N
X 1 1 1
2
di · − ln (2π) − ln σ 2 − 2 (yi − Xi0 β)2

lnLN (β, σ ) =
i=1
2 2 2σ
0
Xβ
+(1 − di ) · ln 1 − Φ .
σ
Luego se estima por MV (Tarea: Obtener las CPO’s).
Ameniya (1973) demostró que la teorı́a usual se aplica a este caso particular de mezcla
entre variable discreta y continua.
2. Truncamiento por abajo
Si existe truncamiento por abajo, la función de verosimilitud del modelo Tobit será:
N 0
2
X 1 1 2
1 0 2 Xβ
lnLN (β, σ ) = − ln (2π) − ln σ − 2 (yi − Xi β) − ln Φ .
i=1
2 2 2σ σ
Para garantizar la consistencia se requiere correcta especificación. En el caso de errores

heterocedásticos se puede especificar σi2 = exp(Zi0 γ), pero nuevamente se requiere que esto
último esté bien especificado.
122
8.2.4 Medias condicionales en modelos de truncamiento y censura
Capı́tulo
1. Truncamiento por abajo (izquierda) XVI,
pág.
538-540
E[y] = E[y ∗ |y ∗ > 0]
= E[X 0 β + |(X 0 β + > 0)]
= E[X 0 β|(X 0 β + > 0)] + E[|(X 0 β + > 0)]
= X 0 β + E[|( > −X 0 β)]
Notar que, intuitivamente, se esperaba que el modelo sin truncamiento subestime la

media (al considerar y = 0 para valores y ∗ < 0. Entonces, tal como se anticipaba, al
considerar el truncamiento se agrega E[|( > −X 0 β)] > E[], lo que corrige el sesgo.
123
Asumiendo que y = 0 en vez de y ∗ ≤ 0 y L = 0.

E[y] = Ed Ey|d [y|d] /Por simplicidad se suprime notación condicional en x
= P r[d = 0] · E[y|d = 0] + P r[d = 1] · E[y|d = 1]
= P r[y ∗ ≤ 0] · 0 + P r[y ∗ > 0] · E[y ∗ |y ∗ > 0]
= P r[y ∗ > 0] · E[y ∗ |y ∗ > 0]
Dado que P r[y ∗ > 0] = 1 − P r[y ∗ ≤ 0] = P r[ > −X 0 β]
⇒ E[y] = P r[ > −X 0 β] · E[y ∗ |y ∗ > 0]
En resumen, para el modelo lineal, con censura y truncamiento por abajo de cero, las
medias condicionales son:
Variable latente: E[y ∗ |X] = X 0 β
Truncamiento por izq. en cero: E[y|X, y > 0] = X 0 β + E[| > −X 0 β]
Censura por izq. en cero: E[y|X] = P r[y ∗ > 0] · {X 0 β + E[| > −X 0 β]}
| {z }
P r[>−X 0 β]
Es claro que aunque el modelo original es lineal, las medias no lo son.
8.2.5 Medias condicionales en el modelo Tobit

Capı́tulo
XVI,
En el modelo Tobit, se asume que es normal.
pág.
540-541
Proposición (Momentos truncados de la normal estándar):
124
Si Z ∼ N (0, 1), entonces los momentos truncados por izquierda son:
φ(c) φ(c)
(i) E[Z|Z > c] = y E[Z|Z > −c] =
1 − Φ(c) Φ(c)
1 + cφ(c)
(ii) E[Z 2 |Z > c] =
1 − Φ(c)
1 + cφ(c) φ(c)2
(iii) V [Z|Z > c] = +
1 − Φ(c) (1 − Φ(c))2
Aplicando estos resultados al término de error se tiene:
−X 0 β

0
E[| > −X β] = σE >
σ σ σ
0
φ Xσβ
= σ· 0
1 − Φ −Xσ β
0
φ Xσβ
= σ· 0
Φ Xσβ
0
Xβ
= σ·λ
σ
φ(·)
donde λ(·) = Φ(·)
se define como ‘el inverso de la razón de Mill’.
Entonces, las medias condicionales con errores normales serán:
Variable latente: E[y ∗ |X] = X 0 β

X 0β

0
Truncamiento por izq. en cero: E[y|X, y > 0] = X β + σ · λ
σ
0 0
Xβ 0 Xβ
Censura por izq. en cero: E[y|X] = Φ ·X β+σ·φ .
σ σ
Se puede demostrar fácilmente que truncamiento y censura inducen heterocedasticidad

(para truncamiento obviamente la reducen).
8.2.6 Efectos marginales en el modelo Tobit

Capı́tulo
Los efectos marginales varı́an según el interés esté centrado en la media de la variable latente XVI,
pág.
0
X β o en las medias truncadas o censuradas. 541-542
125
∂E[y ∗ |X]
Variable latente: =β
∂X
∂E[y ∗ |X, y > 0]
Truncamiento por izq. en cero: = [1 − ω · λ(ω) − λ(ω)2 ] · β
∂X
∂E[y|X]
Censura por izq. en cero: = Φ(ω) · β
∂X
X 0 β ∂Φ(Z) ∂φ(Z)
con ω = σ
; ∂Z = φ(Z); ∂Z
= −Zφ(Z).
∂E[y ∗ |X]
Tı́picamente estamos interesados en ∂X
= β (por ejemplo en variables de ingreso
censuradas por arriba).
Notar que en un modelo de horas trabajadas, se tendrı́a que:
Efecto Marginal sobre: Interpretación:

(i) Variable Latente Horas que se desea trabajar
(ii) Truncamiento por izq. en cero Horas trabajadas efectivas por los que trabajan
(iii) Censura por izq. en cero Horas trabajadas efectivas de trabajadores y no trabajadores
Dado que los modelos (ii) y (iii) son bastante lineales en X (aunque inconsistentes), la
aproximación por MCO sigue siendo ilustrativa.
126
8.2.7 Estimación del modelo Tobit y sesgo de selección
Capı́tulo
Se puede estimar por MV y MCNL asumiendo distribución del término de error. XVI,
pág.
543,547-
Heckman (1976,1979) propuso estimar en 2 etapas el modelo con censura (heckit): 548 y
550-551
1a Etapa: para toda la muestra estimar un probit de d en X. Con ello se obtiene, en el

modelo truncado:
X 0β

0
E[y|X, ] = X β + σ · λ
σ
una estimación consistente de α = βσ .
2a Etapa: en el modelo truncado estimar por MCO y en X y en λ(X 0 α̂) para obtener
una estimación consistente de β y σ.
En particular, asuma una ecuación de participación:


 1 si y1∗ > 0
y1 =
 0 si y1∗ ≤ 0
donde y1∗ es una variable latente.
Paralelamente, asuma una ecuación de resultado:


 y∗ si y1∗ > 0
2
y2 =
 − si y1∗ ≤ 0
Entonces, se observa y2 cuando y1∗ > 0. El modelo lineal estándar serı́a:
y1∗ = X10 β1 + 1
y2∗ = X20 β2 + 2
127
El modelo Tobit es el caso particular en que y1∗ = y2∗ .
El estimador de Heckman en 2 etapas será entonces:
1a Etapa: regresionar y1 en x1 para obtener β̂1 dado que P r[y1∗ > 0] = Φ(X10 β1 ) y
φ(X10 β̂1 )
λ(X10 β̂1 ) = Φ(X10 β̂1 )
es el inverso de la razón de Mill.
2a Etapa: regresionar por MCO y2 = X20 β2 + σ12 · λ(X10 β̂1 ) + ν.
σ̂12
La correlación entre los dos errores (de la 1a y 2a etapa) será ρ̂ = σ̂2
. Luego, un test
sobre ρ = 0 es un test sobre la necesidad de corregir el sesgo de selección. Notar que basta
un test de Wald sobre σ12 = 0.
El modelo es intrı́nsecamente heterocedástico, de modo que los errores estándar deben

ser calculados con cuidado (cualquier paquete estadı́stico lo hace). Heckman (1979) y Greene
(1981) proveen las fórmulas adecuadas.
De esta manera, se obtiene una estimación consistente de β2 con una pequeña pérdida
de eficiencia respecto a MV, pero sin tener que suponer normalidad conjunta de 1 , 2 . El
supuesto que se requiere es que: 2 = δ1 + ε. Con esto E[y2 |y1∗ > 0] = X20 β2 + δE[1 |1 >
−X10 β1 ] otorgándole una mayor flexibilidad al modelo al poder incluir errores 1 no normales.
La identificación en el modelo de selección bivariada puede ser compleja. De este modo,

por consideraciones prácticas, se requiere al menos un regresor en la ecuación de participación
(y1∗ ) sea excluido de la ecuación de resultados (y2∗ ). Por ejemplo, que costos fijos de trabajar
afectan la decisión de trabajar, pero no las horas trabajadas. En la práctica no es trivial
encontrar variables que jueguen este rol.
128
9 Datos de Panel (Clases 20,21)
CLASE
21
Capı́tulo
Los datos de panel son observaciones repetidas del mismo corte transversal (individuos, fir- XXI,
pág.
mas, etc) por al menos dos perı́odos de tiempo. 697-742
También se les llama datos longitudinales y/o mediciones repetidas.
El foco en microeconometrı́a es en paneles cortos en tiempo con muchas observaciones

individuales.
La gran ganancia es la precisión en la estimación por tener un mayor número de obser-

vaciones por datos combinados (pooled) de distintos periodos de tiempo. Sin embargo, para
la inferencia estadı́stica es necesario hacerse cargo de la potencial correlación existente para
individuos a lo largo del tiempo. [Tı́picamente OLS sub-estima los errores estándar].
Un segundo elemento atractivo de los datos de panel es la posibilidad de estimar el mod-

elo de efectos fijos, el cual permite bajo ciertas cirscunstancias corregir problemas sesgo por
variables omitidas.
El modelo de efectos aleatorios incorpora un supuesto más fuerte acerca de la hetero-

geneidad (no es a través de los regresores, sino que a través del error). Permite estimación
consistente, pero siempre y cuando el modelo no sea de efectos fijos. En general los economis-
tas encuentran que el modelo de efectos aleatorios no es apoyado por la evidencia empı́rica.
Un tercer atractivo es de los datos de panel es aprender acerca de la dinámica del com-
portamiento individual (dinámicas de pobreza, correlación de ingresos en el tiempo es debido
a caracterı́sticas individuales o al historial de empleo-desempleo).
Los modelos no lineales en paneles son bastante más complejos.
129
9.1 Revisión de Modelos y Estimadores
Un modelo muy general de datos de panel permite que tanto el intercepto como los coefi-
cientes de pendiente varı́en entre individuos y a través del tiempo:
yit = αit + Xit0 βit + uit , i = 1, . . . , N ; t = 1, . . . , T,
con Xit de K × 1.
Este modelo tan general simplemente no se puede estimar porque hay más parámetros
que observaciones, por lo que se debe aplicar restricciones sobre la variación de αit o βit , o
sobre el término de error.
Modelo Combinado (Pooled)
El modelo más restringido es el combinado (pooled ) que considera coeficientes con-

stantes, de modo que:
yit = α + Xit0 β + uit .
Si el modelo está bien especificado y los regresores no están correlacionados con el término
de error, entonces puede ser estimado usando pooled OLS. El problema es que usualmente
hay correlación entre los errores de un mismo individuo, lo que sesga los errores estándar
hacia abajo. Además, si el modelo correcto es de efectos fijos, pooled OLS será inconsistente.
Dummies individuales y temporales
La variante del modelo anterior que permite que el intercepto varı́e por individuo y a lo
130
largo del tiempo mientras las pendientes permanecen constantes es:
yit = αi + γt + Xit0 β + uit ,
o alternativamente:
N
X T
X
yit = αj dj,it + γs ds,it + Xit0 β + uit ,
i=1 i=2
donde las N dummies individuales dj,it son iguales a 1 si i = j y 0 si no, y las (T − 1)

dummies temporales ds,it son iguales a 1 si s = j y 0 si no.
Este modelo tiene N + (T − 1) + dim[X] parámetros que pueden ser estimados consisten-
temente si es que tanto N → ∞ como T → ∞. Al concentrarnos en paneles cortos (donde
N → ∞ pero T no), los γs se pueden estimar consistentmente, y las (T − 1) dummies son
simplemente incorporadas en los regresores Xit . El desafı́o entonces es estimar los parámetros
β controlando por los N interceptos individuales αi . Una posibilidad es estimar agrupando
los individuos (por región por ejemplo), lo que requiere analizar métodos de clustering. El
problema se complica cuando N → ∞.
Modelos de Efectos Fijos y Efectos Aleatorios
El modelo de efectos individuales especı́ficos permite que cada unidad de corte transversal
tenga un término de intercepto diferente aunque las pendientes son las mismas, de modo que:
yit = αi + Xit0 β + εit ,
donde εit es iid sobre i y t. Esta es una forma más parsimoniosa con las dummies temporales
incluidas en los regresores Xit . Los αi son variables aleatorias que capturan la heterogeneidad
no observada.
En general se utiliza el supuesto de exogeneidad fuerte o exogeneidad estricta:
E[εit |αi , Xi1 , . . . , XiT ] = 0, t = 1, . . . , T,
131
de modo que el término de error se asume que tiene media igual a cero condicional en regre-
sores pasados, presentes y futuros.
Si se trata αi como una variable aleatoria potencialmente correlacionada con los regre-
sores Xit , se trata del modelo de efectos fijos (Fixed Effects - FE). La estimación por pooled
OLS será inconsistente, por lo que se requiere una estimación alternativa.
La otra variante del modelo asume que los efectos individuales no observados αi son vari-
ables aleatorias distribuidas independientemente de los regresores. Este es el modelo llamado
de efectos aleatorios (Random Effects - RE), que usualmente asume además que αi ∼ (α, σα2 )
y εi ∼ (0, σε2 ) (el efecto aleatorio y el error son iid).
(Ojo que, pese a la nomenclatura, αi es una variable aleatoria en ambos modelos).
Estimadores de Datos de Panel: ‘Pooled OLS’
El estimador OLS combinado (pooled) se obtiene de apilar los datos sobre i y sobre t en
una regression con N × T observaciones y estimar por OLS
yit = α + Xit0 β + uit i = 1, . . . , N ; t = 1, . . . , T.
Si la Cov(uit , Xit ) = 0, entonces tanto el requisito que N → ∞ como T → ∞ son suficientes

para obtener estimaciones consistentes. El problema fundamental radica en que la posibili-
dad de correlación individual en el tiempo es alta (Corr(yit , yis ) 6= 0), lo que lleva a que la
matriz que considera errores iid esté perdiendo información.
El estimador ‘pooled OLS’ es inconsistente si es que el modelo verdadero es de efectos fijos.
132
Esto es más claro al re-escribir el modelo como:
yit = α + Xit0 β + (αit − α + εit ),
donde la correlación entre los regresores Xit y el efecto individual αi se transfiere directa-
mente al término de error combinado.
En suma, el estimador ‘pooled OLS’ es apropiado para coeficientes constantes o efectos

aleatorios (en este caso con corrección de la matriz de covarianza para la inferencia); pero
no lo es para el caso de efectos fijos.
Estimador de Primeras Diferencias
El estimador de primeras diferencias explota las caracterı́sticas especiales de los datos

de panel. En un panel corto mide la asociación entre cambios especı́ficos al individuo en
regresores y cambios especı́ficos al individuo en un perı́odo en la variables dependiente.
Comenzando con el modelo de efectos individuales y rezagando un perı́odo se obtiene yi,t−1 =
0
αi + Xi,t−1 β + εi,t−1 . Luego, restando a yit se obtiene el modelo de primeras diferencias:
yit − yi,t−1 = (Xit − Xi,t−1 )0 β + (εit − εi,t−1 ) i = 1, . . . , N ; t = 2, . . . , T,
donde el término αi desaparece. Al aplicar OLS a este modelo se obtiene el estimador de

primeras diferencias, el cual es consistente si es que el modelo es efectivamente de efectos
fijos. No obstante, no se puede indentificar los efectos individuales tiempo-invariantes.
Estimador de Efectos Aleatorios
Tomando el modelo de efectos individuales especı́ficos, pero asumiendo que αi y εit son iid,
se puede estimar consistentemente por OLS, pero más eficientemente por GLS (Generalized
Least Squares). El estimador de FGLS del modelo de efecots aleatorios, llamado estimador
133
de efectos aleatorios, se puede estimar por OLS con el modelo transformado:
yit − λ̂ȳi = (1 − λ̂)µ + (Xit − λ̂X̄i )0 β + vit ,
donde vit = (1 − λ̂)αi + (εit − λ̂ε̄i ) es asintóticamente iid, y λ̂ es consistente para

σε
λ=1− p .
σε2 + T σα2
donde se debe estimar σε2 y σα2 . Notar que λ̂ = 0 corresponde al caso de ‘pooled OLS’. [Esto
es un estimador de dos etapas de β].
Por otro lado, los errores estándar se deben estimar a través de la estimación sandwich,
lo que NO es estándar en los paquetes estadı́sticos.
9.2 Ejemplos de Panel Lineal
Horas Trabajadas y Salarios
El clásico ejemplo de oferta de horas trabajadas en que el efecto ingreso se contrapone

al efecto sustitución ante cambios en salarios es útil para ejemplificar. El análisis de corte
transversal para hombres tı́picamente encuentra una respuesta positiva pequeña de las horas
trabajadas a alzas en los salarios. Pero es posible que esto sea solo una correlación espúrea
asociada a deseos de trabajar no observados correlacionados con mayores salarios.
El análasis de datos de panel puede controlar por estos deseos de trabajar no observados
bajo el supuesto que esos deseos son invariantes en el tiempo. El modelo a estimar es
ln hrsit = αi + β ln wageit + εit
donde αi es el efecto individual especı́fico y β es la elasticidad salario de la oferta de horas

trabajadas. El error εit se asume independiente sobre i, pero posiblemente correlacionado
134
sobre t para un i dado. En el modelo, se espera que β sea positivo y pequeño. [Se puede
agregar otros controles por edad, hijos, salud, etc.]
Fatalidad de Accidentes e Impuestos a la Cerveza
Se presume que una mayor tasa de impuesto a la cerveza podrı́a disminuir la ingesta de
alcohol en los conductores y por tanto reducir la fatalidad de los accidentes de autos. Se
dispone de un panel de 48 Estados en EEUU par el periodo 1982 - 1988.
Tasa de fatalidad = número de muertos10.000

en accidentes de tránsito ≈ 2.
hab.
El impuesto es por caja de cerveza:


 0.53 en 1982
x̄ =
0.48 en 1988.
min ≈ U S$0.04
max ≈ U S$2.70
En las regresiones de corte transversal se observa que a mayor tasa de impuesto mayor
fatalidad!
⇒ Insensato económicamente! → Se sospecha de variable omitida relevante.
Ejemplos:
• Aceptación social del alcohol → No medible
• Otros: Calidad de autos / Calidad de autopistas o calles / Densidad de autos.
Con el estimador de dos perı́odos, antes y depués, se puede tener
fi,t = β0 + β1 Imptoi,t + γwi + ui,t
135
fi,t+1 = β0 + β1 Imptoi,t+1 + γwi + ui,t+1
y el modelo a estimar serı́a
fi,t+1 − fi,t = (β0 − β0 ) + β1 (Imptoi,t+1 − Imptoi,t ) + ui,t+1 − ui,t
⇒ β̂1 = −0.87 → Se podrı́a reducir casi a la mitad las muertes (de 2 a 1.13) si se sube
en US $1 el impuesto por caja de cerveza.
9.3 Consideraciones Prácticas
Los paquetes estadı́sticos usuales tienen varias rutinas que incorporan el manejo de paneles
desbalanceados. De este modo, se puede estimar por múltiples métodos, debiendo tener un
cuidado especial con la especificación de los errores estándar. Para estimar errores estándar
robustos se puede usar bootstrap, o también usar estimación robusta por clusters. Es im-
portante llevar a cabo un test de Hausman para establecer si el modelo debe ser de efectos
fijos o no.
xtreg depvar indepvars, vce(robust)

xtreg depvar indepvars, vce(bootstrap)
136
10 Evaluación de Programas (Clases 22,23,24)
CLASE
22
El problema esencial de la evaluación de programas es que no se tiene contrafactuales ade-

cuados. Es decir, no se conoce cuál serı́a el resultado para una persona que pasa por un
programa si no lo hubiese hecho (no se conoce el resultado potencial) y viceversa.
10.1 El Modelo de Roy

Capı́tulo
El modelo de Roy (1951) de sesgo de selección bivariado es útil para vincular la metodologı́a. XVI,
pág.
Sı́ se observa y2 para un individuo si y1 = 1, pero no se observa si y1 = 0; es decir, solo en 555-557
un estado.
Suponga variable latente y1∗ que determina si se observa una variable de resultado y2∗ o
y3∗ . Especı́ficamente, 
 1 Si y1∗ > 0
y1 =
 0 Si y1∗ ≤ 0
Se observa luego: 
 y∗ Si y1∗ > 0
2
y=
 y∗ Si y1∗ ≤ 0
3
Luego, se puede formular:
y1∗ = X10 β1 + 1
y2∗ = X20 β2 + 2
y3∗ = X30 β3 + 3
Un modelo de evaluación donde el efecto es aditivo será:
X30 β = X20 β + α
La parametrización más simple es normal conjunta con normalización σ 2 = 1:
137
     
0 1 σ12 σ13
 1    
2  ∼ N 0 , σ21 σ22 σ23 
     
     
3 0 σ31 σ32 σ33
Entonces, se puede estimar por Heckman en 2 etapas aplicado a las medias truncadas:
E[y|X, y1∗ > 0] = X20 β2 + σ12 · λ(X10 β̂1 )
E[y|X, y1∗ ≤ 0] = X30 β3 + σ13 · λ(−X10 β̂1 )
Maddala (1983) lo llama “Switching regression model”.
Si solo el intercepto varı́a a través de los dos posibles resultados, digamos en un monto
α, el modelo de Roy se reduce a dos variables latentes:
y1∗ = X10 β1 + 1
y ∗ = X 0 β + αy1 +
donde y = y ∗ es siempre observado y también se observa la variable binaria y1 = 1 si

y1∗ > 0. Este problema se puede ver como el de una variable dummy endógena (y1 ). Se
puede estimar por Heckman en 2 etapas o por VI (si es que existe algún buen instrumento
disponible).
10.2 Marco general para efectos de tratamiento

Capı́tulo
Suponga una situación de Experimento Aleatorio Social Controlado. N será el número XXV,
pág.
total de elegibles. NT el número de seleccionados aleatoriamente para el tratamiento. 862-864
NC = N − NT será el grupo de control.
Por simplicidad, se asume inicialmente que todos los que son asignados al tratamiento lo
reciben. La variable de resultado será y1 para los tratados e y0 para los no tratados.
138
Se busca obtener una medición del impacto del programa. Naturalmente se puede com-
parar las medias de los resultados de ambos grupos. Si los grupos no son aleatorios, se puede
incluir el caso de datos observacionales.
Un supuesto básico es el de independencia condicional de los resultados. Es decir,

y0 , y1 ⊥ D|X con D una variable binaria que toma valor 1 si el individuo es tratado y 0
si no.
Si la asignación es completamente aleatoria, se puede establecer un supuesto más fuerte

como, y0 , y1 ⊥ D.
El supuesto de independencia condicional implica:
F (yj |X, D = 1) = F (yj |X, D = 0) = F (yj |X), j = 0, 1
F (uj |X, D = 1) = F (uj |X, D = 0) = F (uj |X), j = 0, 1
donde uj es el error del modelo de regresión. Esto implica que la decisión de participación
en el programa no afecta la distribución de los resultados potenciales.
Suponga E[y|X, D] es lineal, lo anterior implica que:
y = X 0 β + αD + u
será la ecuación de “resultado-participación”.
Se tiene entonces que E[u|D] = E[y − X 0 β − αD|D] = 0, por lo que se puede obtener
una estimación consistente del efecto del tratamiento.
También se puede utilizar un supuesto un poco más débil y0 ⊥ D|X, que implica in-
dependencia entre y0 y participación (lo que permite identificar efectos promedio sobre los
tratados).
139
La comparación base, ‘cómo le iba sin tratamiento’, no está correlacionada con D, pero
cómo le va después puede estar correlacionado, de modo que a algunos les irá mejor que a
otros, pero en lı́nea base es igual.
Por otro lado, el supuesto de superposición (necesario para ‘pareo’ o ‘matching’), implica
que, para cada valor de X, hay tanto tratados como no tratados. Esto es, 0 < P r[D =
1|X] < 1.
Un tercer supuesto es el de independencia de la media condicional:
E[y0 |D = 1, X] = E[y0 |D = 0, X] = E[y0 |X]
lo que implica que y0 no determina la participación.
10.2.1 Propensión al tratamiento (Propensity Score)

Capı́tulo
Cuando la asignación no es aleatoria pero depende de un vector de observables X, resulta XXV,
pág.
útil el concepto de ‘propensity score’. 864-865
Se define el propensity score como:
p(x) = P r[D = 1|X = x]
Esto se puede estimar por cualquier método binario.
Tradicionalmente, se asume la condición de balance, que implica D ⊥ X|p(x). Esto sig-

nifica que, para individuos con los mismos propensity scores, la asignación al tratamiento es
aleatoria y por lo tanto independiente de X. Este supuesto es testeable.
10.2.2 ATE y ATET

Capı́tulo
Sea ∆i = y1i − y0i , el problema central es que ∆i no se puede observar directamente porque XXV,
pág.
un individuo está en el tratamiento o no lo tiene, pero no ambas situaciones al mismo tiempo. 866-868
140
Se define:
Average Treatment Effect (ATE) = E[∆i ]
Average Treatment Effect on the treated (ATET) = E[∆i |Di = 1]
Sus respectivos análogos muestrales son:

N
1 X
AT
[ E = [∆i ]
N i=1
N
1 X
AT
\ ET = [∆i |Di = 1]
NT i=1
PN
donde NT = i=1 Di . El problema es que ∆i no se observa, por lo que hay que estimarlo.
Se tiene que:
AT E = E[∆i |Xi = xi ]
= E[y1i − y0i |Xi = xi ]
= E[y1i |Xi = xi ] − E[y0i |Xi = xi ]
= E[y1i |xi , Di = 1] − E[y0i |xi , , Di = 0]
Dada una muestra de participantes se puede obtener E[y1i |xi , Di = 1], pero el problema
es que E[y0i |xi , , Di = 0] no se observa para los participantes (porque tienen D=1), lo que
constituye el problema fundamental de la evaluación de impacto.
Los ESC usan participantes elegibles que son excluidos del tratamiento como una proxy
para el contrafactual (apoyados en la ley de los grandes números).
Los estudios observacionales generan un grupo de comparación de la misma fuente que

los tratados, o de otras bases de datos.
Suponga que para los participantes la ecuación de resultado es:
y1 = E[y1 |X] + u1
= µ1 (X) + u1
141
y para los no participantes se tiene que:
y0 = E[y0 |X] + u0
= µ0 (X) + u0
Este es el tipo de “Switching regression” del modelo de Roy, en el sentido que partici-
pantes y no participantes tienen distinta función de media condicional.
Un caso especial más sencillo es:
µ1 (X) = µ0 (X) + αD
donde la diferencia está solo en el intercepto adicional α.
El resultado observado se escribe como:
y = Dy1 + (1 − D)y0
de modo que combinando con las ecuaciones anteriores se obtiene:
y = D (E[y1 |X] + u1 ) + (1 − D) (E[y0 |X] + u0 )
= D (µ1 (X) + u1 ) + (1 − D) (µ0 (X) + u0 )
= µ0 (X) + D (µ1 (X) − µ0 (X) + u1 − uo ) + u0
El segundo término mide el efecto de participar en el programa. La primera parte,

µ1 (X) − µ0 (X), mide la ganancia promedio para un individuo con caracterı́sticas X. La
segunda parte, u1 − uo , es un efecto especı́fico al individuo (de hecho no es observable por el
investigador).
Medidas de efecto de Tratamiento:

El sesgo de selección promedio es la diferencia entre participantes y no participantes del
programa en la situación base. Este efecto no se puede atribuir al programa. El caso espe-
cial se da cuando E[u1 − u0 |X, D = 1] = 0, que puede ocurrir cuando no hay componentes
142
TREATMENT EVALUATION
Table 25.2. Treatment Effects Measures: ATE and ATET
Measure Treatment Effect Special Case (25.25)

ATE given x E [!|x] = µ1 (x) − µ0 (x) E [!|x] = α
ATET with x E [!|x, D = 1] E [!|x, D = 1]

and selection effect = µ1 (x) − µ0 (x) = α + E [u 1 − u 0 |x, D = 1]
+ E [u 1 − u 0 |x, D = 1]
Additional benefit E [u 1 − u 0 |x, D = 1] E [u 1 − u 0 |x, D = 1]

to individual with x
Average selection bias E [u 0 |x, D = 1] E [u 0 |x, D = 1]

− E [u 0 |x, D = 0] − E [u 0 |x, D = 0]
observables queThe
afecten
observeddicha diferencia.
outcome y is written as
y = Dy1 + (1 − D)y0 . (25.26)

El sesgo de selección ocurre cuando la variable de tratamiento está correlacionada con
el error en laCombining
ecuaciónthese equations we get
de resultado. Esta correlación puede ocurrir por omisión de variable
relevante que afecta tanto D ! " variable !omitida es " observable se tiene “selección
y =como
D µ y.
(x) Si
+ ula
1 + (1 − D) µ (x) + u 0
1 0
! "
en observables”, y si no lo µ0 (x)
es,= se +D µ
tendrá 1 (x) − µ0 (x)en
“selección + uno u0 + u0.
1 −observables”. (25.27)
Because D = 1 or 0, the second term in the regression “switches” on and off. The
El supuesto de term
second in (25.27) measures
independencia the benefit
condicional of participation;
permite descartarthe first component
problema de variables omi-
µ1 (x) − µ0 (x) measures the average gain to a participant with characteristics x and
theun
tidas. Pero es second component
supuesto (u 1 −yu 0muchas
fuerte, ) is individual-specific benefit. The second component
veces ‘no creı́ble’.
may be observable by the participant, but not by the investigator.
The expressions for ATE and ATET are given in Table 25.2, for the general case
and the specialization (25.25).
Average selection bias is the difference between program participants and nonpar-
10.2.3 Selección en observables
ticipants in the base state. This effect cannot be attributed to the program. A special Capı́tulo
case is E[u 1 − u 0 |x, D = 1] = 0, which can arise if there are no unobservable compo- XXV,
En estudios nents
observacionales
of the benefit or el problema
if the de estimate
best individual selecciónof u se resuelve utilizando métodos de
1 − u 0 is zero.
pág.
Selection bias arises when the treatment variable is correlated with the error in the
“pareo” (matching). También se pueden hacer con un caso más simple. Suponga el caso
outcome equation. This correlation could be induced by incorrectly omitted observable
869
variables that partly determine D and y. Then the omitted variable component of the
especial en que:
regression error will be correlated with D – the case of selection on observables.
Another source comprises unobserved factors that partly determine both D and y. This
yi = Xi0 β The
is the case of selection on unobservables. + αD conditional
i + ui independence assumption
essentially rules out confounding caused by omitted variables.
868 Z que determinan D y que están correla-
Suponga que hay un conjunto de variables
cionadas con y (lo que implica sesgo por variable omitida). El error será:
E[ui |Xi , Di ] = E[ui |Xi , Di , Zi ]
143
Dada la selección en no observables, se puede tener que E[ui |Zi ] 6= 0. Entonces:
E[yi |Xi , Di , Zi ] = Xi0 β + αDi + E[ui |Xi , Zi ]
Esto motiva utilizar un “estimador de función de control”, introduciendo en la ecuación

todas las variables observables posiblemente correlacionadas con ui y ası́ estimar:
yi = Ci0 δ + αDi + {ui − E[ui |Xi , Zi ]}
con Ci = [XZ]. Dado que Z está en la regresión ya no habrı́a problema de variable

omitida.
10.2.4 Selección en no observables

Capı́tulo
XXV,
Considere el caso particular lineal en que la decisión de participación es endógena. Este es
pág.
el caso tı́pico de variable dummy endógena. Suponga: 869-871
y1i = Xi0 β1 + u1i
y0i = Xi0 β0 + u0i
Di∗ = Zi0 γ + i
donde Di∗ es una variable latente que determina Di :


 1 Si Di∗ > 0
Di =
 0 Si D∗ ≤ 0i
Se asume que E[u1 |X, Z] = E[u0 |X, Z] = 0. Si bien Z y X se pueden sobreponer, se

asume que existe al menos un elemento en Z que corresponde a una fuerte variación en D
(por lo que puede ser considerado un instrumento).
Asumiendo normalidad conjunta de (u1i , u0i , i ) con medias cero y varianzas:

 
σ σ σ
 11 10 1 
Σ = σ10 σ00 σ0 
 
 
σ1 σ0 1
144
Notar que σ1 6= 0 y σ0 6= 0 reflejan la endogeneidad de la variable de tratamiento. σ10 se
asume igual a cero porque no se observa a ningún individuo en ambos estados. σ se asume
igual a 1 por normalización. Entonces, dado que el modelo es paramétrico se puede estimar
por MV. El efecto de participar será:
φ(Zi0 γ)
y1i − E[y0i |Di = 1] = y1i − Xi0 β0 + σ0 ·
(1 − Φ(Zi0 γ))
φ(Zi0 γ)
⇔ E[y1i |Di = 1] − E[y0i |Di = 1] = Xi0 (β1 − β0 ) + (σ0 − σ1 ) ·
Φ(Zi0 γ)
| {z }
Efecto de Selección
En el caso especial en que Xi0 β0 = Xi0 β1 y que D entra linealmente en la ecuación de y1

con coeficiente α, se tendrá que el efecto promedio del programa está dado por:
E[y1i |Di = 1] − E[y0i |Di = 1] = α + Efecto de Selección
10.3 Pareo
Capı́tulo
XXV,
El método de pareo puede ser útil solamente cuando hay selección en observables. Además,
pág.
exige que se cumpla la condición de soporte común, que implica que por cada vector X que 871-873
participa, exista una probabilidad positiva de no participar.
Básicamente, si Di = 1, se le imputa un y0i usando µ̂0 (Xi ) a partir de los “vecinos más
cercanos” (o algún otro criterio). Esto último require de una métrica basada en observables.
El método de pareo es atractivo si:
1. Se puede controlar por un conjunto de caracterı́sticas X suficientemente rico.
2. Hay muchos potenciales controles.
3. El parámetro de interés es ATET.
Suponga que todos los tratados son pareados de acuerdo a los observables, de modo que
todas las diferencias entre tratados son controladas, se tendrá:
E[y1i |Di = 1] − E[y0i |Di = 1] = E[y1i − y0i |Di = 1] + {E[y0i |Di = 1] − E[y0i |Di = 0]}
| {z } | {z }
ATET Sesgo
145
El sesgo será igual a cero con asignación aleatoria. Condicionando en covariables Xi y
pareando:
E[y1i |Di = 1] − E[y0i |Di = 1] = E [{E[y1i |Xi , Di = 1] − E[y0i |Xi , Di = 1]} |Di = 1]
Existen métodos de “pareo exacto”, que requiren que los X sean discretos y que X no
contenga demasiados elementos para que el N sea suficiente.
También existen métodos de “pareo inexacto” (como propensity score matching) que ba-
jan la dimensionalidad del problema mapeando X tı́picamente a un escalar.
146

Apunte Econometría Aplicada I

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Econometría Aplicada I

Cargado por

Copyright:

Formatos disponibles

Econometrı́a Aplicada I

March 11, 2019

2 Métodos Lineales (Clases 4,5) 21

3 Estimación por Máxima Verosimilitud y MC no lineales (Clases 6,7) 47

4 Método Generalizado de momentos y Sistema de Ecuaciones (Clases 8,9) 60

5 Test de Hipótesis (Clases 10,11,12) 68

6 Test de Especificación y Selección de Modelos (Clases 13,14) 85

7 Métodos Semiparamétricos (Clases 15,16) 97

9 Datos de Panel (Clases 20,21) 129

10 Evaluación de Programas (Clases 22,23,24) 137

2. Discrecionalidad y No linealidades. (La desagregación lleva a discontinuidades y falta

3. Variable Dependiente Limitada.

(a) Gran cantidad de información (datos).

(b) Investigación empı́rica derivada de modelos teóricos microeconómicos.

(c) Enfoque Estructural vs. Enfoque Reducido. (Endogeneidad es un problema solo

(d) Desagregación, Heterogeneidad y Confounding Effects (Ej: Efectos fijos y efectos

Ejemplo de efectos confusos:

Lo fundamental de la microeconometrı́a es lo que podemos aprender con datos desagre-

1.2 Modelos causales y no causales

(b) Inferencia Causal

i. Relaciones causales que buscan confirmar/plantear hipótesis microeconómicas

La microeconometrı́a está presente en casi todas las áreas de la microeconomı́a y otras

1.2.1 Modelos Estructurales

con g una función conocida, representa un modelo estructural y θ es el parámetro estruc-

yi = g(zi |Π) + ui = E[yi |zi ] + ui

La forma reducida tiene un rol práctico en realizar predicciones condicionales de yi dado

Ejemplo: Modelos de salarios de KH vs. modelo de Signalling.

1.2.3 Efectos Causales

– Tamaño de los cursos y aprendizaje.

– Incentivos a los profesores y desempeño.

– Cambios en cobertura de salud y estado de salud de la población.

• En muchos casos las mismas variables son decisiones ⇒ endógena.

• Cuando se tienen “datos observacionales” ⇒ identificación compleja.

• Experimentos naturales ⇒ terremotos, leyes.

• “El problema fundamental de la inferencia causal” (Holland, 1986) ⇒ Statistics and

Pero si X1 cambia a X2 , entonces ya no es posible Y1 .

En evaluación de programas, este marco de trabajo se llama Modelo Causal de Rubin

1.2.4 El Modelo Causal de Rubin

• El efecto de D en el individuo i es (y1i −y0i ), y el “efecto promedio” (Average Treatment

• Solución al problema de no observar factual, contrafactual ⇒ generar una asignación

– De esta manera, la variable de participación puede ser considerada exógena (no

– Además, la omisión de variables relevantes se limita.

• Se basa en la especificación de la distribución conjunta de las variables endógenas

• Se estima todo junto vı́a MV (Wolpin, Todd).

• Problema central: algunas ecuaciones pueden estar mal especificadas.

• El modelo no proviene necesariamente de un proceso de optimización.

2. Modelos estructurales con información incompleta:

• Se requiere saber acerca de 1 ó 2 parámetros claves solamente.

• Se explota la interdependencia con otras ecuaciones.

• IV, métodos multietápicos, MV con info limitada.

• Marco: 1 ó 2 ecuaciones estructurales, otras ecuaciones en su forma reducida.

3. Formas reducidas identificables:

• Se usan restricciones para identificar ⇒ Ejemplo de VAR en series de tiempo.

1.2.6 Estrategias de Identificación

1. Exogeneización: Ej: Experimento natural, cuasi experimentos.

3. Controlar por los factores de confusión:

• Variables omitidas genera sesgo ⇒ no se puede identificar correctamente.

• Se puede introducir “variables de control” en el modelo (Control Function Ap-

5. Variables Instrumentales: Difı́cil en la práctica. Un experimento natural puede ser un

6. Muestras re balanceadas: La inferencia no es válida para la población si la muestra no

1.3 Estructuras de Datos Microeconómicos

• Datos observacionales (en contraposición a datos experimentales)

• Marco Muestral (población que se quiere representar)

• Diseño Muestral (muestra aleatoria simple vs. estratificada)