Está en la página 1de 146

Econometrı́a Aplicada I

Otoño 2018
Magı́ster de Análisis Económico - Universidad de Chile

Jaime Ruiz-Tagle∗

March 11, 2019


jaimert@fen.uchile.cl. Departamento de Economı́a, Universidad de Chile.
Contents
1 Introduction a la Microeconometrı́a (Clases 1,2,3) 6
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a . . . . . . . . . . . . . . 6
1.2 Modelos causales y no causales . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Modelos Estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Identificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Efectos Causales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 El Modelo Causal de Rubin . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5 Estrategias Generales en Modelos Causales . . . . . . . . . . . . . . . 11
1.2.6 Estrategias de Identificación . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Estructuras de Datos Microeconómicos . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Datos observacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Datos de Experimentos Sociales . . . . . . . . . . . . . . . . . . . . . 13
1.3.3 Datos de Experimentos Naturales . . . . . . . . . . . . . . . . . . . . 14
1.3.4 Datos de Encuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.5 Imputación de Datos Faltantes . . . . . . . . . . . . . . . . . . . . . 18

2 Métodos Lineales (Clases 4,5) 21


2.1 MCO-OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Modelo de Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Distribución del Estimador MCO . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Supuestos para Corte Transversal . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Derivación del Estimador de MCO . . . . . . . . . . . . . . . . . . . 27
2.1.5 MCG y MCGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.6 Algunos casos de heterocedasticidad: Regresión de Mediana y Cuantiles 30
2.2 Especificación del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 Heterogeneidad de los parámetros . . . . . . . . . . . . . . . . . . . . 36
2.3 Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1 El estimador de VI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2 El estimador de VI para regresión múltiple . . . . . . . . . . . . . . . 41

2
2.3.3 MCO en 2 etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.4 VI en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Estimación por Máxima Verosimilitud y MC no lineales (Clases 6,7) 47


3.1 Estimadores No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Ejemplo de la Regresión Poisson . . . . . . . . . . . . . . . . . . . . . 47
3.1.2 Generalización de estimadores no lineales de MV . . . . . . . . . . . 49
3.1.3 Propiedades asintóticas de MV . . . . . . . . . . . . . . . . . . . . . 50
3.2 Interpretación de coeficientes en Regresiones no lineales . . . . . . . . . . . . 52
3.2.1 Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Modelos de Índice Simple . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.3 Método de Diferencia Finita . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Inferencia estadı́stica: Restricciones lineales a través del test de Wald . . . . 55
3.3.1 Test Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.2 Test de un solo regresor . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.3 Estimación de la Varianza . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 MC No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4 Método Generalizado de momentos y Sistema de Ecuaciones (Clases 8,9) 60


4.1 Ejemplos de GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.1 Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.2 Regresión de Variables Instrumentales . . . . . . . . . . . . . . . . . 61
4.1.3 Datos de Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 Sistema de Ecuaciones Lineales . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.1 Sistema de Ecuaciones Lineales . . . . . . . . . . . . . . . . . . . . . 63
4.2.2 MCGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Regresión Aparentemente No Relacionada (Seemingly Unrelated Re-
gression - SUR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.4 Panel de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Test de Hipótesis (Clases 10,11,12) 68


5.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3
5.1.1 Hipótesis Lineales en modelos Lineales . . . . . . . . . . . . . . . . . 69
5.1.2 Hipótesis No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.3 El estadı́grafo de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.4 El Método Delta para construir Intervalos de Confianza . . . . . . . . 73
5.2 Test basados en Verosimilitud (Wald,LR,LM) . . . . . . . . . . . . . . . . . 74
5.2.1 Test LR (Likelihood Ratio Test) . . . . . . . . . . . . . . . . . . . . . 75
5.2.2 Test LM (Multiplicador de Lagrange) o Score Test . . . . . . . . . . . 76
5.2.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.4 Discusión y Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Poder y Tamaño de los Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4 Estudios de Monte Carlo y Bootstrap . . . . . . . . . . . . . . . . . . . . . 82

6 Test de Especificación y Selección de Modelos (Clases 13,14) 85


6.1 Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.1 Test de Hausman de Endogeneidad . . . . . . . . . . . . . . . . . . . 86
6.2 Regression Equation Specification Error Test (RESET) . . . . . . . . . . . . 88
6.3 Discriminación entre modelos no anidados . . . . . . . . . . . . . . . . . . . 89
6.3.1 Criterios de Información . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.4 Diagnóstico de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.5 Factor de Influencia de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.6 Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7 Métodos Semiparamétricos (Clases 15,16) 97


7.1 Estimación de Densidad de Kernel . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.3 Estimador de Densidad Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.4 Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.5 Regresión No paramétrica Local . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.5.1 Método de promedio locales ponderados . . . . . . . . . . . . . . . . 105
7.6 Regresión Semiparamétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.7 Consideraciones Prácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4
8 Modelos de Variable Dependiente Limitada (Clases 17,18,19) 109
8.1 Modelos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.1.1 Modelo Binario General . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.1.2 Motivación de modelos binarios a través de “Variable Latente” . . . . 111
8.1.3 Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.1.4 Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.1.5 Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . 115
8.1.6 Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2 Modelos de Selección y Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.2.1 Modelamiento de los modelos con Censura y Truncamiento . . . . . . 118
8.2.2 Estimador de MV para modelos de censura y truncamiento . . . . . . 119
8.2.3 El Modelo Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.2.4 Medias condicionales en modelos de truncamiento y censura . . . . . 123
8.2.5 Medias condicionales en el modelo Tobit . . . . . . . . . . . . . . . . 124
8.2.6 Efectos marginales en el modelo Tobit . . . . . . . . . . . . . . . . . 125
8.2.7 Estimación del modelo Tobit y sesgo de selección . . . . . . . . . . . 127

9 Datos de Panel (Clases 20,21) 129


9.1 Revisión de Modelos y Estimadores . . . . . . . . . . . . . . . . . . . . . . . 130
9.2 Ejemplos de Panel Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
9.3 Consideraciones Prácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

10 Evaluación de Programas (Clases 22,23,24) 137


10.1 El Modelo de Roy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.2 Marco general para efectos de tratamiento . . . . . . . . . . . . . . . . . . . 138
10.2.1 Propensión al tratamiento (Propensity Score) . . . . . . . . . . . . . 140
10.2.2 ATE y ATET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.3 Selección en observables . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2.4 Selección en no observables . . . . . . . . . . . . . . . . . . . . . . . 144
10.3 Pareo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

5
1 Introduction a la Microeconometrı́a (Clases 1,2,3)
CLASE
1.1 Motivación: Caracterı́sticas de la Microeconometrı́a 1
Capı́tulo
1. Gran heterogeneidad (Observaciones ‘menos’ agregadas: personas, hogares, empresas, I, pág.
3-10.
cursos).

2. Discrecionalidad y No linealidades. (La desagregación lleva a discontinuidades y falta


de suavización. Ej: soluciones esquina como ‘gasto semanal’, ‘horas trabajadas’, etc).

3. Variable Dependiente Limitada.

4. Micro

(a) Gran cantidad de información (datos).

(b) Investigación empı́rica derivada de modelos teóricos microeconómicos.

(c) Enfoque Estructural vs. Enfoque Reducido. (Endogeneidad es un problema solo


en el segundo caso).

(d) Desagregación, Heterogeneidad y Confounding Effects (Ej: Efectos fijos y efectos


aleatorios; si no se controloa adecuadamente por la heterogeneidad se puede tener
efectos que se confunden).

Ejemplo de efectos confusos:

• Dos alumnos se enfrentan a una prueba de econometrı́a. Uno estudia 5 horas y obtiene
un 6.5, el otro estudia 10 horas y obtiene 4.5 ⇒ No vale la pena estudiar más horas de
econometrı́a!

Lo fundamental de la microeconometrı́a es lo que podemos aprender con datos desagre-


gados (más allá del desafı́o que representa trabajar con este tipo de datos).

1.2 Modelos causales y no causales


Capı́tulo
1. Objetivos de la Microeconometrı́a: II, pág.
18.
(a) Descripción de lo Datos:

6
i. Incluir propiedades de momentos de variables de respuesta.

ii. Realizar regresiones que resaltan asociaciones entre variables (evidencia cor-
relacional).

(b) Inferencia Causal

i. Relaciones causales que buscan confirmar/plantear hipótesis microeconómicas


⇒ Modelos Estructurales v/s Modelos Reducidos

Con el Premio Nobel del año 2000 a James Heckman (Sesgo de Selección) y Daniel McFad-
den (Modelos de Elección Discreta), por su contribución a la microeconometrı́a, se termina
de confirmar como subdisciplina de la econometrı́a.

La microeconometrı́a está presente en casi todas las áreas de la microeconomı́a y otras


disciplinas relacionadas a la economı́a como ciencia polı́tica, sociologı́a y geografı́a.

1.2.1 Modelos Estructurales


Capı́tulo
II, pág.
Sea un conjunto de variables W, que se puede particionar por conveniencia en [Y Z]. En-
20,21.
tonces diremos que:

g(yi , zi , ui |θ) = 0

con g una función conocida, representa un modelo estructural y θ es el parámetro estruc-


tural.

Si se asume que existe una única solución de yi para cada (zi , ui ), entonces se puede
escribir la ecuación de forma explı́cita:

yi = f (zi , ui |π)

7
Esto se conoce como la forma reducida del modelo estructural, dónde π es un vector de
parámetros que es función de θ. Si f (·) tiene una forma funcional conocida y es aditivamente
separable en zi y ui ,

yi = g(zi |Π) + ui = E[yi |zi ] + ui

La forma reducida tiene un rol práctico en realizar predicciones condicionales de yi dado


(zi , ui ). ¿Significa esto que estemos en presencia de una relación causal? → En general no,
esto da pie al problema de identificación.

1.2.2 Identificación
CLASE
2
Capı́tulo
• Equivalencia observacional: II, pág.
29,30.
Si dado un conjunto de datos, dos modelos implican una idéntica distribución de prob-
abilidad conjunta de las variables, entonces son observacionalmente equivalentes. Si
esto ocurre, no se logra identificación.

• Identificación:
Dos modelos son identificables si implican distribuciones de probabilidades conjuntas
distintas (a veces se busca sólo identificación parcial).
Al introducir restricciones se puede aumentar la identificación ⇒ Normalizaciones,
exclusiones.

Ejemplo: Modelos de salarios de KH vs. modelo de Signalling.

1.2.3 Efectos Causales


Capı́tulo
II, pág.
• Particularmente importantes cuando el foco está en el impacto de una polı́tica pública
31,32.
y/o en una decisión privada.

• Ejemplos:

8
– Subsidios de empleo y duración del desempleo.

– Tamaño de los cursos y aprendizaje.

– Incentivos a los profesores y desempeño.

– Cambios en cobertura de salud y estado de salud de la población.

• En muchos casos las mismas variables son decisiones ⇒ endógena.

• Cuando se tienen “datos observacionales” ⇒ identificación compleja.

• Se busca solucionar esto con datos de un “experimento social controlado” (RCT), con
un diseño estadı́stico apropiado ⇒ costosos de implementar.

• Experimentos naturales ⇒ terremotos, leyes.

• Quasi-experimental ⇒ AUGE.

• “El problema fundamental de la inferencia causal” (Holland, 1986) ⇒ Statistics and


causal inference.

H0 : X es la causa, Y el resultado.
⇒ cambiando X ⇒ movemos Y .

X1 ⇒ Y1

X ⇒Y
| 2 {z }2

Pero si X1 cambia a X2 , entonces ya no es posible Y1 .


⇒ se requiere una hipótesis respecto a lo que habrı́a pasado si X no cambia. ⇒ com-
parar el caso factual vs. el contrafactual.

En evaluación de programas, este marco de trabajo se llama Modelo Causal de Rubin


(RCM, Rubin 1974, 1978), aunque todo parte formalmente en econometrı́a con Roy
(1951).

9
En Evaluación de Impacto se usa el concepto de la ‘teorı́a del cambio’ que permite
vincular la estadı́stica con la economı́a.

1.2.4 El Modelo Causal de Rubin


Capı́tulo
II, pág.
Tı́picamente se habla de “tratamiento” o “causa”.
33,34.
• Herencia de las ciencias médicas en que se tienen “tratados” y “no tratados” con una
nueva droga. ⇒ El efecto causal es la diferencia promedio entre los grupos.

• En economı́a el tratamiento puede ser cualquier cosa: el tamaño del curso, la ca-
pacitación laboral, la información ⇒ Notar que el tratamiento no necesariamente es
exógeno, lo que constituye el elemento central de la identificación causal.

• Si todos los individuos del universo considerado son “potenciales sujetos de tratamiento”,
el conjunto (y1i , y0i , Di ), i = 1, ..., N define la base del problema:


 1, si i tratado;
Di =
 0, si no.

 
 y , si D = 1;  ojo que son mutuamente
1i i
yi =
 y , si D = 0.  excluyentes
0i i

• El efecto de D en el individuo i es (y1i −y0i ), y el “efecto promedio” (Average Treatment


Effect - ATE):

AT E = E[yi |D = 1] − E[yi |D = 0]

• Solución al problema de no observar factual, contrafactual ⇒ generar una asignación


aleatoria del tratamiento.

– De esta manera, la variable de participación puede ser considerada exógena (no


correlacionada con el resultado).

– Además, la omisión de variables relevantes se limita.

10
1.2.5 Estrategias Generales en Modelos Causales
Capı́tulo
1. Modelos estructurales con información completa (Full-Information Struc- II, pág.
35-38.
tural Models):

• Se basa en la especificación de la distribución conjunta de las variables endógenas


condicionada en las variables exógenas.

• Se estima todo junto vı́a MV (Wolpin, Todd).

• Problema central: algunas ecuaciones pueden estar mal especificadas.

• El modelo no proviene necesariamente de un proceso de optimización.

2. Modelos estructurales con información incompleta:

• Se requiere saber acerca de 1 ó 2 parámetros claves solamente.

• Se explota la interdependencia con otras ecuaciones.

• IV, métodos multietápicos, MV con info limitada.

• Marco: 1 ó 2 ecuaciones estructurales, otras ecuaciones en su forma reducida.

3. Formas reducidas identificables:

• Se usan restricciones para identificar ⇒ Ejemplo de VAR en series de tiempo.

1.2.6 Estrategias de Identificación

1. Exogeneización: Ej: Experimento natural, cuasi experimentos.

2. Eliminación de los parámetros de perturbación: Ej: Dif-Dif para eliminar efectos fijos.

3. Controlar por los factores de confusión:

• Variables omitidas genera sesgo ⇒ no se puede identificar correctamente.

• Se puede introducir “variables de control” en el modelo (Control Function Ap-


proach), que buscan controlar por el efecto de las variables omitidas. Ej: un
conjunto de notas en SIMCE puede ser una proxy de habilidad.

11
4. Muestras sintéticas: Se crea un grupo de comparación a través de un “pareo”.

5. Variables Instrumentales: Difı́cil en la práctica. Un experimento natural puede ser un


instrumento válido (Angrist y Kruger con fechas de nacimiento).

6. Muestras re balanceadas: La inferencia no es válida para la población si la muestra no


representa a la población.

1.3 Estructuras de Datos Microeconómicos


CLASE
3
Lo más común son encuestas y censos.

• Datos observacionales (en contraposición a datos experimentales)

• Marco Muestral (población que se quiere representar)

• Diseño Muestral (muestra aleatoria simple vs. estratificada)

• Alcance Muestral (corte transversal vs. datos longitudinales)

1.3.1 Datos observacionales

Muestreo:

• MAS

• Multietápico

– Estratos

– UP Muestreo

– US Muestreo

– ...

– UFinal de Muestreo.

– ⇒ Factores de expansión.

Sesgos:

12
• Sesgo de selección en la muestra.

Calidad de Datos:

• No respuesta de la encuesta.

• No respuesta de un ı́tem (missing data → “missing at random”. Datos faltantes).

Tipos de Datos:

• Corte transversal

• Corte transversal repetido

• Datos longitudinales (Panel) → problema de desgaste de la muestra (attrition).

1.3.2 Datos de Experimentos Sociales


CLASE
4

Fisher (1928) introdujo los ensayos aleatorios en la estadı́stica.

Desde los 70s en EEUU → muy caros de implementar.

Gran ventaja:

• Elimina la correlación entre caracterı́sticas no observadas y observadas ⇒ elimina sesgo.

• Si el impacto depende de otros observables, al usarlos se mejora la precisión de la


estimación del impacto.

13
Limitaciones:

• Costosos de implementar ($ y RRHH (administrativo, comunicacional)).

• Pureza de la aleatorización siempre difı́cil.

• Sesgo de selección por la voluntariedad de participar ⇒ poca validez externa (Ej.


PAME con mujeres con 65% con empleo).

• Desgaste de la muestra ⇒ sesgo.

– ⇒ Uso de bandas (Lee, 2008).

• Contaminación del experimento (spillover).

1.3.3 Datos de Experimentos Naturales

Experimento natural cambia X (Ley, terremoto, inundación, mellizos, etc) de manera aleato-
ria.
Ejemplo: Rau Ley Tolerancia Cero, Torche stress guaguas.

Alternativamente se puede generar un instrumento.

• Diferencias en diferencias (Antes y después):

yit = α + βDt + εit , i = 1, ..., N, t = 0, 1.

Dt = 1 en perı́odo 1,
Dt = 0 en perı́odo 0.

P
(yi1 − yi0 )
β̂ =
N
= ȳ1 − ȳ0

Se asume que el grupo es comparable en el tiempo.

14
Se puede agregar un grupo de comparación no afectado por la intervención:

yitj = α0 + α1 Dt + α2 Dj + α3 Dtj + εjit , i = 1, ..., N, t = 0, 1. j = grupo.


 1, si j = 1;
j
D =
 0, si no.


 1, si j = t = 1;
Dtj =
 0, si no.

Para los tratados, antes de la intervención:

1
yi0 = α0 + α2 D1 + ε1i0

Después:

1
yi1 = α0 + α1 + α2 D1 + β + ε1i1

Luego el impacto serı́a:

1 1
yi1 − yi0 = α1 + β + ε1i1 − ε1i0

Para los no tratados:

0
yi0 = α0 + ε0i0

0
yi1 = α0 + α1 + ε0i1

15
Y la diferencia:

0 0
yi1 − yi0 = α1 + ε0i1 − ε0i0

Dif en dif:

1 1 0 0
= β + ε1i1 − ε1i0 − ε0i1 − ε0i0
   
yi1 − yi0 − yi1 − yi0

Luego, asumiendo E [(ε1i1 − ε1i0 ) − (ε0i1 − ε0i0 )] = 0, se obtiene el impacto β.

Lectura:

• Courtemanche and Zapata (2014), “Does Universal Coverage Improve Health? The
Massachusetts Experience” (Journal of Policy Analysis and Management, Vol. 33,
No. 1, 36?69, 2014) [Versión antigua NBER WP 17.893].

1.3.4 Datos de Encuestas


CLASE
5
También existen:

• Grupos focales: Se discute en grupo poniendo foco en un tema.

• Encuestas cognitivas: Se estudia qué entiende la gente cuando le preguntan por un


tema en particular.

• Datos administrativos: Complementan datos de encuestas.

1. Utilidad de las encuestas en el análisis de las polı́ticas públicas

• Estructura de la investigación,

• Fuentes de error,

• Medición del objetivo.

2. Muestreo

16
• Diseño y elección de la muestra

– Diseño: probabilı́stico, estratificado, multietápico.


– Representatividad: población objetivo y elección de la muestra ⇒ Ajustes
post-encuesta (post-estratificación)

• Tipos de aplicación de encuestas: cara a cara, telefónicas, vı́a correo, vı́a e-mail
o Internet.

• Error de medida (o de levantamiento de información):

– Representación:
∗ Falta de cobertura (hay población que no puede ser elegida, sin internet,
sin teléfono)
∗ Error de muestreo
∗ Error de no respuesta
∗ Error de ajuste
– Medida
∗ Error de medición: cuestionario, entrevistado, encuestador.
∗ Error de procesamiento: digitación, codificación, validación, edición, fac-
tores de expansión.

⇒ Sesgos
⇒ Varianza.

3. Diseño y evaluación del Cuestionario

• Medición del objetivo de la investigación a través del cuestionario,

• Estructura del cuestionario,

• Métodos de testeo del cuestionario.

4. Cobertura y No respuesta

• Tipos de No respuesta

– A la encuesta

17
– Al ı́tem

• Incentivos → aleatorización de incentivos.

5. Prácticas de Integridad Cientı́fica

• Investigación con personas,

• Confidencialidad de los datos,

• Acceso a los microdatos.

6. Encuestas de Panel

• Diseño muestral,

• Desgaste y No-Respuesta, incentivos (motivos de desgaste deben ser estudiados)

• Cálculo de los Factores de Expansión Longitudinales

7. Diseño práctico de una encuesta para minimizar el error total de la encuesta

• El balance entre el costo de la encuesta, el error de la encuesta y otras carac-


terı́sticas de calidad,

• Documentando la calidad de la encuesta,

• Hechos organizacionales relativos a la calidad de la encuesta.

1.3.5 Imputación de Datos Faltantes


CLASE
1. Dos fuentes de problemas por no respuesta: 6

• No respuesta al instrumento

• No respuesta al ı́tem

2. No respuesta al instrumento genera problemas en la representatividad. Se debe ajustar


los factores de expansión. El problema central surge si es que hay correlación entre la
probabilidad de no respuesta y el objetivo del estudio.

18
3. No respuesta al ı́tem, se requiere que el investigador tome decisiones. Esto tiene im-
plicancias sobre la interpretación de los resultados.

4. Si la no respuesta al ı́tem es no aleatoria, entonces se debe:

• Reconocer el problema

• Intentar identificar los potenciales sesgos. Se puede utilizar el diseño muestral


(estratificación) para explorar el tema.

• Identificar el tamaño de los sesgos

• Itentar corregir la información faltante

5. Beneficios de Imputar:

• Dependen del tamaño del problema: a menor información faltante menores ben-
eficios.

• Determinar si el mecanismo implı́cito detrás de la información faltante es aleatorio


o no.

6. Métodos de Imputación:

• El objetivo es preservar la distribución de información completa.

• Se busca identificar la existencia de no respuesta aleatoria condicionada en los


observables. [Missing at Random Conditional on Observables].

• A veces se requiere consistencia dentro de las encuestas.

• Tipos de Imputación:

– Imputación Multietápica secuencial: Inicialmente se imputa variables


que tengan menor problema de no respuesta, para posteriormente utilizar
las observaciones con información completa (incluyendo las ya imputadas)
para imputar las variables siguientes que presenten secuencialmente mayores
problemas de información faltante. Se realiza este proceso hasta econtrar
convergencia: 3 iteraciones pueden ser suficientes.

19
– Imputación Estocástica: Busca preservar la varianza de la distribución
original. Consiste en imputar la variable de manera aleatoria condicionada
en un vector de covariables de acuerdo al proceso escogido para dicha variable.

– Imputación por celda (hot-deck): Se debe seleccionar un vector de vari-


ables y buscar a aquellos individuos que comparten las mismas caracterı́sticas
contenidas en ese vector y utilizarlas como donantes. Lo más simple es uti-
lizar un estadı́grafo del grupo de donantes (media, mediana, percentil). Esto
genera que se comprima la varianza. Alternativamente se puede elegir un
donante de forma aleatoria.

– Imputación por regresión: Usualmente se estima por MCO para obtener


coeficientes y con ellos predecir fuera de muestra, incluyendo un término de
error aleatorio. Dado que cada observación tiene un vector de covariables
disponibles distintos se puede/debe llevar a cabo una regresión para cada
observación.

7. Imputación en la práctica:

• Se debe considerar la magnitud del problema y la relevancia de las variables con


información incompleta (más de 20% es muy malo).

• Se debe considerar con qué información se podrı́a llevar a cabo la imputación.

• Se debe considerar la relevancia de la variable a imputar, porque las propiedades


asintóticas podrı́an no acompañar.

• Tı́picamente las variables continuas se imputan por regresión, las variables disc-
retas por hot-deck.

• Los métodos deben ser simples y transparentes para que la gente los pueda
replicar.

20
2 Métodos Lineales (Clases 4,5)
2.1 MCO-OLS
CLASE
7

2.1.1 Modelo de Regresión Lineal


Capı́tulo
Modelo de regresión general con error aditivo se puede escribir como: IV, pág.
70,71.

y = E[y|X] + u

Nota: en ausencia de subı́ndices, y es vector de yi con i=1,....,N; X es una matriz de


vectores Xki con k=1,...,K. Por lo tanto u está compuesto por ui , que son errores no observ-
ables.

El modelo de regresión lineal se puede escribir como:

yi = x0i β + ui

y = Xβ + u

con xi de dimensión k x 1.

El estimador de MCO se define a través del estimador que minimiza la suma de los errores
al cuadrado:

N
X
W = u2i = u0 · u = (y − Xβ)0 (y − Xβ)
i=1
∂W
= 0
∂β
β̂M CO = (X 0 X)−1 · X 0 y

Este estimador se puede obtener siempre que (X 0 X) sea no singular y tenga rango com-
pleto, es decir, sea invertible.

Se dice que β es identificable si:

21
(a) E[y|X] = Xβ

(b) Xβ 1 = Xβ 2 ssi β 1 = β 2

lo anterior implica que la media condicionada de y está correctamente especificada, y que


(X’X) es no singular, es decir, tiene solución única.

2.1.2 Distribución del Estimador MCO


Capı́tulo
IV, pág.
El objetivo de esta sección es ver las propiedades asintóticas del estimador MCO. Primero se
72-75
demuestra la consistencia del estimador y luego se obtiene la distribución lı́mite y distribución
asintótica, finalmente se muestra cómo obtener errores estándares robustos.

(a) Consistencia:

Las propiedades del estimador MCO dependen del proceso de generación de los datos
(dgp). Se asume que el dgp es y = Xβ + u. Luego:

β̂M CO = (X 0 X)−1 · X 0 y

β̂M CO = (X 0 X)−1 · X 0 (Xβ + u)

β̂M CO = (X 0 X)−1 · X 0 Xβ + (X 0 X)−1 · X 0 u

β̂M CO = β − (X 0 X)−1 · X 0 u

TAREA: Simular en STATA (usando ”set seed 1”) ui ∼ N (0, 1) con N = 1, 000;
β = [123], X = vector de variables aleatorias uniformes: X1i = 1∀i, X2i ∈ [20, 100],
X3i ∈ [500, 1500]. Estimar β̂; luego repetir para N = 10, 000.

Para probar consistencia reescribimos la expresión anterior de la forma:

β̂M CO = β + [N −1 (X 0 X)]−1 · N −1 X 0 u

22
esto se obtiene dado que N −1 (X 0 X) = 1
xi x0i corresponde a un promedio que con-
P
N i

verge en probabilidad a una matriz finita distinta de cero si xi satisface los supuestos
que permiten aplicar la ley de los grandes números a xi x0i .

p
Weak Law of Large Numbers: (X̄N − E[X̄N ]) → 0.
Strong Law of Large Numbers: plimX̄N = limE[X̄N ].

Recordatorio I: Propiedades de la probabilidad del lı́mite (plim):

(i) Si θ̂ es un estimador consistente de θ y g(·) es una función continua, entonces:


plim[g(θ̂)] = g(plimθ̂) = g(θ).

(ii) Si θˆ1 y θˆ2 son estimadores consistentes de θ1 y θ2 respectivamente, entonces:

plim(θˆ1 + θˆ2 ) = plimθˆ1 + plimθˆ2

plim(θˆ1 · θˆ2 ) = plimθˆ1 · plimθˆ2


θˆ1 plimθˆ1
plim =
θˆ2 plimθˆ2

Recordatorio II: Teorema de Slutsky


p
Sea {Xn }∞
i=1 una sucesión, entonces si Xn →
− X y g(·) es una función continua en R,
p
entonces g(Xn ) →
− g(X).

Siguiendo con la demostración y usando el teorema de Slutsky:

 
plim β̂M CO = β + [plimN −1 (X 0 X)]−1 · plim N −1 X 0 u


Por lo tanto, MCO es consistente si plim (N −1 X 0 u) = 0. Si la ley de los grandes números


se puede aplicar al promedio N −1 X 0 u = N −1 i xi u, entonces una condición necesaria
P

para que se cumpla la condición de consistencia es que E[xi ui ] = 0.

23
(b) Distribución Lı́mite

Dada la consistencia, la distribución lı́mite de β̂M CO es degenerada, esto es, tiene toda

su masa en β. Para obtener la distribución lı́mite se escala β̂M CO por N obteniendo:1

√ 1
N (β̂M CO − β) = [N −1 (X 0 X)]−1 · N − 2 X 0 u

Entonces, asumiendo:

(i) El proceso generador de datos es y = Xβ + u

(ii) Los datos son independientes entre si con:

E[u|X] = 0 ; E[u · u0 |X] = Ω = Diag[σi2 ].2

(iii) X es de rango completo, i.e., Xβ 1 = Xβ 2 ssi β 1 = β 2 .

(iv) La matriz de K × K

1 X 1 X
Mxx = plimN −1 (X 0 X) = plim xi · x0i = lim E[xi · x0i ]
N i N i

existe, es finita y no singular.


1 d
(v) El vector de K × 1: N − 2 · X · u →
− N (0, MxΩx ), donde

N N
−1 0 0 1 X 2 0 1 X
MxΩx = plimN X uu X = plim ui xi xi = lim E[u2i xi x0i ]
N i=1 N i=1

Entonces β̂M CO es un estimador consistente de β y cumple con:

√ d −1 −1
N (β̂M CO − β) →
− N [0, Mxx MxΩx Mxx ]
1

Se escala por N porque, bajo supuestos estándar de corte transversal, la resultante variable aleatoria
tendrá varianza distinta de zero, pero finita asintóticamente.
2
Notar que el hecho que la varianza esté indexada por i implica que se admite heterocedasticidad.

24
(c) Distribución Asintótica:

a
β̂M CO ∼ N [β, N −1 Mxx
−1 −1
MxΩx Mxx ]

simplificando la notación:

a
β̂M CO ∼ N [β, (X 0 X)−1 X 0 ΩX(X 0 X)−1 ]
| {z }
V ar[β̂M CO ]

y luego la varianza estimada:

V ˆar[β̂M CO ] = N −1 Mxx
−1 −1
MxΩx Mxx

es la denominada estimación sandwich.

Diferencia entre distribución lı́mite y distribución asintótica: En distribución


asintótica se asume que N es suficientemente grande, pero no demasiado como
p
para llegar a la distribución degenerada en que β̂OLS → β, pero en términos
algebraicos son equivalentes como un espejo. [Ver Anexo A.6.4 de Cameron &
Trivedi.]

(d) Errores estándares robustos:

Se escoge M̂xx = N −1 X 0 X y M̂xΩx dependerá del supuesto acerca de la distribución de


los errores. El supuesto habitual en microeconomı́a es heterocedasticidad condicionada,
con V [ui |xi ] = E[u2i |xi ] = σi2 con σi 6= σj ∀i 6= j.

White (1980) propone M̂xΩx = N −1 û2i xi x0i . Con esto la varianza queda como:
P
i

V ˆar[β̂M CO ] = (X 0 X)−1 X 0 Ω̂X(X 0 X)−1


X N −1 X N
X −1
ˆ
V ar[β̂M CO ] = 0
xi xi 2 0
ûi xi xi 0
xi xi
i=1 i i=1

25
con Ω̂ = Diag[û2i ] y ûi = yi − x0i β̂. Esta es la estimación heterocedástica consistente, lo
que implica que los errores estándar son heterocedásticos robustos.

El supuesto habitual de homocedasticidad implica que Ω = σ 2 I por lo tanto X 0 ΩX =


σ 2 X 0 X lo que implica que MxΩx = σ 2 Mxx . Luego, Ṽ [β̂M CO ] = s2 (X 0 X)−1 con s2 =
(N − K)−1 i û2i .
P

[Ajuste para comparabilidad ⇒ multiplicar V ˆar[β̂M CO ] por N


N −K
]

Si no se cumple el supuesto de homocedasticidad se puede sobre o sub estimar la varianza.


Por lo tanto, siempre se deben usar errores estándares heterocedásticos robustos.

2.1.3 Supuestos para Corte Transversal


CLASE
8
Capı́tulo
(1) Los datos (yi , xi ) son independientes y no idénticamente distribuidos sobre i (inid - IV, pág.
76-79
Necesario en muestras no estratificadas).

(2) El modelo está correctamente especificado

yi = x0i β + ui

es decir, es lineal, no hay variables omitidas y no hay error de medida.

(3) El vector de regresores xi es posiblemente estocástico con segundo momento finito.


Esto implica que Mxx = lim N −1 X 0 X existe (usualmente las encuestas tienen regresores
aleatorios).

(4) Los errores tienen media condicionada en los regresores igual a cero:

E[ui |xi ] = 0

esto es exogeneidad débil (fuerte implica no causalidad a la Granger).

26
(5) Los errores son heterocedásticos condicionados en los regresores con:

σi2 = E[u2i |xi ],

Ω = E[uu0 |X] = Diag[σi2 ],

con Ω una matriz de N x N definida positiva.

(6) La matriz MxΩx existe y es positiva definida de rango K.

Notar que no se asume regresores no estocásticos y no se asume normalidad.

El séptimo supuesto serı́a normalidad del error. Eso es necesario para obtener la dis-
tribución exacta en muestras pequeñas. En microeconometrı́a nos concentramos en propiedades
asintóticas.

2.1.4 Derivación del Estimador de MCO


Capı́tulo
IV, pág.
(a) Distribución en muestras pequeñas
79-81
El estimador MCO es insesgado si se cumplen los supuestos (1)-(4):

E[β̂M CO ] = β + Ex,u [(X 0 X)−1 X 0 u]

= β + Ex [Eu|x {(X 0 X)−1 X 0 u|X}]

= β + Ex [(X 0 X)−1 X 0 Eu|x {u|X}]


| {z }
=0
= β

La varianza del estimador viene dada por:

V [β̂M CO ] = Ex [(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ]

= (X 0 X)−1 X 0 ΩX(X 0 X)−1

27
donde Ω = E[uu0 |X].

Entonces, dado que E[u|X] = 0, MCO es insesgado (esto no se extiende a los estimadores
no lineales, e incluso IV).

MCO es eficiente ssi Ω = σ 2 I. De otra forma será ineficiente, es decir, no tiene la menor
varianza posible.

Bajo normalidad condicionada del error, entonces MCO tiene distribución condicionada
en X normal.

(b) Consistencia

Para Obtener consistencia se requiere que

X
plimN −1 X 0 u = plimN −1 xi ui = 0
i

lo que se obtiene si E[xi ui ] = 0, dado que ui es inid.

(c) Distribución Lı́mite

Usando los supuestos y el Teorema Central del Lı́mite se obtiene que:

1 d
N − 2 X 0u →
− N (0, MxΩx )

donde MxΩx = plimN −1 X 0 u0 uX = plimN −1 i u2i xi x0i . Por la ley de los grandes
P

números se cumple que MxΩx = lim N −1 i Exi [σi2 xi x0i ]. Esto implica que MxΩx =
P

lim N −1 i E[X 0 ΩX] con Ω = Diag[σi2 ].


P

28
(d) Errores Estándar Robustos a la Heterocedasticidad

A continuación se muestra los pasos claves para estimar consistentemente MxΩx . Par-
tiendo con la definición original:
X
MxΩx = plimN −1 u2i xi x0i
i

p p
se reemplaza ui por ûi = yi − x0i β̂, donde asintóticamente ûi →
− ui dado que β̂ →
− β. Esto
lleva a la estimación consistente:

N
1 X 2 0
MxΩx = û xi xi = N −1 X 0 Ω̂X
N i=1 i

con Ω̂ = Diag[û2i ]. White (1980) expone supuestos adicionales para potencias mayores.

2.1.5 MCG y MCGF


Capı́tulo
− 21
(Ω · Ω = Ω) de modo que: IV, pág.
1 1
Si Ω es conocida y no singular, se puede premultiplicar por Ω 2 2
81-82

1 1 1
Ω− 2 y = Ω− 2 Xβ + Ω− 2 u

Algo de álgebra lleva a:

1 1 1
V [Ω− 2 u] = E[(Ω− 2 u)(Ω− 2 u)0 |X] = I

Los errores en este modelo transformado tienen media cero, no están correlacionados y
son homocedásticos. Por lo tanto, β puede ser estimado de forma eficiente regresionando
1 1
Ω− 2 y contra Ω− 2 X. Con lo que se obtiene:

β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y

Pero dado que Ω es tı́picamente desconocida se busca estimarla. Si Ω = Ω(γ) y γ̂ puede


ser estimado consistentemente para formar Ω̂ = Ω(γ̂), entonces se puede obtener el estimador

29
de MCGF.

Por ejemplo, si los errores son heterocedásticos se puede modelar la varianza como
V [u|X] = exp(z 0 γ), donde z corresponde a un subconjunto de X y la función exponen-
cial es utilizada para asegurar que la varianza sea positiva.

Con esto se puede obtener el estimador de MCGF.

β̂M CGF = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y

Bajo los supuestos anteriores,

√ d
− N 0, (plimN −1 X 0 Ω−1 X)−1
 
N (β̂M CGF − β) →

2.1.6 Algunos casos de heterocedasticidad: Regresión de Mediana y Cuantiles


CLASE
9
Capı́tulo
MCO se concentra en el promedio, que es sensible a valores extremos (outliers). La estimación IV, pág.
85-88
de mediana es la más robusta a ello. Puede haber heterogeneidad de efecto de los regresores,
luego la regresión de cuantiles ayuda a interpretar resultados.

(a) Cuantiles Poblacionales

Para una variable aleatoria continua el q-ésimo cuantil es el valor µq tal que la probabil-
idad que la variable y sea menor que µq es q:

q = P r[y ≤ µq ] = Fy (µq )
|{z}
c.d.f

⇒ µq = Fy−1 (q)

30
Ejemplo: Si µ0.75 = 3 ⇒ P r[y ≤ 3] = 0.75. Para una normal estándar, µ0.5 = 0, µ0.95 =
1, 645, µ0.975 = 1, 96.

En términos de regresión, se tiene que:

−1
µq (x) = Fy|x (q)

Suponiendo una pgd lineal y heterocedasticidad multiplicativa:

y = x0 β + u

u = x0 α · 

 ∼ iid[0, σ 2 ]

asumiendo x0 α > 0. Entonces el q-ésimo cuantil poblacional de y condicionado en x es


la función µq (x, β, α) tal que:

q = P r[y ≤ µq (x, β, α)]

= P r[u ≤ µq (x, β, α) − x0 β]

= P r[ ≤ {µq (x, β, α) − x0 β}/x0 α]

= F [{µq (x, β, α) − x0 β}/x0 α]

con u = y − x0 β y  = u/x0 α, y F cdf de .

Aplicando F−1 (·) se obtiene:

µq (x, β, α) = x0 β + x0 α · F−1 (q)

= x0 (β + α · F−1 (q))

31
Se aprecia que el cuantil es lineal en x en este caso. Otras formas de heterocedasticidad
pueden llevar a cuantiles no lineales.

(b) Cuantiles Muestrales

Se puede demostrar que µ̂q puede ser expresado como la solución al problema de opti-
mización minimizando con respecto a β:

N
X N
X
q · |yi − β| + (1 − q) · |yi − β|
i:yi ≥β i:yi <β
P
El resultado no es obvio, pero si q=0.5 ⇒ µ0.5 = min i |yi − β|, lo que resulta más
β
intuitivo.

Expandiendo a la regresión lineal:

N
X N
X
QN (βq ) = q · |yi − x0i βq | + (1 − q) · |yi − x0i βq |
i:yi ≥x0i β i:yi <x0i β

Esta es la función asimétrica de pérdida absoluta. [Notar que se usa sub-ı́ndice q para
β, para explicitar que β puede ser distinto para cada cuantil].

No se puede obtener optimización vı́a gradiente, ya que la función no es derivable. Pero


por métodos de programación lineal se obtiene solución rápida para β̂q .

Se puede demostrar que:

√ d
− N [0, A−1 BA−1 ]
N (β̂q − β) →

con

32
1 X
A = plim fuq (0|xi )xi x0i
N i
1 X
B = plim q(1 − q)xi x0i
N i

donde fuq (0|xi ) es la función de densidad condicionada del término de error µq = y −x0 βq
evaluada en µq = 0.

La varianza es difı́cil de obtener, de modo que tı́picamente se obtienen errores estándar


para β̂q vı́a “bootstrap” [en STATA los comandos son qreg, iqreg (interquartile), bsqreg
(con bootstrap std errors)].
LINEAR MODELS

Regression Lines as Quantile Varies


Log Household Total Expenditure

15

Actual Data
90th percentile
Median
10th percentile
10
5
0

6 8 10 12

Log Household Medical Expenditure


Figure 4.2: Quantile regression estimated lines for q = 0.1, q = 0.5 and q = 0.9 from re-
gression of natural logarithm of medical expenditure on natural logarithm of total expenditure.
Data for 5006 Vietnamese households with positive medical expenditures in 1997.

in estimated slopes as q increases as evident in Figure 4.1. Koenker and Bassett (1982)
[OLS nodeveloped quantile
se presenta porregression as a means
ser similar to test for heteroskedastic
a la mediana.] La discrepanciaerrors whenlas
entre thependientes
dgp is the linear model. For such a case a fanning out of the quantile regression lines
is interpreted
a diferentes as evidence
cuantiles of heteroskedasticity.
es evidencia Another interpretation is that the con-
de heterocedasticidad.
ditional mean is nonlinear in x with increasing slope and this leads to quantile slope
coefficients that increase with quantile q.
More detailed illustrations of quantile regression are given in Buchinsky (1994) and
La regresión
Koenkerde andcuantiles es más o menos equivalente a estimar por separado, pero en
Hallock (2001).
un problema multidimensional.

4.7. Model Misspecification

The term “model misspecification” in its broadest


33 sense means that one or more of the
assumptions made on the data generating process are incorrect. Misspecifications may
occur individually or in combination, but analysis is simpler if only the consequences
of a single misspecification are considered.
2.2 Especificación del Modelo
CLASE
10
Capı́tulo
Puede haber dudas sobre alguno de los supuestos del proceso generador de datos. Esto puede IV, pág.
90-93
llevar a que la especificación del modelo sea errónea, lo que a su vez implica que se puede
generar problemas de inconsistencia y de identificación de parámetros de interés.

Para demostrar consistencia, requerı́amos de dos supuestos:

(a) El dgp sea lineal y = xβ + u

(b) El dgp implica que plimN −1 X 0 u = 0.

Entonces:

β̂M CO = β + (N −1 X 0 X)−1 N −1 X 0 u
p
β̂M CO →
− β

Luego, si el modelo verdadero (dgp) no es lineal, o si hay correlación de los regresores


con el error, se tendrá inconsistencia.

Dado que el modelo lineal es una aproximación de la forma funcional en Rk , ocurre que
incluso si los regresores están bien escogidos, se puede tener que la media condicional esté
incorrectamente especificada.

Ejemplo de inconsistencia:

Si el dgp no es lineal: y = g(x) + ν con E[ν|X] = 0, el modelo lineal y = X 0 β + u será


erróneo. La verdadera relación es: E[yi |xi ] = g(xi ).

White (1980) demostró que MCO converge a un valor de β que minimiza el error
cuadrático de predicción:

2
Ex [ g(x) − X 0 β ]

34
Por lo tanto, MCO es ‘la mejor estimación lineal del modelo no lineal’ (pero esto NO es
muy útil - solo un poco útil a nivel agregado en promedios).

Por otro lado, si hay endogeneidad hay que buscar corregirla. Alternativas:

(a) Variables Instrumentales

(b) Control por variables de confusión

(c) Dif en Dif con datos de panel

(d) Cortes transversales Repetidos

(e) Efectos fijos en panel (si la endogeneidad proviene de factores constantes en el tiempo)

(f) Regresión Discontinua

La otra fuente de inconsistencia es la omisión de variables relevantes.

Supóngase que el verdadero proceso generador de datos es:

y = X 0 β + Zα + ν

donde Z es un regresor escalar (por simplicidad 1 sola variable) y ν es un término de


error no correlacionado con Z y X. Si se estima usando X y Z se obtiene una estimación
consistente de β y α. Por el contrario, si se omite Z se tendrá:

y = X 0 β + Zα
| {z+ ν}
nuevo error

ν no está correlacionado con X, pero si Z está correlacionado con X, entonces el nuevo


error estará correlacionado con X y β̂M CO será inconsistente.

El verdadero dgp en forma matricial:

y = X 0 β + Zα + ν

35
sustituido en β̂M CO = (X 0 X)−1 X 0 y genera:

β̂M CO = β + (N −1 X 0 X)−1 (N −1 X 0 Z) α + (N −1 X 0 X)−1 (N −1 X 0 ν)


| {z }
δ

Si X no está correlacionado con ν ⇒ plim(N −1 X 0 X)−1 (N −1 X 0 ν) = 0, luego plim(N −1 X 0 X)−1 (N −1 X 0 Z)


plim(δα) será el sesgo de variable omitida. Si este término es distinto de cero habrá incon-
sistencia. Es decir, si X está correlacionado con Z habrá inconsistencia. Puede ser positiva
o negativa (puede alterar el signo del estimador MCO).

Ejemplo: Habilidad y Educación, se espera que tengan correlación positiva. Se espera


que δ > 0 y que α > 0. ⇒ sesgo positivo (sobre estimación del parámetro).

Hay que notar que en el caso de variables omitidas MCO no estima β, sino que confunde
y estima una función de β, δ y α. Por lo tanto, el efecto causal NO está bien identificado.

Por otro lado, se podrı́a tener una inclusión de variables irrelevantes. Por ejemplo, el
verdadero dgp es y = X 0 β+ν, pero se estima y = X 0 β+Zα+ν. Se puede demostrar que MCO
es consistente pero se pierde eficiencia. ⇒ Tarea: Demostrar que MCO es consistente con variables irreleva

En resumen, omitir variables puede ser muy dañino, y agregar demasiados regresores hace
poco daño. Por lo tanto, en microeconometrı́a, si hay disponibilidad de muchas variables,
en general es mejor incluirlas todas!

2.2.1 Heterogeneidad de los parámetros


Capı́tulo
Hasta acá se asumió que los regresores y los errores podı́an variar por individuo, pero que IV, pág.
94
β es el mismo entre ellos. Supóngase yi = xi βi + ui (Random Parameter model). Se asume
que βi es iid sobre i, pero que no depende de xi . Si β = E[βi ], entonces podemos reescribir
el modelo como:

yi = x0i β + [ui + x0i (βi − β)]


| {z }
No correlacionado con xi

Entonces, se puede estimar consistentemente β regresionando y en x. Aunque ui sea


homocedástico, se tendrá un error heterocedástico.

36
4.8. INSTRUMENTAL VARIABLES

this example, but not in all such examples, alternative consistent estimators for a subset
Ejemploofde esto es la estimación con datos de panel con efectos aleatorios, donde el in-
the regression parameters are available.
tercepto varı́a entre individuos y la pendiente es común. (Ojo: Esto no es válido en modelos
no lineales). 4.8. Instrumental Variables

A major complication that is emphasized in microeconometrics is the possibility of


inconsistent parameter estimation caused by endogenous regressors. Then regression
estimates measure
2.3 Variables only the magnitude of association, rather than the magnitude and
Instrumentales
direction of causation, both of which are needed for policy analysis. CLASE
The instrumental variables estimator provides a way to nonetheless obtain consis- 11
tent parameter estimates. This method, widely used in econometrics and rarely used Capı́tulo
elsewhere, is conceptually difficult and easily misused.
Si hay endogeneidad
We providela aestimación es inconsistente.
lengthy expository La regresión
treatment that defines solo medirá
an instrumental magnitud de IV, pág.
variablelaand
95-98
explains how the instrumental variables method works in a simple setting.
la asociación, pero no la magnitud y dirección de la causalidad (la cual que se requiere para
el análisis económico más profundo y deInconsistency
4.8.1. polı́tica). of OLS

Consider the scalar regression model with dependent variable y and single regressor x.
The goal of regression analysis is to estimate the conditional mean function E[y|x]. A
Se busca estimar la función de valor esperado condicional (por conveniencia sin intercepto,
linear conditional mean model, without intercept for notational convenience, specifies
en desvı́os con respecto a la media): E[y|x] = βx. (4.42)
This model without intercept subsumes the model with intercept if dependent and
regressor variables are deviations from their respective means. Interest lies in obtaining
a consistent estimate of β as this E[y|x]
gives the =change
βx in the conditional mean given an
exogenous change in x. For example, interest may lie in the effect in earnings caused
by an increase in schooling attributed to exogenous reasons, such as an increase in the
minimumde
La estimación ageMCO
at which students leave school, that are not a choice of the individual.
será:
The OLS regression model specifies
y = βx + u, (4.43)

where u is an error term. Regression


y of=y on u OLS estimate !
yields
βxx + β of β.
Standard regression results make the assumption that the regressors are uncorrelated
with the errors in the model (4.43). Then the only effect of x on y is a direct effect via
y β̂M COthe
será
termconsistente
βx. We havebajo los supuestos
the following habituales,
path analysis diagram:luego:
x −→ y
#
u
where there is no association between L I N E AxR and
MOD u.E So
L S x and u are independent causes
of y.
such as ability.
However, in Suppose a person there
some situations has a may
high be
level ofassociation
anel u, as a result of highregressors
between (unobserved)and
x y u afectan
ability.
porincreases
This
canales independientes.
earnings, since y =
En+ u,
ejemplo
but it may
de
also
escolaridad,
lead to higher
silev-
la habilidad
errors. For example, consider regression of log-earnings (y) on years of schooling (x).
βx
els
Theoferror
está en el término x, since
term
de schooling
y x esis años
u embodies
error likely
all to be
factors
de higher
other thanfor
escolaridad those
e y eswith
schooling thathigh ability.
determine
salario, A more
earnings,
entonces:
appropriate path diagram is then the following:
95
x −→ y
↑ $
u
where now there is an association between x and u.
What are the consequences of this correlation between x and u? Now higher levels
of x have two effects on y. From (4.43) there is both a direct effect via βx and an
37
indirect effect via u affecting x, which in turn affects y. The goal of regression is
to estimate only the first effect, yielding an estimate of β. The OLS estimate will
instead combine these two effects, giving ! β > β in this example where both effects
to estimate only the first effect, yielding an estimate of β. The OLS estimate will
instead combine these two effects, giving ! β > β in this example where both effects
are positive. Using calculus, we have y = βx + u(x) with total derivative
dy du
=β+ . (4.44)
dx dx
The data give information on dy/d x, so OLS estimates the total effect β + du/d x
rather than β alone. The OLS estimator is therefore biased and inconsistent for β,
⇒ u(x)between
unless there is no association → elxerror
and u.es función de x.
A more formal treatment of the linear regression model with K regressors leads to
the same
Si habilidad conclusion.
está From Section
en el término 4.7.1 asenecessary
de error, tendrá condition
una sobrefor estimación
consistency ofde
OLS
β porque:
is that plim N −1 X% u = 0. Consistency requires that the regressors are asymptotically
uncorrelated with the errors. From (4.37) the magnitude of the inconsistency of OLS
" #−1 %
is X% X X u, the OLS coefficient from regression of u on x. This is just the OLS
dy d(xβ + u(x)) du(x)
estimate of du/dx, confirming
= the intuitive =result
β +in (4.44).
dx dx | dx
{z }
4.8.2. Instrumental Variable
Sesgo e Inconsistencia

The inconsistency
Anteriormente dijimosofque
OLSseisrequerı́a
due to endogeneity of x, meaning
que los regresores that changes
fueran in x are
asintóticamente no cor-
associated not only with changes in y but also changes in the error u. What is needed
−1 0
relacionados
is acon el término
method deonly
to generate error (plimNvariation
exogenous Xu= 0).AnLa
in x. magnitud
obvious way isde la inconsistencia
through a
randomized experiment, but for most economics applications such experiments are too
de MCO será (X 0 X)−1 X 0 u, que es el coeficiente de la regresión de u en x.
expensive or even infeasible.

(a) Definición de Instrumento Definition of an Instrument


A crude experimental or treatment approach is still possible using observational data,
Se diceprovided
que z there
es unexists
“instrumento” si tiene la propiedad que cambios en z se asocian a
an instrument z that has the property that changes in z are asso-
ciated
cambios withpero
en x, changes in xybut
no en do not lead to change in y (aside from the indirect route
(directamente).
via x). This leads to the following path diagram:
z −→ x −→ y
↑ $
u

96
donde z está asociado causalmente con x, pero no con u.

Más formalmente, z se llama “instrumento” para el regresor x en el modelo de regresión


escalar y = βx + u si:

(1) z no está correlacionado con el error u

(2) z está correlacionado con el regresor x

Notar que (1) implica que z no es regresor de y, porque si ası́ lo fuese y se regresiona
y en x solamente, z estarı́a absorbido en el término de error y por lo tanto estarı́an
correlacionados (generando un sesgo).

El segundo supuesto requiere que exista alguna relación entre z y x. Ejemplos:

38
(i) Demanda de Mercado

q = f (p) + u

q= cantidad, p=precio. Pero p = g(q)... los precios se determinan en el mercado.


Un instrumento podrı́a ser una variable que afecte la oferta (y por lo tanto el pre-
cio), pero no la demanda (Ej: Clima y la cosecha).

(ii) Estimación de retorno a la educación

La habilidad es tı́picamente omitida (comúnmente no hay medidas buenas) y se


correlaciona con educación. Se requiere un instrumento z que esté correlacionado
con educación, pero no con salarios (ni con el término de error).

Card(1995) utilizó la distancia a un College (o Universidad) como instrumento para


los años de escolaridad terciaria. La distancia cumple con el supuesto (2), porque
si viven más lejos es menos probable que asistan al College. También cumplirı́a con
el supuesto (1), pero se puede argumentar que no lo cumple porque los que viven
más lejos tendrı́an trabajos de menor salario (y no podrı́an pagar el College).

Para la educación secundaria, el instrumento del mes de nacimiento de Angrist y


Krueger (1991) cumple con (1) y (2), dado que la ley obliga a asistir al colegio
hasta los 16 años, pero es débil (Bond, Jaeger y Baker, 1995, ası́ lo demuestran).

2.3.1 El estimador de VI
Capı́tulo
IV, pág.
Para una regresión escalar, se tendrá que:
98-99
β̂V I = (z 0 x)−1 zy

con z, x, y son de Nx1.

39
Si z cumple con (1) y (2), se obtiene una estimación consistente de β en y = βx + u. En
el caso del retorno a la educación, supóngase que un aumento de 1 unidad en z se asocia a
0.2 años más de educación y con $500 más de ingresos (salario por hora por ejemplo). Este
aumento en y es indirecto y es producto del aumento en educación, por lo que un aumento
de 0.2 en educación implica in aumento de $500 en y. Por lo tanto, un aumento de 1 año
$500
de educación implicará 0.2
= $2500 de aumento en y. El efecto causal de β es $2500. En
dx dy
términos matemáticos, estimamos dz
y dz
para obtener:

dy
dz
β̂V I = dx
dz

dy
La manera obvia de obtener dz
es por MCO de y en z para obtener la pendiente (z 0 z)−1 z 0 y.
Del mismo modo, regresionando x en z se obtiene (z 0 z)−1 z 0 x. De modo que:

(z 0 z)−1 z 0 y
β̂V I = 0 −1 0
= (z 0 x)−1 z 0 y
(z z) z x

Un caso particular del estimador IV corresponde al Estimador de Wald (o de grupos).


Asumiendo z un “instrumento binario”, y denotando los promedios de las submuestras x e
y como x1 y y 1 cuando z=1 y x0 , y 0 cuando Z=0. Entonces:

∆y
= (y 1 − y 0 )
∆z
∆x
= (x1 − x0 )
∆z

Luego:

y1 − y0
β̂V I =
x1 − x0

40
En el caso del retorno a la educación, se asume que se puede distinguir 2 grupos, donde
la pertenencia a cada grupo no determina directamente salarios, pero sı́ años de educación.
Ejemplo: cercanı́a, viven lejos-cerca.

En términos de correlaciones (o covarianzas),

Cov(z, y)
β̂V I =
Cov(z, x)

rzy x0 y
ó β̂V I = √
rzx x0 x
x0 y
con rxy = √ la correlación muestral entre x e y.
(X 0 X)(y 0 y)

2.3.2 El estimador de VI para regresión múltiple


Capı́tulo
Sea y = X 0 β + u con Xk×1 . Sea Zr×1 un vector de instrumentos, con r ≥ k, esto es, más IV, pág.
99-101
instrumentos que variables a instrumentalizar. Asumimos:

(1) Z no está correlacionado con u

(2) Z está correlacionado con el vector X

(3) Z está fuertemente correlacionado, en vez de débilmente correlacionado, con X.

(1) y (2) son necesarias para que el estimador IV sea consistente. (3) es necesario para
obtener buen desempeño del estimador en muestras finitas (eficiencia).

Z y X pueden compartir elementos. Algunos componentes de X, regresores exógenos,


pueden no estar correlacionados con u, y por ello podrı́an ser buenos instrumentos si satis-
facen (1) y (2).

Particionamos X = [X10 , X20 ]0 , donde X1 contiene a los regresores endógenos y X2 a los


exógenos. Entonces, un instrumento válido será Z = [Z10 , X20 ]0 , donde X2 puede ser instru-
mento de si mismo, pero se requiere Z1 para X1 .

41
(a) Identificación:

La “condición de orden” para identificar implica que se requieren al menos la misma


cantidad de instrumentos como de regresores endógenos, de modo que r ≥ k. El modelo
es exactamente identificado si r = k y sobre identificado si r > k.

Si el instrumento falla en (1), se dice que es inválido.


Si el instrumento falla en (2), se dice que es irrelevante.
Si el instrumento falla en (3), se dice que el instrumento es débil.

El modelo puede estar no identificado si hay muy pocos instrumentos relevantes.

(b) El estimador IV:

Cuando r = k se tiene la generalización obvia del caso univariado:

β̂V I = (Z 0 X)−1 Z 0 y

con ZN ×K , que contiene vectores Zi0 . Luego, si reemplazamos el modelo poblacional en


el estimador se obtiene:

β̂V I = (Z 0 X)−1 Z 0 [Xβ + u]

β̂V I = β + (Z 0 X)−1 Z 0 u

β̂V I = β + (N −1 Z 0 X)−1 N −1 Z 0 u

Luego, el estimador de VI es consistente si:

plimN −1 Z 0 u = 0 ⇒ condición (1)

plimN −1 Z 0 X 6= 0 ⇒ condición (2)

42
Se requiere que la inversa de N −1 Z 0 X exista, para lo cual se asume que Z 0 X es de rango
completo k (supuesto más fuerte que r=k).

Con errores heterocedásticos, el estimador de VI es asintóticamente normal con media


β, matriz de varianzas estimada consistentemente por:

V̂ [β̂V I ] = (Z 0 X)−1 Z 0 Ω̂Z(X 0 Z)−1

donde Ω̂ = Diag[û2i ].

El estimador de VI, aunque consistente, lleva a una pérdida de eficiencia que puede ser
grande en la práctica. Intuitivamente, VI no funcionará bien si la correlación entre Z y
X es baja.

2.3.3 MCO en 2 etapas


Capı́tulo
Si se tiene un modelo sobre identificado y se deja de lado ciertos instrumentos, se tendrá IV, pág.
101-103
pérdida en eficiencia. Ası́, se prefiere usar MC2E:

β̂M C2E = [X 0 Z(Z 0 Z)−1 Z 0 X]−1 [X 0 Z(Z 0 Z)−1 Z 0 Y ]

El estimador de MC2E es un estimador de VI. Si r = k es equivalente al caso anterior.

En un modelo sobre identificado, el estimador MC2E es igual al anterior si los instru-


mentos son X̂ = Z(Z 0 Z)−1 Z 0 X que es la predicción de regresionar X en Z. Esto es:

• 1a Etapa: Regresionar X en Z para obtener X̂.

• 2a Etapa: Regresionar y en X̂ para obtener β̂M C2E .

Ejemplo:

43
y = 0 + 0.5X + u

X = 0+Z +v

Z ∼ N (2, 1)

u, v ∼ Normal conjunta (0,1, corr=0.8)

Dado que Z no está correlacionado con v, ello implica que Z es un instrumento para X.
Transformaciones de Z, como Z 3 , también son instrumentos válidos.
⇒ TAREA: Mostrar que Z 3 en el ejemplo también funciona como instrumento recogiendo
el mismo parámetro β = 0.5 original.

2.3.4 VI en la práctica
Capı́tulo
Los problemas de eficiencia se ven amplificados con instrumentos débiles. IV, pág.
103-105

(a) Instrumentos débiles: Distintas definiciones

• Regresor escalar x e instrumento escalar z ⇒ un instrumento débil es aquel en que


2
rx,z es pequeño.

• Regresor escalar x y vector de instrumentos Z ⇒ los instrumentos son débiles si el


R2 de la regresión de x en Z, Rx,Z
2
, es pequeño o si el estadı́stico F de significancia
conjunta es pequeño.

• Múltiples regresores X y solo uno endógeno ⇒ un instrumento es débil si el R2


parcial es bajo o si el estadı́stico F parcial es bajo.

• Múltiples regresores X con muchos endógenos: Hay muchas medidas...

44
Por lo tanto se necesita ver las definiciones de R2 y de estadı́stico F que se utilizan para
ver si un instrumento es débil.

(b) Medidas de R2

Considerando y = β1 x1 + X20 β2 + u

con x1 regresor escalar endógeno, X2 vector exógeno y z1 instrumento escalar.

Una medida posible es el R2 de la regresión de x1 en Z = (z1 , X2 ), pero esto reflejarı́a


también la correlación entre x1 y X2 , que no es lo que se busca.

Bond, Jaeger y Baker (1995) sugieren utilizar el R2 parcial (Rp2 ), que se obtiene de
regresionar x1 − x̃1 = (Z − Z̃)0 γ + ν donde x̃1 y Z̃ son valores ajustados (predichos) de
regresionar x1 en X2 y Z en X2 .

2
Notar que si hay solo 1 regresor, y éste es endógeno, la expresión se reduce a rxZ , y se
reduce a Corr(x, z) si hay solo un instrumento.

Con más de una variable endógena el análisis es menos directo. Se han propuesto una
serie de medidas.

(c) Medidas de F − stat parcial

Test F de significancia conjunta (todos los coeficientes son iguales a cero). Se utiliza el
test F de la regresión:

X = Z10 π1 + X20 π2 + ν

donde Z1 es un vector de instrumentos y X2 son los regresores exógenos. Notar que esta
es la primera etapa en la interpretación de MC2E de VI.

45
Staiger y Stock (1997) sugieren que un valor menor de 10 es problemático y que menor
que 5 es señal de sesgo en muestras pequeñas.

Por otro lado, si los instrumentos son débiles, una pequeña endogeneidad del instrumento
podrı́a llevar a que VI sea incluso más inconsistente que MCO (Bond, Jaeger y Baker,
1995).

Si un instrumento z se relaciona con cambios exógenos en x (es un instrumento), pero


lo hace con mucho ruido, entonces se tendrá menor precisión en la estimación. Esto se
incrementa con instrumentos débiles.

Ejemplo: Caso simple de un regresor endógeno y un instrumento con errores iid. La


varianza asintótica de VI será:

V [β̂V I ] = σ 2 (X 0 Z)−1 Z 0 Z(Z 0 X)−1


σ2Z 0Z
=
(Z 0 X)2
σ2
X0X
= (Z 0 X)2
(Z 0 Z)(X 0 X)

V [β̂M CO ]
= 2
rXZ

2
Entonces con una baja correlación muestral (0,31), se tendrá que rXZ ' 0, 1 ⇒ los
errores estándar se amplifican por 10.

¿Qué hacer entonces con instrumentos débiles?

(i) Limitar el número de instrumentos (botar algunos o cambiarlos)

(ii) Alternativas tipo GMM

(iii) Menos problemático en muestras grandes

Stock y Yogo (2005) entregan tablas de “reglas de oro” para instrumentos débiles.

46
3 Estimación por Máxima Verosimilitud y MC no lin-
eales (Clases 6,7)
CLASE
12
Capı́tulo
• Puede haber muchos casos en que la media condicional no sea lineal en los parámetros. V, pág.
116-117.
• La censura y truncamiento son dos tı́picos problemas de no linealidades.

• Tı́picamente se considera resultados asintóticos, centrados en consistencia y normalidad


asintótica.

• En modelos no lineales tı́picamente no se puede demostrar con fórmulas como en mod-


elos lineales.

• Uno de los desafı́os centrales es la interpretación de los resultados de la regresión.

3.1 Estimadores No Lineales


3.1.1 Ejemplo de la Regresión Poisson
Capı́tulo
Poisson es apropiada para valores de y que solo pueden ser no negativos enteros: 0,1,2,3,4... V, pág.
117-118
Tı́picamente en números de ocurrencias de un evento: visitas al doctor, postulaciones a un
crédito, etc.

La función de densidad de la Poisson es:

λy
f (y|λ) = e−λ · con y=0,1,2,...
y!
E[y] = λ

V [y] = λ

En un modelo de regresión, se especifica que el parámetro λ varı́e entre individuos de


acuerdo a una función especı́fica de los regresores X y el vector de parámetros β. Tı́picamente
se especifica como [Hacer la comparación con modelo lineal]:

47
λ = exp(X 0 β)

con lo cual se asegura que λ > 0.

De este modo, la función de densidad del modelo de regresión Poisson con una sola
observación será:

0 [exp(X 0 β)]y
f (y|X, β) = e−exp(X β) ·
y!
Entonces, el estimador de máxima verosimilitud basado en la muestra (yi , xi ) con i =
1, ...., N., maximiza el logaritmo de la función de verosimilitud.

La función de verosimilitud es la función de densidad conjunta, que dado que son obser-
vaciones independientes, será la pitatoria de las funciones de densidad individuales, condi-
cionales en los regresores. Finalmente, al tomar el logaritmo de la expresion se obtiene la
expresion de sumatoria como sigue:

Y
f (yi |xi , β)
i
X
⇒ ln(Π . . . ) = ln[f (yi |xi , β)]
i

Para el caso de la distribución Poisson, se tendrá para la observación i-ésima:

ln[f (yi |xi , β)] = −exp(x0i β) + yi x0i β − ln(yi !)

Con lo que el estimador de MV de la Poisson, β̂, maximiza la función:

N  
1 X 0 0
QN (β) = − exp(xi β) + yi xi β − ln(yi !)
N i=1
1
donde se agrega el factor de escala N
para que QN (β) se mantenga finito cuando N → ∞.
El estimador de MV de la Poisson es aquel que soluciona las condiciones de primer orden:

48

∂QN (β)
= 0
∂β β̂
N
1 X 0

⇔ [yi − exp(xi β)]xi = 0
N i=1 β̂

No hay solución explı́cita para β̂ en esta ecuación, de modo que se debe obtener una
solución a través de métodos numéricos.

• Existen distintos algoritmos de maximización numérica disponibles:

– Newton-Raphson (Stata Default)

– Berndt-Hall-Hall-Hausman

– Davidon-Fletcher-Powell

– Broyden-Fletcher-Goldforb-Shanno

• Se requiere fijar un conjunto de Parámetros:

– Iteraciones máximas

– Tolerancia

– Valores Iniciales

3.1.2 Generalización de estimadores no lineales de MV


Capı́tulo
V, pág.
Un “m-estimator” (maximum-likelihood) θ̂ del vector de parámetros θ de q × 1 es aquel que
118-119
maximiza la función objetivo que corresponde a la suma o promedio de subfunciones:

N
1 X
QN (θ) = q(yi , xi , θ)
N i=1

q(·) es un función escalar, yi es la variable dependiente (podrı́a ser un vector, lo que


permite incluir modelos multivariados de sistemas de ecuaciones y datos de panel). En
nuestro ejemplo de distribución Poisson (en que θ = β), se tiene que q(y, x, θ) = −exp(X 0 β)+
yX 0 β − ln(yi !).

49
Generalizando, θ̂ es la solución asociada a las CPO:

N
∂QN (θ) 1 X ∂q(yi , xi , θ)
=0 ⇐⇒ =0
∂θ θ̂ N i=1 ∂θ θ̂

que corresponde a un sistema de q ecuaciones con q incógnitas, que en modelos no lineales


tı́picamente no tiene solución analı́tica (puede tener solución numérica).

3.1.3 Propiedades asintóticas de MV


Capı́tulo
(a) Consistencia: V, pág.
119-122
Se asume que existe el “valor verdadero” de θ llamado θ0 , que genera los datos. θ̂ nunca
p
será idéntico a θ0 , incluso en muestras grandes. Lo que se requiere es que θ̂ →
− θ0 .

(b) Distribución Lı́mite Normal:


Dada la consistencia, cuando N → ∞, θ̂ tiene toda su masa en θ0 . Al igual que en MCO,

se reescala por N para no tener una función que se degenere cuando N → ∞.


Lo que interesa es el comportamiento de N (θ̂ − θ0 ). Para la mayorı́a de los problemas
microeconómicos, este estimador converge en distribución a una normal multivariada.
Se puede demostrar que (Tarea: Demostrarlo - se obtiene por expansión de Taylor), el
estimador MV se puede escribir como:

N −1 N
√ 1 X ∂qi2 (θ)

1 X ∂qi (θ)
N (θ̂ − θ0 ) = − ·√
N i=1 ∂θ∂θ0 θ+ N i=1 ∂θ θ0
| {z } | {z }
(a) (b)

Con θ+ algún valor entre θ̂ y θ0 , y asumiendo que las segundas derivadas existen.

Entonces, se puede demostrar que esto lleva a la siguiente distribución lı́mite del esti-
mador de MV.

√ d
− N [0, A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 ]

50
donde A−1
0 corresponde al lı́mite en probabilidad de (a). Se asume que (b) converge a

una distribución N (0, B0 ). Esto implica que:


a
θ̂ ∼ N [θ0 , V (θ̂)]

V (θ̂) = N −1 A−1 −1
0 B0 A0 = Varianza Asintótica

y la varianza asintótica estimada será:

V̂ (θ̂) = N −1 Â−1 B̂ Â−1

donde  y B̂ son estimadores consistentes de A0 y B0 .

(c) Ejemplo:
Volviendo al ejemplo de la distribución Poisson, tenı́amos que
∂q(β)
= y − exp(X 0 β0 )X
∂β

Dado que:
∂ 2 q(β)
= −exp(X 0 β0 )X 0 X
∂β∂β 0

Se obtiene que:
N
1 X ∂qi2 (θ)

1 X
A0 = plim = −plim exp(x0i β)xi x0i
N i=1 ∂θ∂θ0 θ0 N i
N
1 X ∂qi ∂qi 1 X
B0 = plim · 0 = plim V [yi |xi ]xi x0i
N i=1 ∂θ ∂θ θ0 N i

Entonces:
a
β̂ ∼ N [θ0 , N −1 Â−1 B̂ Â−1 ]
1 X
 = exp(x0i β̂)xi x0i
N i
1 X
B̂ = [yi − exp(x0i β̂)]2 xi x0i
N i

Notar que el cálculo de las expresiones anteriores  y B̂ es trivial.

51
3.2 Interpretación de coeficientes en Regresiones no lineales
3.2.1 Efectos Marginales
Capı́tulo
Además de testear la significancia (para lo cual ya se estimó la varianza), tı́picamente interesa V, pág.
122-123
la predicción, para lo cual se requiere conocer los “Efectos Marginales”.

El efecto marginal es el cambio en la media condicional de y cuando los regresores x se


∂E[y|X]
cambian en una unidad. En el caso lineal, E[y|X] = X 0 β ⇒ ∂X
= β, por lo que el
coeficiente tiene la interpretación de efecto marginal directamente.

∂E[y|X] ∂exp(X 0 β)
En el caso no lineal, por ejemplo de la Poisson, se tendrá ∂X
= ∂X
= exp(X 0 β)β,
que es un función tanto de los parámetros como de los regresores.

En el caso general, se tiene:

E[y|X] = g(X, β)

Tı́picamente se presentan diversas estimaciones de los efectos marginales:

(i) Efecto marginal ‘promedio para todos los individuos’:


N
−1
X ∂E[yi |xi ]
N
i=1
∂xi

(ii) Efecto marginal del ‘individuo promedio’ (X) [Notar que el individuo promedio podrı́a
ser un individuo inexistente]:

∂E[y|X]
∂X X

donde X corresponde a las caracterı́sticas del individuo promedio.

(iii) Efecto marginal de un ‘individuo representativo’ con X = X ∗ [Notar que se podrı́a


evaluar para un inviduo que no existe]:

∂E[y|X]
∂X X ∗
donde X ∗ corresponde a las caracterı́sticas del individuo representativo.

52
Notar que en el modelo lineal estos efectos marginales todos iguales. Sin embargo, en
modelos no lineales incluso podrı́a cambiar el signo (con respecto al efecto marginal del
modelo lineal).

3.2.2 Modelos de Índice Simple


Capı́tulo
V, pág.
E[y|X] = g( X 0β ) 123
|{z}
ı́ndice simple

Ejemplo: Probit, Logit, Tobit. El efecto marginal se obtiene por cálculo diferencial:

∂E[y|X]
= g 0 (X 0 β) · βj
∂xj

[Notar que esto solo ocurre en modelos de ı́ndice simple; en otros puede ser más complejo].
El “efecto relativo” de los regresores será:

∂E[y|X]
∂xj βj
∂E[y|X]
=
βk
∂xk

Entonces, si βj = 2βk ⇒ el efecto relativo será 2. Es decir, el efecto relativo será


constante.

Notar que, si g(·) es una función monotónica, entonces el signo de los coeficientes indica
también el signo del efecto marginal.
Cabe señalar, que este método se utiliza para regresores continuos.

3.2.3 Método de Diferencia Finita


Capı́tulo
V, pág.
Compara 2 medias condicionales a distintos valores de xj :
123-124

∆E[y|X]
= g(X + ej , β) − g(X, β)
∆x
|{z}j
∆ en 1 unidad

53
ej es un vector con j-ésimo elemento = 1 y todo el resto igual a cero. Este método se
utiliza para regresores que toman valores enteros (incluye a variables dummies). Notar que
en el modelo lineal ambos efectos son idénticos.

Ejemplo de Efectos Marginales: Capı́tulo


V, pág.
Consideremos la interpretación de una función de media condicional: E[y|X] = exp(X 0 β).
124
Por el método de cálculo diferencial se obtiene la semi-elasticidad:

∂E[y|X]
= exp(X 0 β) · βj = E[y|X] · βj
∂xj
∂E[y|X]
E[y|X]
⇐⇒ = βj → Semi-Elasticidad
∂xj

Entonces, si βj = 0.2, un cambio de 1 unidad de xj generará un aumento de 20% en


E[y|X].

Utilizando el método de diferencia finita, se obtiene:

∆E[y|X]
= exp(X 0 β + βj ) − exp(X 0 β)
∆xj
= exp(X 0 β) · exp(βj ) − exp(X 0 β)

= exp(X 0 β) · (exp(βj ) − 1)

Entonces si βj = 0.2; la semi-elasticidad será:

∆E[y|X]
exp(X 0 β)
= exp(βj ) − 1
∆xj
= exp(0, 2) − 1

= 1, 2214 − 1

= 22, 14%

54
Por lo tanto, si bien los resultados son parecidos en este ejemplo, no son iguales, y la
diferencia depende de la especificación del modelo.

3.3 Inferencia estadı́stica: Restricciones lineales a través del test


de Wald
CLASE
13
Capı́tulo
Suponga el testeo de h restricciones linealmente independientes: V, pág.
135-136
H0 : Rθ0 − r = 0

Ha : Rθa − r 6= 0

con Rh×q matriz de constantes, rh×1 vector de constantes.

Por ejemplo: si θ = [θ1 , θ2 , θ3 ] y se quiere testear θ10 − θ20 = 2 ⇒ R = [1, −1, 0] y r = −2.

El test de Wald rechaza H0 si Rθ̂ − r es significativamente distinto de cero. Por lo tanto,


se requiere conocer la distribución de Rθ̂ − r.

√ d a
Suponga que − N [0, C0 ] con C0 = A−1
N (θ̂ − θ0 ) → −1
0 B0 A0 , entonces θ̂ ∼ N [θ0 , N
−1
C0 ].
Por lo tanto, si H0 es cierta, se tendrá que:

a
Rθ̂ − r ∼ N [0, R(N −1 C0 )R0 ]

3.3.1 Test Chi-Cuadrado


Capı́tulo
V, pág.
Es conveniente tomar la forma cuadrática porque lo que interesa es “cuán distinto de cero”
136
es el estadı́grafo Rθ̂ − r para cada restricción pero en conjunto. Ası́, se forma el estadı́grafo
de Wald [Notar que se pasa de una normal multivariada a la suma de normales estándar al
cuadrado. Si z1 , ..., zk ∼ N (0, 1) ⇒ ki=1 zi2 = Q ∼ χ2 (k)]:
P

d
W = (Rθ̂ − r)[R(N −1 Ĉ)R0 ]−1 (Rθ̂ − r) →
− χ2 (h)

55
Se requiere que R(N −1 Ĉ)R0 sea de rango completo (h), lo que se cumple bajo la H0 . Ĉ
es una estimación consistente de C0 .

Si el estadı́grafo de Wald es tal que W > χ2α (h), se rechaza H0 al nivel de confianza α.

W
También se puede usar el estadı́grafo F = h
, para luego comparar con la distribución
F (h, N −h), esperando una mejor aproximación en muestras finitas. [Esto porque, si N → ∞,
entonces h · F → χ2 (h)].

Por otro lado, la estimación de W cambiará con la estimación de la varianza (C). En


W
el caso lineal, tenı́amos que reemplazar σ 2 por s2 , y entonces h
se distribuı́a exactamente
como una F si los errores eran normales.

3.3.2 Test de un solo regresor


Capı́tulo
Suponga que interesa el j-ésimo regresor, de modo que: V, pág.
136-137
H0 : Rθ0 − r = θj = 0

Luego,
2
θˆj
W =
N −1 ĉjj

con ĉjj es el i-ésimo elemento de la diagonal de Ĉ. Tomando raı́z cuadrada se obtiene
que:
θ̂j d
t = →
− N [0, 1]
se[θ̂j ]

p
bajo H0 . donde además, se[θ̂j ] = N −1 ĉjj es el error estándar asintótico de θ̂j . El test-t (a
diferencia de W ) se puede utilizar como test de 1 cola.

56

Notar que formalmente W es un z-statistic (es Normal), pero se usa ‘t’ por convención.

En muestras finitas, algunos software usan distribución normal y otros t para computar
p-values e intervalos de confianza. Notar que en muestras finitas ninguno es completamente
correcto (a menos que se tenga el caso lineal con errores normales).

3.3.3 Estimación de la Varianza


Capı́tulo
√ V, pág.
La distribución lı́mite de N (θ̂ − θ0 ) tiene como varianza A−1 0−1
0 B0 A0 . De lo cuál se deriva
136-137
que θ̂ tiene una varianza asintótica N −1 A−1
0 B A
0 0
0−1
.

Una estimación ‘sandwich’ de la varianza de θ̂ es una estimación de la forma:

V [θ̂] = N −1 Â−1 B̂ Â0−1

donde  y B̂ son estimadores consistentes de A0 y B0 respectivamente. Estimación robusta


sandwich también se llama ‘Huber’ (1967), ‘Eikker-White’ (1967 y 1980), y ‘Newey-West’
(1987).

Dos estimadores estándar de A0 son la estimación Hessiana:

∂ 2 QN (θ)

ÂH =
∂θ∂θ0 θ̂

y la estimación del Hessiano esperado:

∂ 2 QN (θ)
 
ÂEH = E
∂θ∂θ0 θ̂

ÂH no requiere supuestos de distribución, pero ÂEH es más probable de ser negativa
definida e invertible.

Paralelamente, para B0 se utilizan supuestos distribucionales para obtener:


 
∂QN (θ) ∂QN (θ)
B̂E = E N ·
∂θ ∂θ0
θ̂

57
Esto se puede simplificar con supuestos simples a:
N
1 X ∂qi (θ) ∂qi (θ)
B̂OP = ·
|{z} N i=1 ∂θ θ̂ ∂θ0 θ̂
Outer Product

[Tarea: Derivar ÂH y B̂OP para el caso Poisson.]

MAXIMUM LIKELIHOOD AND NONLINEAR LEAST-SQUARES ESTIMATION

A continuación se presentan ejemplos de distribuciones usadas en MV: Weibull, gamma,


Table 5.3. Maximum Likelihood: Commonly Used Densities

Model Range of y Density f (y) Common Parameterization


2
/2σ 2
Normal (−∞, ∞) [2π σ 2 ]−1/2 e−(y−µ) µ = x# β, σ 2 = σ 2
Logit p = ex β /(1 + ex β )
# #
Bernoulli 0 or 1 p y (1 − p)1−y
λ = ex β or 1/λ = ex β
# #
Exponential (0, ∞) λe−λy
λ = ex β
#
−λ y
Poisson 0, 1, 2, . . . e λ /y!

For cross-section data the observations (yi , xi ) are independent over i with condi-
tional density!
log-normal son utilizadasfunction f (yi |xi , θ).deThen
en modelos by independence the joint conditional density
duración.
N
f (y|X, θ) = i=1 f (yi |xi , θ), leading to the (conditional) log-likelihood function
N
1 "
Q N (θ) = N −1 L N (θ) = ln f (yi |xi , θ), (5.39)
N i=1
3.4 MC No Lineales
where we divide by N so that the objective function is an average.
Capı́tulo
Resultsa extend to multivariate data, V, pág.
La generalización Mı́nimos Cuadrados Nosystems of equations,
Lineales and panel
se da a través de data by re-
la generalización de
placing the scalar yi by vector yi and letting f (yi |xi , θ) be the joint density of yi 150-151
la función conditional on xi . See de
de valor esperado alsolaSection 5.7.5.
variable:

E[yi |xi ] = g(xi , β)


Examples

donde yAcross
es unaescalar,
wide range
g(·)ofesdata
unatypes the following
función method
particular, X esiselused to generate
vector fully explicati-
de variables
parametric cross-section regression models. First choose the one-parameter or two-
vas y βk×1 parameter
es el vector desome
(or in parámetros. El modelo MCO
rare cases three-parameter) es el caso
distribution thatparticular en for
would be used que se asume
the dependent variable y in the iid case studied in a basic statistics course. Then pa-
que E[yi |xi ] = X 0 β.
rameterize the one or two underlying parameters in terms of regressors x and para-
meters θ.
Some commonly used distributions and parameterizations are given in Table 5.3.
RazonesAdditional
para especificar
distributionslaaremedia
given incondicional comoalso
Appendix B, which unapresents
función no lineal
methods to drawson restric-
pseudo-random variates.
ciones como que ésta deba ser positiva o por la especificación de demandas, ofertas, costos o
For continuous data on (−∞, ∞), the normal is the standard distribution. The clas-
sical
gastos que estánlinear regression model
debidamente sets µ = x# β and assumes σ 2 is constant.
microfundados.
For discrete binary data taking values 0 or 1, the density is always the Bernoulli,
a special case of the binomial with one trial. The usual parameterizations for the
Bernoulli probability lead to the logit model, given in Table 5.3, and the probit model
El problema que se# soluciona es análogo al de MCO. Se busca minimizar la suma de los
with p = Φ(x β), where Φ(·) is the standard normal cumulative distribution function.
These models
errores al cuadrado, are analyzed
donde in Chapter
los errores 14.
se definen como yi − g(xi , β).
For positive continuous data on (0, ∞), notably duration data considered in Chap-
ters 17–19, the richer Weibull, gamma, and log-normal models are often used in addi-
tion to the exponential given in Table 5.3.
For integer-valued count data taking values 58 0, 1, 2, . . . (see Chapter 20) the richer
negative binomial is often used in addition to the Poisson presented in Section 5.2.1.
Setting λ = exp(x# β) ensures a positive conditional mean.
Notar que MV y MCO no lineales en sus versiones más estándar se pueden estimar di-
rectamente en los paquetes estadı́sticos. En otros casos menos estándar de funciones de
densidad, paquetes como STATA proveen una rutina en que el usuario provee la función de
densidad, y eventualmente la primera derivada, y hasta la segunda.

Se debe estimar siempre los efectos marginales y ser cuidadoso en la interpretación.

59
4 Método Generalizado de momentos y Sistema de
Ecuaciones (Clases 8,9)
CLASE
14
Capı́tulo
• El MM y GMM es más amplio que MV y MCO no lineales. VI, pág.
166-167.
• Estos estimadores se basan en el principio de analogı́a en que las condiciones de mo-
mentos muestrales llevan a condiciones de momentos poblacionales.

• El MM y GMM soluciona ‘condiciones de momentos muestrales’ que corresponden a


‘condiciones de momentos poblacionales’ (Ejemplo: La media poblacional puede ser
estimada utilizando la media muestral).

• Estos métodos generan ganancias en eficiencia.


Estos métodos generan ganancias en eficiencia.

4.1 Ejemplos de GMM


4.1.1 Regresión Lineal
Capı́tulo
Estimación de la media poblacional cuando y es iid con media µ. Poblacionalmente: VI, pág.
167
E[y − µ] = 0

Reemplazando el valor esperado por el promedio, el momento muestral es:


N
1 X
(yi − µ) = 0
N i=1

Resolviendo para µ se obtiene µ̂M M = N −1 i yi = y. Luego el estimador del MM de la


P

media poblacional es la media muestral.

Se puede extender al modelo de regresión lineal y = X 0 β + u, con X y β vectores de k × 1.


La condición E[u|X] = 0 lleva a k condiciones de momentos incondicionales E[Xu] = 0,
dado que, utilizando la ley de expectativas iteradas:

E[Xu] = Ex [E[Xu|X]] = Ex [XE[u|X]] = Ex [X · 0] = 0

60
Entonces,

E[X(y − X 0 β)] = 0

El estimador MM es la solución a la correspondiente condición de momento muestral:


N
1 X
xi (yi − x0i β) = 0
N i=1
 −1
0
P P
lo que lleva a que β̂M M = i xi xi i xi yi . Lo que implica que MCO es un caso
particular de MM.

4.1.2 Regresión de Variables Instrumentales


Capı́tulo
Considere y = X 0 β + u. Con alguno(s) componente(s) de X correlacionados con el error. VI, pág.
184-185
Asumiendo que existe un instrumento Z no correlacionado con el término de error y sı́
correlacionado con X, tal que E[u|Z] = 0. Entonces, E[y−X 0 β|Z] = 0. Luego, multiplicando
por Z para obtener k condiciones de momentos poblacionales incondicionales:

E[Z(y − X 0 β)] = 0

El MM resuelve la correspondiente condición de momento muestral:


N
1 X
zi (yi − x0i β) = 0
N i=1

Si la dimensión de z = k implica que:


X −1 X
0
β̂M M = zi xi zi yi
i i

que corresponde al estimador lineal de VI. Esto muestra que el estimador lineal de VI es
un caso particular de MM.

Cuando se tiene sobreidentificación (más instrumentos que regresores) se produce el prob-


lema que no hay solución única. Para no perder instrumentos, GMM permite hacer un
‘weighting’ para evitar usar menos instrumentos (lo que llevarı́a a pérdida de la eficiencia).
Así seguir ganando en términos de eficiencia.

61
4.1.3 Datos de Panel
Capı́tulo
VI, pág.
Suponga yit = x0it β + uit con i=individuo y t=tiempo. Se puede estimar vı́a MM con la
167-168
‘muestra completa’ (pooled sample) basado en la condición E[xit uit ] = 0.

Con datos de panel, se puede usar condiciones de momento adicionales. Por ejemplo,
suponga que se asume que E[xst uit ] = 0 para s 6= t. Esto provee una condición de momento
adicional que puede ser usada para obtener una estimación más eficiente.

4.2 Sistema de Ecuaciones Lineales


Capı́tulo
VI, pág.
• La principal ventaja es la ganancia en eficiencia que resulta de incorporar la correlación
206-207
entre no observables entre ecuaciones para un mismo individuo.

• La estimación conjunta puede además ser necesaria si existen restricciones de parámetros


“entre ecuaciones”.

Ejemplos:

• Demanda por distintos commodities en un momento del tiempo para muchos individ-
uos.

– En SUR, todos los regresores son exógenos.

– En Eq. Simultáneas, algunos regresores son endógenos.

• En datos de panel, en que una ecuación es observada en varios momentos del tiempo
para distintos individuos

– Ganancia en eficiencia.

– Obtener instrumentos cuando hay algún regresor endógeno.

62
4.2.1 Sistema de Ecuaciones Lineales
Capı́tulo
VI, pág.
Con G variables dependientes, se tiene un marco como:
207-208

yi = Xi β + ui i=1,...,N

con yi , ui son vectores de G × 1, Xi es una matriz de G × K y β es de K × 1.

Se asume inicialmente que los errores no están correlacionados entre individuos, E[ui ·
u0j ] = 0 para i 6= j, pero puede haber variaciones a través del individuo, de modo que la
matriz de varianzas condicional para el i-ésimo individuo será: Ωi = E[ui · u0i |Xi ].

Visto como un panel para N individuos, se tiene:

     
y1 X1 u
 1
 ..   .  .
   
 .  =  ..  β +  .. 
     
yn Xn un
| {z } | {z } | {z }
y X u

β̂M CO = (X 0 X)−1 X 0 Y

β̂V I = (Z 0 X)−1 Z 0 Y

(En el caso de identificación exacta con VI).

La única diferencia es que el supuesto de matriz de varianza diagonal se reemplaza por


‘diagonal en bloque’.

La estimación del sistema de ecuaciones por MCO es directa:

β̂M CO = (X 0 X)−1 X 0 Y
N
!−1 N
X X
= Xi0 Xi Xi0 yi
i=1 i=1

63
El estimador es asintóticamente normal y, asumiendo independencia entre los individuos
i, la estimación sándwich robusta se puede seguir aplicando:

N
!−1 N N
!−1
X X X
V̂ [β̂SM CO ] = Xi0 Xi Xi0 ûi û0i Xi Xi0 Xi
i=1 i=1 i=1

donde ûi = yi − Xi β̂.

Esta estimación permite que las varianzas y covarianzas condicionales sean distintas entre
individuos. Si existe esa correlación a nivel de individuo, se puede utilizar esta información
para obtener estimadores más eficientes.

4.2.2 MCGF Mínimos cuadrados generalizados


Capı́tulo
VI, pág.
Si las observaciones son independientes a través de i, se puede aplicar MCG al sistema de
208-209
ecuaciones:

−1 −1 −1
Ωi 2 yi = Ωi 2 Xi β + Ωi 2 ui

−1
donde Ωi es la matriz de varianza y covarianzas E[ui u0i ]. El error transformado Ωi 2 ui
tiene media igual a cero y varianza:

−1 −1 −1 − 12
E[(Ωi 2 ui )0 (Ωi 2 ui )|Xi ] = Ωi 2 E[u0i ui |Xi ]Ωi
−1 − 12
= Ωi 2 Ωi Ωi

= IG

De modo que MCO es eficiente porque los nuevos errores son homocedásticos y no cor-
Los nuevos errores son homocedásticos !!
relacionados a través de las G ecuaciones.

La implementación requiere conocer Ωi = Ωi (γ), lo que se hace vı́a Ωi (γ̂), donde γ̂ es una
estimación consistente de γ, dando origen a MCGF en sistema de ecuaciones:

64
N
!−1 N
X X
β̂SM CGF = Xi0 Ω̂−1 Xi Xi0 Ω̂−1 yi
i=1 i=1

Este estimador es asintóticamente normal y para prevenir algún problema de especifi-


cación de Ωi (γ) se usa la estimación sándwich:

N
!−1 N N
!−1
X X X
V̂ [β̂M CO ] = Xi0 Ω̂−1
i Xi Xi0 Ω̂−1 0 −1
i ûi ûi Ω̂i Xi Xi0 Ω̂−1
i Xi
i=1 i=1 i=1

donde Ω̂i = Ωi (γ̂).

Lo más usual es asumir que Ωi no varı́a entre i, desechando la posibilidad de heterocedas-


ticidad entre i. En ese caso, se tendrá que Ωi = ΩG×G , que se puede estimar consistentemente
para G finito y N → ∞ como:

N
1 X
Ω̂ = ûi û0i
N i=1

donde ûi = yi − Xi β̂SM CO . Con lo que:

h i−1  
0 −1 0 −1
β̂SM CGF = X (Ω̂ ⊗ IN )X X Ω̂ ⊗ IN y 0

con ⊗ producto kronecker.

4.2.3 Regresión Aparentemente No Relacionada (Seemingly Unrelated Regres-


sion - SUR)
Capı́tulo
En SUR se tiene G ecuaciones para N individuos: VI, pág.
209-210
yig = Xig0 βg + uig g = 1, . . . , G. , i = 1, . . . , N.

Xig se asume exógeno y βg es un vector de kg × 1.

65
Por ejemplo, datos de demanda de G bienes para N individuos, donde yig es el gasto en
el bien g del individuo i.

Lo importante es que se asume G pequeño y N → ∞. La correlación entre yig e yih es


indirecta, a través de los errores de las diferentes ecuaciones (no es directa a través de un
sistema de ecuaciones). Para cada individuo se tendrá:
       
0
y X 0 0 β u
 i1   i1   1   i1 
 ..  . .
. . 0  ·  ..  +  ... 
 .  =  0
    

       
0
yiG 0 0 XiG βG uiG
yi = Xi β + ui

con las definiciones de yi , ui de G x 1 con g-ésimo elemento yig , uig . Xi es la matriz de


G×K con g-ésima fila [0...Xig0 ...0] y β = [β10 , ..., βG0 ] es el vector de K×1 con K = K1 +...+KG .
Se puede demostrar que:

   P −1 P 
N 0 N
β̂ i=1 Xi1 Xi1 i=1 Xi1 yi1
 1
 ..  ..
 
 .  = 
 
. 
−1
    
PN 0
PN
β̂G i=1 XiG XiG i=1 XiG yiG

Lo que es equivalente a MCO en cada ecuación (al tratar los errores como no relaciona-
dos). Al usar MCGF se puede obtener mejores estimaciones.

En sistemas de ecuaciones se puede tener restricciones de parámetros entre ecuaciones,


como restricciones de simetrı́a, por ejemplo: β2 = −β1 . Ası́, se puede definir Xi = [Xi1 −Xi2 ]0
y β = β1 .

4.2.4 Panel de Datos


Capı́tulo
VI, pág.
En el caso de datos de panel también puede verse como un sistema de ecuaciones (con T
211
relativamente pequeño y N → ∞):

yit = Xit0 β + uit t = 1, . . . , T. , i = 1, . . . , N.

66
que es similar al sistema de G ecuaciones ahora con T ecuaciones y β constante entre los
perı́odos t. Ası́, el estimador de Panel MCO puede expresarse como:
N X
T
!−1 N X
T
X X
β̂P M CO = Xit Xit0 Xit yit
i=1 t=1 i=1 t=1

Tı́picamente se usa la estimación robusta de la varianza o modelos más complejos con


efectos individuales (fijo o aleatorios).

67
5 Test de Hipótesis (Clases 10,11,12)
CLASE
15
Capı́tulo
Repaso distribuciones: VII,
pág.
223.

Z ∼ N (0, 1)

Z 2 ∼ χ21
N
X
Zi2 ∼ χ2N
i=1
xi /a
F (a, b) ∼ con xi ∼ χ2a , yi ∼ χ2b
yi /b

• Se busca testear hipótesis posiblemente no lineales en los parámetros.

• Hay que encontrar la distribución asintótica del estadı́grafo.

• Se busca linealizar las hipótesis y los estimadores.

• Consideraciones prácticas:

– El test puede tener el ‘tamaño equivocado’: Se cree que es 5%, pero puede ser
mucho más. Tı́picamente ocurre en muestras pequeñas. La solución puede ser
utilizar Bootstrap.

– Los test pueden tener bajo ‘poder’ (existe baja probabilidad de rechazar H0
cuando H0 es incorrecta). Poder del test -> probabilidad de rechazar H_{0} cuando es incorrecta.

5.1 Test de Wald REQUIERE LA ESTIMACIÓN DEL MODELO SIN RESTRICCIONES.


Capı́tulo
VII,
El test de Wald (1943) es el más ampliamente usado en microeconometrı́a. Requiere la es-
pág.
timación del modelo sin restricciones (sin imponer la hipótesis nula). Los softwares actuales 224
permiten estimar el modelo sin restricciones incluso si es más complicado que el modelo
restringido, y además permite estimar la varianza de manera robusta bajo supuestos débiles.

68
5.1.1 Hipótesis Lineales en modelos Lineales
Capı́tulo
Se parte del caso lineal para luego generalizar. VII,
pág.
224-225
Para un test lineal de 2 colas de un modelo y = X 0 β + u:

H0 : Rβ0 − r = 0

Ha : Rβ0 − r 6= 0

con h restricciones , R es de h × K de rango completo h. β es de K × 1, r es de h × 1, y


h ≤ K.

Ejemplo: Test conjunto de β1 = 1 y β2 − β3 = 2 con k = 4 será:

    R es de h x K
1 0 0 0 1
R=  , r= 
0 1 −1 0 2

El test de Wald de Rβ0 − r = 0 es un test de cercanı́a a cero del análogo muestral Rβ̂ − r,
donde β̂ es la estimación no restringida por MCO.

Bajo el supuesto fuerte que u ∼ N (0, σ02 I), se tiene que β̂ ∼ N (β0 , σ02 (X 0 X)−1 ) y entonces
Rβ̂ − r ∼ N (0, σ02 R(X 0 X)−1 R0 ). Tomando la forma cuadrática:

W1 = (Rβ̂ − r)0 [σ02 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2h

Se distribuye exactamente χ2h bajo la hipótesis nula. En la práctica el test no se puede


computar porque σ02 es desconocido.

En muestras grandes, al reemplazar σ02 por su estimación s2 no afecta la distribución


σ02 σ2
lı́mite, dado que es equivalente a premultiplicar W1 por s2
, en que se cumple que plim s20 = 1;
entonces:

d
W2 = (Rβ̂ − r)0 [s2 R(X 0 X)−1 R0 ]−1 (Rβ̂ − r) ∼ χ2h

69
Con errores normales, bajo la hipótesis lineal, se puede encontrar la distribución exacta
en muestras pequeñas:
W2
W3 = ∼ F (h, n − k)
h
2
P
i ûi
con s2 = n−k
donde û es el residuo de estimar por MCO.

En modelos no lineales tı́picamente no se puede obtener W3 , y se trabaja asintóticamente


con W2 .

5.1.2 Hipótesis No Lineales


Capı́tulo
Modelo no lineal: Vector de parámetros θq×1 , con h restricciones (en modelo lineal se tenı́a VII,
pág.
βk×1 ): 225

H0 : h(θ0 ) = 0

Ha : h(θ0 ) 6= 0

con h(·)k×1 ‘función vectorial’.

Ejemplos lineales:

h(θ0 ) = θj = 0

h(θ0 ) = θ2 = 0

Ejemplos no lineales:
θ1
h(θ0 ) = −1=0
θ2

Se asume que h(θ) es tal que:


∂h(θ)
R(θ)h x q =
∂θ0
es de rango h al ser evaluada en θ = θ0 (equivalente al caso lineal).

70
5.1.3 El estadı́grafo de Wald
Capı́tulo
a
La intuición implica que h(θ̂) ' 0. Si h(θ̂) ∼ N (0, V [h(θ̂)]) bajo H0 , entonces: VII,
pág.
h i−1
a 226-229
W = h(θ̂)0 V [h(θ̂)] h(θ̂) ∼ χ2h

La única dificultad es estimar V [h(θ̂)].

Usando una expansión de Taylor de primer orden bajo la hipótesis nula, h(θ̂) tiene la
misma distribución lı́mite que:


∂h(θ)
R(θ0 )(θ̂ − θ0 ) = (θ̂ − θ0 )
∂θ0 θ0

Entonces h(θ̂) es asintóticamente normal bajo H0 con media cero y matriz de varianzas

R(θ0 )V [θ̂]R(θ0 )0 . Un estimador consistente es: R̂N −1 Ĉ R̂0 , donde R̂ = R(θ̂) y N (θ̂ −
d
θ0 ) →
− N [0, C0 ], y Ĉ es un estimador consistente de C0 . Con esto se obtiene comúnmente el
estadı́grafo de Wald como:

W = N ĥ0 [R̂Ĉ R̂0 ]−1 ĥ



∂h(θ)

con ĥ = h(θ̂); R̂ = ∂θ0
.
θ̂

Equivalentemente:

W = ĥ0 [R̂V̂ [θ̂]R̂0 ]−1 ĥ

donde V̂ [θ̂] = N −1 Ĉ es la varianza asintótica de θ̂.

W se distribuye asintóticamente como χ2h bajo H0 . H0 se rechaza al nivel de confianza α


si W > χ2α (h). Esto es, H0 se rechaza al nivel de confianza α si el p-value= P r[χ2h > W ] < α.

También se puede hacer, asintóticamente, un test-F :

W
F = ∼ F (h, N − q)
h
71
Si N → ∞ entrega el mismo p-value.

Para una sola restricción, la raı́z de W es una normal estándar, lo que permite un test
de una cola. Para h(θ) escalar, el estadı́grafo de Wald z-test:


WZ = p
r̂N −1 Ĉ r̂0

∂h(θ)

con ĥ = h(θ̂); r̂ = ∂θ0
es de 1 x k.
θ̂

También si N → ∞, entonces WZ ∼ tN −q .

En resumen, el test de Wald no lineal es similar al lineal, con la desviación estimada de


la hipótesis nula h(θ̂) en vez de (Rβ̂ − r).

Ojo que hay variadas formas de estimar consistentemente C0 ⇒ hay variados valores para
el test de Wald.

Ejemplo de restricción no lineal:


θ1
H0 : h(θ) = −1=0
θ2
∂h 1 ∂h −θ1
R(θ) es de 1 × q con primer elemento ∂θ1
= θ2
, segunda elemento ∂θ2
= θ22
y el resto
igual a cero. Siendo ĉjk el jk-ésimo elemento de Ĉ, se tiene:

    −1
1
ĉ ĉ ···

θ1
 2 h i  11 12   θ2 
−θ1
W =N − 1 ·  θ1 0 ĉ21 ĉ22 · · ·  −θ
    1 
θ2 θ22   θ2 

 2
.. .. . .

. . . 0

donde 0 es una matriz de (q − 2) × q de ceros, con lo cual se tiene:

a
W = N [θ̂2 (θ̂1 − θ̂2 )]2 (θ̂22 ĉ11 − 2θ̂1 θ̂2 ĉ12 + θ̂12 ĉ22 )−1 ∼ χ2(1) bajo H0
√ a
W ∼ N (0, 1) bajo H0

72
5.1.4 El Método Delta para construir Intervalos de Confianza
Capı́tulo
El método usado para derivar el test de Wald se llama método delta porque la aproximación VII,
pág.
de Taylor para h(θ̂) implica derivar h(θ). Este método también puede usarse para construir 231-232
intervalos de confianza.

Suponga que se quiere hacer inferencia sobre el vector γ = h(θ) que es estimado por
√ d
γ̂ = h(θ̂), donde la distribución lı́mite de N (θ̂ − θ0 ) →
− N (0, C0 ).

√ √
Dado que N (h(θ̂) − h(θ0 )) = R(θ+ ) N (h(θ̂) − h(θ0 )) con θ+ ∈ (θ̂, θ0 ). [Proviene de la
derivación del estadı́grafo con aproximación de Taylor alrededor de θ0 ]. Se tendrá que:
√ d
− N [0, R0 C0 R00 ]
N (γ̂ − γ0 ) →

∂h(θ)
donde R(θ) = ∂θ0
.

Equivalentemente, se dice que γ̂ es asintóticamente normal con varianza asintótica V̂ [γ̂] =


R̂N −1 Ĉ R̂0 , la que puede ser utilizada para construir intervalos de confianza.

En particular, un Intervalo de Confianza de 100(1 − α)% para un parámetro escalar γ


será:

γ ∈ γ̂ ± Z α2 · SE[γ̂]
p
SE[γ̂] = r̂N −1 Ĉ r̂0

r̂ = r(θ̂)
∂γ ∂h(θ)
r(θ) = =
∂θ0 ∂θ0

Ejemplos:

(i) Suponga E[y|X] = exp(X 0 β) y se busca un IC para la media condicional predicha

73
cuando X = Xp . Entonces,

h(β) = exp(Xp0 β)
∂h(β)
= exp(Xp0 β)Xp0
∂β 0
q
0 0
SE[exp(Xp β̂)] = exp(Xp β̂) · Xp0 N −1 ĈXp

donde Ĉ es una estimación consistente de la matriz de covarianzas en la distribución



lı́mite de N (β̂ − β0 ).

(ii) Suponga que se busca un IC para exp(β) en vez de β (un coeficiente escalar). Entonces:

h(β) = exp(β)
∂h(β)
= exp(β)
∂β
SE[exp(β̂)] = exp(β̂) · SE[β̂]

exp(β) ∈ exp(β̂) ± 1, 96 · exp(β̂) · SE[β̂]

Cabe señalar que el método delta genera intervalos simétricos alrededor de γ̂. En el
último ejemplo existirı́a el problema que se podrı́a predecir un IC con valores negativos
cuando exp(β) > 0 por definición. Esto último se puede corregir tomando exponencial
de los términos en el IC:

P r[β̂ − 1.96 · SE[β̂] < β < β̂ + 1.96 · SE[β̂]] = 0.95

⇒ P r[exp(β̂ − 1.96 · SE[β̂]) < epx(β) < exp(β̂ + 1.96 · SE[β̂])] = 0.95

Esta es una transformación usual en modelos binarios o de duración, y además se puede


generalizar a otras transformaciones γ = h(θ) siempre y cuando h(·) sea monotónica.

5.2 Test basados en Verosimilitud (Wald,LR,LM)


Capı́tulo
L(θ) denota la función de verosimilitud dado X y los parámetros θ. Se puede plantear la VII,
pág.
hipótesis nula H0 : h(θ0 ) = 0. 233-234

74
Se define θ̂u como el vector de parámetros estimado por MV en el modelo no restringido.
θ̃r corresponde al vector de parámetros estimado en el modelo restringido.

El modelo restringido corresponde a la maximización del lagrangiano:

L = ln(L(θ)) − λ0 h(θ)

donde λ es un vector de h × 1 de multiplicadores de Lagrange.

En el caso simple de restricciones de exclusión, se tiene por ejemplo: h(θ) = θ2 = 0


con θ = (θ10 , θ20 ). Luego el vector de parámetros restringido será θ̃r0 = (θ̃1r
0
, 00 ), donde θ̃1r
se obtiene de la maximización con respecto a θ1 de la función de verosimilitud restringida
L(θ1 , 0) donde 0 es un vector de ceros de (q − h) × 1.

Los tres test convergen a una distribución χ2(h) bajo la hipótesis nula.

El máximo de la función de verosimilitud con el modelo restringido y


5.2.1 Test LR (Likelihood Ratio Test) del sin restringir debieran ser iguales. H_{0} sería cierta.
Capı́tulo
La motivación del test LR es que, si H0 es cierta, entonces el máximo de la función de VII,
pág.
verosimilitud del modelo restringido y el no restringido debieran ser iguales. Entonces, se 234 y
usa una función de la diferencia entre los valores de ln(L(θ̂ )) y ln(L(θ̃ )). 237
u r

La interpretación requiere obtener la distribución lı́mite de esa diferencia. Se puede


demostrar que 2 veces esta diferencia se distribuye asintóticamente χ2 bajo H0 . Con lo cual
el estadı́grafo del test LR será:
!
L(θ̃r )
LR = −2[ln(L(θ̃r )) − ln(L(θ̂u ))] = −2ln
L(θ̂u )

La demostración es un poco compleja, por lo que sólo se verá un esquema. Por simpli-
cidad, se considerará el caso simple en que H0 : θ = θ, de modo que no habrı́a error de
estimación en θ̃r = θ. Tomando una expansión de Taylor de segundo orden de ln(L(θ)) en

75
torno a ln(L(θ̂u )) se obtiene:
2

∂lnL 1 0 ∂ lnL

ln(L(θ)) = ln(θ̂u ) + (θ − θ̂u ) + (θ − θ̂u ) (θ − θ̂u ) + R
∂θ0 θ̂u
2 ∂θ∂θ0 θ̂u


∂lnL
donde R es un término de residuo. Dado que por las CPO ∂θ = 0, se obtiene:
θ̂u
2

0 ∂ lnL

−2[ln(L(θ)) − ln(L(θ̂u ))] = −(θ − θ̂u ) (θ − θ̂u ) + R
∂θ∂θ0 θ̂u

 h i−1 
d ∂ 2 lnL
Dado que N (θ̂u − θ) →
− N 0, plim ∂θ∂θ0 , entonces el lado derecho de la ecuación
converge a una χ2(h) bajo H0 : θ = θ.

5.2.2 Test LM (Multiplicador de Lagrange) o Score Test


Capı́tulo
∂lnL
Una motivación para el test LM es que la gradiente = 0 en el valor máximo de VII,
∂θ θ̂u pág.
234,
| {z }
Score vector
la función. Si H0 es cierto, entonces
este máximo también deberı́a ocurrir en el modelo 235.

restringido, de modo que ∂lnL ' 0. Esto porque imponer la restricción deberı́a tener casi
∂θ
θ̃r
nulo impacto en el valor estimado de θ.

Una motivación alternativa es medir la cercanı́a a cero de los multiplicadores de Lagrange


del modelo de optimización restringida.

Al maximizar L = ln(L(θ)) − λ0 h(θ) con respecto a θ implica:


∂h(θ)0

∂lnL
= · λ̃r
∂θ θ̃u ∂θ θ̃r
∂h
Esto es equivalente a basar el test en la gradiente porque ∂θ0
se asume de rango completo.



∂lnL
La implementación requiere conocer la distribución asintótica de ∂θ
. Ası́ se obtiene
θ̃u
el estadı́grafo:

∂lnL ∂lnL
−N −1 Ã−1

LM =
∂θ0 θ̃r ∂θ0 θ̃r

donde à es una estimación consistente de A0 evaluada en θ̃r en vez de θ̂u .

76
5.2.3 Test de Wald
Capı́tulo
VII,
La motivación es que si H0 es cierto, θ̂u debiera satisfacer las restricciones de H0 , entonces
pág.
h(θ̂u ) deberı́a ser muy cercano a cero. 234

La implementación requiere conocer la distribución asintótica de h(θ̂u ) (visto anterior-


mente).

La generalización ocurre porque la matriz de información implica la igualdad

V [θ̂u ] = −N −1 · A−1
0
2

−1 ∂ lnL

A0 = plim N
∂θ∂θ0 θˆu
Esto implica que el test de Wald queda como:
h i
0 −1
W = −N · ĥ · R̂ · Â · R̂ · ĥ

ĥ = h(θ̂u )

R̂ = R(θ̂u )
∂h(θ)
R =
∂θ0
y  es una estimación consistente de Ao (Ao es negativa definida, por lo que lleva signo
(-) delante).

5.2.4 Discusión y Ejemplo


Capı́tulo
Considere el caso iid de yi ∼ N (µ0 , 1) y el test de H0 : µ0 = µ . De este modo µ̂u = y y VII,

pág.
ũr = µ∗ . 235-237

Para el test LR:


N 1X
lnL(µ) = − ln(2π) − (yi − µ)2
2 2 i

Lo que después del álgebra se puede expresar como:

LR = 2 [lnL(y) − lnL(µ∗ )] = N (y − µ∗ )2

77
El test de Wald se basa en que y − µ∗ ' 0, de modo que es fácil demostrar que y − µ∗ ∼
N 0, N1 bajo H0 , lo que lleva a la forma cuadrática:


 −1
1 ∗
W = (y − µ ) (y − µ∗ )
N

lo que se simplifica en N (y − µ∗ )2 , entonces W = LR.

El test LM está basado en la cercanı́a a cero de :



∂lnL(µ) X
= N (y − µ∗ )

= (y i − µ)
∂µ
µ∗ i

µ

∂ 2 lnL(µ)
Dado que Ã(µ∗ ) = −1 porque ∂µ2
= −N . Entonces,

LM = N −1 (N (y − µ∗ )) [−1]−1 (N (y − µ∗ )) = N (y − µ∗ )2

de modo que W = LR = LM .

En este caso de curvatura constante de la función de verosimilitud, los tres tests son
idénticos. En general en muestras finitas difieren, siendo asintóticamente equivalentes.

Ejemplo con la distribución Poisson:

Suponga que y dado x se distribuye como una Poisson con media condicional exp(X 0 β).
Entonces, el log de la función de verosimilitud será:
N
X
lnL(β) = {−exp(Xi0 β) + yi Xi0 β − ln(y!)}
i=1

Para h restricciones de exclusión se tendrá: H0 : h(β) = β2 = 0, donde β = (β10 , β20 )0 con


β2 de h x 1 y β1 de (k − h) × 1.

El modelo sin restringir maximiza con respecto a β con CPO:


N
X
(yi − exp(Xi0 β)) Xi = 0
i

78
y la matriz de varianza lı́mite será −A−1 , con
N
X
−1
A = −plim N exp(Xi0 β)Xi Xi0 .
i=1

El modelo restringido implica β̃ = (β̃10 , 00 )0 donde β̃1 maximiza la función de verosimilitud


0
anterior con respecto a β1 , con Xi0 β reemplazado por X1i β1 (dado que β2 = 0). Entonces, β̃1
resuelve las CPO:
N
X
0
(yi − exp(X1i β1 )) X1i = 0
i

El test LR se calcula entonces con los valores maximizados de las funciones de verosimil-
itud del modelo restringido y no restringido.

El test de Wald para restricciones de exclusión se calcula como:

W = −N β̂20 Â22 β̂2



22 −1 −1
PN 0 0 ∂h(θ)

con  el bloque (2,2) de  y  = −N i exp(Xi β̂)Xi Xi porque ∂θ0
= β̂2 .
θ̂

El test LM se basa en :
N
∂lnL(β) X
= (yi − exp(Xi0 β)) Xi
∂β i=1

En el modelo restringido se tendrá que:


N
∂lnL(β) X
= Xi ũi
∂β i=1

0
donde ũi = yi − exp(X1i β̃1 ) es el residuo de la estimación restringida. Por lo tanto, el
test LM queda como:

" N
#0 " N
#−1 " N
#
X X X
0
LM = Xi ũi exp(X1i β̃1 )Xi Xi0 Xi ũi
i=1 i=1 i=1

¿Qué test utilizar?:

79
1. Los tres tests son asintóticamente distribuidos χ2(h) .

2. En muestras finitas las distribuciones difieren.

3. En el caso de regresión lineal con normalidad se puede obtener un test F.

4. El test de Wald no es invariante a la parametrización algebraica equivalente de la


hipótesis nula. El LR sı́. No todas las formas de LM lo son.

5. LR requiere estimar 2 veces (restringido y sin restringir).

6. W requiere el modelo sin restringir.

7. LM requiere solo el modelo restringido (esto es útil cuando el modelo restringido es


más simple - autocorrelación, heterocedasticidad).
LR requiere estimar con y sin restricciones.
W solamente sin restricciones.
LM solamente con restricciones.

80
5.3 Poder y Tamaño de los Tests
CLASE
16
Capı́tulo
Cuando un test tiene poca capacidad para diferenciar entre una hipótesis nula y una alter- VII,
pág.
nativa se dice que “tiene poco poder”, lo que implica que la probabilidad de rechazar la 246-247
hipótesis nula cuando es falsa, es baja. No siempre los softwares reportan el valor del poder,
pero se puede obtener por métodos de Monte Carlo.

Por otro lado, el “tamaño verdadero del test” puede variar significativamente del valor
nominal obtenido por teorı́a asintótica. La regla de oro que para una variable en que el
tamaño muestral es N > 30 es suficiente para resultados asintóticos, no se cumple para
modelos con múltiples regresores. La aproximación es peor en las colas de las distribuciones,
que son justamente lo que se utiliza para los tests. Usualmente el valor crı́tico está sub-
estimado. Se puede corregir el valor crı́tico vı́a Monte Carlo.

Decisiones correctas:

• Rechazar H0 si H0 es falsa.

• No Rechazar H0 si H0 es correcta.

Errores:

• Tipo I: Rechazar H0 si H0 es correcta.

• Tipo II: No Rechazar H0 si H0 es falsa.

En la práctica, una disminución del error Tipo I implica un aumento en la probabilidad


del error Tipo II. De la misma forma, un aumento de la probabilidad de cometer el error
Tipo II implica un aumento en la probabilidad del error Tipo I.

81
Tı́picamente se define la probabilidad de error Tipo I (usualmente 5%) y se deja la prob-
abilidad del error Tipo II no especificada.

El tamaño de un test (o nivel de significancia) será:

α = P r [Error Tipo I]

= P r [Rechazar H0 |H0 es correcta]

En el caso del poder de un test se tiene:

Poder = P r [Rechazar H0 |Ha es correcta]

= 1 − P r [No rechazar H0 |Ha es correcta]

= 1 − P r [Error Tipo II]

Si la probabilidad de error Tipo II tiende a cero, el poder tiene a 1 (caso ideal). Para de-
terminar el poder de un test se requiere conocimiento acerca de la distribución del estadı́grafo
bajo Ha . En general siempre se puede determinar el poder de un test para cualquier caso
aplicado.

5.4 Estudios de Monte Carlo y Bootstrap


Capı́tulo
Ejemplo de Monte Carlo: VII,
pág.
Suponga que se quiere hacer inferencia sobre la pendiente en un modelo probit. El p.g.d. 250-256
es un probit, con regresor binario y probabilidad:

P r[y = 1|x] = Φ(β1 + β2 x)

donde Φ(·) es la cdf de una normal estándar, x ∼ N [0, 1], (β1 , β2 ) = (0, 1), u ∼ N [0, 1] e

 1 si x + u > 0
y=
 0 si no

Dado el p.g.d., la mitad de las veces se tendrá y = 1.

82
En el ejercicio de Monte Carlo se generán N observaciones de x e y, y se estima por MV
(también se puede mantener x y simular N valores de y).

Para establecer el “tamaño real del test” se requiere muchas simulaciones, porque se basa
en la cola de la distribución.

Si se hacen S simulaciones para un test de tamaño verdadero α, la proporción de veces


que la hipótesis nula se rechazará correctamente es el resultados de S ensayos binomiales con
α(1−α)
media α y varianza S
.

Entonces, en 95% de los casos el ejercicio de Monte Carlo estimará tamaño del test en el
q
intervalo α ± 1.96 α(1−α)
S
.

Con S = 100 y N = 40 se tiene un intervalo (0.007,0.093) cuando α = 0.05, lo que no es


muy bueno.

Para S = 10.000 se obtiene:

α = 0.01 ⇒ (0.008, 0.012)

α = 0.05 ⇒ (0.046, 0.054)

α = 0.10 ⇒ (0.094, 0.106)

Ejemplo de Bootstrap:
Bootstrap es una variante de simulaciones de Monte Carlo que requiere de menos supuestos
de parametrización y poco esfuerzo de programación más allá del original para estimar el
modelo.

Se requiere que el estimador verdadero tenga distribución lı́mite y que las muestras de
bootstrap sean iid.

83
Bootstrap tiene dos casos generales. Primero, se puede usar como un método alternativo
para calcular errores estándar sin tener que hacer refinamientos asintóticos (por ejemplo
cuando las fórmulas analı́ticas son complejas). Segundo, para obtener un refinamiento de la
teorı́a asintótica usual de estadı́grafos en muestras finitas.

Suponga el ejemplo probit de y binario con y = 1 con probabilidad p = Φ(γ + βx).


H0 : β = 1, H1 : β 6= 1 y α = 0.05.

Suponga que se genera una muestra del tamaño N = 40, y se estima β̂M V = 0.817 y
1−0.817
se[β̂M V ] = 0.294. Se obtiene entonces un z − stat = 0.294
= −0.623. Bajo teorı́a asintótica
z0.25 = 1.96, de modo que H0 no se rechaza.

En el ejercicio de Bootstrap se crean B pseudo-muestras de tamaño N aleatoriamente


con reemplazo de los datos originales {(yi , xi ), i = 1, ..., N.}. Con esto se obtienen B
estimaciones del parámetro β, β̂1∗ , ..., β̂B∗ , que se usan para estimar las caracteristicas de la
distribución original de β̂. Se puede usar las estimaciones de β̂B∗ para estimar se[β̂B ].

Se puede también hacer un refinamiento asintótico con la distribución empı́rica de los


β̂B . Entonces, los percentiles 2.5 por abajo y por arriba de la distribución empı́rica entregan
los valores crı́ticos.

Con B = 1.000 por ejemplo se encuentra que el intervalo fue (-1.89,1.80) en vez de ±1.96.

84
6 Test de Especificación y Selección de Modelos (Clases
13,14)
6.1 Test de Hausman Compara dos estimadores.
CLASE
17
Capı́tulo
Los test de comparación de dos estimadores normalmente se llaman test de Hausman (1978). VIII,
pág.
271-273
Considere un test de endogeneidad de 1 regresor en una ecuación. Alternativas son OLS
y 2SLS, donde se utiliza instrumentos para controlar la posible endogeneidad.

Si hay endogeneidad, OLS es inconsistente, de modo que ambos estimadores tendrán


diferente distribución lı́mite. Si no hay endogeneidad, OLS y 2SLS son ambos consistentes y
con la misma distribución lı́mite. Esto sugiere testear endogeneidad a través de la diferencia
de los estimadores.

Generalizando, considere dos estimadores θ̂ y θ̃,

H0 : plim (θ̂ − θ̃) = 0

Ha : plim (θ̂ − θ̃) 6= 0



Asuma que los 2 estimadores bajo H0 son N consistentes con media 0 y distribución
lı́mite normal, entonces:
√ d
N (θ̂ − θ̃) →
− N [0, VH ]

con VH matriz de varianzas en la distribución lı́mite.

Entonces, el estadı́grafo del test de Hausman será:


h i−1
H = (θ̂ − θ̃)0 N −1 V̂H (θ̂ − θ̃) ∼ χ2(q)

bajo H0 . Se rechaza H0 a nivel α si H > χ2α (q).

85
El test de Hausman se puede aplicar a un subconjunto de parámetros. Por ejemplo,
sólo al coeficiente del regresor potencialmente endógeno. (Ojo que la conclusión puede ser
distinta que si se aplica a todos los parámetros).

Calcular el test de Hausman es en principio simple, pero complejo en la práctica porque


requiere una estimación consistente de VH . En general:

N −1 VH = V [θ̂ − θ̃] = V [θ̂] + V [θ̃] − 2Cov[θ̂, θ̃]

lo complejo es estimar la covarianza.

Si θ̂ es el estimador eficiente bajo H0 , entonces Cov[θ̂, θ̃] = V [θ̂]. Entonces, V [θ̂ − θ̃] =
V [θ̃] − V [θ̂], de modo que:
h i−1
H = (θ̂ − θ̃)0 V̂ [θ̃] − V̂ [θ̂] (θ̂ − θ̃)

En el ejemplo, bajo H0 θ̂OLS es eficiente y θ̂2OLS también. Se debe tener cuidado en que
la estimación de V̂ [θ̃] y V̂ [θ̂] debe ser consistente y que utilicen la misma estimación de la
varianza de los errores σ 2 .

Si sólo se testea un componente del vector de parámetros, el test de Hausman será


simplemente:

(θ̂ − θ̃)
H = ∼ χ2(1)
S̃ 2 − Ŝ 2

con Ŝ y S̃ los errores estándar de θ̂ y θ̃ respectivamente.

6.1.1 Test de Hausman de Endogeneidad Si se usa IV sin endogeneidad se pierde eficiencia.


Capı́tulo
Recordemos que VI solo debe usarse si hay un regresor endógeno, de lo contrario habrı́a VII,
pág.
pérdida de eficiencia importante. 275-276

Un test de endogeneidad de los regresores compara MCO vs VI. Si los regresores son
endógenos, la distribución lı́mite diferirá, pero si son exógenos serán iguales. De este modo,

86
una diferencia importante entre MCO y VI se puede interpretar como evidencia de endo-
geneidad.

Considere la regresión: y = X10 β1 + X20 β2 + u, donde X1 es potencialmente endógeno y


X2 es exógeno. Sea β̂ el estimador por MCO y β̃ el estimador por VI. Asumiendo homo-
cedasticidad, MCO es eficiente bajo la hipótesis nula de no endogeneidad.

El test de Hausman de endogeneidad de X1 se puede calcular como:


h i−1
0
H = (β̂ − β̃) V̂ [β̃] − V̂ [β̂] (β̂ − β̃)

Ojo que se puede demostrar que V̂ [β̃] − V̂ [β̂] no es de rango completo, por lo que se
requiere una inversa generalizada con grados de libertad igual a dim(β1 ).

Pero Hausman (1978) muestra que se puede testear de manera más simple en una re-
gresión de MCO aumentada:

y = X10 β1 + X20 β2 + X̂10 γ + u

testeando γ = 0, donde X̂1 es el valor predicho del regresor endógeno en la forma reducida
de la regresión multivariada de X1 en los instrumentos Z.

Esto es equivalente a testear γ = 0 en la regresión MCO aumentada:

y = X10 β1 + X20 β2 + ν̂10 γ + u

donde ν̂1 es el residuo de la regresión de X1 en Z.

La intuición es que, si u no está correlacionado con X1 ni con X2 , entonces γ = 0. Ahora


bien, si u está correlacionado con X1 , esto será capturado por la significancia de transforma-
ciones adicionales de X1 , como X̂1 y ν̂1 .

87
En corte transversal se debe presumir heterocedasticidad, por lo que esta forma de testear
es muy útil si se usan los errores estándar estimados robustamente.

También se puede hacer otros tests simples con regresores exógenos y potencialmente
exógenos, ası́ como generalizaciones para MCNL. También se puede hacer un Sargan test
(OIR - Over Identification Restrictions) y sus generalizaciones.

6.2 Regression Equation Specification Error Test (RESET)


Capı́tulo
Este test fue presentado por Ramsey (1969). Este test es sobre ausencia de no linealidades VIII,
pág.
en algunos regresores. 277-278
Considere la regresión:

y = X 0β + u

asumiendo que los regresores entran de manera lineal y no están correlacionados con el
error. Una manera directa de testear por no linealidad es incluir funciones de potencia de
los regresores exógenos, tı́picamente al cuadrado, como regresores adicionales y testear la
significancia de esas variables adicionales con un test de Wald o F .

Notar que se requiere tener buenas razones para suponer no linealidades, y que esto no
funciona con regresores categóricos (variables categóricas).

Ramsey propuso un test de variables omitidas. La idea es obtener una regresión ini-
cial y generar nuevos regresores. Entonces, con ŷ = X 0 β̂ se crean nuevos regresores W =
[(X 0 β̂)2 , (X 0 β̂)3 , ..., (X 0 β̂)p ] = [ŷ 2 , ŷ 3 , ..., ŷ p ].

Luego se estima el modelo y = X 0 β + W 0 γ + u y se usa un test de Wald sobre las p


restricciones en H0 : γ = 0. Usualmente se usa p = 2 ó 3.

88
6.3 Discriminación entre modelos no anidados
Capı́tulo
VIII,
Un modelo es anidado si es un caso particular de otro. Discriminar entre modelos anidados
pág.
es simple a través de un test de hipótesis de restricciones sobre los parámetros. 278

6.3.1 Criterios de Información


Capı́tulo
VII,
Son criterios de logaritmo de verosimilitud con ajustes de grados de libertad. Los modelos
pág.
con menor criterio de información son los preferidos. 278-279

La intuición es que existe una tensión entre el ajuste de un modelo (medido por el valor
maximizado de la función de verosimilitud), y el principio de parsimonia que favorece a un
modelo simple. El ajuste del modelo puede mejorar con un modelo más complejo, pero el
equilibrio se busca en la medida que ello compense la pérdida de parsimonia.

Los diferentes criterios de información varı́an de acuerdo a qué tan fuerte se penaliza la
complejidad del modelo.

(a) Akaike Information Criterion (AIC) (Akaike, 1973):

AIC = −2lnL + 2q

donde q es el número de parámetros (penalización por mayor complejidad).

[Notar que lnL es siempre negativo, y que mientras mayor la probabilidad L, más bajo
será su valor absoluto].

Este criterio se puede extender a la forma:

−2lnL + g(q, N )

donde g(q, N ) representa otro ajuste asociado a los grados de libertad que penaliza más
que 2q.

89
(b) Bayesian Information Criterion (BIC) (Schwarz, 1978):

BIC = −2lnL + ln(N ) · q

Si la parsimonia (simpleza) es importante BIC es preferible

(c) Otros

CAIC - Consistent AIC = −2lnL + [1 + ln(N )] · q


AIC −2lnL + 2q
También: =
N N
BIC −2lnL + ln(N ) · q
=
N N
Si la parsimonia es importante, BIC es preferible.

Ejemplo: Considere dos modelos anidados (por motivos de exposición) con q1 y q2


parámetros respectivamente, donde q2 = q1 + h.
!
L(θ̃r )
LR = −2ln
L(θ̂u )
Se puede hacer un test LR que favorece el modelo más grande (sin restringir) con 5% de
significancia, si 2lnL se incrementa en χ20.05 (h).
Por otro lado, el AIC favorece el modelo más grande si 2lnL se incrementa en más de 2h
(lo que es una penalización menor que LR-test si h < 7).
En particular, si h=1, χ20.05 (1) = 3.84 será el valor crı́tico del LR, mientras que AIC usa
2. [χ20.05 (6) = 12.59, χ20.05 (7) = 14. Si h=7, entonces 2h = 14].
Finalmente, el BIC favorece el modelo más grande si 2lnL aumenta en h·lnN , con una pe-
nalización mucho más grande que AIC o LR al 5% (a menos que N sea demasiado pequeño).
[ln(200)=5.2, ln(1000)=6.9].

Es importante notar que el BIC aumenta la penalización cuando aumenta N, mientras


que los test de hipótesis tradicionales al 5% no.
Por ejemplo, para modelos anidados con q2 = q1 +1, escoger el modelo más grande basado

en un menor BIC es equivalente a usar un t-test (de dos colas) con valor crı́tico lnN , que
es equivalente a:

90
t-value N
2.15 102 =100
3.03 104 =10000
3.72 106 =1000000

que son mayores que el tradicional 1.96.

Generalizando, para un estadı́grado con distribución χ2(h) , el criterio BIC sugiere usar un
valor crı́tico h · lnN en vez de χ20.05 (h).

Si bien los Criterios de Información se utilizan para selección de modelos, debe primar el
concepto de “para qué se quiere utilizar el modelo”.

91
Ejemplo: [Dibujar datos de una cúbica] ¿Cuál modelo es mejor: lineal, cuadrático,
cúbico?

|
| *
| * *\*
| * * * \ * **
| * *\ * *
| **\* *
| * *\ * *
| *\ * *
| **\* *
| * * \ * *
| * * \ * * *
| * * \ * * * *
| * \* *
| \
|_________________________________

⇒ Para predicción, el modelo cúbico parece mejor.


⇒ Para graficar caracterı́sticas generales el lineal o cuadrático pueden ser mejores.

92
6.4 Diagnóstico de Modelos
Capı́tulo
En modelos lineales con K regresores, la medida más directa de bondad de ajuste es el error VIII,
pág.
estándar de la regresión: 287 y
Capı́tulo
XV, pág
# 12
499.
" N
1 X
S = · (yi − ŷi )2
N − K i=1

La medida más utilizada en modelos lineales es el coeficiente de determinación múltiple


R2 . Se puede demostrar que:

N
X N
X N
X N
X
2 2 2
(yi − y i ) = (yi − ŷi ) + (ŷi − y i ) + 2 (yi − ŷi )(ŷi − y i )
|i=1 {z } |i=1 {z } |i=1 {z } | i=1
{z }
T SS RSS ESS =0 en modelo lineal con intercepto

con TSS=Total Sum of Squares, ESS=Explained Sum of Squares, RSS=Residual Sum of


Squares. Luego, se define el R2 como:

2 RSS
RRES = 1−
T SS
2 ESS
REXP =
T SS
2 2
En MCO con intercepto RRES = REXP , pero en otros modelos no.

En modelos no lineales se usa tı́picamente el Pseudo-R2 . En realidad hay muchas inter-


pretaciones del Pseudo-R2 . STATA usa McFadden:

lnL̂completo
Pseudo R2 de McFadden = 1 −
lnL̂intercepto

L̂completo = Valor maximizado de la función de verosimilitud del modelo completo.


L̂intercepto =Valor maximizado de la función de verosimilitud del modelo solo con un in-
tercepto (aproxima la suma total de los cuadrados).

93
lnL̂completo
lnL̂intercepto
≈ nivel de mejoramiento que se obtiene con modelo completo.

Dado que L es una probabilidad, ∈ [0, 1]. Luego, el logaritmo de un número que está
entre [0, 1] ∈ [−∞, 0].

Si L̂completo es mayor que L̂intercepto , entonces lnL̂completo > lnL̂intercepto , es decir, menos
negativo. Ahora bien, como es una razón, se cancelan los negativos. Luego, en valor absoluto
se da que |lnL̂intercepto | > |lnL̂completo |. De esta forma, si el modelo completo aumenta la
probabilidad, entonces el Pseudo-R2 aumenta.
Adicionalmente existe una expresión del Pseudo-R2 de McFadden ajustado, que penaliza
la inclusión de muchos regresores:
lnL̂completo − k
Pseudo R2 de McFadden Ajustado = 1 −
lnL̂intercepto

6.5 Factor de Influencia de Cook


Cook
(1997)
Al usar datos de encuestas, los datos son de naturaleza probabilı́stica. Es decir, son una
realización del proceso generador de datos subyacente cuando las variables son aleatorias en
si mismas. Entonces, es posible obtener valores “muy grandes” o “muy pequeños”, extremos
que pueden influenciar mucho los resultados de la regresión.

Paralelamente, puede ocurrir que resultados de la estimación se vean “manejados” por


valores extremos, siendo estos poco probables. En algunos casos los modelos no lineales
pueden ser útiles para acomodar tales datos, pero es importante y útil saber si hay algunas
observaciones desproporcionadamente influyentes en la regresión.

Cook (1977) propuso un estadı́grafo para identificar observaciones extremadamente in-


fluyentes en modelos lineales.

La “distancia de Cook” mide el efecto de eliminar una observación:

94
PN
− ŷj(i) )2
j=1 (ŷj
Di =
k · M SE
ŷj = Valores predichos con la muestra completa

ŷj(i) = Valores predichos sin la observación i

k = Número de regresores

M SE = Error cuadrático medio.

En esencia, la distancia de Cook mide cómo se afecta la predicción promedio del modelo
al incluir una observación en particular.

Cook demostró que es equivalente a un test de Wald con H0 : βj = β0 , donde β0 = β̂j(i) ,


coeficiente obtenido sin la observación i, de modo que se puede usar un test F (k, N − k)
para un nivel de signficancia 1 − α.

La “regla de oro” de Cook en definitiva es que si:

4
Di >
N − (k + 1)
Se debe considerar investigar esa observación.

Ejemplo STATA:
sysuse auto
reg price mpg
predict Di, cooksd

6.6 Multicolinealidad

Ocurre cuando los regresores están correlacionados entre si (es casi imposible encontrar cor-
relación empı́rica igual a cero).

Puede haber diversas fuentes de multicolinealidad:

95
• Método de recolección de información utilizada (se usa una submuestra muy particu-
lar).

• Existencia de restricciones en el modelo o en la población.

No existe una única forma de detectar multicolinealidad. No obstante se debe sospechar


si:

1. R2 es alto pero los parámetros no son significativos ⇒ Varianzas infladas en V (β̂) =


σ 2 (X 0 X)−1 porque (X 0 X)−1 es ‘casi’ no singular.

2. Pequeños cambios en los datos generan grandes cambios en β̂M CO .

3. Los coeficientes tienen signos opuestos a los esperados por la economı́a, o tienen mag-
nitudes poco creı́bles.

Estadı́sticamente se puede revisar el factor de inflación de la varianza (VIF):

1
V IFk = .
1 − Rk2

Donde Rk2 es el R2 de la regresión del regresor k en el resto de las variables explicativas


del modelo. Si Rk2 es grande implica que Xk se puede expresar como una combinación lineal
de las otras variables del modelo:

Xk = δ̂0 + δ̂1 X1 + δ̂2 X2 + ... + δ̂k−1 Xk−1 + δ̂k Xk

Se debe sospechar del modelo si el promedio de los factores de inflación de la varianza es


mayor a 10 (V IF K > 10).

La “regla de oro” es que si V IFk > 10 se debe estudiar eliminar del modelo la variable
k.

96
7 Métodos Semiparamétricos (Clases 15,16)
CLASE
18
Capı́tulo
Se busca minimizar los supuestos respecto al proceso de generación de datos. IX, pág.
294-297

Estos métodos tienen múltiples usos, entre los que destacan descripción de datos, simu-
laciones y análisis exploratorio.

Los modelos no paramétricos limitan el análisis multidimensional, por lo que los econometris-
tas prefieren modelos semiparamétricos. Estos modelos incluyen un componente paramétrico,
que captura la multidimensionalidad sin hacer el modelo intratable, y agregad un compo-
nente no paramétrico.

La teorı́a asintótica difiere de la usual, donde los métodos no paramétricos suelen tener
convergencia asintótica más lenta.

Por otro lado, los modelos no paramétricos son métodos de promedios locales, de modo
que la definición de “local” también determina los resultados. Es común utilizar el método
poco cientı́fico de escoger un ancho de banda para definir localidad de acuerdo a lo que se
vea bien gráficamente.

En general se dice que todos los métodos de ‘suavización’ son, en un sentido asintótico,
equivalentes a la suavización de Kernel.

97
SEMIPARAMETRIC METHODS

Histogram for Log Wage

.6
A continuación se presentan ejemplos de estos métodos:

.4
Density
1. Histograma:

.2
SEMIPARAMETRIC METHODS

Histogram for Log Wage

0
0 1 2 3 4 5

.6
Log Hourly Wage
Figure 9.1: Histogram for natural logarithm of hourly wage. Data for 175 U.S. women aged
36 years who worked in 1993.
.4
Density

unusually narrow bin width for only 175 observations, but many details are lost with
.2

a larger bin width. The log-wage data seem to be reasonably symmetric, though they
are possibly slightly left-skewed.
0

The standard smoothed nonparametric density estimate is the kernel density esti-
0 1 2 3 4 5
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
Log Hourly Wage
The essential decision in implementation is the choice of bandwidth. For this ex-
FigureSilverman’s
ample 9.1: Histogram for natural
plug-in logarithm
estimate of hourly
defined wage.
in (9.13) Databandwidth
yields for 175 U.S.
ofwomen aged
h = 0.545.
36 years who worked in 1993.
Then the kernel estimate is a weighted average of those observations that have log
wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed
unusually narrowon bindata closest
width to the175
for only current point of evaluation.
observations, Figure are
but many details 9.2 lost
presents
with
2. three kernel
Kernela larger
con bin density estimates,
width. The log-wage
diferentes with
anchosdata bandwidths
de seem
Banda: of 0.273, 0.545 and 1.091, respectively
to be reasonably symmetric, though they
are possibly slightly left-skewed.
The standard smoothed nonparametric density estimate is the kernel density esti-
Density Estimates as Bandwidth Varies
mate defined in (9.3). Here we use the Epanechnikov kernel defined in Table 9.1.
The essential decision in implementation is the choice of bandwidth. For this ex-
.8

One-half plug-in
ample Silverman’s plug-in estimate defined in (9.13) yieldsPlug-inbandwidth of h = 0.545.
Kernel density estimates

Two times plug-in


Then the kernel estimate is a weighted average of those observations that have log
.6

wage within 0.21 units of the log wage at the current point of evaluation, with great-
est weight placed on data closest to the current point of evaluation. Figure 9.2 presents
.4

three kernel density estimates, with bandwidths of 0.273, 0.545 and 1.091, respectively
.2

Density Estimates as Bandwidth Varies


.8 0

0 1 2 3 4
One-half 5
plug-in
Log Hourly Wage Plug-in
Kernel density estimates

Two times plug-in


Figure 9.2: Kernel density estimates for log wage for three different bandwidths using the
.6

Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.
.4

296
.2
0

0 1 2 3 4 5
Log Hourly Wage
Figure 9.2: Kernel density estimates for log wage for three different bandwidths using the
Epanechnikov kernel. The plug-in bandwidth is h = 0.545. Same data as Figure 9.1.

296

98
Figure 9.3 gives a scatter plot of log wage against education and three Lowess
regression curves for bandwidths of 0.8, 0.4 and 0.1. The first two bandwidths give
similar curves. The relationship appears to be quadratic, but this may be speculative as
the data are relatively sparse at low education levels, with less than 10% of the sample
having less than 10 years of schooling. For the majority of the data a linear relationship
may also work well. For simplicity we have not presented 95% confidence intervals or
3. Regresión Nomight
bands that paramétrica:
also be provided.

Nonparametric Regression as Bandwidth Varies

5
Actual data Bandwidth h=0.8
Bandwidth h=0.4 Bandwidth h=0.1

4
Log Hourly Wage
3
2
1
0

0 5 10 15 20
Years of Schooling
Figure 9.3: Nonparametric regression of log wage on education for three different band-
widths using Lowess regression. Same sample as Figure 9.1.

297
En todos los casos anteriores se puede mostrar curvas por distinto género, ubicación
geográfica, o nivel socioeconómico por ejemplo.

7.1 Estimación de Densidad de Kernel

La estimación de densidad de Kernel es un método de ‘suavización’. Se busca suavización


para identifcar comportamientos ‘estilizados’ de las variables. A mayor suavización, más
fácil interpretar razgos fundamentales, pero se pierden detalles de comportamiento no lineal.

7.2 Histograma
Capı́tulo
Un histograma es una estimación de densidad formada a través de dividir el rango de x en IX, pág.
298
intervalos con igual espaciado y calcular la fracción de la muestra en cada intervalo.

Una definición más formal (que se extiende luego a la suavización Kernel) es la siguiente:

Considere la estimación de la función de densidad f (x0 ) de una variable continua escalar


dF (x0 )
evaluada en x0 . Dado que dx
= f (x0 ):
F (x0 + h) − F (x0 − h)
f (x0 ) = lim
h→0 2h
P r[x0 − h < x0 < x0 + h]
= lim
h→0 2h

99
Para una muestra {xi , i = 1, ..., N } de tamaño N, esto sugiere utilizar el estimador:
N
1 X 1(x0 − h < xi < x0 + h)
fˆHIST (x0 ) =
N i=1 2h

donde la función indicador es:



 1 Si el evento A ocurre
1(A) =
 0 Si no
Este estimador es una estimación de histograma centrada en x0 con ancho 2h. Evaluando
fˆHIST para un rango de x se obtiene el histograma.

Nótese que el estimador pondera de la misma manera a cada una de las observaciones en
el intervalo x0 ± h, y se puede reescribir como:
N
xi − x0
 
1 X1
fˆHIST (x0 ) = · 1 <1
N h i=1 2 h

Esto lleva a que, si bien la variable es continua, se obtiene una step function o función
discontinua escalonada.

100
7.3 Estimador de Densidad Kernel
Capı́tulo
IX, pág.
Rosenblatt (1956) generaliza el estimador del histograma usando una función de ponderación
299-300
alternativa:

N
xi − x0
 
1 X
fˆ(x0 ) = K
Nh i=1 h

donde la función de ponderación K(·) se llama “función Kernel” y debe satisfacer ciertas
propiedades. El parámetro h es un parámetro de suavizamiento llamado “ancho de banda”
(bandwith) y dos veces h es la “ventana”.

La función de densidad se obtiene de evaluar fˆ(x0 ) en un conjunto de valores bastante


más ancho alrededor de x0 (usualmente toda la muestra).

La función K(·) es continua, simétrica alrededor de cero y tiene integral igual a 1. Se


asume que la función Kernel satisface:

(i) K(z) es simétrica alrededor de cero y continua.


R R R
(ii) K(z)dz = 1, zK(z)dz = 0 y |K(z)|dz < ∞

(iii) Ocurre: (a) K(z)=0 si |z| ≥ z0 para algún z0 , o : (b) |z|K(z) → 0 si |z| → ∞.
R
(iv) z 2 K(z)dz = κ =constante

Usualmente, z ∈ [−1, 1] ⇒ cumple (iii) (a).

Las funciones de Kernel más comunes son:

101
Kernel Kernel Function K (z) δ
1
Uniform (or box or rectangular) 2
× 1(|z| < 1) 1.3510
Triangular (or triangle) (1 − |z|) × 1(|z| < 1) –
3
Epanechnikov (or quadratic)
SEMIPARAME
(1 − z 2 ) × 1(|z| < 1)
4 TRIC METHODS
1.7188
15
Quartic (or biweight) 16
(1 − z 2 )2 × 1(|z| < 1) 2.0362
Table
Triweight 35
9.1. Kernel Functions: Commonly
32
Used
(1 ) × 1(|z|a < 1)
2 3
− zExamples 2.3122
70
Tricubic 81
(1 − |z|3 )3 × 1(|z| < 1) –
Kernel Kernel Function 2K (z)
−1/2 δ
Gaussian (or normal) (2π) exp(−z /2) 0.7764
11
Uniform (or box
Fourth-order or rectangular)
Gaussian × 1(|z| 2< 1) −1/2
2 2 (3 − z) (2π) exp(−z 2 /2) 1.3510

Triangular (or quartic
Fourth-order triangle) (115−
(3|z|) × 1(|z|
− 10z 2
+ 7z<4 )1)× 1(|z| < 1) ––
32
3
Epanechnikov (or quadratic) 4
(1 − z 2 ) × 1(|z| < 1) 1.7188
a The constant δ is defined in (9.11) and is used to obtain Silverman’s plug-in estimate given in (9.13).
15 2 2
Quartic (or biweight) 16
(1 − z ) × 1(|z| < 1) 2.0362
35
Triweight 32
(1 − z 2 )3 × 1(|z| < 1) 2.3122
9.3.4. Kernel 70 Density 3 3Example
Tricubic 81
(1 − |z| ) × 1(|z| < 1) –
The key choice of bandwidth h has already−1/2
Gaussian (or normal) (2π) been illustrated
2
exp(−z /2) in Figure 9.2. 0.7764
Here we illustrate
Fourth-order Gaussian the choice of kernel
1 using2 generated
(3 − z) (2π) −1/2 data,
exp(−z /2)2 a random sample of

2
size 100 drawn from the N [0, 252 ] distribution. 15 2
For the4
particular sample drawn the
Fourth-order quartic (3 − 10z + 7z ) × 1(|z| < 1) –
sample mean is 2.81 and the sample standard 32 deviation is 25.27.
aFigure 9.4 shows the effect of using different kernels.plug-in
The constant δ is defined in (9.11) and is used to obtain Silverman’s For Epanechnikov, Gaussian,
estimate given in (9.13).
quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
9.3.4. Kernel Density Example
La estimates
elección are very es
del Kernel similar, even for the
nuevamente ununiform
tema kernel which produces
de preferencias a running
basado en que “se vea
histogram.
The Theofvariation
key choice bandwidth in density estimate
h has already with
been kernel choice
illustrated in Figureis much
9.2. less than the
bien”: variation
Here wewith bandwidth
illustrate choiceof
the choice evident
kernelinusing
Figure 9.2.
generated data, a random sample of
size 100 drawn from the N [0, 252 ] distribution. For the particular sample drawn the
sample mean is 2.81 and the sample standard deviation is 25.27.
Figure 9.4 shows the effectDensity of usingEstimates as Kernel Varies
different kernels. For Epanechnikov, Gaussian,
.6

quartic and uniform kernels, Silverman’s plug-in estimate given in (9.13) yields band-
widths of, respectively, 0.545, 0.246, 0.246, and 0.214. The resulting kernel density
Kernel density estimates

estimates are very similar, even for the uniform kernel which produces a running
.4

Epanechnikov (h=0.545)
histogram. The variation in density estimate with kernel choice is much less than the
Gaussian (h=0.246)
variation with bandwidth choice evident in Figure 9.2.Quartic (h=0.646)
Uniform (h=0.214)
.2

Density Estimates as Kernel Varies


.6
0
Kernel density estimates

0 1 2 3 4 5
Log Hourly Wage
.4

Epanechnikov (h=0.545)
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
Gaussian (h=0.246)
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.
Quartic (h=0.646)
Uniform (h=0.214)
.2

300
0

0 1 2 3 4 5
Log Hourly Wage
Figure 9.4: Kernel density estimates for log wage for four different kernels using the corre-
sponding Silverman’s plug-in estimate for bandwidth. Same data as Figure 9.1.

300

102
7.4 Inferencia Estadı́stica
Capı́tulo
IX, pág.
(a) Media y Varianza El sesgo depende del ancho de banda. 301-305

Para encontrar el primer y segundo momento de fˆ(x0 ) se asume que la segunda derivada
R
de f (x) existe y es acotada; y que el kernel satisface zK(z)dz = 0.

El estimador de la densidad del Kernel es sesgado con un término de sesgo b(x0 ) que
depende del ancho de banda, de la curvatura verdadera de la función de densidad y del
Kernel utilizado:

Z
1
b(x0 ) = E[fˆ(x0 )] − f (x0 ) = h2 f 00 (xo ) z 2 K(z)dz
2

El sesgo desaparece asintóticamente si h → 0 y N → ∞.


El sesgo desaparece asintóticamente si el ancho de banda tiene a 0 y la muestra tiende a infinito

Asumiendo que h → 0 y N → ∞, la varianza del estimador de la densidad del Kernel


es:

Z  
1 1
V [fˆ(x0 )] = f (xo ) 2
K(z) dz + O
Nh Nh

con O(·) función de sesgo. La varianza depende del tamaño de la muestra, del ancho de
banda, de la verdadera función de densidad y del Kernel utilizado.

La varianza desaparece si N h → ∞, lo que requiere que h → 0 más lento que N → ∞.


La varianza desaparece si el producto del tamaño muestral con el ancho de banda tiende a infinito. El ancho de banda tiene que tender a 0 más lento de lo
que la muestra tiende a infinito.

Entonces el estimador de Kernel es consistente puntualmente. Esto es, para un punto


en particular x = x0 , si el sesgo y la varianza desaparecen, será consistente. Esto ocurre
si h → 0 y N h → ∞.

103
También se puede demostrar normalidad asintótica del Kernel.

(b) Elección del ancho de banda

Existe tensión entre escoger un ancho de banda pequeño para reducir el sesgo y elegir un
ancho de banda grande para asegurar suavizamiento [Hacer dibujo de histograma con
distintos anchos de banda]. Habitualmente se utiliza la métrica del Error Cuadrático
Medio (MSE).

Minimizando el Mean Integrated Squared Error (MISE) se puede obtener un ancho de


banda óptimo (que minimice el MISE) de acuerdo al Kernel (Silverman, 1986).

El ancho de banda óptimo depende de la curvatura de la función de densidad, donde h∗


será más pequeño si f (x) es altamente variable.

Por otro lado, se puede demostrar que el Kernel óptimo es el Epanechnikov, pero el
MISE varı́a poco según el Kernel.
La elección del ancho de banda es más importante que la elección del kernel

La elección del ancho de banda es más importante que el Kernel. Silverman propuso un
plug-in estimate del ancho de banda como una función simple que depende de N y de la
desviación estándar muestral.

A mayor varianza, mayor ancho de banda. A mayor N, menor ancho de banda.

Usualmente se puede usar variaciones del plug-in. También se puede obtener intervalos
de confianza para la estimación Kernel.

104
7.5 Regresión No paramétrica Local
Capı́tulo
Variable dependiente e independiente son escalares: IX, pág.
307
yi = m(xi ) + i , i=1,...,N.

i ∼ iid(0, σ2 )

Como no se conoce m(·), no se puede aplicar MCNL.

7.5.1 Método de promedio locales ponderados


Capı́tulo
Suponga que para un valor de xo hay múltiples observaciones de y (N0 observaciones). Por IX, pág.
307-308
ejemplo, x0 podrı́a ser Educación Primaria o 7 años de educación. Un estimador obvio para
m(x0 ) es el promedio de y en las N0 observaciones, que llamaremos m̃(x0 ).

m̃(x0 ) ∼ [m(x0 ), N0−1 σ2 ]

m̃(x0 ) es insesgado, pero no consistente.

La inconsistencia se puede entender de la siguiente manera. Para variables continuas de


x se puede tener muy pocas observaciones N0 para un x0 dado. Para variables discretas
también puede ocurrir lo mismo. Entonces si N → ∞, no está garantizado que N0 → ∞, y
por lo tanto tampoco que V [m̃(x0 )] → 0.

El problema de la falta de densidad de datos en x0 se puede compensar promediando


alrededor de x0 (agregando a x0 aquellas observaciones cercanas a x0 ). El estimador m̃(x0 )
se puede expresar como:
X
m̃(x0 ) = ωi0 yi
i


1

N0
Si xi = x0
ωi0 =
 0 Si xi 6= x0

105
El peso varı́a con el punto de evaluación x0 y con el tamaño de la muestra en ese punto N0 .

Más generalmente, el estimador de promedios locales ponderados será:


X
m̂(x0 ) = ωi0,h × yi
i

PN
donde ωi0,h = ω(xi , x0 , h) y i=1 ωi0,h = 1, donde además los pesos aumentan cuando xi
se acerca a x0 . h es el parámetro de ancho de ventana.

Una alternativa son los ‘vecinos más cercanos’, para lo cual se debe utilizar una métrica
que permita seleccionar con cuáles vecinos se calculará el ponderador.

El estimador de regresión local lineal Lowess propone una estimación suavizada de m(x)
usando los Kernel como pesos. Ejemplo de vecino más cercano:
9.4. NONPARAMETRIC LOCAL REGRESSION

k-Nearest Neighbors Regression as k Varies


350

Actual Data
kNN (k=5)
Linear OLS
300
Dependent variable y

kNN (k=25)
250
200
150

0 20 40 60 80 100
Regressor x
Figure 9.5: k-nearest neighbors regression curve for two different choices of k, as well as
OLS regression line. The data are generated from a cubic polynomial model.

The slope of m
! (x) is flatter at the end points when k = 25 rather than k = 5. This
k
Lowess: illustrates a boundary problem in estimating m(x) at the end points. For example,
for the smallest regressor value x1 there are no lower valued observations on x
to be included, and the average becomes a one-sided average m !k (x1 ) = (y1 + · · · +
y1+(k−1)/2 )/[(k + 1)/2]. Since for these data m k (x) is increasing in x in this region,
this leads to m!k (x1 ) being an overestimate and the overstatement is increasing in k.
Such boundary problems are reduced by instead using methods given in Section 9.6.2.

9.4.3. Lowess Regression Example


Using alternative weights to those used to form the symmetrized k–NN estimator can
lead to better estimates of m(x).
An example is the Lowess estimator, defined in Section 9.6.2. This provides a
smoother estimate of m(x) as it uses kernel106 weights rather than an indicator func-
tion, analogous to a kernel density estimate being smoother than a running histogram.
It also has smaller bias (see Section 9.6.2), which is especially beneficial in estimating
m(x) at the end points.
SEMIPARAMETRIC METHODS

Lowess Nonparametric Regression

350
Actual Data
Lowess (k=25)

Dependent variable y
OLS Cubic Regression

300
250
200
150
0 20 40 60 80 100
Regressor x
Figure 9.6: Nonparametric regression curve using Lowess, as well as a cubic regression
curve. Same generated data as Figure 9.5.

7.6 SubstitutingSemiparamétrica
Regresión yi = m(xi ) + εi into the definition of m
!(x0 ) leads directly to
N
" N
" Capı́tulo
!(x0 ) −
m wi0,h m(xi ) = wi0,h εi , IX, pág.
Combina un componente paramétrico i=1
y uno semi-paramétrico.
i=1
322-323
which implies with fixed regressors, and if εi are iid N [0, σε2 ], that
# $
El ejemplo más sencillo es el modelo" N
parcialmente2 " N
lineal:
2
!(x0 ) ∼ N
m wi0,h m(xi ), σε wi0,h . (9.18)
i=1 i=1

Note that in general m


E[y|X, z] = X 0 β + λ(z)
!(x0 ) is biased and the distribution is not necessarily centered
around m(x0 ).
Withparamétrica
donde la parte stochastic regressors
es β and
y lanonnormal errors, we es
no paramétrica condition
λ(·). onOtros . , x N and
x1 , . .Ejemplos:
apply a central limit theorem for U-statistics that is appropriate for double summations
(see, for example, Pagan and Ullah, 1999, p. 359). Then [0, σε2 ],
Índice Simple: E[y|X, z] = g(X 0 β) for εi iid / g(·) no paramétrico
# $
N
" "N
d
c(N )
Parcialmente lineal Generalizado: εi → N
E[y|X,
wi0,h z] 0,=σε2 lim
g(X 0 )2
c(Nβ + λ(z))2
wi0,h , / g(·) y λ(·) (9.19)no paramétricos
i=1 i=1

1/2
where c(N ) is a function of the sample size√ with O(c(N )) < N that can vary with
the local estimator. For example, c(N ) = N h for kernel regression and c(N ) = N 0.4
7.7 Consideraciones Prácticas
for kernel regression with optimal bandwidth. Then
# $ Capı́tulo
N
"
c(N ) (!
m (x0 )univariada
− m(x0 ) − b(xes
d 2 2 2 IX, pág.
La estimación de densidad 0 )) → N 0, y
sencilla lim c(N ) en w
σε directa los
i0,h paquetes
, (9.20)
actuales usando
i=1 333
Epanechnikov o gaussian Kernels.%
where b(x ) = m(x )−
0 w 0 i i0,h m(x i ). Note that (9.20) yields (9.18) for the asymp-
!(x0 ).
totic distribution of m
Clearly, the distribution of m!(x0 ), a simple weighted average, can be obtained un-
La der alternative distributional assumptions.
regresión no paramétrica univariada también For example, for heteroskedastic
es bastante errors
sencilla más allá del prob-
310En vez de un plug-in como punto de partida
lema de escoger un ancho de banda adecuado.
para el ancho de banda se utiliza el método de “validación cruzada” (leave-one-out) en que se
busca minimizar los errores de predicción ponderados dejando una observación fuera a la vez.

107
[Mostrar gráficos de Splines].

La regresión semi-paramétrica es más compleja por los problemas de suavizamiento mul-


tivariado.

108
8 Modelos de Variable Dependiente Limitada (Clases
17,18,19)
Los modelos de variable dependiente limitada implican que la variable del lado izquierdo no
está definida en conjunto de los números reales, sino que tiene algún tipo de limitación en
los valores que puede tomar. Los casos más simples son los modelos binarios. Por otro lado,
casos más complejos son los modelos con truncamiento o censura, que dan origen a modelos
de selección y Tobit. Por último, otras variantes que no se verán en este curso incluyen
modelos de variables discretas ordenadas y modelos multinomiales.

8.1 Modelos Binarios


CLASE
19
Capı́tulo
Son modelos en que solo hay 2 posibles resultados de la variable dependiente. XIV,
pág.
463-466
Dado el carácter binario, la distribución de los datos es necesariamente una Bernoulli.
Por esto, dado que la distribución es conocida, se estima por MV.

La variable dependiente binaria se define como:



 1 Si ocurre algún evento, caracterı́stica, elección, etc.
yi =
 0 Si no

Se escoge los valores 0 y 1 solo por simplicidad (podrı́an ser cualquier par de valores).
Asumiento inicialmente un solo regresor X, hacer MCO de yi en xi ignorarı́a la discreción
de la variable dependiente y no acotarı́a las probabilidades predichas entre 0 y 1.

109
BINARY OUTCOME MODELS

Predicted Probabilities Across Models

1.5
Actual Data (jittered)
Logit
Probit

Predicted probability
1
OLS

.5
0
-.5 -2 0 2 4

Log relative price (lnrelp)


Figure 14.1: Charter boat fishing: predicted probability from logit and probit models and
OLS prediction when the single regressor is the natural logarithm of relative price. Actual
outcomes of 1 or 0 are also plotted after jittering for readability. Data for 620 individuals.

8.1.1 Modelo Binario General


14.3.1. General Binary Outcome Model Capı́tulo
For binary outcome data the dependent variable y takes one of two values. We let XIV,
Se asume que:
!
pág.
1 with probability p, 466
y=

 1 0 with probability 1 − p.
con probabilidad p
yi =
There is no loss of generality
 in 0 setting
contheprobabilidad
values to 1 and 01if−
allpthat is being modeled
is p, which determines the probability of the outcome. In introductory statistics this
No hay model describes
pérdida the outcome
de generalidad enoftomar
a coin valores
toss where0y heads leads que
1, dado to y =la1atención
and occursestá centrada
with probability p.
en p. A regression model is formed by parameterizing the probability p to depend on a
regressor vector x and a K × 1 parameter vector β. The commonly used models are
of single-index form with conditional probability given by
La parametrización para el modelo de regresión se forma de manera tal que la probabil-
pi ≡ Pr[yi = 1|x] =F(xi$ β), (14.1)
idad p depende de un vector de regresores X de k × 1 y un parámetro de vectores β.
where F(·) is a specified function. To ensure that 0 ≤ p ≤ 1 it is natural to specify
F(·) to be a cumulative distribution function.
Los modelos Table 14.3 presents
usualmente the most commonly
propuestos son de laused binary
forma deoutcome
‘ı́ndicemodels.
simple’The logit
(single-index), con
model arises if F(·) is the cdf of the logistic distribution and the probit model arises
probabilidadifcondicional dada normal
F(·) is the standard por: cdf. Note that if F(·) is a cdf, then this cdf is only
being used to model the parameter p and does not denote the cdf of y itself. The
less-used complementary log-log model arises if F(·) is the 0 cdf of the extreme value
p = P r[y = 1|X] = F (X β) around zero and is
distribution. It differs from the other models in being asymmetric
i i i
used when one of the outcomes is rare. The linear probability model does not use a
cdf es
donde F (·) anduna
instead = xi$ β.
lets pi especı́fica.
función Para asegurar que 0 ≤ p ≤ 1 ‘es natural’ especificar
466
que F (·) sea una función de distribución acumulada.

Algunas funciones usuales:

110
14.3. LOGIT AND PROBIT MODELS

Table 14.3. Binary Outcome Data: Commonly Used Models

Model Probability ( p = Pr[y = 1|x]) Marginal Effect (∂p/∂xj )


x! β
e
Logit "(x! β) = "(x! β)[1 − "(x! β)]β j
!1 x+
!
e x! β
! β
Probit $(x β) = −∞ φ(z)dz φ(x! β)β j
Complementary log-log C(x! β) = 1 − exp(− exp(x! β)) exp(− exp(x! β)) exp(x! β)β j
Linear probability x! β βj

8.1.2 Motivación de modelos 14.3.2.


binariosMarginal Effects de “Variable Latente”
a través
Capı́tulo
Interest lies in determining the marginal effect of change in a regressor on the condi-
XIV,
Una variabletional probability
latente es unathatvariable
y = 1. Forque
general probabilitydemodel
se observa (14.1)incompleta.
manera and change in the
A continuación
jth regressor, assumed to be continuous, this is
pág.
se revisará la motivación a través de modelos de función ı́ndice y de modelos de utilidad 475-478
∂ Pr[yi = 1|xi ]
aleatoria. = F ! (xi! β)β j , (14.2)
∂ xi j

where F ! (z) = ∂ F(z)/∂z. The marginal effects differ with the point of evaluation xi ,
as for any nonlinear model, and differ with different choices of F(·). The last column
(a) Modelos of Table 14.3 gives the
de Función marginal effects for the common binary outcome models.
Índice
Marginal effects for nonlinear models are discussed in Section 5.2.4. Given a spe-
Se asume cificlamodel
existencia
there arede unaways
several variable aleatoria
to compute subyacente
an average continua
marginal effect. notoobservada y ∗ .
It is best
"
use N −1 i F ! (xi! #β)# β j , the sample average of the marginal effects. Some programs
Lo únicoinstead
que se observa es una variable binaria y que toma
evaluate at the sample average of the regressors, F ! (x̄!# β)#
valor 1 o 0 de acuerdo a si
β j . An easily con-
structed
y ∗ es mayor measure que
o menor evaluates at ȳ, the
un cierto sample average of y, so that F(x! β) = ȳ and
umbral.
! ! ! −1
F (x β) = F (F ( ȳ)). This is especially simple for the logit model as then this yields
estimated marginal effect ȳ(1 − ȳ)# β j . Further discussion for specific models is given
in Sections 14.3.4–14.3.7.
SupóngaseMany que studies instead
y ∗ es una report only
variable the regression
latente que indica coefficients.
el “deseo Thede standard
trabajar”binaryen un modelo
outcome models are single-index models, so the ratio of coefficients for two different
de ofertaregressors
laboral.equals the ratio of natural
La regresión the marginal effects. The sign of the coefficient gives
serı́a:
the sign of the marginal effect, since F ! (·) > 0. The coefficients can be used to obtain
an upper bound on the marginal effects. For the logit model ∂ p/∂ x j ≤ 0.25# β j , since
"(x! β)(1 − "(x! β)) ≤ 0.25, with maximum when √ "(x! β) = 0.5 and x! β = 0. For the
probit model ∂ p/∂ x j ≤ 0.4# β j , since φ(x! β) ≤ 1/ 2π & 0.4, with maximum when
$(x β) = 0.5 and x β = 0.
! ! y∗ = X 0β + u

donde y ∗ es la variable latente. 14.3.3. ML Estimation


We consider estimation given a sample (yi , xi ), i = 1, . . . , N , where we assume inde-
pendence over i. Results are given for pi defined in (14.1), with specialization to logit
Sin and probit
embargo, comospecifications given later.
no se observa y ∗ , no se puede estimar. En cambio, se observa una
467
función ı́ndice: 
 1 si y ∗ > 0
y=
 0 si y ∗ ≤ 0

111
donde el umbral cero es una normalización (podrı́a ser cualquier valor para el umbral).
Entonces,

P r[y = 1|X] = P r[y ∗ > 0]

= P r[X 0 β + u > 0]

= P r[−u < X 0 β]

= F (X 0 β)

donde F (·) es la cdf de −u, que es igual a la cdf de u si ocurre que u se distribuye
simétricamente alrededor de cero.

Entonces, la función F (·) proviene de la distribución del término de error u. Lo más


usual es usar una distribución normal o logı́stica, donde los parámetros β estarán ‘escal-
ados’ de acuerdo a la varianza de u.

Para obtener identificación de los parámetros se debe fijar la varianza del error. Por
π2
ejemplo, en el caso normal será V [u] = 1, y en el caso logı́stico V [u] = 3
.

(b) Modelos de Utilidad Aleatoria

Se asume que un consumidor escoge entre alternativas A y B de acuerdo a su nivel de


satisfacción o utilidad.

La variable discreta y toma valor igual a 1 si la alternativa A le genera mayor bienestar


y 0 si la alternativa B legenera mayor bienestar.

El modelo de utilidad aleatoria aditiva especifica entonces las alternativas:

UA = VA + A

UB = VB + B

112
donde VA,B son componentes determinı́sticos de la utilidad y A y B son componentes
aleatorios de la utilidad.

Un ejemplo simple es VA = X 0 βA y VB = X 0 βB , aunque sólo se puede identificar


(βA − βB ).

La alternativa con mayor utilidad es la escogida, de modo que se observa y = 1 si


UA > UB . Ası́:

P r[y = 1] = P r[UA > UB ]

= P r[VA + A > VB + B ]

= P r[B − A < VA − VB ]

= F [VA − VB ]

donde F (·) es la cdf de (B − A ). Finalmente P r[y = 1] = F (X 0 β) si VA − VB = X 0 β.

8.1.3 Efectos Marginales


Capı́tulo
Para un modelo general de probabilidad, asumiendo un regresor j continuo, el efecto marginal XIV,
pág.
del regresor j será: 467

∂P r[y = 1|Xi ]
= F 0 [Xi0 β]βj
∂Xij
∂F (Z)
donde F 0 (Z) = ∂Z
.

El efecto marginal cambia con el punto de evaluación Xi , como en cualquier caso general
de modelo no lineal. Existen tres tipos de efectos marginales:

(i) Efecto marginal promedio:

113
N
1 X 0 0
· F [Xi β̂]β̂j
N i=1

(ii) Efecto marginal del individuo promedio:

0
F 0 [X β̂]β̂j

(iii) Efecto marginal del individuo representativo:

0
F 0 [X ∗ β̂]β̂j

Dado que F 0 (·) > 0, el signo del coeficiente indica el signo del efecto marginal.

Por otro lado, dado que el modelo binario es de ı́ndice simple, la razón de los efectos
marginales es igual a la razón de los coeficientes:

∂P r
∂Xij F 0 [Xi0 β]βj βj
∂P r
= 0 0
=
∂Xik
F [Xi β]βk βk
Es por esto que en muchos casos sólo se reportan los coeficientes (y no los efectos
marginales).

8.1.4 Estimación
Capı́tulo
XIV,
En el modelo binario, la función de probabilidad es (Bernoulli):
pág.
467-468
f (yi |xi ) = pyi i (1 − pi )1−yi , yi = 0, 1
0
donde pi = F (Xi β). Luego, se estimará utilizando el método de Máxima Verosimilitud
ya que permite estimar modelos no lineales cuando la función de distribución es conocida.
Entonces, el logaritmo de la verosimilitud viene dado por:
N    
0 0
X
LN (β) = yi · ln F (Xi β) + (1 − yi ) · ln 1 − F (Xi β)
i=1

114
Lo que entrega las CPO:
N 0
X yi − F (Xi β) 0
0 0
 · F (Xi β) · Xi = 0.
i=1
F (Xi β) 1 − F (Xi β)

La solución de estas ecuaciones corresponde al estimador de máxima verosimilitud. No ex-


iste solución única para los parámetros, de modo que se tiene que utilizar métodos numéricos
iterativos como Newton-Raphson. Dado que en los modelos probit y logit el logaritmo de la
verosimilitud es globalmente cóncavo, NR converge bastante rápido.

La consistencia de la estimación por MV se basa en la correcta especificación de la función


de distribución. Dada la naturaleza binaria, la función de densidad es Bernoulli, de modo
que el único posible error de especificación viene dado por la probabilidad de la Bernoulli.

Entonces, MV es consistente si pi = F (Xi0 β). Dada la naturaleza binaria de los datos,


esto es equivalente a:

E[y] = 1 · p + 0 · (1 − p) = p

⇒ E[yi |xi ] = F (Xi0 β)

Este resultado de la media condicional correctamente especificada se cumple para las


funciones de la ‘familia exponencial lineal’ (Linear exponential family-LEF), y la Bernoulli
es LEF.

8.1.5 Interpretación de los parámetros


Capı́tulo
En la parametrización logit: XIV,
pág.
469-473
exp(X 0 β)
p = F (X 0 β) =
1 + exp(X 0 β)
p
⇔ = exp(X 0 β)
1−p
 
p
⇒ ln = X 0β
1−p

115
p
Notar que 1−p
es la probabilidad que y = 1 en relación a la probabilidad que y = 0, lo
que se llama razón de probabilidades (odds-ratio en inglés). Entonces, en el caso logit, la
razón de probabilidades es lineal en los regresores.

Entonces, si Xj aumenta en 1 unidad, se tendrá que exp(X 0 β) será exp(X 0 β + βj ) =


exp(X 0 β) · exp(βj ).

Luego, si se estimó por ejemplo β̂j = 0.1, ello implica que la razón de probabilidades
aumentará en exp(0.1) ' 1.105; Es decir, aumentará en 10.5% (interpretación usual en
bioestadı́stica).

En economı́a es más usual la interpretación de βj como una semi-elasticidad. Esto es, un


aumento de 1 unidad en Xj genera un aumento proporcional 0.1 en la razón de probabili-
dades.

Por otro lado, la relación entre los coeficientes estimados por MCO, Probit y Logit se
puede caracterizar c través de la siguiente regla de oro:

β̂Logit ' 4β̂M CO

β̂P robit ' 2.5β̂M CO

β̂Logit ' 1.6β̂P robit

Lo que funciona bastante bien si 0.1 ≤ p ≤ 0.9.

En general, en un modelo de variable dependiente binaria, se dice que para datos de


variables del lado derecho distribuidas normalmente, estimar efectos marginales promedio
usando OLS es tan bueno como Probit o Logit.

116
8.1.6 Selección de Modelos
Capı́tulo
XIV,
Se utilizan los conceptos presentados anteriormente de pseudo-R2 y criterios de información,
pág.
sin haber alguna estrategia que domine a las otras. 473-474

Alternativamente, en el caso binario se puede utilizar la proporción de observaciones


correctamente clasificadas. Esto se obtiene haciendo ŷ = 1 si p̂ > c, donde el umbral c se
debe seleccionar. En STATA:

estat class, lfit

por omisión usa c = 0.5.

HATA AQUÍ PARA LA SOLEMNE II !!

117
8.2 Modelos de Selección y Tobit
CLASE
20
Capı́tulo
Son modelos en que la variable dependiente se observa de manera incompleta o cuando la XVI,
pág.
variable dependiente se observa de manera completa, pero solo para una muestra seleccionada 529-530,
que no es representativa de la población. muestra no aleatoria. 532

Lo que tienen en común es que incluso en caso de una parametrización lineal, MCO será
inconsistente.

Las causas de observación incompleta son tı́picamente truncamiento y censura.

Truncamiento: algunas observaciones de la variable dependiente y de las independientes


no se observan. [Por ejemplo, en los datos del seguro de cesantı́a no se observa a los
trabajadores informales - por construcción].

Censura: algunas observaciones de la variable dependiente no se observan, pero sı́ se


observan los regresores. [Por ejemplo, en los datos del seguro de cesantı́a no se observa el
valor de los ingresos mayores que 74.3 UF].

Entonces, truncamiento conlleva una mayor pérdida de información que la censura.

La formulación general implica la existencia de una variable latente y ∗ , de modo que:

y = g(y ∗ )

8.2.1 Modelamiento de los modelos con Censura y Truncamiento


Capı́tulo
1. Censura XVI,
pág.
532-533
(a) Censura por la izquierda (abajo)

 y∗ si y ∗ > L
y=
 L si y ∗ ≤ L

118
(b) Censura por la derecha (arriba)

 y∗ si y ∗ < U
y=
 U si y ∗ ≥ U

Notar que los regresores X siempre se observan de manera completa en el caso de


censura.

2. Truncamiento

(a) Truncamiento por la izquierda (abajo)

y = y ∗ si y ∗ > L

(b) Truncamiento por la derecha (arriba)

y = y ∗ si y ∗ < U

Un ejemplo de la censura y el truncamiento se observa en la siguiente figura:


16.2. CENSORED AND TRUNCATED MODELS

Tobit: Censored and Truncated Means


4000
Different Conditional Means

2000
0
-2000

Actual Latent Variable


Truncated Mean
Censored Mean
-4000

Uncensored Mean

1 2 3 4 5

Natural Logarithm of Wage


Figure 16.1: Tobit regression of hours on log wage: uncensored conditional mean
(bottom), censored conditional mean (middle), and truncated conditional mean (top) for
censoring/truncation from below at zero hours. Data are generated from a classical linear
regression model.

This is a Tobit model, studied in detail in Section 16.3. The model implies that the
wage elasticity is 1000/y ∗ , which equals, for example, 0.5 for full-time work (2,000
8.2.2 Estimador
hours). Forde
eachMV para inmodelos
1% increase wage, annualdehours
censura
increaseybytruncamiento
10 hours.
∗ Capı́tulo
Figure 16.1 presents a scatter plot of y and ln w for a generated sample of 200
Los modelosobservations. The unconditional
de truncamiento y censura mean for y ∗ , which
modifican is −2500
tanto + 1000de
la función ln w, is given
densidad condicional XVI,
by the lowest curve, which is a straight line. pág.
como la mediaWith
condicional.
censoring at zero, negative values of y ∗ are set to zero because people with 533-534
negative desired hours of work choose not to work. For this particular sample this
is the case for about 35% of the observations. This pushes up the mean for low
119
wages, since the many negative values of the y ∗ are shifted up to zero. It has little
impact for high wages, since then few observations on y ∗ are zero. The middle curve
in Figure 16.1 gives the resulting censored mean, using the formula given later in
1. Censura por abajo
La función de densidad es:

 f ∗ (y|X) si y > L
f (y|X) =
 F ∗ (L|X) si y = L

De forma análoga al caso binario, se genera el indicador:



 1 si y > L
d=
 0 si y = L

Entonces, la función de densidad condicional será:

f (y|X) = f ∗ (y|X)d F ∗ (L|X)1−d

Luego, para N observaciones, la estimación MV del modelo censurado será:


N
X
lnLN (θ) = {di · ln [f ∗ (yi |Xi , θ)] + (1 − di ) · ln [F ∗ (Li |Xi , θ)]} .
i=1

Se permite que L varı́e por individuo, siendo Li , solo para mayor generalidad.

El modelo de MV censurado es consistente y asintóticamente normal si f ∗ (y|X, θ) está


correctamente especificado.

2. Truncamiento por abajo


La función de densidad del modelo con truncamiento es:

f (y) = f ∗ (y|y > L)


f ∗ (y)
=
P r[y|y > L]
f ∗ (y)
=
[1 − F ∗ (L)]

Notar que no se condiciona sobre X, porque también se pierde esa información.

El modelo MV truncado será entonces:


X N
lnLN (θ) = {ln [f ∗ (yi |Xi , θ)] − ln [1 − F ∗ (Li |Xi , θ)]} .
i=1

120
8.2.3 El Modelo Tobit
Capı́tulo
XVI,
El modelo de regresión normal con censura se llama Tobit (1958).
pág.
536-538
Se asume censura por abajo en cero y variable latente lineal en los regresores con error
aditivo:

y∗ = X 0β + 

 ∼ N (0, σ2 )

Luego, y ∗ ∼ N (X 0 β, σ2 )

La observación y se define con L = 0, de modo que:



 y∗ si y ∗ > 0
y=
 − si y ∗ ≤ 0

donde ‘-’ representa un dato faltante (missing value), pero usualmente es igual a cero.

Notar que la normalización de L = 0 ayuda porque sólo se puede identificar de la siguiente


manera:

y si y ∗ > L

β1 + X20 β2 +  > L

Solo se puede identificar β1 − L.

Aplicando entonces la formulación general para una distribución normal se obtiene:

F ∗ (0) = P r[y ∗ ≤ 0]

= P r[X 0 β +  ≤ 0]
X 0β
 
= Φ −
σ
 0 

= 1−Φ
σ
con Φ(·) cdf normal estándar.

121
1. Censura por abajo

La función de densidad con censura se puede expresar como:


  d   0 1−d
1 1 0 2 Xβ
f (y) = √ exp − 2 (y − X β) · 1−Φ
2πσ 2 2σ σ

Con lo que el logaritmo de la verosimilitud será:


N   
X 1 1 1
2
di · − ln (2π) − ln σ 2 − 2 (yi − Xi0 β)2

lnLN (β, σ ) =
i=1
2 2 2σ
  0 

+(1 − di ) · ln 1 − Φ .
σ

Luego se estima por MV (Tarea: Obtener las CPO’s).

Ameniya (1973) demostró que la teorı́a usual se aplica a este caso particular de mezcla
entre variable discreta y continua.

2. Truncamiento por abajo

Si existe truncamiento por abajo, la función de verosimilitud del modelo Tobit será:
N     0 
2
X 1 1 2
 1 0 2 Xβ
lnLN (β, σ ) = − ln (2π) − ln σ − 2 (yi − Xi β) − ln Φ .
i=1
2 2 2σ σ

Para garantizar la consistencia se requiere correcta especificación. En el caso de errores


heterocedásticos se puede especificar σi2 = exp(Zi0 γ), pero nuevamente se requiere que esto
último esté bien especificado.

122
8.2.4 Medias condicionales en modelos de truncamiento y censura
Capı́tulo
1. Truncamiento por abajo (izquierda) XVI,
pág.
538-540
E[y] = E[y ∗ |y ∗ > 0]

= E[X 0 β + |(X 0 β +  > 0)]

= E[X 0 β|(X 0 β +  > 0)] + E[|(X 0 β +  > 0)]

= X 0 β + E[|( > −X 0 β)]

Notar que, intuitivamente, se esperaba que el modelo sin truncamiento subestime la


media (al considerar y = 0 para valores y ∗ < 0. Entonces, tal como se anticipaba, al
considerar el truncamiento se agrega E[|( > −X 0 β)] > E[], lo que corrige el sesgo.

123
2. Censura por abajo

Asumiendo que y = 0 en vez de y ∗ ≤ 0 y L = 0.

 
E[y] = Ed Ey|d [y|d] /Por simplicidad se suprime notación condicional en x

= P r[d = 0] · E[y|d = 0] + P r[d = 1] · E[y|d = 1]

= P r[y ∗ ≤ 0] · 0 + P r[y ∗ > 0] · E[y ∗ |y ∗ > 0]

= P r[y ∗ > 0] · E[y ∗ |y ∗ > 0]

Dado que P r[y ∗ > 0] = 1 − P r[y ∗ ≤ 0] = P r[ > −X 0 β]

⇒ E[y] = P r[ > −X 0 β] · E[y ∗ |y ∗ > 0]

En resumen, para el modelo lineal, con censura y truncamiento por abajo de cero, las
medias condicionales son:

Variable latente: E[y ∗ |X] = X 0 β

Truncamiento por izq. en cero: E[y|X, y > 0] = X 0 β + E[| > −X 0 β]

Censura por izq. en cero: E[y|X] = P r[y ∗ > 0] · {X 0 β + E[| > −X 0 β]}
| {z }
P r[>−X 0 β]

Es claro que aunque el modelo original es lineal, las medias no lo son.

8.2.5 Medias condicionales en el modelo Tobit


Capı́tulo
XVI,
En el modelo Tobit, se asume que  es normal.
pág.
540-541
Proposición (Momentos truncados de la normal estándar):

124
Si Z ∼ N (0, 1), entonces los momentos truncados por izquierda son:

φ(c) φ(c)
(i) E[Z|Z > c] = y E[Z|Z > −c] =
1 − Φ(c) Φ(c)
1 + cφ(c)
(ii) E[Z 2 |Z > c] =
1 − Φ(c)
1 + cφ(c) φ(c)2
(iii) V [Z|Z > c] = +
1 − Φ(c) (1 − Φ(c))2

Aplicando estos resultados al término de error se tiene:

−X 0 β
 
0  
E[| > −X β] = σE >
σ σ σ
 0 
φ Xσβ
= σ· 0 
1 − Φ −Xσ β
 0 
φ Xσβ
= σ· 0 
Φ Xσβ
 0 

= σ·λ
σ
φ(·)
donde λ(·) = Φ(·)
se define como ‘el inverso de la razón de Mill’.

Entonces, las medias condicionales con errores normales serán:

Variable latente: E[y ∗ |X] = X 0 β


X 0β
 
0
Truncamiento por izq. en cero: E[y|X, y > 0] = X β + σ · λ
σ
 0   0 
Xβ 0 Xβ
Censura por izq. en cero: E[y|X] = Φ ·X β+σ·φ .
σ σ

Se puede demostrar fácilmente que truncamiento y censura inducen heterocedasticidad


(para truncamiento obviamente la reducen).

8.2.6 Efectos marginales en el modelo Tobit


Capı́tulo
Los efectos marginales varı́an según el interés esté centrado en la media de la variable latente XVI,
pág.
0
X β o en las medias truncadas o censuradas. 541-542

125
∂E[y ∗ |X]
Variable latente: =β
∂X
∂E[y ∗ |X, y > 0]
Truncamiento por izq. en cero: = [1 − ω · λ(ω) − λ(ω)2 ] · β
∂X
∂E[y|X]
Censura por izq. en cero: = Φ(ω) · β
∂X
X 0 β ∂Φ(Z) ∂φ(Z)
con ω = σ
; ∂Z = φ(Z); ∂Z
= −Zφ(Z).

∂E[y ∗ |X]
Tı́picamente estamos interesados en ∂X
= β (por ejemplo en variables de ingreso
censuradas por arriba).

Notar que en un modelo de horas trabajadas, se tendrı́a que:

Efecto Marginal sobre: Interpretación:


(i) Variable Latente Horas que se desea trabajar
(ii) Truncamiento por izq. en cero Horas trabajadas efectivas por los que trabajan
(iii) Censura por izq. en cero Horas trabajadas efectivas de trabajadores y no trabajadores

Dado que los modelos (ii) y (iii) son bastante lineales en X (aunque inconsistentes), la
aproximación por MCO sigue siendo ilustrativa.

126
8.2.7 Estimación del modelo Tobit y sesgo de selección
Capı́tulo
Se puede estimar por MV y MCNL asumiendo distribución del término de error. XVI,
pág.
543,547-
Heckman (1976,1979) propuso estimar en 2 etapas el modelo con censura (heckit): 548 y
550-551

1a Etapa: para toda la muestra estimar un probit de d en X. Con ello se obtiene, en el


modelo truncado:

X 0β
 
0
E[y|X, ] = X β + σ · λ
σ

una estimación consistente de α = βσ .

2a Etapa: en el modelo truncado estimar por MCO y en X y en λ(X 0 α̂) para obtener
una estimación consistente de β y σ.

En particular, asuma una ecuación de participación:



 1 si y1∗ > 0
y1 =
 0 si y1∗ ≤ 0
donde y1∗ es una variable latente.

Paralelamente, asuma una ecuación de resultado:



 y∗ si y1∗ > 0
2
y2 =
 − si y1∗ ≤ 0
Entonces, se observa y2 cuando y1∗ > 0. El modelo lineal estándar serı́a:

y1∗ = X10 β1 + 1

y2∗ = X20 β2 + 2

127
El modelo Tobit es el caso particular en que y1∗ = y2∗ .

El estimador de Heckman en 2 etapas será entonces:

1a Etapa: regresionar y1 en x1 para obtener β̂1 dado que P r[y1∗ > 0] = Φ(X10 β1 ) y
φ(X10 β̂1 )
λ(X10 β̂1 ) = Φ(X10 β̂1 )
es el inverso de la razón de Mill.

2a Etapa: regresionar por MCO y2 = X20 β2 + σ12 · λ(X10 β̂1 ) + ν.

σ̂12
La correlación entre los dos errores (de la 1a y 2a etapa) será ρ̂ = σ̂2
. Luego, un test
sobre ρ = 0 es un test sobre la necesidad de corregir el sesgo de selección. Notar que basta
un test de Wald sobre σ12 = 0.

El modelo es intrı́nsecamente heterocedástico, de modo que los errores estándar deben


ser calculados con cuidado (cualquier paquete estadı́stico lo hace). Heckman (1979) y Greene
(1981) proveen las fórmulas adecuadas.

De esta manera, se obtiene una estimación consistente de β2 con una pequeña pérdida
de eficiencia respecto a MV, pero sin tener que suponer normalidad conjunta de 1 , 2 . El
supuesto que se requiere es que: 2 = δ1 + ε. Con esto E[y2 |y1∗ > 0] = X20 β2 + δE[1 |1 >
−X10 β1 ] otorgándole una mayor flexibilidad al modelo al poder incluir errores 1 no normales.

La identificación en el modelo de selección bivariada puede ser compleja. De este modo,


por consideraciones prácticas, se requiere al menos un regresor en la ecuación de participación
(y1∗ ) sea excluido de la ecuación de resultados (y2∗ ). Por ejemplo, que costos fijos de trabajar
afectan la decisión de trabajar, pero no las horas trabajadas. En la práctica no es trivial
encontrar variables que jueguen este rol.

128
9 Datos de Panel (Clases 20,21)
CLASE
21
Capı́tulo
Los datos de panel son observaciones repetidas del mismo corte transversal (individuos, fir- XXI,
pág.
mas, etc) por al menos dos perı́odos de tiempo. 697-742

También se les llama datos longitudinales y/o mediciones repetidas.

El foco en microeconometrı́a es en paneles cortos en tiempo con muchas observaciones


individuales.

La gran ganancia es la precisión en la estimación por tener un mayor número de obser-


vaciones por datos combinados (pooled) de distintos periodos de tiempo. Sin embargo, para
la inferencia estadı́stica es necesario hacerse cargo de la potencial correlación existente para
individuos a lo largo del tiempo. [Tı́picamente OLS sub-estima los errores estándar].

Un segundo elemento atractivo de los datos de panel es la posibilidad de estimar el mod-


elo de efectos fijos, el cual permite bajo ciertas cirscunstancias corregir problemas sesgo por
variables omitidas.

El modelo de efectos aleatorios incorpora un supuesto más fuerte acerca de la hetero-


geneidad (no es a través de los regresores, sino que a través del error). Permite estimación
consistente, pero siempre y cuando el modelo no sea de efectos fijos. En general los economis-
tas encuentran que el modelo de efectos aleatorios no es apoyado por la evidencia empı́rica.

Un tercer atractivo es de los datos de panel es aprender acerca de la dinámica del com-
portamiento individual (dinámicas de pobreza, correlación de ingresos en el tiempo es debido
a caracterı́sticas individuales o al historial de empleo-desempleo).

Los modelos no lineales en paneles son bastante más complejos.

129
9.1 Revisión de Modelos y Estimadores

Un modelo muy general de datos de panel permite que tanto el intercepto como los coefi-
cientes de pendiente varı́en entre individuos y a través del tiempo:

yit = αit + Xit0 βit + uit , i = 1, . . . , N ; t = 1, . . . , T,

con Xit de K × 1.

Este modelo tan general simplemente no se puede estimar porque hay más parámetros
que observaciones, por lo que se debe aplicar restricciones sobre la variación de αit o βit , o
sobre el término de error.

Modelo Combinado (Pooled)

El modelo más restringido es el combinado (pooled ) que considera coeficientes con-


stantes, de modo que:
yit = α + Xit0 β + uit .

Si el modelo está bien especificado y los regresores no están correlacionados con el término
de error, entonces puede ser estimado usando pooled OLS. El problema es que usualmente
hay correlación entre los errores de un mismo individuo, lo que sesga los errores estándar
hacia abajo. Además, si el modelo correcto es de efectos fijos, pooled OLS será inconsistente.

Dummies individuales y temporales

La variante del modelo anterior que permite que el intercepto varı́e por individuo y a lo

130
largo del tiempo mientras las pendientes permanecen constantes es:

yit = αi + γt + Xit0 β + uit ,

o alternativamente:
N
X T
X
yit = αj dj,it + γs ds,it + Xit0 β + uit ,
i=1 i=2

donde las N dummies individuales dj,it son iguales a 1 si i = j y 0 si no, y las (T − 1)


dummies temporales ds,it son iguales a 1 si s = j y 0 si no.

Este modelo tiene N + (T − 1) + dim[X] parámetros que pueden ser estimados consisten-
temente si es que tanto N → ∞ como T → ∞. Al concentrarnos en paneles cortos (donde
N → ∞ pero T no), los γs se pueden estimar consistentmente, y las (T − 1) dummies son
simplemente incorporadas en los regresores Xit . El desafı́o entonces es estimar los parámetros
β controlando por los N interceptos individuales αi . Una posibilidad es estimar agrupando
los individuos (por región por ejemplo), lo que requiere analizar métodos de clustering. El
problema se complica cuando N → ∞.

Modelos de Efectos Fijos y Efectos Aleatorios

El modelo de efectos individuales especı́ficos permite que cada unidad de corte transversal
tenga un término de intercepto diferente aunque las pendientes son las mismas, de modo que:

yit = αi + Xit0 β + εit ,

donde εit es iid sobre i y t. Esta es una forma más parsimoniosa con las dummies temporales
incluidas en los regresores Xit . Los αi son variables aleatorias que capturan la heterogeneidad
no observada.

En general se utiliza el supuesto de exogeneidad fuerte o exogeneidad estricta:

E[εit |αi , Xi1 , . . . , XiT ] = 0, t = 1, . . . , T,

131
de modo que el término de error se asume que tiene media igual a cero condicional en regre-
sores pasados, presentes y futuros.

Si se trata αi como una variable aleatoria potencialmente correlacionada con los regre-
sores Xit , se trata del modelo de efectos fijos (Fixed Effects - FE). La estimación por pooled
OLS será inconsistente, por lo que se requiere una estimación alternativa.

La otra variante del modelo asume que los efectos individuales no observados αi son vari-
ables aleatorias distribuidas independientemente de los regresores. Este es el modelo llamado
de efectos aleatorios (Random Effects - RE), que usualmente asume además que αi ∼ (α, σα2 )
y εi ∼ (0, σε2 ) (el efecto aleatorio y el error son iid).

(Ojo que, pese a la nomenclatura, αi es una variable aleatoria en ambos modelos).

Estimadores de Datos de Panel: ‘Pooled OLS’

El estimador OLS combinado (pooled) se obtiene de apilar los datos sobre i y sobre t en
una regression con N × T observaciones y estimar por OLS

yit = α + Xit0 β + uit i = 1, . . . , N ; t = 1, . . . , T.

Si la Cov(uit , Xit ) = 0, entonces tanto el requisito que N → ∞ como T → ∞ son suficientes


para obtener estimaciones consistentes. El problema fundamental radica en que la posibili-
dad de correlación individual en el tiempo es alta (Corr(yit , yis ) 6= 0), lo que lleva a que la
matriz que considera errores iid esté perdiendo información.

El estimador ‘pooled OLS’ es inconsistente si es que el modelo verdadero es de efectos fijos.

132
Esto es más claro al re-escribir el modelo como:

yit = α + Xit0 β + (αit − α + εit ),

donde la correlación entre los regresores Xit y el efecto individual αi se transfiere directa-
mente al término de error combinado.

En suma, el estimador ‘pooled OLS’ es apropiado para coeficientes constantes o efectos


aleatorios (en este caso con corrección de la matriz de covarianza para la inferencia); pero
no lo es para el caso de efectos fijos.

Estimador de Primeras Diferencias

El estimador de primeras diferencias explota las caracterı́sticas especiales de los datos


de panel. En un panel corto mide la asociación entre cambios especı́ficos al individuo en
regresores y cambios especı́ficos al individuo en un perı́odo en la variables dependiente.
Comenzando con el modelo de efectos individuales y rezagando un perı́odo se obtiene yi,t−1 =
0
αi + Xi,t−1 β + εi,t−1 . Luego, restando a yit se obtiene el modelo de primeras diferencias:

yit − yi,t−1 = (Xit − Xi,t−1 )0 β + (εit − εi,t−1 ) i = 1, . . . , N ; t = 2, . . . , T,

donde el término αi desaparece. Al aplicar OLS a este modelo se obtiene el estimador de


primeras diferencias, el cual es consistente si es que el modelo es efectivamente de efectos
fijos. No obstante, no se puede indentificar los efectos individuales tiempo-invariantes.

Estimador de Efectos Aleatorios

Tomando el modelo de efectos individuales especı́ficos, pero asumiendo que αi y εit son iid,
se puede estimar consistentemente por OLS, pero más eficientemente por GLS (Generalized
Least Squares). El estimador de FGLS del modelo de efecots aleatorios, llamado estimador

133
de efectos aleatorios, se puede estimar por OLS con el modelo transformado:

yit − λ̂ȳi = (1 − λ̂)µ + (Xit − λ̂X̄i )0 β + vit ,

donde vit = (1 − λ̂)αi + (εit − λ̂ε̄i ) es asintóticamente iid, y λ̂ es consistente para


σε
λ=1− p .
σε2 + T σα2

donde se debe estimar σε2 y σα2 . Notar que λ̂ = 0 corresponde al caso de ‘pooled OLS’. [Esto
es un estimador de dos etapas de β].

Por otro lado, los errores estándar se deben estimar a través de la estimación sandwich,
lo que NO es estándar en los paquetes estadı́sticos.

9.2 Ejemplos de Panel Lineal

Horas Trabajadas y Salarios

El clásico ejemplo de oferta de horas trabajadas en que el efecto ingreso se contrapone


al efecto sustitución ante cambios en salarios es útil para ejemplificar. El análisis de corte
transversal para hombres tı́picamente encuentra una respuesta positiva pequeña de las horas
trabajadas a alzas en los salarios. Pero es posible que esto sea solo una correlación espúrea
asociada a deseos de trabajar no observados correlacionados con mayores salarios.

El análasis de datos de panel puede controlar por estos deseos de trabajar no observados
bajo el supuesto que esos deseos son invariantes en el tiempo. El modelo a estimar es

ln hrsit = αi + β ln wageit + εit

donde αi es el efecto individual especı́fico y β es la elasticidad salario de la oferta de horas


trabajadas. El error εit se asume independiente sobre i, pero posiblemente correlacionado

134
sobre t para un i dado. En el modelo, se espera que β sea positivo y pequeño. [Se puede
agregar otros controles por edad, hijos, salud, etc.]

Fatalidad de Accidentes e Impuestos a la Cerveza

Se presume que una mayor tasa de impuesto a la cerveza podrı́a disminuir la ingesta de
alcohol en los conductores y por tanto reducir la fatalidad de los accidentes de autos. Se
dispone de un panel de 48 Estados en EEUU par el periodo 1982 - 1988.

Tasa de fatalidad = número de muertos10.000


en accidentes de tránsito ≈ 2.
hab.

El impuesto es por caja de cerveza:



 0.53 en 1982
x̄ =
0.48 en 1988.

min ≈ U S$0.04

max ≈ U S$2.70

En las regresiones de corte transversal se observa que a mayor tasa de impuesto mayor
fatalidad!
⇒ Insensato económicamente! → Se sospecha de variable omitida relevante.

Ejemplos:

• Aceptación social del alcohol → No medible

• Otros: Calidad de autos / Calidad de autopistas o calles / Densidad de autos.

Con el estimador de dos perı́odos, antes y depués, se puede tener

fi,t = β0 + β1 Imptoi,t + γwi + ui,t

135
fi,t+1 = β0 + β1 Imptoi,t+1 + γwi + ui,t+1

y el modelo a estimar serı́a

fi,t+1 − fi,t = (β0 − β0 ) + β1 (Imptoi,t+1 − Imptoi,t ) + ui,t+1 − ui,t

⇒ β̂1 = −0.87 → Se podrı́a reducir casi a la mitad las muertes (de 2 a 1.13) si se sube
en US $1 el impuesto por caja de cerveza.

9.3 Consideraciones Prácticas

Los paquetes estadı́sticos usuales tienen varias rutinas que incorporan el manejo de paneles
desbalanceados. De este modo, se puede estimar por múltiples métodos, debiendo tener un
cuidado especial con la especificación de los errores estándar. Para estimar errores estándar
robustos se puede usar bootstrap, o también usar estimación robusta por clusters. Es im-
portante llevar a cabo un test de Hausman para establecer si el modelo debe ser de efectos
fijos o no.

xtreg depvar indepvars, vce(robust)


xtreg depvar indepvars, vce(bootstrap)

136
10 Evaluación de Programas (Clases 22,23,24)
CLASE
22

El problema esencial de la evaluación de programas es que no se tiene contrafactuales ade-


cuados. Es decir, no se conoce cuál serı́a el resultado para una persona que pasa por un
programa si no lo hubiese hecho (no se conoce el resultado potencial) y viceversa.

10.1 El Modelo de Roy


Capı́tulo
El modelo de Roy (1951) de sesgo de selección bivariado es útil para vincular la metodologı́a. XVI,
pág.
Sı́ se observa y2 para un individuo si y1 = 1, pero no se observa si y1 = 0; es decir, solo en 555-557
un estado.

Suponga variable latente y1∗ que determina si se observa una variable de resultado y2∗ o
y3∗ . Especı́ficamente, 
 1 Si y1∗ > 0
y1 =
 0 Si y1∗ ≤ 0
Se observa luego: 
 y∗ Si y1∗ > 0
2
y=
 y∗ Si y1∗ ≤ 0
3

Luego, se puede formular:

y1∗ = X10 β1 + 1

y2∗ = X20 β2 + 2

y3∗ = X30 β3 + 3

Un modelo de evaluación donde el efecto es aditivo será:

X30 β = X20 β + α

La parametrización más simple es normal conjunta con normalización σ 2 = 1:

137
     
 0 1 σ12 σ13
 1    
2  ∼ N 0 , σ21 σ22 σ23 
     
     
3 0 σ31 σ32 σ33

Entonces, se puede estimar por Heckman en 2 etapas aplicado a las medias truncadas:

E[y|X, y1∗ > 0] = X20 β2 + σ12 · λ(X10 β̂1 )

E[y|X, y1∗ ≤ 0] = X30 β3 + σ13 · λ(−X10 β̂1 )

Maddala (1983) lo llama “Switching regression model”.

Si solo el intercepto varı́a a través de los dos posibles resultados, digamos en un monto
α, el modelo de Roy se reduce a dos variables latentes:

y1∗ = X10 β1 + 1

y ∗ = X 0 β + αy1 + 

donde y = y ∗ es siempre observado y también se observa la variable binaria y1 = 1 si


y1∗ > 0. Este problema se puede ver como el de una variable dummy endógena (y1 ). Se
puede estimar por Heckman en 2 etapas o por VI (si es que existe algún buen instrumento
disponible).

10.2 Marco general para efectos de tratamiento


Capı́tulo
Suponga una situación de Experimento Aleatorio Social Controlado. N será el número XXV,
pág.
total de elegibles. NT el número de seleccionados aleatoriamente para el tratamiento. 862-864
NC = N − NT será el grupo de control.

Por simplicidad, se asume inicialmente que todos los que son asignados al tratamiento lo
reciben. La variable de resultado será y1 para los tratados e y0 para los no tratados.

138
Se busca obtener una medición del impacto del programa. Naturalmente se puede com-
parar las medias de los resultados de ambos grupos. Si los grupos no son aleatorios, se puede
incluir el caso de datos observacionales.

Un supuesto básico es el de independencia condicional de los resultados. Es decir,


y0 , y1 ⊥ D|X con D una variable binaria que toma valor 1 si el individuo es tratado y 0
si no.

Si la asignación es completamente aleatoria, se puede establecer un supuesto más fuerte


como, y0 , y1 ⊥ D.

El supuesto de independencia condicional implica:

F (yj |X, D = 1) = F (yj |X, D = 0) = F (yj |X), j = 0, 1

F (uj |X, D = 1) = F (uj |X, D = 0) = F (uj |X), j = 0, 1

donde uj es el error del modelo de regresión. Esto implica que la decisión de participación
en el programa no afecta la distribución de los resultados potenciales.

Suponga E[y|X, D] es lineal, lo anterior implica que:

y = X 0 β + αD + u

será la ecuación de “resultado-participación”.

Se tiene entonces que E[u|D] = E[y − X 0 β − αD|D] = 0, por lo que se puede obtener
una estimación consistente del efecto del tratamiento.

También se puede utilizar un supuesto un poco más débil y0 ⊥ D|X, que implica in-
dependencia entre y0 y participación (lo que permite identificar efectos promedio sobre los
tratados).

139
La comparación base, ‘cómo le iba sin tratamiento’, no está correlacionada con D, pero
cómo le va después puede estar correlacionado, de modo que a algunos les irá mejor que a
otros, pero en lı́nea base es igual.

Por otro lado, el supuesto de superposición (necesario para ‘pareo’ o ‘matching’), implica
que, para cada valor de X, hay tanto tratados como no tratados. Esto es, 0 < P r[D =
1|X] < 1.

Un tercer supuesto es el de independencia de la media condicional:

E[y0 |D = 1, X] = E[y0 |D = 0, X] = E[y0 |X]

lo que implica que y0 no determina la participación.

10.2.1 Propensión al tratamiento (Propensity Score)


Capı́tulo
Cuando la asignación no es aleatoria pero depende de un vector de observables X, resulta XXV,
pág.
útil el concepto de ‘propensity score’. 864-865

Se define el propensity score como:

p(x) = P r[D = 1|X = x]

Esto se puede estimar por cualquier método binario.

Tradicionalmente, se asume la condición de balance, que implica D ⊥ X|p(x). Esto sig-


nifica que, para individuos con los mismos propensity scores, la asignación al tratamiento es
aleatoria y por lo tanto independiente de X. Este supuesto es testeable.

10.2.2 ATE y ATET


Capı́tulo
Sea ∆i = y1i − y0i , el problema central es que ∆i no se puede observar directamente porque XXV,
pág.
un individuo está en el tratamiento o no lo tiene, pero no ambas situaciones al mismo tiempo. 866-868

140
Se define:

Average Treatment Effect (ATE) = E[∆i ]

Average Treatment Effect on the treated (ATET) = E[∆i |Di = 1]

Sus respectivos análogos muestrales son:


N
1 X
AT
[ E = [∆i ]
N i=1
N
1 X
AT
\ ET = [∆i |Di = 1]
NT i=1
PN
donde NT = i=1 Di . El problema es que ∆i no se observa, por lo que hay que estimarlo.
Se tiene que:

AT E = E[∆i |Xi = xi ]

= E[y1i − y0i |Xi = xi ]

= E[y1i |Xi = xi ] − E[y0i |Xi = xi ]

= E[y1i |xi , Di = 1] − E[y0i |xi , , Di = 0]

Dada una muestra de participantes se puede obtener E[y1i |xi , Di = 1], pero el problema
es que E[y0i |xi , , Di = 0] no se observa para los participantes (porque tienen D=1), lo que
constituye el problema fundamental de la evaluación de impacto.

Los ESC usan participantes elegibles que son excluidos del tratamiento como una proxy
para el contrafactual (apoyados en la ley de los grandes números).

Los estudios observacionales generan un grupo de comparación de la misma fuente que


los tratados, o de otras bases de datos.

Suponga que para los participantes la ecuación de resultado es:

y1 = E[y1 |X] + u1

= µ1 (X) + u1

141
y para los no participantes se tiene que:

y0 = E[y0 |X] + u0

= µ0 (X) + u0

Este es el tipo de “Switching regression” del modelo de Roy, en el sentido que partici-
pantes y no participantes tienen distinta función de media condicional.

Un caso especial más sencillo es:

µ1 (X) = µ0 (X) + αD

donde la diferencia está solo en el intercepto adicional α.

El resultado observado se escribe como:

y = Dy1 + (1 − D)y0

de modo que combinando con las ecuaciones anteriores se obtiene:

y = D (E[y1 |X] + u1 ) + (1 − D) (E[y0 |X] + u0 )

= D (µ1 (X) + u1 ) + (1 − D) (µ0 (X) + u0 )

= µ0 (X) + D (µ1 (X) − µ0 (X) + u1 − uo ) + u0

El segundo término mide el efecto de participar en el programa. La primera parte,


µ1 (X) − µ0 (X), mide la ganancia promedio para un individuo con caracterı́sticas X. La
segunda parte, u1 − uo , es un efecto especı́fico al individuo (de hecho no es observable por el
investigador).

Medidas de efecto de Tratamiento:


El sesgo de selección promedio es la diferencia entre participantes y no participantes del
programa en la situación base. Este efecto no se puede atribuir al programa. El caso espe-
cial se da cuando E[u1 − u0 |X, D = 1] = 0, que puede ocurrir cuando no hay componentes

142
TREATMENT EVALUATION

Table 25.2. Treatment Effects Measures: ATE and ATET

Measure Treatment Effect Special Case (25.25)


ATE given x E [!|x] = µ1 (x) − µ0 (x) E [!|x] = α

ATET with x E [!|x, D = 1] E [!|x, D = 1]


and selection effect = µ1 (x) − µ0 (x) = α + E [u 1 − u 0 |x, D = 1]
+ E [u 1 − u 0 |x, D = 1]

Additional benefit E [u 1 − u 0 |x, D = 1] E [u 1 − u 0 |x, D = 1]


to individual with x

Average selection bias E [u 0 |x, D = 1] E [u 0 |x, D = 1]


− E [u 0 |x, D = 0] − E [u 0 |x, D = 0]

observables queThe
afecten
observeddicha diferencia.
outcome y is written as

y = Dy1 + (1 − D)y0 . (25.26)


El sesgo de selección ocurre cuando la variable de tratamiento está correlacionada con
el error en laCombining
ecuaciónthese equations we get
de resultado. Esta correlación puede ocurrir por omisión de variable
relevante que afecta tanto D ! " variable !omitida es " observable se tiene “selección
y =como
D µ y.
(x) Si
+ ula
1 + (1 − D) µ (x) + u 0
1 0
! "
en observables”, y si no lo µ0 (x)
es,= se +D µ
tendrá 1 (x) − µ0 (x)en
“selección + uno u0 + u0.
1 −observables”. (25.27)

Because D = 1 or 0, the second term in the regression “switches” on and off. The
El supuesto de term
second in (25.27) measures
independencia the benefit
condicional of participation;
permite descartarthe first component
problema de variables omi-
µ1 (x) − µ0 (x) measures the average gain to a participant with characteristics x and
theun
tidas. Pero es second component
supuesto (u 1 −yu 0muchas
fuerte, ) is individual-specific benefit. The second component
veces ‘no creı́ble’.
may be observable by the participant, but not by the investigator.
The expressions for ATE and ATET are given in Table 25.2, for the general case
and the specialization (25.25).
Average selection bias is the difference between program participants and nonpar-
10.2.3 Selección en observables
ticipants in the base state. This effect cannot be attributed to the program. A special Capı́tulo
case is E[u 1 − u 0 |x, D = 1] = 0, which can arise if there are no unobservable compo- XXV,
En estudios nents
observacionales
of the benefit or el problema
if the de estimate
best individual selecciónof u se resuelve utilizando métodos de
1 − u 0 is zero.
pág.
Selection bias arises when the treatment variable is correlated with the error in the
“pareo” (matching). También se pueden hacer con un caso más simple. Suponga el caso
outcome equation. This correlation could be induced by incorrectly omitted observable
869
variables that partly determine D and y. Then the omitted variable component of the
especial en que:
regression error will be correlated with D – the case of selection on observables.
Another source comprises unobserved factors that partly determine both D and y. This
yi = Xi0 β The
is the case of selection on unobservables. + αD conditional
i + ui independence assumption
essentially rules out confounding caused by omitted variables.
868 Z que determinan D y que están correla-
Suponga que hay un conjunto de variables
cionadas con y (lo que implica sesgo por variable omitida). El error será:

E[ui |Xi , Di ] = E[ui |Xi , Di , Zi ]

143
Dada la selección en no observables, se puede tener que E[ui |Zi ] 6= 0. Entonces:

E[yi |Xi , Di , Zi ] = Xi0 β + αDi + E[ui |Xi , Zi ]

Esto motiva utilizar un “estimador de función de control”, introduciendo en la ecuación


todas las variables observables posiblemente correlacionadas con ui y ası́ estimar:

yi = Ci0 δ + αDi + {ui − E[ui |Xi , Zi ]}

con Ci = [XZ]. Dado que Z está en la regresión ya no habrı́a problema de variable


omitida.

10.2.4 Selección en no observables


Capı́tulo
XXV,
Considere el caso particular lineal en que la decisión de participación es endógena. Este es
pág.
el caso tı́pico de variable dummy endógena. Suponga: 869-871

y1i = Xi0 β1 + u1i

y0i = Xi0 β0 + u0i

Di∗ = Zi0 γ + i

donde Di∗ es una variable latente que determina Di :



 1 Si Di∗ > 0
Di =
 0 Si D∗ ≤ 0i

Se asume que E[u1 |X, Z] = E[u0 |X, Z] = 0. Si bien Z y X se pueden sobreponer, se


asume que existe al menos un elemento en Z que corresponde a una fuerte variación en D
(por lo que puede ser considerado un instrumento).

Asumiendo normalidad conjunta de (u1i , u0i , i ) con medias cero y varianzas:


 
σ σ σ
 11 10 1 
Σ = σ10 σ00 σ0 
 
 
σ1 σ0 1

144
Notar que σ1 6= 0 y σ0 6= 0 reflejan la endogeneidad de la variable de tratamiento. σ10 se
asume igual a cero porque no se observa a ningún individuo en ambos estados. σ se asume
igual a 1 por normalización. Entonces, dado que el modelo es paramétrico se puede estimar
por MV. El efecto de participar será:
φ(Zi0 γ)
y1i − E[y0i |Di = 1] = y1i − Xi0 β0 + σ0 ·
(1 − Φ(Zi0 γ))
φ(Zi0 γ)
⇔ E[y1i |Di = 1] − E[y0i |Di = 1] = Xi0 (β1 − β0 ) + (σ0 − σ1 ) ·
Φ(Zi0 γ)
| {z }
Efecto de Selección

En el caso especial en que Xi0 β0 = Xi0 β1 y que D entra linealmente en la ecuación de y1


con coeficiente α, se tendrá que el efecto promedio del programa está dado por:

E[y1i |Di = 1] − E[y0i |Di = 1] = α + Efecto de Selección

10.3 Pareo
Capı́tulo
XXV,
El método de pareo puede ser útil solamente cuando hay selección en observables. Además,
pág.
exige que se cumpla la condición de soporte común, que implica que por cada vector X que 871-873
participa, exista una probabilidad positiva de no participar.

Básicamente, si Di = 1, se le imputa un y0i usando µ̂0 (Xi ) a partir de los “vecinos más
cercanos” (o algún otro criterio). Esto último require de una métrica basada en observables.
El método de pareo es atractivo si:

1. Se puede controlar por un conjunto de caracterı́sticas X suficientemente rico.

2. Hay muchos potenciales controles.

3. El parámetro de interés es ATET.

Suponga que todos los tratados son pareados de acuerdo a los observables, de modo que
todas las diferencias entre tratados son controladas, se tendrá:

E[y1i |Di = 1] − E[y0i |Di = 1] = E[y1i − y0i |Di = 1] + {E[y0i |Di = 1] − E[y0i |Di = 0]}
| {z } | {z }
ATET Sesgo

145
El sesgo será igual a cero con asignación aleatoria. Condicionando en covariables Xi y
pareando:

E[y1i |Di = 1] − E[y0i |Di = 1] = E [{E[y1i |Xi , Di = 1] − E[y0i |Xi , Di = 1]} |Di = 1]

Existen métodos de “pareo exacto”, que requiren que los X sean discretos y que X no
contenga demasiados elementos para que el N sea suficiente.

También existen métodos de “pareo inexacto” (como propensity score matching) que ba-
jan la dimensionalidad del problema mapeando X tı́picamente a un escalar.

146

También podría gustarte