Está en la página 1de 37

Contenido

Prefacio xi
1 Introducción 1
I Modelos Estáticos 5
2 Heterogeneidad no observada 7
2.1 Descripción general 7
2.2 Modelos de efectos fijos 11
2.2.1 Suposiciones 11
2.2.2 Estimación dentro del grupo 14
2.3 Heteroscedasticidad y correlación serial 18
2.3.1 Errores estándar robustos para los estimadores dentro del grupo 18
2.3.2 GLS óptima con heterocedasticidad y autocorrelación de
forma desconocida 20
2.3.3 Estimación GMM y distancia mínima mejoradas bajo
Heterocedasticidad y Autocorrelación de la forma desconocida 20
2.4 Enfoques de verosimilitud 23
2.4.1 Probabilidad Conjunta 24
2.4.2 Probabilidad condicional 24
2.4.3 Probabilidad marginal (o integrada) 25
2.5 Modelos no lineales con efectos aditivos 27
2.5.1 Regresión no lineal 27
2.5.2 Ecuación estructural lineal 28
2.5.3 Ecuaciones Simultáneas No Lineales 29
3 Componentes de error 31
3.1 Una descomposición de la varianza 31
3.2 Regresión de errores-componentes 34
3.2.1 El modelo 34

Vii
viii
3.2.2 Estimación de GLS y ML 35
3.2.3 GLS, dentro de grupos y entre grupos 36
3.3 Prueba de heterogeneidad no observada correlacionada 37
3.3.1 Pruebas de especificación 38
3.3.2 Alternativas robustas 41
3.4 Modelos con información en niveles 42
3.5 Estimación de las distribuciones de componentes de error 44
4 Error en las variables 47
4.1 Introducción al modelo de regresión estándar con errores en variables 47
4.2 Sesgo de error de medición y sesgo de heterogeneidad no observada 49
4.3 Estimación de variables instrumentales con datos del panel 51
4.4 Ilustración: Cómo medir las economías de escala en la demanda
de dinero firme 53
Modelos de la Serie II Tiempo con Componentes de Error 55
5 Estructuras de covarianza para componentes de error dinámico 57
5.1 Introducción 57
5.2 Efectos de tiempo 60
5.3 Autocovarianzas medias móviles 64
5.4 Estimación de estructuras de covarianza 67
5.4.1 Estimación GMM / MD 68
5.4.2 Usar transformaciones de los momentos originales 70
5.4.3 Relación entre GMM y Pseudo ML 71
5.4.4 Prueba de restricciones de covarianza 73
5.5 Ilustración: Probando la Hipótesis de Ingresos Permanentes 75
6 Modelos autorregresivos con efectos individuales 81
6.1 Suposiciones 82
6.2 El estimador dentro del grupo 84
6.3 Estimación de variables instrumentales 88
6.4 Condiciones iniciales y heterocedasticidad 91
6.4.1 Estimación bajo estacionariedad 91
6.4.2 Condiciones iniciales sin restricciones 96
6.4.3 Heterocedasticidad de la serie temporal 107
6.4.4 Efectos de tiempo en modelos autorregresivos 108
6.5 Estacionariedad media 110
6.6 Raíces unitarias 113
6.7 Estimación y prueba de VAR para empleo y salarios en la empresa 116

ggg
ix
III Dinamica y Predeterminaciones 127
7 modelos con variables dependientes estrictamente exógenas y
retardadas 129
7.1 La naturaleza del modelo 129
7.2 Un ejemplo: adicción al cigarrillo 130
7.3 Estimación GMM 133
7.3.1 Estimación 2SLS desde una perspectiva T grande 133
7.3.2 Estimación IV óptima en una T pequeña, gran N Contexto 134
7.3.3 GMM con el número de momentos que aumenta con T 135
7.3.4 Variables explicativas no correlacionadas con los efectos 137
7.3.5 Aplicación de restricciones en la matriz de covarianza 137
7.4 Máxima verosimilitud 138
7.4.1 Estimación con matriz de covarianza no restringida 138
7.4.2 MLE con restricciones de covarianza 140
7.4.3 MLE con correlacionado xs 141
8 variables predeterminadas 143
8.1 Introducción y ejemplos 144
8.1.1 Ajuste parcial con comentarios 145
8.1.2 Ecuación de Euler para el consumo de los hogares 145
8.1.3 Crecimiento y convergencia entre países 148
8.2 Gran T Dentro de la Estimación del Grupo 149
8.3 Estimación GMM de pequeñas T 151
8.3.1 Momentos y matrices de peso 151
8.3.2 La irrelevancia del filtrado 152
8.4 Instrumentos óptimos 155
8.5 Instrumentos no correlacionados con los efectos 159
8.5.1 Estimadores del sistema 159
8.5.2 Restricciones de estacionariedad 161
8.5.3 Ilustración: una evaluación dinámica de la capacitación laboral 162
8.5.4 Variables explicativas invariantes en el tiempo 164
8.5.5 Momentos de niveles implicados por falta de correlación serial 164
8.6 Estimando el efecto de la fertilidad en la participación laboral femenina 165
8.7 Otros métodos de estimación 169
IV Apéndices 175
Estimación del Método de Momentos Generalizado 177
A.1 Método de problemas de estimación de momentos 177
A.2 Formulación general 180
A.3 Ejemplos: 2SLS y 3SLS 181
A.4 Consistencia de los Estimadores GMM 181
x

A.5 Normalidad asintótica 185


A.6 Estimación de la varianza asintótica 188
A.7 Matriz de peso óptima 190
A.8 Prueba de las restricciones de sobreidentificación 192

Instrumentos BO ptima en Modelos Condicionales 199

B.1 Introducción 199


B.2 Regresión lineal 200
B.3 Regresión no lineal 203
B.4 Ecuación estructural no lineal 204
B.5 Regresión no lineal multivariada 206
B.6 Sistema de ecuaciones simultáneas no lineales 208
Referencias 215
Índice 227
Prefacio

El objetivo de este libro es revisar algunos de los temas principales de la econometría de


datos de panel. Se trata de modelos lineales y dinámicos, y está dirigido a lectores de
estudiantes graduados e investigadores aplicados. Se pueden usar partes del libro en un curso
de posgrado sobre econometría de datos de panel y como fuente de referencia para
profesionales.

He tratado de encuestar tantas ideas de modelado como sea posible, en lugar de tratar
de presentarlas con la mayor generalidad. Las ideas de modelado a menudo son la entrada
clave en la econometría aplicada, y aunque el libro se ocupa de la metodología econométrica,
se ha hecho un esfuerzo para motivar las técnicas en el contexto de las aplicaciones.

Se requiere familiaridad con el análisis de regresión lineal y los conceptos básicos en


la teoría de la probabilidad. En general, adopto un enfoque de método generalizado de
momentos (MGM) y hago un uso frecuente de los argumentos de variables instrumentales.
Cuando está disponible, también presento aproximaciones de probabilidad dibujando
enlaces a su regresión o equivalentes GMM. Dado que el grado de exposición de los
economistas a GMM varía con la cohorte y el estilo de la formación de pregrado, he incluido
dos apéndices, uno sobre GMM y otro sobre instrumentos óptimos, para hacer el libro
razonablemente autónomo. Estos dos apéndices son una versión revisada de las notas que
he usado a lo largo de los años en la enseñanza de estudiantes de posgrado en CEMFI.

Expresiones de gratitud Empecé a escribir este libro en el invierno de 2000 durante


una estancia en la Facultad de Economía y Política de la Universidad de Cambridge, cuya
hospitalidad me complace reconocer. Terminó en CEMFI dos años después, y agradezco a
mis colegas por su indulgencia. Su existencia se debe en gran parte a la creencia de Andrew
Schuller de que era capaz de escribir al largo de un libro sobre datos de panel; Mis más cálidos
agradecimientos a él por su aliento y paciencia. A lo largo de los años, tuve la suerte de estar
cerca de profesores, colegas y estudiantes que proporcionaron un estímulo decisivo para mi
trabajo. Mis maestros y mentores, Steve Nickell y David Hendry, y especialmente mi Ph.D.
asesor, Denis Sargan, influyó mucho en mi comprensión de la econometría. Me he
beneficiado de una interacción cercana con Richard.

xi
xii Prefacio

Blundell, Steve Bond, Olympia Bover, Costas Meghir y Enrique Sentana. Martin Browning,
Gary Chamberlain y Whitney Newey tuvieron un impacto intelectual particularmente grande
en mis puntos de vista sobre el tema de este libro. Mis ex estudiantes de investigación Lola
Collado, César Alonso-Borrego, Víctor Aguirregabiria, Raquel Carrasco y Javier Álvarez
también han sido una fuente constante de interacción fructífera. También me complace
reconocer a mis coautores, especialmente a Bo Honoré, ya que me he basado en gran medida
en nuestro trabajo conjunto. Estoy muy agradecido con Javier Alvarez, Jesús Carro, Tony
Lancaster, Francisco Peñaranda y Frank Windmeijer, quienes leyeron partes del manuscrito
e hicieron comentarios valiosos, y a James Davidson por su consejo sobre la composición
técnica del manuscrito. Agradecemos especialmente a Pedro Albarrán, Olympia Bover y
Enrique Sentana por sus comentarios, su ayuda y su disposición para analizar todos los
aspectos de la preparación del libro. Soy, por supuesto, el único responsable de los fallos que
quedan. Finalmente, mi más profundo agradecimiento a Olympia, Manuel y Jaime por su
apoyo incondicional.

M.A.
Madrid, julio de 2002
1

Introduccion

En un momento exótico, el uso de datos económicos tanto con series de tiempo como con
variaciones de corte transversal se ha convertido en un lugar común en la práctica
econométrica moderna. El término datos de panel es usado para una amplia variedad de
situaciones en econometría. Se refiere a cualquier conjunto de datos con observaciones
repetidas a lo largo del tiempo para el mismo individuo. Individuos pueden ser trabajadores,
hogares, empresas, industrias, regiones o países, por nombrar algunos.
Si agrupamos las cuentas nacionales de varios países, obtenemos un panel de país. Los datos
de este tipo han sido prominentes, por ejemplo, en investigaciones recientes sobre modelos
de crecimiento y convergencia. Además, se ha dirigido mucho interés a los paneles de estados
transversales porque estos datos a veces pueden proporcionar una variación exógena en las
instituciones o políticas que facilitan la identificación de parámetros de interés económico.
No es sorprendente que algunos de los problemas econométricos que surgen en este
contexto estén estrechamente relacionados con la econometría de series temporales. En los
paneles agregados, la dimensión de corte transversal y la serie temporal a menudo son de una
magnitud similar. Una cuestión central estática es el impacto de la variación de corte
transversal para la elección y las propiedades de muestreo de los estimadores.
Otra clase de conjuntos de datos son paneles de nivel de hogar o empresa, que se basan en
encuestas, censos, registros administrativos o balance de cuentas de la empresa. Estos
generalmente se denominan “micropaneles”. Típicamente, estos paneles consisten en
grandes secciones de corte transversal de individuos observados durante cortos períodos de
tiempo. Algunos ejemplos son los paneles de ingresos familiares de Michigan, Essex y la
Comunidad Europea1, o los paneles rotativos sobre los gastos domésticos realizados en los
EE. UU. Y en algunos países europeos.

1Estudio de Panel de Ingresos Dinámicos de la Universidad de Michigan (PSID), la Encuesta de Panel de Hogares
británicos de la Universidad de Essex (BHOS), y la Encuesta de Panel hogares de la Comunidad Europea (ECHS).
2 Introducción

Interesado en esto último, originalmente evolucionó a partir de econometría de corte


transversal en áreas tales como la economía laboral, el análisis de la demanda y el análisis de
las funciones de costo y producción. En este contexto, se han desarrollado varias técnicas
específicas para paneles con "N grande y T pequeño" (aunque también hay paneles donde ni
N es muy grande ni T es muy pequeño). Sin embargo, es importante tener en cuenta que
desde un punto de vista sustantivo no es T en sí lo que importa, sino la naturaleza de la
variación durante el período, o la relevancia de la frecuencia de las observaciones para el
análisis (trimestral, anual, etc.).
Los datos a nivel de hogar o empresa establecen muchos problemas de superación
para identificar las reglas de comportamiento de los agentes individuales. Además, los datos
del panel pueden proporcionar la variación exógena que se requiere para la identificación de
los parámetros estructurales a través de comparaciones a lo largo de períodos que cubren
cambios de política. Estas observaciones serían también las verdaderas de los datos que
consisten en series de tiempo de cortes transversales independientes. Lo específico de los
datos de panel es la posibilidad de seguir a los mismos individuos a lo largo del tiempo, lo
que facilita el análisis de las respuestas dinámicas y el control de la heterogeneidad no
observada.
En la econométrica de los datos de panel, se debe hacer énfasis en el modelado y las
implicaciones de la heterogeneidad, lo cual no es sorprendente dado que se trata de unidades
diferentes. Por otro lado, el campo se ha expandido para cubrir casi cualquier aspecto de
econometría. Ecuaciones estructurales, dinámicas, modelos de series de tiempo, elección
discreta, selectividad, raíces unitarias: todas las herramientas econométricas estándar han sido
reevaluadas para su uso con datos de panel. Por lo tanto, cada vez es más difícil considerar
al análisis de datos de panel como un tema especial dentro de la econometría que tiene un
tema unificado. Por el contrario, la mayoría de los desarrollos econométricos son
potencialmente relevantes para los datos de panel. Además, dada la variedad de conjuntos de
datos de panel existentes y la diversidad de objetivos que los economistas pueden tener para
alinearlos, no existe la metodología para analizar datos de panel, sino una colección de
técnicas dispares que se han acumulado a partir de una serie de motivaciones heterogéneas
en la econometría teórica y aplicada.
Este libro tiene dos preocupaciones principales. Uno es el análisis de modelos econométricos
con variables explicativas no exógenas. Esto incluye variables estrictamente exógenas que se
correlacionan con efectos permanentes no observables, variables sujetas a error de medición
y variables que son predeterminadas o endógenas en relación con errores variables en el
tiempo.
La otra preocupación principal es el modelado dinámico y, más específicamente, el problema
de distinguir empíricamente entre las respuestas dinámicas y la heterogeneidad no observada
en los modelos de datos de panel.
Los modelos lineales estáticos y dinámicos están cubiertos. Con la excepción de los
problemas de error en la variable, la mayoría de los resultados pueden hacerse extensivos a
Introducción 3

modelos no lineales con errores aditivos, y hago que esta extensión sea explícita
ocasionalmente. Sin embargo, los modelos no lineales con errores no aditivos están fuera del
alcance de este libro. Algunos de estos modelos, como los modelos de elección discreta y
selección de muestras, son herramientas importantes en el mundo empírico.
Desafortunadamente, se sabe muy poco sobre el modelo de datos de panel no lineal con
variables explicativas que son predeterminadas, endógenas o medidas con error. En Arellano
y Honoré (2001).
Se puede encontrar una revisión del trabajo reciente sobre modelos de datos de panel no
lineales.
El texto principal está dividido en tres partes. Parte I trata de modelos estáticos y las Partes
II y III con modelos dinámicos. La Parte II discute modelos de series de tiempo puras,
mientras que los modelos dinámicos condicionales se consideran en la Parte III. En la
econometría de datos de panel, convergen dos tipos diferentes de motivaciones. Uno es el
deseo de controlar la heterogeneidad no observada; el otro es la posibilidad de modelar
respuestas dinámicas y componentes de error. Las tres partes del libro están organizadas en
torno a los dos temas y sus interrelaciones.
Finalmente, la Parte IV contiene dos apéndices que revisan los principales resultados en la
teoría del método generalizado de estimación de momentos y las variables instrumentales
óptimas.
El material introductorio en cada uno de los capítulos será útil para cualquier persona
interesada en el análisis de datos de panel. Se discuten muchos temas desde las perspectivas
T tanto pequeñas como largas, y presento ilustraciones empíricas para ambos micropaneles.
Este énfasis se refleja tanto en la organización del material como en la elección de los temas.
Datos Econométricos de Panel

MANUEL ARELLANO

OXFORD
UNIVERSITY PRESS
OXFORD
UNIVERSITY PRESS

Calle Gran Clarendon, Oxford OX2 6DP


Oxford University Press es un departamento de la Universidad de Oxford.
Promueve el objetivo de excelencia de la universidad en investigación, erudición, y
educación publicando por todo el mundo en Oxford Nueva York
Auckland Bangkok Buenos Aires Ciudad del Cabo Chennai
Dar es Salaam Delhi Hong Kong Estambul Karachi Kolkata
Kuala Lumpur Madrid Melbourne Ciudad de México Mumbai Nairobi
São Paulo Shanghái Taipéi Tokio Toronto
Oxford es una marca registrada de Oxford University Press en el Reino Unido y en algunos
otros países
Publicado en los Estados Unidos
por Oxford University Press Inc., Nueva York

© Manuel Arellano 2003

Los derechos morales de los autores han sido afirmados


Derechos de Base de datos Oxford University Press (fabricante)

Primera publicación 2003

Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida,
almacenado en un sistema de recuperación, o transmitido, en cualquier forma o por
cualquier medio,
sin el permiso previo por escrito de Oxford University Press,
o según lo expresamente permitido por la ley, o bajo los términos acordados con el
organización de derechos reprográficos. Consultas sobre reproducción
fuera del alcance de lo anterior debe enviarse al Departamento de Derechos,
Oxford University Press, en la dirección de arriba

No debe circular este libro en ninguna otra encuadernación o tapa


y debes imponer esta misma condición a cualquier adquirente

Catalogación de la Biblioteca Británica en datos de Publicación


Datos disponibles

ISBN 0-19-924528-2
ISBN 0-19-924529-0 (Pbk)
Para Olimpia, Manuel y Jaime
Parte I

Modelos Estáticos
2
Heterogeneidad no observada

El interés econométrico en los datos de panel, especialmente en aplicaciones


microeconométricas, ha sido el resultado de al menos dos diferentes tipos de motivaciones.

 Primero, el deseo de explotar los datos del panel para controlar la heterogeneidad
invariante en el tiempo no observada en el modelo de corte transversal.
 Segundo, el uso de los datos del panel como una forma de desentrañar los
componentes de la varianza y estimar la transición las probabilidades entre los
estados, y más generalmente para estudiar la dinámica de poblaciones transversales.

Estas motivaciones pueden asociarse libremente con dos hilos de la literatura de datos del
panel etiquetados con efectos fijos y aleatorios modelos de efectos. A continuación, tomamos
estas dos motivaciones y tipos de modelos a su vez. Primero en el contexto de modelos
estáticos en Parte I, y luego en el contexto de modelos dinámicos en las Partes II y III.

2.1 Descripción General

Una parte considerable de la actividad econométrica se ocupa de la descripción empírica y la


previsión, pero otra parte apunta a cuantificando relaciones estructurales o causales. Las
relaciones estructurales son necesarias para la evaluación de políticas y, a menudo, para las
pruebas teóricas.

El modelo de regresión es una herramienta estadística esencial tanto para econometría


descriptiva como estructural. Sin embargo, las líneas de regresión a partir de datos
económicos a menudo no se pueden dar una interpretación causal. La razón es que en la
relación de interés entre observables y no observables, podríamos esperar que las variables
explicativas se correlacionen con no observables, mientras que en un modelo de regresión
los regresores y los no observables no están correlacionados por la construcción

7
8 Heterogeneidad no observada

Hay varios casos en los que esperaríamos una correlación entre observables y no observables.
Uno es el problema clásico de la simultaneidad de la oferta y la demanda debido a la
agregación de tiempo y al equilibrio de mercado. Eso es la regresión de la cantidad en el
precio no se puede interpretar como una ecuación de la demanda porque esperaríamos un
cambio exógeno no observable en la demanda para afectar no solo las compras, sino también
los precios a través del efecto secundario de la oferta de cantidades en precios.
Otro es el error de medición: si la variable explicativa que observamos no es la variable a la
que responden los agentes, sino una medida de error montado, el término inobservable en la
ecuación de interés contendrá el error de medición que se correlacionará con el regresor.
Finalmente, puede haber una correlación debido a la heterogeneidad no observada. Este ha
sido un problema omnipresente en análisis de regresión transversal. Si las características que
tienen un efecto directo sobre las variables del lado izquierdo y derecho son las variables
explicativas omitidas se correlacionarán con los errores y los coeficientes de regresión serán
medidas sesgadas del efectos estructurales Por lo tanto, los investigadores a menudo se han
enfrentado a conjuntos de datos transversales masivos de los cuales se pueden determinar
correlaciones precisas, pero que, sin embargo, no tenían información sobre parámetros de
interés de política.
La respuesta tradicional de la econometría a estos problemas ha sido la regresión múltiple y
la variable instrumental modelos. Lamentablemente, aunque la teoría estadística del problema
se comprende bien, a menudo nos faltan datos sobre la variable de acondicionamiento o los
instrumentos para lograr la identificación de parámetros estructurales de esa manera.
Una de las principales motivaciones para usar los datos de panel ha sido la capacidad de
controlar, posiblemente invariante en el tiempo, correlacionado heterogeneidad sin
observarlo.
Supongamos una regresión transversal de la forma:

𝑦𝑖1 = 𝛽𝑥𝑖1 + η𝑖 + 𝑣𝑖1 (2.1)

Tal que 𝐸(𝑣𝑖1 ⃓𝑥𝑖1 , η𝑖 ) = 0. Si se observa ηi se puede identificar β a partir de una regresión
múltiple de y en x y η. Si ηi no es la identificación observada β requiere la falta de correlación
entre 𝑥𝑖1 𝑦 η𝑖 en ese caso.
𝐶𝑜𝑣(𝑥𝑖1 , y𝑖1 )
𝐶𝑜𝑣(𝑥𝑖1 , η𝑖 ) = 0 => 𝛽 = ,
𝑉𝑎𝑟(𝑥𝑖1 )
o la disponibilidad de un instrumento externo zi que no está correlacionado con 𝑣𝑖1 y ηi,
pero correlacionado con 𝑥𝑖1 , en cualquier caso
𝐶𝑜𝑣(𝑧𝑖1 , y𝑖1 )
𝐶𝑜𝑣(𝑧𝑖1 , η𝑖 ) = 0 => 𝛽 = ,
𝑉𝑎𝑟(𝑧𝑖1 , 𝑥𝑖1 )

Supongamos que ninguna de estas dos opciones está disponible, pero observamos y𝑖2 y
x𝑖2 para las mismas personas en un segundo período (de modo que T = 2) tal que
2.1 Descripción general 9
𝑦𝑖2 = 𝛽𝑥𝑖2 + η𝑖 + 𝑣𝑖2 (2.2)

y ambos 𝑣𝑖1 y 𝑣𝑖2 satisfacen 𝐸(𝑣𝑖1 ⃓𝑥𝑖1 , 𝑥𝑖2 , η𝑖 ) = 0. Entonces, se identifica β en la


regresión en las primeras diferencias, incluso si ηi no es observado. Tenemos:

𝑦𝑖2 − 𝑦𝑖1 = (𝛽𝑥𝑖2 − 𝛽𝑥𝑖1 ) + (𝑣𝑖2 − 𝑣𝑖1 ) (2.3)

Y
𝐶𝑜𝑣(∆𝑥𝑖2 , ∆y𝑖2 )
𝛽= . (2.4)
𝑉𝑎𝑟(∆𝑥𝑖2 )

Un ejemplo clásico: la función de producción agrícola Cobb-Douglas


(Mundlak, 1961; Hoch, 1962; Chamberlain, 1984) Supongamos que la ecuación (2.1)
representa una función de producción para un producto agrícola. El índice i denota granjas
yt períodos de tiempo (estaciones o años). También: Salida de registro
yit = Salida de registro.
xit = Registro de una entrada variable (mano de obra).
ηi = Una entrada que permanece constante a lo largo del tiempo (calidad del suelo).
vit = Una entrada estocástica que está fuera del control del agricultor (lluvia).
Supongamos que ηi es conocido por el agricultor pero no por el econométrico. Si los
agricultores maximizan las ganancias esperadas habrá una correlación transversal entre el
trabajo y la calidad del suelo. Por lo tanto, el coeficiente de la población en una regresión
simple de yi1 en xi1 diferirá de β. Si η fueron observados por el econométrico, el coeficiente
de x en un corte transversal múltiple la regresión de yi1 en xi1 y ηi coincidirá con β. Ahora
supongamos que los datos en yi2 y xi2 son disponibles por un segundo período. Por otra
parte, supóngase que las precipitaciones en el segundo período son impredecibles debido a
la lluvia en el primer período. (las diferencias permanentes en las precipitaciones pueden
formar parte de ηi), de modo que la precipitación es independiente de la demanda de mano
de obra de una explotación agrícola en los dos periodos. Por lo tanto, incluso a falta de datos
sobre ηi, la disponibilidad de los datos del panel permite identificar el parámetro tecnológico
β.

Un ejemplo de demanda de dinero firme (Mulligan, 1997; Bover y Watson,


2000) Supongamos que una empresa minimiza los costos para una salida determinada y están
sujetas a una función de producción 𝑠𝑖𝑡 = 𝐹(𝑥𝑖𝑡 ) y una transacción de servicios donde x
denota una entrada compuesta, m es demanda de efectivo, ℓ es mano de obra empleada en
transacciones, y a representa la sofisticación financiera de la empresa. Habrá economías de
escala en la demanda de dinero por parte de las empresas si c ≠ 1. La ecuación resultante de
demanda de dinero es
log 𝑚𝑖𝑡 = 𝑘 + 𝑐 log𝑆𝑖𝑡 − 𝑏 log( R 𝑖𝑡 /w𝑖𝑡 ) − log 𝑎𝑖 + 𝑣𝑖𝑡. (2.5)
10 Heterogeneidad no observada

Aquí k es una constante, R es el costo de oportunidad de mantener dinero, w es el salario de


los trabajadores involucrados en la transacción servicios, y v es un error de medición en
eldemanda de efectivo2. En general, se correlacionará con la producción a través de la
restricción de efectivo por adelantado. Por lo tanto, el coeficiente de producción (o ventas)
en una regresión de logm, logs y log (R / w) no coincide con el parámetro de escala de interés.
Sin embargo, si los datos del panel de la empresa están disponibles y varían de una empresa
a otra, no con el tiempo en el período de análisis, las economías de escala se pueden
identificar a partir de la regresión en los cambios.
Un ejemplo en el que los datos del panel no funcionan: vuelve a la educación Los
retornos "estructurales" a la educación son importantes en la evaluación de las políticas
educativas. Se ha creído ampliamente en la literatura que las estimaciones de regresión
transversal de los retornos no podían ser confiables debido a la "capacidad" omitida que si
se correlaciona con el logro educativo sesgaría los retornos (véase Griliches, 1977). En la
notación anterior:
yit = log salarios (o ganancias).
xit = Años de educación a tiempo completo.
ηi = habilidad no observada.
β = Regresa a la educación.

El problema en este ejemplo es que xit generalmente carece de variación de series de tiempo.
Entonces una regresión en primeras diferencias no será capaz de identificar β en este caso.
En este contexto, los datos sobre hermanos y variables instrumentales transversales han
demostrado más útil para identificar los rendimientos de la educación sin sesgo de capacidad
que los datos de panel.
Este ejemplo ilustra un problema más general. La información sobre β en la regresión en
primeras diferencias dependerá en la relación de las varianzas de Δ v y Δ x. En la ecuación
de educación de ingresos, estamos en la situación extrema donde Var (Δx) = 0, pero si Var
(Δx) es pequeño, las regresiones en los cambios pueden contener muy poca información
sobre parámetros de interés incluso si el tamaño de muestra transversal es muy grande.

Mediciones econométricas versus pronósticos


Los ejemplos previos sugieren que la capacidad de controlar la heterogeneidad no observada
es principalmente una ventaja en el contexto de los problemas de la medición econométrica
en oposición a los problemas de previsión. Este es una importante distinción. Incluyendo
efectos individuales, logramos identificar ciertos coeficientes a expensas de dejar parte de la
regresión no modificada (la que solo tiene variación transversal).

⁄ ⁄ ⁄
2 Escribir el costo de la empresa como 𝐶𝑖𝑡 = 𝑝𝑡 𝑥𝑖𝑡 + 𝑅𝑖𝑡 𝑚𝑖𝑡 + 𝑤𝑖𝑡 (𝑠𝑖𝑡𝑐 𝑏 𝑎𝑖−1 𝑏 𝑚𝑖𝑡
−(1−𝑏) 𝑏
), la ecuación (2.5)
resulta de la condición de primer orden 𝜕𝐶𝑖𝑡 ⁄𝜕𝑚𝑖𝑡 = 0 o
⁄ ⁄ −1⁄𝑏
𝑅𝑖𝑡 ⁄𝑤𝑖𝑡 = 𝑠𝑖𝑡𝑐 𝑏 𝑎𝑖−1 𝑏 𝑚𝑖𝑡 (1 − 𝑏)/𝑏.
2.1 Descripción general 11

Tenga en cuenta que la parte de la varianza de y explicada por xβ podría ser muy pequeña en
relación con η y v (5,80 y 15% no sería una situación poco realista.

en, por ejemplo, los modelos de oferta de mano de obra intertemporal del tipo considerado
por Heckman y MaCurdy (1980).3 En este caso, es fácil obtener R2 más alto al incluir
variables dependientes rezagadas o proxis para los efectos fijos. Las regresiones de este tipo
serían útiles en los ejercicios de pronóstico de corte transversal para la población de la cual
los datos (como en el puntaje crediticio o en la estimación de probabilidades de fraude
tributario), pero pueden no ser útiles si el objetivo es medir el efecto de x en y mantener
constante la heterogeneidad invariante en el tiempo. Una ecuación con intersecciones
específicas individuales aún puede ser útil cuando el interés está en pronósticos para el mismo
personas en diferentes períodos de tiempo, pero no cuando estamos interesados en las
previsiones de personas distintas de las incluido en la muestra.
No Exogeneidad y Coeficientes Aleatorios La identificación de los efectos causales a
través de coeficientes de regresión en las diferencias o desviaciones depende de la falta de
correlación entre x y v en todos los rezagos y derivaciones (Exogeneidad estricta). Si x se
mide con error (Capítulo 4) o es correlacionado con errores rezagados (Capítulo 8), las
diferencias en las desviaciones en realidad pueden empeorar las cosas.4 Otra dificultad surge
cuando el efecto de x y es en sí mismo heterogéneo. En tal caso, los coeficientes de regresión
en las diferencias en general no se pueden interpretar como efectos causales promedio.
Específicamente, supongamos que β puede variar transversalmente en (2.1) y (2.2) para que
𝑦𝑖𝑡 = 𝛽𝑖 𝑥𝑖𝑡 + η𝑖 + 𝑣𝑖𝑡 (𝑡 = 1,2) 𝐸(𝑣𝑖𝑡 ⃓ 𝑥𝑖1 , 𝑥𝑖2 , η𝑖 , 𝛽𝑖 ) = 0 (2.6)
En estas circunstancias, el coeficiente de regresión (2.4) difiere de E (βi) a menos que βi sean
la media independiente de Δ𝑥𝑖2 . La disponibilidad de datos de panel aún permite la
identificación de efectos causales promedio en modelos de coeficientes aleatorios siempre
que x es estrictamente exógeno. Sin embargo, si x no es exógeno y βi es heterogéneo,
encontramos una identificación seria problemas en paneles cortos.5

2.2 Modelos de efectos fijos


2.2.1 Suposiciones
Nuestras suposiciones básicas para lo que llamamos el "modelo de efectos fijos estáticos"
son las siguientes. Suponemos que {(𝑦𝑖1 , … , 𝑦𝑖𝑇 , 𝑥𝑖1 , … , 𝑥𝑖𝑇, η𝑖 ), 𝑖 = 1, … , 𝑁} es una muestra
aleatoria

3 Como x β y η están potencialmente correlacionados, la varianza de y no necesita coincidir con la suma de las varianzas de
x β, η y v.
4 Ver Griliches y Mairesse (1998) para una historia de advertencia sobre soluciones de efectos fijos, y una evaluación de las

funciones de producción empíricas basadas en datos de panel de la empresa.


5 Chamberlain (1992a) considera la estimación de modelos de coeficientes aleatorios con estrictamente exógenos

variables. El problema de la identificación a partir de paneles cortos con x noxígena se discute en Chamberlain (1993) y
Arellano y Honoré (2001). La estimación de paneles heterogéneos largos se considera en Pesaran y Smith (1995).
12 Heterogeneidad no observada
ʹ
𝑦𝑖𝑡 = 𝑥𝑖𝑡 𝛽 + η𝑖 + 𝑣𝑖𝑡 (2.7)

y eso junto con


Asunción A1:
𝐸(𝑣𝑖 ⃓ 𝑥𝑖 , η𝑖 ) = 𝜎2 I𝑇 .
donde 𝑣𝑖 = (𝑣𝑖1 , … , 𝑣𝑖 𝑇)ʹ𝑦 𝑥𝑖 = (𝑥𝑖1 , … , 𝑥𝑖 𝑇)ʹ. Observamos 𝑦𝑖𝑡 y el vector k×1 de
variables explicativas pero 𝑥𝑖𝑡 no ηi, que es por lo tanto un regresor invariante en el tiempo
inobservable. De manera similar, nos referiremos a los errores "clásicos" cuando se cumple
la suposición auxiliar adicional:
Asunción A2:
Var(𝑣𝑖 ⃓𝑥𝑖 , η𝑖 ) = 𝜎 2 I 𝑇 .
En la Asunción A2, los errores son condicionalmente homoscedásticos y no están
correlacionados en serie. Bajo la Asunción A1 tenemos
𝐸(𝑦𝑖 ⃓ 𝑥𝑖 , η𝑖 ) = X𝑖 β + η𝑖 𝜄. (2.8)
donde 𝑦𝑖 = (𝑦𝑖1 , … , 𝑦𝑖𝑇) ', ι es un vector T×1 de unos, y Xi = (xi1,…, xiT)' es una matriz
T×k. La implicación de (2.8) para el valor esperado de yi dado xi es
𝐸(𝑦𝑖 ⃓ 𝑥𝑖 ) = X𝑖 β + 𝐸(η𝑖 ⃓𝑥𝑖 )𝜄. (2.9)
Además, bajo la Asunción A2
Var(𝑦𝑖 ⃓ 𝑥𝑖 , η𝑖 ) = 𝜎2 I𝑇 (2.10)
Lo que implica
Var(𝑦𝑖 ⃓ 𝑥𝑖 ) = 𝜎2 I𝑇 + 𝑉𝑎𝑟(η𝑖 ⃓𝑥𝑖 )𝜄𝜄ʹ. (2.11)
Un conjunto más débil de suposiciones es
Asunción A1 ':
E(𝑣𝑖 ⃓𝑥𝑖 ) = 0 (𝑡 = 1, … , 𝑇).
Asunción A2 ':
Var(𝑣𝑖 ⃓𝑥𝑖 ) = 𝜎 2 I 𝑇 .
Aunque a menudo confiaremos en la suposición más débil E (vit | xi) = 0 por conveniencia,
ya que muchos resultados de interés se pueden obtener con él, en mucho
2.2Modelos de efectos fijos 13

instancias aplicadas, será difícil imaginar cómo E (vit|xi)=0 se mantendría sin E(vit|xi,
ηi)= 0 también sosteniendo6.
Otra posibilidad es reemplazar supuestos de independencia media por falta de suposiciones
de correlación, pero se aplican observaciones similares: en la práctica puede ser difícil
imaginar las condiciones de proyección lineal E * (vit | xi) = 0 o E * (vit | xi, ηi) = 0 sin las
condiciones de independencia medias más fuertes también. Sin embargo, la falta de
correlación puede ser una forma conveniente de proporcionar un enfoque para la
presentación de resultados de identificación esenciales.
Obsérvese que bajo los supuestos A1 'y A2' tenemos la misma expresión para E (yi | xi) que
en (2.9) pero diferente para Var (yi | xi) ya que ηi y vi pueden correlacionarse
condicionalmente dado xi.
𝑽𝒂𝒓(𝒚𝒊 |𝒙𝒊 ) = 𝝈𝟐 𝑰𝑻 + 𝑽𝒂𝒓(𝜼𝒊 |𝒙𝒊 )𝑰𝑰′ + 𝑪𝒐𝒗(𝜼𝒊 , 𝒗𝒊 |𝒙𝒊 )𝑰′ + 𝑰𝑪𝒐𝒗(𝜼𝒊 , 𝒗𝒊 ′|𝒙𝒊 ). (2.12)

A1 (o A1 ') es la suposición fundamental en este contexto. Implica que el error v en cualquier


período no está correlacionado con los valores pasados, presentes y futuros de x (o, por el
contrario, que x en cualquier período no está correlacionado con los valores pasados,
presentes y futuros de v). A1 es, por lo tanto, una suposición de exogeneidad estricta que
descarta, por ejemplo, la posibilidad de que los valores actuales de x estén influenciados por
errores pasados. En el ejemplo de la función de producción agrícola, x (mano de obra) será
no correlacionado con v (lluvia) en todos los rezagos y derivaciones, siempre que este último
sea impredecible a partir de las precipitaciones pasadas (dado diferencias permanentes en la
precipitación que se incluirían en los efectos de la granja, y posiblemente estacionales u otros
componentes deterministas). Si la precipitación en el período t es predecible a partir de la
lluvia en el período t - 1 - que es conocido por el agricultor en la demanda de mano de obra
en el período t, en general, dependerá de vi (t-1) (Chamberlain, 1984,1258-1259). Los modelos
condicionales sin variables explicativas estrictamente exógenas se considerarán en la Parte
III.
El supuesto A2 es, por otro lado, una suposición auxiliar según la cual los resultados mínimos
cuadrados clásicos son óptimos. Sin embargo, a menudo se espera una falta de cumplimiento
con A2 en las aplicaciones. Aquí, primero presentamos los resultados bajo A2, y luego
discutimos estimación e inferencia con errores heteroscedásticos y correlacionados en serie
En cuanto a la naturaleza de los efectos, estrictamente hablando, el término efectos fijos se
referiría a un proceso de muestreo en el que las mismas unidades se muestrean
(posiblemente) repetidamente durante un período determinado manteniendo constantes los
efectos. En ese contexto, a menudo se tiene en cuenta una distribución de los efectos
individuales elegidos por el investigador.

6
Tenga en cuenta que una suposición formalmente más débil sería 𝐸(𝑣𝑖𝑡 − 𝑣𝑖(𝑡−𝑖) |𝑥𝑖 ) = 0, ya que esto sería
equivalente a decir que E (vit | xi) podría ser una función arbitraria de xi que no varía con t. Sin embargo, si E
(vit | xi) = φ (xi) para cualquier t, podríamos siempre redefinir η i y vit como 𝜂𝑖† = 𝜂𝑖 + 𝜑(𝑥𝑖 ) 𝑦 𝑣𝑖† = 𝑣𝑖𝑡 −
𝜑(𝑥𝑖 ) respectivamente, de modo que 𝜂𝑖† todavía sería arreglado con el tiempo y 𝐸(𝑣𝑖† |𝑥𝑖 ) = 0.
14 Heterogeneidad no observada

Aquí imaginamos una muestra tomada al azar de una población multivariante de datos
observables y efectos no observables. Esta noción puede o no corresponderse con la
naturaleza física de la recopilación de datos. Sería así, por ejemplo, en el caso de algunas
encuestas de hogares, pero no con datos de todas las empresas cotizadas o países de la
OCDE. En esos casos, la población multivariada de la cual se supone que los datos provienen
es hipotética. Por otra parte, estamos interesados en modelos que solo especifican
características de la distribución condicional f (yi | xi, ηi). Por lo tanto, no nos preocupa si la
distribución que genera los datos en xi y ηi, f (xi, ηi) es representativa de una población
transversal o de los deseos del investigador. Consideramos (yi, xi, ηi) como una muestra
aleatoria de la población multivariada (quizás artificial) con distribución conjunta f (yi, xi, ηi)
= f (yi | xi, ηi) f (xi, ηi) y enfoque en la distribución condicional de yi. Así que, en común con
gran parte de la literatura econométrica, usamos el término efectos fijos para referirnos a una
situación en la que f (ηi | xi) no se restringe.

2.2.2 Estimación dentro del grupo

Con T = 2 solo hay una ecuación después de diferenciar. Bajo los supuestos A1 y A2, la
ecuación en las primeras diferencias es un modelo de regresión clásico y, por lo tanto, los
mínimos cuadrados ordinarios (MCO) en las primeras diferencias es el estimador óptimo de
β en el sentido de mínimos cuadrados estándar. Para ver la irrelevancia de las ecuaciones en
niveles en este modelo, tenga en cuenta que una transformación no singular del sistema de
dos ecuaciones original es
𝐸(𝑦𝑖1 |𝑥𝑖 ) = 𝑥′𝑖1 𝛽 + 𝐸(𝜂𝑖 |𝑥𝑖 )
𝐸(Δ𝑦𝑖2|𝑥𝑖 ) = Δ𝑥′𝑖2 𝛽

Como E (ηi | xi) es una función no restringida desconocida de xi , el conocimiento de la


función E (yi1 | xi) no informa sobre β en la primera ecuación. Por lo tanto, no se pierde
información sobre β al solo considerar la ecuación en las primeras diferencias
Si T ≥ 3 tenemos un sistema de ecuaciones T - 1 en primeras diferencias:
𝚫𝒚𝒊𝟐 =𝚫𝒙′𝒊𝟐 𝜷 + 𝜟𝒗𝒊𝟐

𝚫𝒚𝒊𝑻 = 𝚫𝒙′𝒊𝑻 𝜷 + 𝜟𝒗𝒊𝑻 ,

que en forma compacta se puede escribir como

𝐃𝒚𝒊 = 𝐃𝑿𝒊 𝜷 + 𝑫𝒗𝒊 (2.13)

donde D es el operador de primera diferencia de la matriz (T - 1) × T


2.2 MODELOS DE EFECTOS FIJOS 15

−1 1 ⋯ 0
𝐷=( ⋮ ⋱ ⋮ ) (2.14)
0 ⋯ −1 1
Siempre que cada uno de los errores en las primeras diferencias sean medios independientes
de los xs para todos los períodos (bajo la Asunción A1 o A1 ') E (Dvi | xi) = 0, las estimaciones
OLS de β en este sistema proporcionadas por

𝜷𝑂𝐿𝑆 = (∑𝑁
𝑖=1(𝐷𝑋𝑙 )′𝐷 𝑋𝑙 )
−1 ∑𝑁 (𝐷𝑋 )′𝐷
𝑖=1 𝑙 𝑦𝑙 (2.15)

será imparcial y consistente para N grande. Sin embargo, si los vs son errores clásicos
homoscedásticos y no autocorrelacionados (bajo Asunción A2 o A2 '), los errores en las
primeras diferencias se correlacionarán para periodos adyacentes con

𝑉𝑎𝑟(𝐷𝑣𝑙 |𝑋𝑙 ) = 𝜎 2 𝐷𝐷′ . (2.16)

Siguiendo la teoría de regresión estándar, el estimador óptimo en este caso está dado por
mínimos cuadrados generalizados (GLS), que toma la forma7

𝜷𝑊𝐺 = (∑𝑁 ′ −1
𝑖=1 𝑋𝑙 𝐷′(𝐷𝐷 ) 𝐷 𝑋𝑙 )
−1 ∑𝑁 (𝑋 )′𝐷′
𝑖=1 𝑙 (𝐷𝐷′ )−1 𝐷𝑦𝑙 (2.17)

Además, tenga en cuenta que, en este caso, GLS en sí es un estimador factible ya que DD'
no depende de coeficientes desconocidos. La matriz idempotente D' (DD ') - 1 D también
toma la forma7
𝐷′ (𝐷𝐷′ )−1 𝐷 = 𝐼𝑇 −𝑙𝑙⁄𝑇 = 𝒬, 𝑑𝑒𝑐𝑖𝑟 (2.18)

La matriz Q se conoce como el operador desviaciones del medio del tiempo o dentro del
grupo porque transforma las series temporales originales en desviaciones del tiempo significa:
𝑦̃𝑖 = 𝒬𝑦𝑖 , cuyos elementos están dados por
𝑦̃𝑖 = 𝑦𝑖𝑡 − 𝑦𝑖

𝑙𝑙 ′ ′ −1
+ 𝐷′(𝐷𝐷 ) 𝐷 = 𝐼𝑇
𝑇

7Para verificar esto, tenga en cuenta que la matriz T × T


𝑇 1/2 𝑙′
𝓗=( )
(𝐷𝐷′ )−1/2 𝐷
es tal que 𝓗𝓗′ = 𝑰𝑻 , para que también 𝓗′ 𝓗 = 𝑰𝑻 o
16 Heterogeneidad Inobservada

Con 𝑦𝑖 = 𝑇 −1 ∑𝑇𝑠=1 𝑦𝑖𝑠 . Por lo tanto, 𝛽̂𝑊𝐺 también se puede expresar como OLS en las
desviaciones del tiempo significa
̂ 𝑊𝐺 = [∑𝑁
𝜷 𝑇
𝑖=1 ∑𝑡=1(𝑥𝑖𝑡 − 𝑥𝑖 ) (𝑥𝑖𝑡 − 𝑥𝑖 )′]
−1 ∑𝑁 ∑𝑇 (𝑥
𝑖=1 𝑡=1 𝑖𝑡 − 𝑥𝑖 )(𝑦𝑖𝑡 − 𝑦𝑖 )
(2.19)
Este es probablemente el estimador más popular en el análisis de datos de panel, y se lo
conoce bajo una variedad de nombres que incluyen un estimador de covarianza dentro del
grupo.8
También se lo conoce como el estimador de mínimos cuadrados variable variable o "efectos
fijos". Este nombre refleja el hecho de que desde 𝛽̂𝑊𝐺 es un estimador de mínimos cuadrados
después de restar medias individuales a las observaciones, es numéricamente el mismo que
el estimador de β que se obtendría en una regresión MCO de y sobre x y un conjunto de N
variables ficticias, una para cada individuo en el muestra. Así 𝑦𝑖 = 𝑋𝑖 𝛽 + 𝑙𝜂𝑖 + 𝑣𝑖 también
se puede considerar como el resultado de estimar conjuntamente por OLS β y las
realizaciones de los efectos individuales que aparecen en la muestra
Para ver esto, considere el sistema de ecuaciones T en niveles
𝑦𝑖 = 𝑋𝑖 𝛽 + 𝑙𝜂𝑖 + 𝑣𝑖
y escribirlo en forma apilada como
𝑦𝑖 = 𝑋𝑖 𝛽 + 𝐶𝜂𝑖 + 𝑣,

donde y = (y1', ..., yN') ' y v = (v1', ..., vN')' son NT × 1 vectores, X = (X1 ', ..., XN') ' es una
matriz NT × k, C es una matriz NT × N de variables ficticias individuales dadas por C = IN
⊗ ι, y η = (η1, ..., ηN) 'es el vector N × 1 de efectos específicos individuales o intersecciones
. Utilizando el resultado de la regresión particionada, la regresión MCO de y en X y C da la
siguiente expresión para la estimación de β

[𝑋 ′ (𝐼𝑁𝑇 − 𝐶(𝐶 ′ 𝐶)−1 𝐶 ′ )𝑋]−1 𝑋 ′ (𝐼𝑁𝑇 − 𝐶(𝐶 ′ 𝐶)−1 𝐶 ′ )𝑦 (2.21)

que claramente coincide con 𝛽̂𝑊𝐺 desde INT - C (C'C) -1C '= IN ⊗ Q.

Las expresiones para los efectos estimados son


1
𝜂𝑖 = 𝑇 ∑𝑇𝑡=1(𝑦𝑖𝑡 − 𝑥 ′ 𝑖𝑡 𝛽𝑊𝐺 ) = 𝑦𝑖 − 𝑥𝑖 𝛽𝑊𝐺 (𝑖 = 1, … , 𝑁). (2.22)

No necesitamos ir más allá de la teoría de regresión estándar para obtener las propiedades de
muestreo de estos estimadores. El hecho de que 𝛽𝑊𝐺 es el GLS para el sistema de T - 1
ecuaciones en first-differences nos dice que será imparcial8

8
El nombre "dentro del grupo" se originó en el contexto de los datos con una estructura grupal (como los
datos sobre las familias y los miembros de la familia). Los datos del panel pueden considerarse como un caso
especial de este tipo de datos en el que el "grupo" está formado por las observaciones de series de tiempo de
un individuo dado.
2.2 Modelos De Efectos Fijos 17

y óptimo en muestras finitas. También será consistente ya que N tiende al infinito para T fijo
y asintóticamente normal bajo las condiciones de regularidad habituales. Los 𝜂̂ 𝑖 también
serán estimaciones imparciales de la 𝜂𝑖 Para muestras de cualquier tamaño, pero siendo
promedios de series temporales, su varianza solo puede tender a cero ya que T tiende a
infinito. Por lo tanto, no pueden ser consistentes estimaciones para T fijo y N. grande.
Claramente, las estimaciones dentro del grupo 𝜷 ̂ 𝑊𝐺 también serán consistente ya que T
tiende a infinito independientemente de si N es fijo o no.
Los modelos de efectos fijos o análisis de covarianza tienen una larga tradición en
econometría. Su uso fue sugerido por primera vez en dos documentos de la Comisión Cowles
por Hildreth (1949,1950), y las primeras aplicaciones fueron realizadas por Mundlak (1961)
y Hoch (1962). La motivación en estos dos estudios fue confiar en los efectos fijos con el fin
de controlar el sesgo de simultaneidad en la estimación de las funciones de producción
agrícola.

Desviaciones ortogonales

Finalmente, vale la pena descubrir la forma de la transformación a los datos originales que
resultan de hacer las primeras diferencias y aplicar una transformación GLS a los datos
diferenciados para eliminar la correlación serial de promedio móvil inducida por la
diferenciación (Arellano y Bover, 1995). La transformación requerida viene dada por la
matriz (T - 1) × T
𝐴 = (𝐷𝐷′ )−1/2 𝐷.
Si elegimos 𝐴 = (𝐷𝐷 ′ )−1/2 para ser la factorización triangular superior de Cholesky, se
puede demostrar que el operador A toma la forma A = diag [(T - 1) / T,. . . , 1/2] 1 / 2A +
donde

Por lo tanto, un error de serie temporal T × 1 transformado por A,𝑣𝑖∗ = 𝐴𝑣𝑖 consistirá de T
- 1 elementos de la forma
1
𝑣𝑖𝑡∗ = 𝑐𝑡 [𝑣𝑖𝑡 − (𝑣 + ⋯ + 𝑣𝑖𝑇 )]
(𝑇 − 𝑡) 𝑖(𝑡+1)
(2.23)
2
Donde 𝑐𝑡 − − 𝑡)𝑙(𝑇 − 𝑡 + 1). Claramente, A'A = Q y AA '= IT - 1.Luego nos referimos
(𝑇
a esta transformación como desviaciones ortogonales hacia adelante. Por lo tanto,si
Var(vi)=σ2IT también tenemos, también tenemos 𝑣𝑎𝑟(𝑣𝑖∗ = 𝜎 2 𝑙 𝑇−1 . De modo que las
desviaciones ortogonales se pueden considerar como una transformación alternativa, que en
común con la primera diferenciación elimina los efectos individuales pero, por el contrario,
no introduce una correlación serial en los errores transformados. Además, el estimador
dentro del grupo también se puede considerar como MCO en desviaciones ortogonales. En
términos de
18 Heterogeneidad No Observada

dentro del grupo de álgebra, no importa si se usan desviaciones ortogonales hacia delante o
hacia atrás. Sin embargo, las desviaciones ortogonales hacia adelante resultarán especialmente
útiles en la discusión de modelos dinámicos
2.3 Heteroscedasticidad y correlación serial
2.3.1 Errores estándar robustos para los estimadores dentro del grupo
Si la Asunción A1 se cumple pero A2 no (es decir, usando desviaciones ortogonales, si
𝐸(𝑣𝑖∗ |𝑥𝑖 ) pero 𝑉𝑎𝑟(𝑣𝑖∗ |𝑥𝑖 ) ≠ 𝜎 2 𝑙 𝑇−1 , Las fórmulas de regresión ordinarias para estimar la
varianza dentro del grupo conducirán a errores estándar inconsistentes. Tal fórmula es dada
por
̂ (𝛽̂𝑊𝐺 ) = 𝜎̂ 2 (𝑋 ∗′ 𝑋 ∗ )−1
𝑉𝑎𝑟 (2.24)
donde X * = (IN ⊗ A) X, y * = (IN ⊗ A) y, y 𝜎̂ 2 es la varianza residual imparcial
1
𝜎̂ 2 = 𝑁(𝑇−1)−𝑘 (𝑦 ∗ − 𝑋 ∗ 𝛽̂𝑊𝐺 )′(𝑦 ∗ − 𝑋 ∗ 𝛽̂𝑊𝐺 ) (2.25)

Sin embargo, desde


𝑁
1 1
̂ 𝑊𝐺 − 𝛽) =
( 𝑋 ∗ ′𝑋 ∗ ) √𝑁(𝜷 ∑ 𝑋𝑖∗′ 𝑣𝑖∗
𝑁 √𝑁 𝑖=1

Y 𝐸 (𝑋𝑖∗ 𝑣𝑖∗ ) = 0, el lado derecho de la expresión anterior es un promedio de muestra


escalado de variables aleatorias de media cero a la que se puede aplicar un teorema de límite
central estándar para observaciones de iid multivariantes para T fijo como N tiende al infinito
𝑁
1 𝑑
∑ 𝑋𝑖∗′ 𝑣𝑖∗ → 𝑁[0, 𝐸(𝑋𝑖∗ 𝑣𝑖∗ 𝑣𝑖∗ ′𝑋𝑖∗ )]
√𝑁 𝑖=1
Por lo tanto, se puede obtener una estimación de la varianza asintótica del estimador dentro
del grupo que es robusta para la heterocedasticidad y la correlación serial de formas arbitrarias
para T fija y N grande como
𝑁
′ −1 ∗
̂ (𝛽𝑊𝐺 ) =
𝑉𝑎𝑟 (𝑋𝑖∗ 𝑣𝑖∗ ) (∑ 𝑋𝑖∗ 𝑣𝑖∗ 𝑣𝑖∗ ′𝑋𝑖∗ ) (𝑋 ∗ ′𝑋 )−1
𝑖=1

(2.26)
Con 𝑣̂𝑖∗ = 𝑦𝑖∗ − 𝑋𝑖∗ 𝛽̂𝑊𝐺 (Arellano, 1987). Para T grande y N fijo, sin embargo, tal estimación
de la varianza no sería consistente y se requerirá una estimación alternativa. A continuación
discutiremos este caso.
2.3 Heterocedasticidad Y Correlación en Serie 19

Errores estándar robustos para T grande y N fijo La teoría de distribución anterior para
T pequeña y N grande permitía la dependencia de series de tiempo arbitrarias, pero dependía
de la independencia de la sección transversal. Con T grande y N fijo, podemos permitir la
dependencia arbitraria de la sección transversal al depender de una dependencia de series
temporales suficientemente débil.
Que 𝛿̂ WG = ( 𝛽̂′ WG, ɳ′ ̂ ) ′denota el estimador dentro del grupo de β y η y que
wit=(𝑥′𝑖𝑡 , 𝑑′𝑖 ) donde 𝑑𝑖 es un vector de N × 1 uno en la posición i-ésima y cero en otro lugar.
Por otra parte, que
𝑇 𝑇 𝑁 𝑁
1
𝑉 = 𝑝 lim ∑ ∑ ∑ ∑ 𝑣𝑖𝑡 𝑣𝑗𝑠 𝑤𝑖𝑡 𝑤′𝑗𝑠 (2.27)
𝑇→∞𝑇
𝑡=1 𝑠=1 𝑖=1 𝑗=1
o equivalente
𝑇 𝑇
1
𝑉 = 𝑝 lim ∑ ∑ 𝑊′𝑡 𝑣𝑡 𝑣′𝑠 𝑊𝑠 (2.28)
𝑇→∞𝑇
𝑡=1 𝑠=1
Donde
𝑁

𝑊′𝑡 𝑣𝑡 = ∑ 𝑤𝑖𝑡 𝑣𝑖𝑡


𝑖=1
Un estimador semi definido positivo de V del tipo sugerido por Newey y West (1987) toma
la forma
𝑚

𝑉̂ = Ω
̂0 + ∑ 𝜔(ℓ, 𝑚)(Ω ̂ ℓ)
̂ ℓ + Ω′ (2.29)
𝑙=1
Donde 𝜔(ℓ, 𝑚) = 1 − [ / (𝑚 + 1)],
𝑇 𝑁 𝑁 𝑇
1 1
̂ℓ =
Ω ∑ ∑ ∑ 𝑣̂
𝑖𝑡 𝑣
̂𝑗(𝑡−𝑙) 𝑤𝑖𝑡 𝑤′𝑗(𝑡−𝑙) = ∑ 𝑊′𝑡 𝑣̂𝑡 𝑣̂′𝑡−𝑙 𝑊𝑡−𝑙 (2.30)
T T
𝑡=ℓ+1 𝑖=1 𝑗=1 𝑡=ℓ+1

Y 𝑣̂ ̂ ̂𝑖 .El efecto de la función de ponderación ω (ℓ, m) es suavizar la


𝑖𝑡 = 𝑦𝑖𝑡 − 𝑥′𝑖𝑡 𝛽𝑊𝐺 − ɳ
función de autocovarianza de la muestra asignando ponderaciones decrecientes a
autocovarianzas de muestra a medida que ℓ aumenta.
Siempre que los datos sean una secuencia de mezcla, y la m vinculada en el número de
autocovarianzas usadas para formar 𝑉̂ se elija como una función adecuada de T, 𝑉̂ puede
mostrarse como un estimador consistente de V como T → ∞ para N fijo usando Newey y
el Teorema de West 2.
Por lo tanto, se puede obtener una estimación de la varianza asintótica del estimador
dentro del grupo de β y η que sea robusta a la dependencia de la sección transversal, la
heterocedasticidad y la correlación serial de formas arbitrarias, para mezclar datos con T
grande y N fijo.
𝑇 𝑁 −1 𝑇 𝑁 −1

̃ (𝛿𝑊𝐺 ) = 𝑇 (∑ ∑ 𝑤𝑖𝑡 𝑤′𝑖𝑡 )


𝑉𝑎𝑟 𝑉̂ (∑ ∑ 𝑤𝑖𝑡 𝑤′𝑖𝑡 ) (2.31)
𝑡=1 𝑖=1 𝑡=1 𝑖=1
20 Heterogeneidad no observada

2.3.2 GLS Óptimo con Heterocedasticidad y Autocorrelación de Forma


Desconocida
Volviendo a un entorno N grande y fijo T, si 𝑉𝑎𝑟(𝑣1∗ ⃓ 𝑥𝑖 ) = Ω (xi) donde Ω (xi) es una
matriz simétrica de orden T que contiene funciones desconocidas de xi, el estimador óptimo
de β tendrá la forma
𝑁 −1 𝑁

𝛽̂𝑈𝐺𝐿𝑆 = (∑ 𝑋𝑖∗ ′ Ω−1 (𝑥𝑖 )𝑋𝑖∗ ) ∑ 𝑋𝑖∗ ′ Ω−1 (𝑥𝑖 )𝑦𝑖∗ (2.32)
𝑖=1 𝑖=1
Este estimador es inviable porque Ω (xi) es desconocido. Un estimador de GLS
semiparamétrico factible usaría en su lugar un estimador no paramétrico de
E(𝑣1∗ 𝑣1∗ ′ ⃓ 𝑥𝑖 )basado en residuos dentro del grupo. Bajo condiciones de regularidad
apropiadas y una elección adecuada del estimador no paramétrico, se puede demostrar que
GLS alcanza para N grande la misma eficiencia que 𝛽̂𝑈𝐺𝐿𝑆 usando los resultados en Robinson
(1987).
Un caso especial que da lugar a un GLS factible directo (para T pequeña y gran N),
discutido por primera vez por Kiefer (1980), es uno en el que la varianza condicional de 𝑣1∗
es una matriz constante pero no escalar: 𝑉𝑎𝑟(𝑣1∗ ⃓ 𝑥𝑖 ) = Ω. Esta suposición descarta la
heterocedasticidad condicional, pero permite la autocorrelación y la heterocedasticidad de
series de tiempo incondicionales en los errores de ecuaciones originales 𝑣𝑖𝑡 . En este caso, un
estimador de GLS factible toma la forma
𝑁 −1 𝑁

𝛽̂𝐹𝐺𝐿𝑆 = ̂ −1 𝑋𝑖∗ )
(∑ 𝑋𝑖∗ ′ Ω ∑ 𝑋𝑖∗ ′ Ω−1 𝑦𝑖∗ (2.33)
𝑖=1 𝑖=1
donde Ω̂ está dada por la matriz de covarianza residual intertemporal WG de desviación
ortogonal
𝑁
1
̂ = ∑ 𝑣̂𝑖∗ 𝑣̂𝑖∗ ′
Ω (2.34)
𝑁
𝑖=1

2.3.3 Estimación GMM Y Distancia Mínima Mejoradas En


Heterocedasticidad Y Autocorrelación De Forma Desconocida

La condición básica E(𝑣1∗ ⃓ 𝑥𝑖 ) = 0 implica que cualquier función de 𝑥𝑖 no está


correlacionada con v () y, por lo tanto, es una variable instrumental potencial. Por lo tanto,
cualquier lista de condiciones de momento de la forma

𝐸[ℎ𝑡 (𝑥𝑖 )𝑣𝑖𝑡∗ ] = 0 (𝑡 = 1, … , 𝑇 − 1) (2.35)

para funciones dadas ℎ𝑡 (𝑥𝑖 ) tales que β se identifica a partir de (2.35), podría usarse para
obtener un estimador GMM coherente de β.
2.3 Heterocedasticidad Y Correlación en Serie 21
2
En Ω(𝑥𝑖 ) = 𝜎 𝐼𝑇−1 las condiciones de momento óptimas están dadas por
𝐸[𝑋𝑖∗ ′𝑣𝑖∗ ] = 0 (2.36)

en el sentido de que la varianza del correspondiente estimador óptimo del método de


momentos (que en este caso es OLS en desviaciones ortogonales, o el estimador WG) no se
puede reducir usando otras funciones de 𝑥𝑖 como instrumentos además de (2.36). 9
Para Ω arbitraria (𝑥𝑖 ) las condiciones de momento óptimas son

𝐸[𝑋𝑖∗ ′Ω−1 (𝑥𝑖 )𝑣𝑖∗ ] = 0 (2.37)

que da lugar al estimador de GLS óptimo 𝛽̂𝑈𝐺𝐿𝑆 dado en (2.32).


Sin embargo, las condiciones del momento k (2.37) no se pueden usar directamente
porque Ω(𝑥𝑖 ) es desconocido. Los estimadores más simples y mejorados que consideramos
en esta sección se basan en el hecho de que la GMM óptima de una lista más amplia de
momentos que (2.36) puede ser asintóticamente más eficiente que WG cuando Ω(𝑥𝑖 ) ≠
𝜎 2 𝐼𝑇−1, aunque no tan eficiente como óptimo GLS. En particular, parece natural considerar
estimadores GMM del sistema de ecuaciones T - 1 en desviaciones ortogonales (o primeras
diferencias) usando las variables explicativas para todos los períodos de tiempo como
instrumentos separados para cada ecuación:
𝐸[𝑣𝑖∗ ⨂𝑥𝑖 ] = 0 (2.38)
Tenga en cuenta que los k momentos en (2.36) son combinaciones lineales del conjunto
mucho más grande de kT (T - 1) momentos contenidos en (2.38). Además, es conveniente
escribir (2.38) como
𝐸̇ (𝑍𝑖′ 𝑣𝑖∗ ) ≡ 𝐸[𝑍𝑖′ (𝑦𝑖∗ − 𝑋𝑖∗ 𝛽)] = 0 (2.39)

Donde 𝑍𝑖 = (𝐼𝑇−1 ⊗ 𝑥 ′𝑖 ). Con esta notación, el estimador GMM óptimo de (2.38) o


(2.39) viene dado por
−1
′ ′
𝛽̂𝐺𝑀𝑀 = [(∑ 𝑋𝑖∗ 𝑍𝑖 ) 𝐴𝑁 (∑ 𝑍𝑖′ 𝑋𝑖∗ )] (∑ 𝑋𝑖∗ 𝑍𝑖 ) 𝐴𝑁 (∑ 𝑍𝑖′ 𝑦𝑖∗ ). (2.40)
𝑖 𝑖 𝑖 𝑖
La optimalidad requiere que la matriz de peso AN sea una estimación constante hasta una
constante multiplicativa de la inversa de la varianza de las condiciones de ortogonalidad
𝐸(𝑍𝑖′ 𝑣𝑖∗ 𝑣𝑖∗′ 𝑍𝑖 ).

Bajo Asunción A2 𝐸(𝑍𝑖′ 𝑣𝑖∗ 𝑣𝑖∗′ 𝑍𝑖 ) = 𝜎 2 𝐸(𝑍𝑖′ 𝑍𝑖 ), y por lo tanto una elección óptima es
𝐴𝑁 = (∑𝑖 𝑍𝑖′ 𝑍𝑖 ) −1 . En tal caso, el estimador resultante es numéricamente el mismo que el
estimador dentro del grupo porque las columnas en 𝑋𝑖∗ son combinaciones lineales de las de
𝑍𝑖 .

9 El Apéndice B proporciona una revisión de los resultados en instrumentos óptimos en modelos condicionales. Sea p un
vector de coeficientes que satisfaga un conjunto de restricciones de parámetros 𝑝 = 𝑝 (𝜃), y sea 𝑝̂ un estimador no
restringido de 𝑝. Un estimador MD de θ minimiza [𝑝̂ − 𝑝(𝑐)]′𝐴𝑁 [𝑝̂ − 𝑝(𝑐)] para una matriz de peso AN
22 Heterogeneidad no observada

De manera más general, una elección óptima bajo heterocedasticidad y correlación serial de
forma desconocida viene dada por
−1

𝐴𝑁 = (∑ 𝑍𝑖′ 𝑣̂𝑖 ∗ 𝑣̂𝑖 ∗ ′𝑍𝑖 ) (2.41)


𝑖
El estimador 𝛽̂𝑂𝐺𝑀𝑀 resultante, será asintóticamente equivalente a WG bajo la Asunción A2 pero
estrictamente más eficiente para N grande cuando la suposición es violada. Sin embargo, será
ineficiente en relación con 𝛽̂𝑈𝐺𝐿𝑆 . La relación entre las varianzas de muestra grandes de los tres
estimadores es, por lo tanto,
𝑉𝑎𝑟(𝛽̂𝑈𝐺𝐿𝑆 ) ≤ 𝑉𝑎𝑟(𝛽̂𝑂𝐺𝑀𝑀 ) ≤ 𝑉𝑎𝑟(𝛽̂𝑊𝐺 ),

con igualdad en ambos casos cuando se cumple la Asunción A2.

Distancia Mínima Estimadores del tipo anterior fueron considerados por Chamberlain
(1982, 1984) que los motivó como estimadores de distancia mínima (DM) a partir de una
proyección lineal de 𝑦𝑖 en 𝑥𝑖 :

𝐸 ∗ (𝑦𝑖 |𝑥𝑖 ) = 𝜋0 + ∏𝑥𝑖 . (2.42)


De acuerdo con las especificaciones del modelo 𝐸(𝑦𝑖 |𝑥𝑖 , ɳ𝑖 ) = 𝑋𝑖 𝛽 + ιɳ𝑖 . Así

𝜋0 + ∏𝑥𝑖 = 𝑋𝑖 𝛽 + 𝑖𝐸 ∗ (ɳ𝑖 |𝑥𝑖 ) = (𝐼𝑇 ⨂𝛽 ′ )𝑥𝑖 + ι(𝛿 + 𝜆′ 𝑥𝑖 )

donde λ denota el vector Tk × 1 de coeficientes de pendiente en la proyección lineal de ηi


en xi y δ es la intersección, de modo que 𝜋0 = 𝛿𝜄 y

∏ = (𝐼𝑇 ⨂𝛽′ ) + ι𝜆′ . (2.43)


Chamberlain consideró los estimadores MD de β y λ basados en estimaciones OLS
ilimitadas de Π, que son equivalentes a los estimadores GMM dados en (2.40)10. Ver esta
nota que Π puede transformarse en AΠ y (ι '/ T) Π siendo estos últimos momentos sin
restricciones:
∏∗ ≡ 𝐴∏ = 𝐴⨂𝛽 ′ (2.43)
1
(ι′ /T)∏ = (𝑇 ι⨂𝛽)′ + 𝜆′ (2.44)

Por lo tanto, toda la información sobre β en Π está contenida en Π *. Una estimación OLS ilimitada
de Π * viene dada por

10 Sea p un vector de coeficientes que satisfaga un conjunto de restricciones de parámetros p = p (θ), sea
un estimador no restringido de p. Un estimador MD de θ minimiza para una matriz de peso AN.
2.3 Heterocedasticidad Y Correlación en Serie 23
−1
̂ ∗ = ∑ 𝑦𝑖 ∗ 𝑥𝑖 ∗ (∑ 𝑥𝑖 𝑥𝑖 ∗ )
∏ , (2.46)
𝑖 𝑖
y un estimador óptimo de MD de β minimiza el criterio
[𝑣𝑒𝑐(∏̂ ∗ − ∏∗ )]′ 𝑉̂ −1 𝑣𝑒𝑐((∏
̂ ∗ − ∏∗ ) (2.47)

̂ ∗ ).
donde V es una estimación consistente de la gran varianza muestral de 𝑣𝑒𝑐(∏
La equivalencia con GMM se desprende de señalar que

−1

̂ ∗ − ∏∗ )] = 𝑣𝑒𝑐 [∑ 𝑣𝑖∗ 𝑥𝑖 ′ (∑ 𝑥𝑖 𝑥𝑖 ∗ ) ] = (∑ 𝑍𝑖 ′ 𝑍𝑖 )
[𝑣𝑒𝑐(∏
𝑖 𝑖 𝑖

y ese 𝑉̂ toma la forma


−1

𝑉̂ = (∑ 𝑍𝑖′ 𝑍𝐼 ) 𝐴𝑁
𝑖

Por lo tanto, el estimador MD que minimiza (2.47) coincide con el estimador WG cuando
AN = (ΣiZi'Zi) -1, y con 𝛽̂𝑂𝐺𝑀𝑀 cuando AN es igual a la opción robusta (2.41) .11

2.4 Enfoques de verosimilitud


El estimador intragrupal se puede considerar como el estimador de máxima verosimilitud de
Gauss en tres enfoques de probabilidad diferentes: conjunto, condicional y marginal en
relación con los efectos individuales. Esta es una característica especial del modelo lineal
estático. En otros modelos, los diferentes enfoques de probabilidad dan lugar a diferentes
estimadores. Sin embargo, independientemente de sus máximos, las funciones de
verosimilitud alternativas para el modelo estático que discutimos en esta sección pueden ser
de interés por derecho propio desde una perspectiva bayesiana.

2.4.1 Probabilidad Conjunta


Bajo la suposición de normalidad:
𝑦𝑖 |𝑥𝑖 , ɳ𝑖 ∼ 𝒩(𝑋𝑖 𝛽 + ɳ𝑖 ι, σ2 IT ), (2.48)

11 ̂ ∗ fue reemplazado por 𝐴∏


̂ con
Si ∏

−1
̂ = (∑ 𝑦𝑖 (𝑥𝑖 − 𝑥̅ ) ′) (∑(𝑥𝑖 − 𝑥̅ )(𝑥𝑖 − 𝑥̅ ) ′)

𝑖 𝑖

es decir, MCO con interceptaciones no restringidas en (2.42), obtenemos la misma equivalencia con WG y, en el caso
robusto, una equivalencia con un estimador GMM que, además de 𝑥𝑖 , usa interceptos específicos del período como
instrumentos.
24 Heterogeneidad no observada

la densidad condicional de registro de y (i) dado x (i) y ηi toma la forma


𝑇 1
𝑙𝑜𝑔𝑓(𝑦𝑖 |𝑥𝑖 , ɳ𝑖 )𝛼 − 𝑙𝑜𝑔𝛼 2 − 2 𝑣𝑖′ 𝑣𝑖 (2.49)
2 2𝛼
donde 𝑣𝑖 = (𝑦𝑖 − 𝑋𝑖 𝛽 − ɳ𝑖 ι). Por lo tanto, la probabilidad logarítmica de una muestra
transversal de observaciones independientes es una función de β, 𝜎 2 y ɳ𝑖 . . . , ɳ𝑁 :
𝑁

𝐿(𝛽, 𝜎 2 , ɳ; 𝑦, 𝑥) = ∑ log 𝑓(𝑦𝑖 |𝑥𝑖 , ɳ𝑖 ) . (2.50)


𝑖=1
En vista de nuestra discusión previa y estimación de máxima verosimilitud de regresión lineal
estándar (ML), la maximización conjunta de (2.50) con respecto a β, η, y 𝜎 2 rinde el estimador
WG para β, las estimaciones residuales para η dadas en (2.22), y la varianza residual sin
corrección de grados de libertad para 𝜎 2 :
𝑁
1
𝜎̃ 2 = ∑ 𝑣̂𝑖′ 𝑣̂𝑖 (2.51)
𝑁𝑇
𝑖=1
Donde 𝑣̂𝑖 = (𝑦𝑖 − 𝑋𝑖 𝛽̂𝑊𝐺 − ɳ̂𝑖 ι)
A diferencia (2.25) 𝜎̃ 2 no será un estimador consistente de 𝜎 2 para N grandes y
pequeños paneles T. En efecto, dado que 𝐸(∑𝑁 ̂𝑖′ 𝑣̂𝑖 ) = (𝑁𝑇 − 𝑁 − 𝑘)𝜎 2 , tenemos
𝑖=1 𝑣

(𝑇 − 1) 𝑛
𝑝 lim 𝜎̃ 2 = 𝜎
𝑛→∞ 𝑇

Por lo tanto, 𝜎̃ 2 tiene un sesgo de muestra grande negativo (sección transversal) dado por
𝜎 2 / T. Este es un ejemplo del problema de parámetro incidental estudiado por Neyman y
Scott (1948). El problema es que el estimador de máxima verosimilitud no necesita ser
consistente cuando la probabilidad depende de un subconjunto de parámetros (incidentales)
cuyo número aumenta con el tamaño de la muestra. En nuestro caso, la probabilidad depende
de β, 𝜎 2 y los parámetros incidentales ɳ1,. . . , ɳ𝑁 . El estimador de ML de β es consistente
pero el de 𝜎 2 no lo es.

2.4.2 Probabilidad condicional

En el modelo estático lineal, 𝑦̅𝑖 = 𝑇 −1 ∑𝑇𝑖=1 𝑦𝑖𝑡 es una estadística suficiente para ηi. Esto
significa que la densidad de yi dada xi, ηi, y 𝑦̅𝑖 no depende de ηi.

𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖, 𝑦̅)


𝑖 = 𝑓(𝑦𝑖 |𝑥𝑖 , 𝑦
̅)
𝑖 (2.52)

Viendo esto, note que, expresando la densidad condicional de 𝑦𝑖 dado 𝑦̅,


𝑖 como un ratio de
las densidades conjuntas y marginales, tenemos que:
𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 )
𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖, 𝑦̅)
𝑖 =
𝑓(𝑦̅|𝑥
𝑖 𝑖 , 𝑛𝑖 )
2.4 Enfoques De Probabilidades 25

Y bajo (2.48)
𝜎2
𝑦̅|𝑥 ̅̅̅̅

𝑖 𝑖 , 𝑛𝑖 ∼ 𝑁 (𝑥 𝑖 𝛽 + 𝑛𝑖 , ),
𝑇

Entonces
1 𝑇
log 𝑓( 𝑦̅𝑖 |𝑥𝑖 , 𝑛𝑖 )𝛼 − 2 𝑙𝑜𝑔𝜎 2 − 2𝜎2 ̅̅̅̅
𝑣2𝑖 (2.53)
Sustituyendo (2.53) en (2.49) obtenemos:
(𝑇−1) 1
log 𝑓( 𝑦̅𝑖 |𝑥𝑖 , 𝑛𝑖 , 𝑦̅)𝛼
𝑖 − 𝑙𝑜𝑔𝜎 2 − 2𝜎2 ∑𝑇𝑡=1(𝑣𝑖𝑡 − 𝑣̅𝑖 )2 (2.54)
2

La cual no depende de 𝑛𝑖 porque esta es solo una función de errores dentro de grupos.
Así el logaritmo de la probabilidad condicional
Lc ( 𝛽, 𝜎 2 ; 𝑦, 𝑥) = ∑𝑇𝑡=1 log 𝑓(𝑦𝑖 |𝑥𝑖 , 𝑦̅)
𝑖 (2.55)

Es una función de β y 𝜎 2 que puede ser usada como una alternativa base por inferencia. Los
maximizadores de (2.55) son los estimadores WG de β y:

̅̅̅ 1 ̂𝑖 𝑣
𝜎 2 = 𝑁(𝑇−1) ∑𝑇𝑡=1 𝑣′ ̂𝑖 . (2.56)

Note que contrario a (2.51), (2.56) es consistente para N grande y T pequeño, además esto
no es exactamente imparcial como (2.5).

2.4.3. Probabilidad marginal (o Integrada)


Finalmente, podremos considerar la distribución marginal de 𝑦𝑖 , dado 𝑥𝑖 pero no 𝑛𝑖 :

𝑖 𝑖 ) = ∫ 𝑓(𝑦
𝑓(𝑦̅|𝑥 𝑖 𝑖 , 𝑛𝑖 )𝑑𝐹 (𝑛𝑖 |𝑥𝑖 )
̅|𝑥
Donde F(𝑛𝑖 , 𝑥𝑖 ) denota la condicional cdf de 𝑛𝑖 , dado 𝑥𝑖 . Una posibilidad, en el espíritu del
enfoque MD discutido en la sección previa, se asume:
𝑛𝑖 |𝑥𝑖 ∼ 𝑁(𝛿 + 𝜆′𝑥𝑖 , 𝜎 2 𝑛 ),
(2.57)
26 Heterogeneidad no observada

Pero es de poco interés para el estudio de la forma de 𝑓(𝑦̅|𝑥


𝑖 𝑖 ) para 𝐹(𝑛𝑖 , 𝑥𝑖 ) arbitrario.
Vamos a considerar la matriz de transformación no singular:
−1 ′
H = (𝑇 𝑖 ). (2.58)
𝐴
Note que
𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 ) = 𝑓(𝐻𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 )|det(𝐻)|, (2.59)

Pero |det(𝐻)|= 𝑇 −1/2es una constante que puede ser ignorada para nuestros propósitos.

Además12

𝐶𝑜𝑣(𝑦𝑖∗ 𝑦̅|𝑥 ∗
𝑖 𝑖 , 𝑛𝑖 ) = 𝐸(𝑣𝑖 𝑣
̅𝑖 |𝑥𝑖 , 𝑛𝑖 )=0 (2.60)

Dada la normalidad tenemos que la densidad condicional de 𝑦𝑖 , factoriza dentro del grupo y
las densidades de desviación ortogonal:

𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 ) = 𝑓(𝑦̅|𝑥
𝑖 𝑖 , 𝑛𝑖 )𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 ) (2.61)

Note adicionalmente que la densidad de desviación ortogonal es independiente de 𝑛𝑖

𝑓(𝑦𝑖∗ |𝑥𝑖 ) = 𝑓(𝑦𝑖 |𝑥𝑖 , 𝑦̅)


𝑖 (2.62)

Así, también tenemos

log 𝑓( 𝑦𝑖 |𝑥𝑖 ) = 𝑙𝑜𝑔𝑓(𝑦𝑖∗ |𝑥𝑖 ) + 𝑙𝑜𝑔 ∫ 𝑓(𝑦̅|𝑥


𝑖 𝑖 , 𝑛𝑖 )𝑑𝐹 (𝑛𝑖 |𝑥𝑖 ) (2.63)

Si 𝐹(𝑛𝑖 |𝑥𝑖 ) es irrestricto, e segundo término del lado derecho de (2.63) es desinformativo a
cerca de β entonces los estimadores marginales ML de β y 𝜎 2 coinciden con los
maximizadores de ∑𝑇𝑡=1 log 𝑓(𝑦𝑖∗ |𝑥𝑖 ), que nuevamente son dados por el estimador WG y
(2.56). Esto sigue siendo cierto cuando 𝐹(𝑛𝑖 |𝑥𝑖 ) se especifica que es gaussiano con una
proyección lineal no restringida de 𝑛𝑖 en 𝑥𝑖 , como en (2.57), pero no cuando se asume que
𝑛𝑖 es independiente de 𝑥𝑖 (i.e. 𝜆=0), así como veremos en el Capítulo 3.

12 note que

𝐴𝐸(𝑣𝑖 𝑣𝑖′ |𝑥𝑖 , 𝑛𝑖 )𝐿 𝜎 2 𝐴𝑙


𝐸(𝑣𝑖∗ 𝑣̅|𝑥
𝑖 𝑖 , 𝑛𝑖 ) = = =0
𝑇 𝑇
2.5 Modelos no lineales con efectos aditivos 27

Específicamente, suponemos que 𝐹(𝑛𝑖 |𝑥𝑖 ) es como en (2.57), luego 𝑓(𝑦̅|𝑥


𝑖 𝑖 ) corresponde
a:
𝑦̅|𝑥 ̅2)
𝑖 𝑖 ∼ 𝑁(𝛿 + 𝜓′𝑥𝑖, 𝜎

Donde ψ=𝜆+(L β/T) y ̅̅̅ 𝜎 2 = 𝜎𝑛2 + 𝜎 2 /𝑇. Si 𝜆 y 𝜎𝑛2 son parámetros libres, ψ y ̅̅̅
𝜎 2 son
2
desinformativos acerca de β y 𝜎 . Note que incluso si (2.57) es reemplazado con

̅̅̅𝑖 , 𝜎𝑛2 ),
𝑛𝑖 |𝑥𝑖 ∼ 𝑁(𝛿 + 𝜆′𝑥

Esto es, si asumimos que 𝜆 = L 𝜆𝑎 /𝑇,12 la distribución de 𝑦̅,


𝑖 dado 𝑥𝑖 sigue siendo poco
2
informativo acerca de β y 𝜎 .
2.5. Modelos no lineales con efectos aditivos
Hasta ahora nos hemos centrado en modelos de regresión lineal. No obstante, los
argumentos presentados en este capítulo se generalizan de manera directa al caso de los
modelos de restricción de momentos condicionales con efectos aditivos. Esta clase incluye
modelos de regresión no lineal y modelos de ecuaciones simultáneas lineales y no lineales
con efectos aditivos. Primero describimos regresiones no lineales y modelos lineales de
variables instrumentales, y concluimos considerando el caso general.
La característica crucial de los modelos en esta sección es que las variables no observables
son términos aditivos. Esto excluye modelos de regresión lineal generalizados de la forma

𝐸(𝑦𝑖𝑡 |𝑥𝑖 , 𝑛𝑖 ) = 𝑔(𝑥𝑖𝑡 𝛽 + 𝑛𝑖 ) donde 𝑔(. ) es alguna función lin no lineal (como en regresión
exponencial, logit y probit) y las ecuaciones estructurales con errores no aditivos, son
modelos de elección discreta con variables explicativas endógenas (modelos de datos de
panel con efectos no lineales son encuestados en Arellano y Honoré, 2001).
2.5.1. Regresión no lineal
El modelo considerado es una versión no lineal de (2.7)

𝑦𝑖𝑡 = 𝑔𝑖 (𝑥𝑖𝑡 , 𝛽) + 𝑛𝑖 + 𝑣𝑖𝑡 ) (2.64)

Que se puede apilar a lo largo del tiempo para que el individuo i dé 𝑦𝑖 =


𝑔𝑖 (𝑥𝑖 , 𝛽) + 𝐿𝑛𝑖 + 𝑣𝑖 ) . Bajo las suposiciones A1 y A2, el estimador óptimo es mínimos
cuadrados no lineales en desviaciones ortogonales o dentro de grupos no lineales:
𝛽̂ 𝑁 ′ ′
𝑁𝑊𝐺 = arg 𝑚𝑖𝑛 ∑𝑡=1[𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)] 𝐴 𝐴[ 𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)] (2.65)

Si A1 tiene, pero A2 no, por lo que 𝑉𝑎𝑟(𝑣𝑖∗ |𝑥𝑖 ) = 𝛺(𝑥𝑖 ), el estimador óptimo es de la forma:
28 Heterogeneidad no observada

𝛽̂ 𝑁 ′ ′ −1
𝑁𝑈𝐺𝐿𝑆 = arg 𝑚𝑖𝑛 ∑𝑡=1[𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)] 𝐴 𝛺 (𝑥𝑖 )𝐴[ 𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)], (2.66)
La cual es una versión no lineal del estimador MCO no factible dado en (2.32).

2.5.2. Ecuación estructural lineal

En el modelo de efectos fijos estándar, toda la "endogeneidad" de la relación entre y y x es


capturada por la correlación entre x y η, ya que se supone que x y el error variable en el
tiempo v no están correlacionados en todos los rezagos y adelantos. Ahora consideramos un
modelo de efectos fijos de variables instrumentales en el que x puede estar correlacionado
′ ′
con v, pero un vector de instrumentos es 𝑧𝑖 = (𝑧𝑖1 , … , 𝑧𝑖𝑇 )′ puede estar disponible
(posiblemente superponiéndose con algunos de los componentes de x) que se puede
correlacionar con η pero no con v. La forma del modelo es, por lo tanto

𝑦𝑖𝑡 = 𝑥𝑖𝑡 𝛽 + 𝜂𝑖 + 𝑣𝑖𝑡
Junto con
𝐸(𝑣𝑖 |𝑧𝑖 , 𝑛𝑖 ) = 0 (2.67)

En un caso estándar común, los niveles son poco informativos acerca de β en este modelo
porque 𝐸(𝑣𝑖 |𝑧𝑖 , 𝑛𝑖 ) es una función desconocida no restringida de 𝑧𝑖 . Por lo tanto, la
condición básica es 𝐸(𝑣𝑖∗ |𝑧𝑖 ) = 0 y el estimador de la variable instrumental ideal no factible
es
𝛽̂ 𝑁
𝑈𝐼𝑉 = (∑𝑡=1 𝐵( 𝑧𝑖 )′𝑋𝑖 )
∗ −1 𝑁
∑𝑡=1 𝐵( 𝑧𝑖 )′𝑦𝑖∗ (2.68)
Donde 𝐵(𝑧𝑖 ) denota la matriz (T-1) x k de instrumentos óptimos dados por (cf. Newey,
1993, y Apéndice B):
𝐵(𝑧𝑖 ) = 𝛺 −1 (𝑧𝑖 )𝐸(𝑋𝑖∗ |𝑧𝑖 ) (2.69)

Y 𝛺(𝑧𝑖 ) = 𝑉𝑎𝑟(𝑣𝑖∗ |𝑧𝑖 ).


Los enfoques factibles para la estimación óptima se pueden basar en un estimador 𝐵̂ (𝑧𝑖 ) de
𝐵(𝑧𝑖 ). Alternativamente, en paralelo con el desarrollo en la sección 2.3.3 podemos considerar
los estimadores GMM basados en las condiciones de ortogonalidad.

𝐸(𝑣𝑖∗ 𝑧𝑖 ) = 0 (2.69)

La forma de estos estimadores es la misma que en (2.40) con 𝑍𝑖 = (𝐼𝑇−1 𝑧𝑖′ ). Usando la
inversa de (∑𝑖 𝑍𝐼′ 𝑍𝐼 ) como una matriz ponderada, obtenemos un estimador del tipo Mínimos
cuadrados en 2 etapas.
∗′
𝛽̂ ′
𝐼𝑉𝑊𝐺 = [(∑ 𝑋𝑖 𝑍𝑖 ) (∑ 𝑍𝑖 𝑍𝑖 )
−1
(∑ 𝑍𝑖′ 𝑋𝑖∗ )]−1
𝑖 𝑖 𝑖
2.5 Modelos no lineales con efectos aditivos 29


(∑𝑖 𝑋𝑖∗ 𝑍𝑖 ) (∑𝑖 𝑍𝑖′ 𝑍𝑖 )−1 (∑𝑖 𝑍𝑖′ 𝑦𝑖∗ ) (2.71)

Si Ω(zi ) = σ2 IT−1 y 𝐸(𝑋𝑖 |𝑧𝑖 ) es lineal en zi , entonces 𝛽̂ ̂


𝐼𝑉𝑊𝐺 y 𝛽𝑈𝐼𝑉 son asintóticamente
equivalentes. Por otro lado, si 𝑧𝑖𝑡 = 𝑥𝑖𝑡 el estadisitico 𝛽̂𝐼𝑉𝑊𝐺 se reduce al estimador
ordinario dentro de grupo.

2.5.3 Ecuaciones no lineales simultáneas


Finalmente, consideramos un sistema de ecuaciones simultáneas no lineales de 𝑔 con efectos
aditivos. Los modelos previos se pueden considerar casos especiales de este con 𝑔 = 1.
Tenemos:
𝑝𝑡 (𝑤𝑖 𝜃) = 𝑛𝑖 + 𝑣𝑖𝑡 (2.72)

𝐸(𝑣𝑖𝑡 |𝑧𝑖 , 𝑛𝑖 ) = 0 (𝑡 = 1, … , 𝑇) (2.73)

que se puede apilar a lo largo del tiempo para que el individuo i otorgue el sistema de
ecuaciones 𝑔𝑇 𝑝(𝑥𝑖 , 𝜃) = (𝑙 𝑛𝑖 ) + 𝑣𝑖 . En este modelo 𝑛𝑖 denota un vector 𝑔 𝑥 1 de
efectos aditivos, y 𝑣𝑖 es un vector de errores para diferentes y periodos de tiempo de
dimensión 𝑔𝑇.

Consideramos la estimación de las restricciones de momento condicional de desviación


ortogonal 𝐸(𝑣𝑖∗ |𝑧𝑖 ) = 0 donde 𝑣𝑖∗ = (𝐴 𝐼𝑔 )𝑣𝑖 . El estimador óptimo de variables
instrumentales no factible en este caso resuelve las ecuaciones de estimación.

∑𝑁 ´
𝑖=1 𝐵(𝑧𝑖 ) (𝐴 ⨂𝐼𝑔)𝜌(𝜒𝑖 ; 𝜃) (2.74)

Donde 𝐵(𝑧𝑖 ) es ahora la matriz de instrumentos óptimos 𝑔(𝑇 − 1)𝑥 𝑘.


𝛿𝜐
𝐵(𝑧𝑖 ) = Ω−1 (𝑧𝑖 )𝐸( 𝑖´ 𝑧𝑖 ) (2.75)
𝛿𝜃

Y 𝛺(𝑧𝑖 ) = 𝑉𝑎𝑟(𝑣𝑖∗ |𝑧𝑖 ) es una matriz de covarianzas g(T − 1) × g(T – 1). Como antes, los
enfoques factibles incluyen el uso de los instrumentos óptimos estimados y la estimación
GMM basada en una elección particular de restricciones de momentos incondicionales

También podría gustarte