D4 DatosPanel

ECONOMETRIA II
Milena Hoyos
Facultad de Ciencias Económicas

Universidad Nacional de Colombia
2021-II
1 / 19
Contenido
Combinación Independiente de Cortes Transversales.
Datos de Panel para Dos Periodos.
Datos de Panel para más de Dos Periodos.
Referencia: Wooldridge, Capı́tulo 13.
2 / 19
Caracterı́sticas de los Datos
Algunas encuestas recolectan información para diferentes

periodos de tiempo.
Una combinación independiente de corte transversal es un

conjunto de datos obtenido mediante un muestreo aleatorio de
una población grande en distintos puntos del tiempo.
El término de error en una combinación independiente de corte

transversal no se correlaciona para distintas observaciones.
Los datos de panel o datos longitudinales difieren de la

combinación independiente de corte transversal en que los
mismos individuos son observados en múltiples periodos de
tiempo.
3 / 19
Combinaciones Independientes de Corte Transversal
Algunas razones para colectar combinaciones independientes de

corte transversal son:
Incrementa el tamaño de la muestra y deberı́a mejorar la
eficiencia de los estimadores. Esto último se obtiene siempre y
cuando la relación permanezca constante a través del tiempo.
Nos permite probar si la relación entre dos variables ha

permanecido constante a través del tiempo.
Es útil para evaluar el impacto de ciertos eventos o polı́ticas.
4 / 19
Ejemplo
Usando datos para 550 personas en 1978 y un grupo diferente

de 534 personas en 1985 se desea estimar el siguiente modelo
de regresión para determinar si la rentabilidad de la educación
y las diferencias de salario por género han cambiado de 1978 a
1985:
log(wage) = β0 + γ0 y85 + β1 educ + γ1 y85 · educ + β2 exper

+β3 exper 2 + β4 union + β5 female + γ5 y85 · female + u,
donde wage es el salario por hora, educ son los años de

educación, exper son los años de experiencia, union es una
variable binaria igual a uno si la persona está afiliada a un
sindicato e igual a cero si no lo está, y y85 es una variable
binaria igual a uno si la observación es de 1985 e igual a cero
si es de 1978.
5 / 19
Continuación Ejemplo
El intercepto en 1978 es β0 y el de 1985 es β0 + γ0 .
El impacto de la educación en 1978 es β1 y en 1985 es
β1 + γ1 .
La diferencia en el log(wage) entre hombres y mujeres en
1978 es β5 y en 1985 es β5 + γ5 .
La ecuación estimada es:

\ = 0.459 + 0.118y85 + 0.0747educ + 0.0185y85 · educ
log(wage)
(0.093) (0.124) (0.0067) (0.0094)
2
+ 0.0296exper − 0.0004exper + 0.202union
(0.0036) (0.0001) (0.030)
− 0.317female + 0.085y85 · female
(0.037) (0.051)
n = 1084, R = 0.426, R̄ 2 = 0.426.
2
6 / 19
Datos de Panel
Los datos de panel o datos longitudinales es un conjunto de

datos donde cada individuo es observado en dos o más
periodos de tiempo.
Los individuos pueden ser hogares, escuelas, empresas,

ciudades, etc.
Los datos de panel son útiles porque nos permite controlar por
factores especı́ficos individuales no observados que no varı́an
en el tiempo y que podrı́an causar sesgo de la variable omitida.
7 / 19
Ejemplo: Tasa de Delincuencia y Desempleo
Suponga que se desea estudiar la relación entre tasas de

delitos (crmrte) y desempleo (unem) de 46 ciudades y se
estima la siguiente ecuación usando datos para 1987
\ = 128.38 − 4.16unem
crmrte
(20.76) (3.42)
n = 46, R 2 = 0.033
El coeficiente de la pendiente no tiene el signo esperado,

además no es estadı́sticamente significativo a niveles de
significancia convencionales.
Es probable que este modelo sufra problemas de variables

omitidas.
8 / 19
Continuación Ejemplo: Tasa de Delincuencia y Desempleo
Una solución podrı́a ser tratar de controlar más factores, como

la distribución de la edad, la distribución de género, los niveles
de educación, los esfuerzos por hacer cumplir la ley, etc.
Sin embargo, es posible que varios de estos factores sean

difı́ciles de controlar (por ejemplo podrı́an no observarse).
Si estos factores individuales no observados son constantes en

el tiempo es posible controlarlos mediante el uso de datos de
panel.
9 / 19
Análisis de Datos de Panel para Dos Periodos
Considere el modelo de efectos inobservables o efectos fijos
yit = β0 + γ0 d 2t + β1 xit + ai + uit ,
donde i denota el individuo y t el periodo; d 2t es una variable

binaria igual a cero cuando t = 1 y a uno cuando t = 2.
El intercepto para t = 1 es β0 y para t = 2 es β0 + γ0 .
La variable ai , conocida como efecto fijo o heterogeneidad

inobservable, captura todos los factores inobservables
constantes en el tiempo que influyen en yit .
El error uit se conoce como error idiosincrático.
10 / 19
La ecuación anterior puede escribirse como
yit = β0 + γ0 d 2t + β1 xit + vit ,
donde vit = ai + uit se denomina el error compuesto.
Para que los estimadores de MCO sean consistentes se

requiere que el error compuesto vit no se correlacione con el
regresor xit .
Esto implica que ni ai ni uit debe correlacionarse con xit .
11 / 19
Para cada individuo i las ecuaciones del modelo de efectos

inobservables para t = 2 y t = 1 son
yi2 = (β0 + γ0 ) + β1 xi2 + ai + ui2 ,

yi1 = β0 + β1 xi1 + ai + ui1 ,
Si se resta la segunda ecuación de la primera se obtiene
yi2 − yi1 = γ0 + β1 (xi2 − xi1 ) + (ui2 − ui1 ),

∆yi = γ0 + β1 ∆xi + ∆ui ,
La ecuación anterior es llamada ecuación en primera diferencia

(PD) y el estimador de β1 es llamado estimador de primera
diferencia (PD).
12 / 19
La diferenciación elimina el efecto fijo ai .
El intercepto de la ecuación en primera diferencia es el cambio

en el intercepto de t = 1 a t = 2.
La variable ∆xi debe tener cierta variación en i .
Lo anterior implica que no es posible incluir regresoras que no

cambien en el tiempo (tales como el género o la raza) o
regresoras que cambien en la misma cantidad (tales como la
edad).
13 / 19
Ejemplo: Tasa de Delincuencia y Desempleo
Un modelo de efectos inobservables para las tasas de
delincuencia para 1982 y 1987 es
crmrteit = β0 + γ0 d 87t + β1 unemit + ai + uit ,
donde d 87t es una variable binaria igual a uno si la

observación es de 1987.
La ecuación en primera diferencia es
∆crmrtei = γ0 + β1 ∆unemi + ∆ui ,
y la ecuación estimada es
∆crmrte
\ = 15.40 + 2.22∆unem,
(4.70) (0.88)
n = 46, R 2 = 0.127
14 / 19
Ejemplo: Dormir o Trabajar
Un modelo de efectos inobservables para estimar el

intercambio entre el tiempo dedicado a dormir y a trabajar es
slpnapit = β0 + δ0 d 81t + β1 totwrkit + β2 educit + β3 marrit

+ β4 yngkidit + β5 gdhlthit + ai + uit , t = 1, 2,
donde slpnapit es el número de minutos de sueño por semana,

totwrk es el número de minutos trabajados por semana, educ
son los años de educación, marrit es una variable binaria de
matrimonio, yngkidit es una variable binaria que indica la
presencia de un hijo de corta edad y ghlthit es una variable
binaria de buena salud.
15 / 19
Ejemplo: Dormir o Trabajar
La ecuación en primera diferencia es
∆slpnapi = δ0 + β1 ∆totwrki + β2 ∆educi + β3 ∆marri

+ β4 ∆yngkidi + β5 ∆gdhlthi + ∆ui ,
y la ecuación estimada es
\ = −92.63 − 0.227∆totwrk − 0.024∆educ

∆slpnap
(45.87) (0.036) (48.759)
+ 104.21∆marr + 94.67∆yngkid + 87.58∆gdhlth,
(92.86) (87.65) (76.60)
2
n = 239, R = 0.150.
16 / 19
Análisis de Datos de Panel para más de Dos Periodos
El modelo de efectos fijos para T periodos es
yit = δ1 + δ2 d 2t + ... + δT dTt

+ β1 xit1 + ... + βk xitk + ai + uit , t = 1, ..., T
donde djt j = 2, .., T denota las variables binarias de tiempo.
La ecuación en primera diferencia (PD) se obtiene restando el

periodo uno del dos, el periodo dos del tres y ası́
sucesivamente hasta restar el periodo t − 1 del periodo t
∆yit = α0 + α3 d 3t + α4 d 4t + ... + αT dTt

+ β1 ∆xit1 + ... + βk ∆xitk + ∆uit , t = 2, ..., T ,
Note que la ecuación en PD tiene T − 1 periodos para cada

individuo i y un total de observaciones de N (T − 1), donde
N es el número de observaciones de corte transversal.
17 / 19
Supuestos del Estimador de Primeras Diferencias (PD)
PD.1 Para cada i el modelo es
yit = β1 xit1 + ... + βk xitk + ai + uit .
PD.2 Se tiene una muestra aleatoria de corte transversal.
PD.3 Cada variable explicativa cambia con el tiempo y no

existe una relación lineal perfecta entre estas variables.
PD.4 Para cada t = 1, ..., T
E (uit |Xi , ai ) = 0,
donde Xi denota los regresores para todos los periodos de

tiempo, para la observación de corte transversal i .
18 / 19
Supuestos del Estimador de Primeras Diferencias (PD)
PD.5 Var (∆uit |Xi ) = σ 2 , t = 2, ..., T .
PD.6 Cov (∆uit , ∆uis |Xi ) = 0, t 6= s.
PD.7 Condicional en Xi , ∆uit son variables aleatorias

independientes e idénticamente distribuidas normales.
Resultados:
Bajo PD.1 a PD.4 el estimador de PD es insesgado. El
estimador es además consistente con T fijo y N → ∞.
Bajo PD.1 a PD.6 el estimador de PD es MELI.
Bajo PD.1 a PD.7 el estimador de PD se distribuye en
forma normal y los estadı́sticos t y F tienen distribuciones
exactas t y F .
19 / 19

D4 DatosPanel

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

D4 DatosPanel

Cargado por

Copyright:

Formatos disponibles

ECONOMETRIA II

Facultad de Ciencias Económicas

Combinación Independiente de Cortes Transversales.

Datos de Panel para Dos Periodos.

Datos de Panel para más de Dos Periodos.

Referencia: Wooldridge, Capı́tulo 13.

Algunas encuestas recolectan información para diferentes

Una combinación independiente de corte transversal es un

El término de error en una combinación independiente de corte

Los datos de panel o datos longitudinales difieren de la

Algunas razones para colectar combinaciones independientes de

Nos permite probar si la relación entre dos variables ha

Es útil para evaluar el impacto de ciertos eventos o polı́ticas.

Usando datos para 550 personas en 1978 y un grupo diferente

log(wage) = β0 + γ0 y85 + β1 educ + γ1 y85 · educ + β2 exper

donde wage es el salario por hora, educ son los años de

La ecuación estimada es:

Los datos de panel o datos longitudinales es un conjunto de

Los individuos pueden ser hogares, escuelas, empresas,

Suponga que se desea estudiar la relación entre tasas de

El coeficiente de la pendiente no tiene el signo esperado,

Es probable que este modelo sufra problemas de variables

Una solución podrı́a ser tratar de controlar más factores, como

Sin embargo, es posible que varios de estos factores sean

Si estos factores individuales no observados son constantes en

Considere el modelo de efectos inobservables o efectos fijos

yit = β0 + γ0 d 2t + β1 xit + ai + uit ,

donde i denota el individuo y t el periodo; d 2t es una variable

El intercepto para t = 1 es β0 y para t = 2 es β0 + γ0 .

La variable ai , conocida como efecto fijo o heterogeneidad

El error uit se conoce como error idiosincrático.

La ecuación anterior puede escribirse como

yit = β0 + γ0 d 2t + β1 xit + vit ,

donde vit = ai + uit se denomina el error compuesto.

Para que los estimadores de MCO sean consistentes se

Esto implica que ni ai ni uit debe correlacionarse con xit .

Para cada individuo i las ecuaciones del modelo de efectos

yi2 = (β0 + γ0 ) + β1 xi2 + ai + ui2 ,

Si se resta la segunda ecuación de la primera se obtiene

yi2 − yi1 = γ0 + β1 (xi2 − xi1 ) + (ui2 − ui1 ),

La ecuación anterior es llamada ecuación en primera diferencia

La diferenciación elimina el efecto fijo ai .

El intercepto de la ecuación en primera diferencia es el cambio

La variable ∆xi debe tener cierta variación en i .

Lo anterior implica que no es posible incluir regresoras que no

crmrteit = β0 + γ0 d 87t + β1 unemit + ai + uit ,

donde d 87t es una variable binaria igual a uno si la

La ecuación en primera diferencia es

∆crmrtei = γ0 + β1 ∆unemi + ∆ui ,

Un modelo de efectos inobservables para estimar el

slpnapit = β0 + δ0 d 81t + β1 totwrkit + β2 educit + β3 marrit

donde slpnapit es el número de minutos de sueño por semana,

La ecuación en primera diferencia es

∆slpnapi = δ0 + β1 ∆totwrki + β2 ∆educi + β3 ∆marri

\ = −92.63 − 0.227∆totwrk − 0.024∆educ

El modelo de efectos fijos para T periodos es

yit = δ1 + δ2 d 2t + ... + δT dTt

donde djt j = 2, .., T denota las variables binarias de tiempo.

La ecuación en primera diferencia (PD) se obtiene restando el

∆yit = α0 + α3 d 3t + α4 d 4t + ... + αT dTt

Note que la ecuación en PD tiene T − 1 periodos para cada

PD.1 Para cada i el modelo es

yit = β1 xit1 + ... + βk xitk + ai + uit .