Datos de Panel

Datos de Panel
Carlos Ramos
Trimestre Noviembre- Enero 19/20
1 / 32
Introducción
Los datos de panel son bases de datos que incluyen tanto un

componente de corte transversal como un componente temporal.
Estas bases de datos son de mucha importancia, ya que permiten
hacer análisis de políticas que no son posibles con cortes transversales
ni datos de serie de tiempo.
El propósito principal de la bases de datos de panel es capturar la
heterogeneidad atemporal y no observable. Esto permite eliminar
variables omitidas cuando utilicemos el estimador MCO.
Además, los datos de panel nos permiten estudiar las dinamicas de
cortes transversales de la población.
Estudiaremos 2 tipos de bases de datos de panel: Cortes transversales
independientes en el tiempo y datos longitudinales.
2 / 32
Introducción
Los datos de corte transversal independientes en el tiempo no son

más que muestras aleatorias tomadas de una misma población en
diferentes puntos del tiempo.
La clave de estas bases de datos es que los diferentes muestreos son
independientes uno del otro, y por tanto no hay correlación de los
errores de las diferentes observaciones.
Esto nos permite utilizar el estimador MCO, extendiendo el método
para corregir por posibles cambios en la distribución de la población
en el tiempo.
Por el otro lado, los datos longitudinales toman el mismo corte
transversal, mirandolo en diferentes puntos del tiempo.
Esto implica que las observaciones ya no son distribuidas
independientes en el tiempo, por lo que el método de MCO no puede
ser utilizado sin primero transformar el modelo de regresión.
3 / 32
Cortes Transversales Independientes en el Tiempo.
Section 1
4 / 32
Cortes Transversales Independientes en el Tiempo
Los cortes transversales independientes en el tiempo pueden ser

combinados y utilizados como una sola muestra. Esto permite al
econometrista poder aumentar el tamaño de su muestra con facilidad.
Además, los cortes transversales independientes en el tiempo nos
permiten obtener diferentes estimados en el tiempo, y así ver si han
habido cambios en el tiempo en nuestra relación de interés.
Para lograr esto, sólo se necesita introducir variables dummy en la
regresión.
5 / 32
Ejemplo 13.1
library(foreign)
library(wooldridge)
rm(list=ls())
fertil1<-read.dta("fertil1.dta")
names(fertil1)
## [1] "year" "educ" "meduc" "feduc" "age"

## [7] "black" "east" "northcen" "west" "farm"
## [13] "town" "smcity" "y74" "y76" "y78"
## [19] "y82" "y84" "agesq" "y74educ" "y76educ"
## [25] "y80educ" "y82educ" "y84educ"
6 / 32
Ejemplo 13.1
s.lm.1 <-lm(kids ~ educ + age + agesq + black +

east + northcen + west +farm +
othrural + town + smcity +y74 +
y76 + y78 + y80 + y82 + y84,
data = fertil1)
s.lm.2 <- lm(kids ~ educ + age + agesq + black +

east +northcen + west +farm +
othrural +town + smcity,
data = fertil1)
anova_test<-anova(s.lm.2, s.lm.1)
7 / 32
Ejemplo 13.1 Regresión
Dependent variable:
kids
educ −0.128∗∗∗ (0.018)
age 0.532∗∗∗ (0.138)
agesq −0.006∗∗∗ (0.002)
black 1.076∗∗∗ (0.174)
east 0.217 (0.133)
northcen 0.363∗∗∗ (0.121)
west 0.198 (0.167)
farm −0.053 (0.147)
othrural −0.163 (0.175)
town 0.084 (0.125)
smcity 0.212 (0.160)
y74 0.268 (0.173)
y76 −0.097 (0.179)
y78 −0.069 (0.182)
y80 −0.071 (0.183)
y82 −0.522∗∗∗ (0.172)
y84 −0.545∗∗∗ (0.175)
Constant −7.742∗∗ (3.052)
Observations 1,129
R2 0.130
Adjusted R2 0.116
Residual Std. Error 1.555 (df = 1111)
F Statistic 9.723∗∗∗ (df = 17; 1111)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
8 / 32
Ejemplo 13.1 Prueba Anova
Res.Df RSS Df Sum of Sq F Pr(>F)

1 1117 2771.04
2 1111 2685.90 6 85.14 5.87 0.0000
9 / 32
Ejemplo 13.2
Para ver si el efecto de una variable independiente ha cambiado en el

tiempo, se puede usar una variable de interacción, donde
multiplicamos la variable dummy del tiempo que queremos analizar
con la variable de interés.
log(wage) = β0 + δ0 y85 + β1 educ + δ1 educ ∗ y85
+β2 exper + β3 exper2 + β4 union

+β5 f emale + δ5 f emale ∗ y85 + u
10 / 32
Ejemplo 13.2 en R
data("cps78_85")
s.lm.1 <- lm(lwage ~ y85 + educ

+ y85educ + exper +
expersq +union +
female + y85fem, data = cps78_85)
11 / 32
Ejemplo 13.2 en R
Dependent variable:
lwage
y85 0.118 (0.124)
educ 0.075∗∗∗ (0.007)
y85educ 0.018∗∗ (0.009)
exper 0.030∗∗∗ (0.004)
expersq −0.0004∗∗∗ (0.0001)
union 0.202∗∗∗ (0.030)
female −0.317∗∗∗ (0.037)
y85fem 0.085∗ (0.051)
Constant 0.459∗∗∗ (0.093)
Observations 1,084
R2 0.426
Adjusted R2 0.422
∗∗∗
F Statistic 99.804 (df = 8; 1075)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
12 / 32
Test de Chow
El Chow test examina si una regresión multiple difiere entre dos
grupos. En un cortetransversal independiente en el tiempo, podemos
considerar período de tiempo como una muestra de un grupo
diferente. Esto nos permite utilizar el Chow test para comparar 2
períodos de tiempo.
Recordemos que para una regresión con k variables explanatorias y un
intercepto, y 2 grupos, el test de Chow no es más que un test F de
2(k + 1) restricciones dado por:
[SSRp − (SSR1 + SSR2 )] n − 2(k + 1)

F =
SSR1 + SSR2 k+1
donde SSRx es la suma de residuos cuadrados de la regresión del

grupo x y SSRp es la suma de residuos cuadrados de la regresión con
la muestra completa.
13 / 32
Test de Chow
Otra manera de hacer el Chow Test es haciendo una regresión donde

incluímos una variable de interacción por cada variable explanatoria
que tenemos y haciendo un test de significancia conjunta de la
variable dummy y todas las variables de interacción.
Esto se puede extender fácilmente para comparar múltiples períodos
de tiempo.
14 / 32
Ejemplo 13.3 y el estimador diferencias-en-diferencias
Kiel y McClain (1995) estaban interesados en estimar el efecto que

tuvo el anuncio de un incinerador de basuras en el valor de las casas
de North Andover, MA. Ellos tienen data de los precios antes del
anuncio (1978) y después del anuncio (1981).
Para lograr esto, ellos utilizaron una variable dummy que indicaba si
un hogar estaba cerca del lugar donde se iba a construir el incinerador.
Analicemos la siguiente regresión, donde utilizamos solamente el corte
transversal del 1981:
rprice = γ0 + γ1 nearinc + u
Qué nos indica γ1 ?
15 / 32
Regresiones separadas
data("kielmc")
s.lm.1 <- lm(rprice ~ nearinc,
data = kielmc[kielmc$year==1981,])
s.lm.2 <- lm(rprice ~ nearinc,

data = kielmc[kielmc$year == 1978,])
16 / 32
Resultados regresión 1981
Dependent variable:
rprice
nearinc −30,688.270∗∗∗ (5,827.709)
Constant 101,307.500∗∗∗ (3,093.027)
Observations 142
R2 0.165
Adjusted R2 0.159
Residual Std. Error 31,238.040 (df = 140)
F Statistic 27.730∗∗∗ (df = 1; 140)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
17 / 32
Resultados regresión 1978
Dependent variable:
rprice
nearinc −18,824.370∗∗∗ (4,744.594)
Constant 82,517.230∗∗∗ (2,653.790)
Observations 179
R2 0.082
Adjusted R2 0.076
F Statistic 15.741∗∗∗ (df = 1; 177)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
18 / 32
Estimador Diferencias-en-Diferencia
Para poder ver cual fue el cambio real en los precios de las casas
causado por el anuncio, debemos de tomar la diferencia entre el
estimado de 1981 y el de 1978.
Esta diferencia se llama el estimador de diferencias-en-diferencia. Es
fácil de ver de donde sale el nombre si tan sólo vemos la ecuación que
lo define:
δ1 = (rprice81,nr − rprice81,f r ) − (rprice78,nr − rprice78,f r )
= γ1981,1 − γ1978,1
Cuál es la interpretación de δ1 ?
19 / 32
Estimador Diferencias-en-Diferencia
Una forma más fácil de estimar δ1 es utilizando una variable de

interacción y utilizando ambas muestras a la vez.
rprice = β0 + δ0 y81 + β1 nearinc + δ1 y81 ∗ nearinc + u
Usando este método, también podemos calcular la desviación

estandar de δ1 .
20 / 32
Ejemplo 13.3 (Continuación)
s.lm.3 <- lm(rprice ~ y81 + nearinc +

y81nrinc, data = kielmc)
21 / 32
Ejemplo 13.3 (Continuación)
Dependent variable:
rprice
y81 18,790.290∗∗∗ (4,050.065)
nearinc −18,824.370∗∗∗ (4,875.322)
y81nrinc −11,863.900 (7,456.646)
Constant 82,517.230∗∗∗ (2,726.910)
Observations 321
R2 0.174
Adjusted R2 0.166
F Statistic 22.251∗∗∗ (df = 3; 317)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
22 / 32
Experimentos Naturales
La data que vimos en el ejemplo anterior provino de un experimento

natural. Vemos claramente que un cambio de política (el anuncio de
la construcción de un incinerador) creó 4 grupos diferentes.
Cuáles son los 4 grupos?
Utilizando el estimador de Diferencias-en-diferencia, podemos
entonces calcular el efecto de tratamiento average que tuvo el cambio
de política.
23 / 32
Ejemplo 13.4
En Julio 15 de 1980, Kansas aumento el límite superior de ingresos

semanales que estarían cubiertos por el seguro de compensación por
accidentes en el trabajo.
Tomando esto en consideración, queremos ver que efecto tiene un
aumento en la compensación por accidentes en la cantidad de tiempo
que un empleado se toma fuera del trabajo.
Cuál es el grupo de tratamiento en nuestra muestra? Cuál es el grupo
de control?
24 / 32
Ejemplo 13.4
data("injury")
s.lm.1 <- lm(ldurat ~ afchnge + highearn +

afhigh, data = injury)
25 / 32
Ejemplo 13.4
Dependent variable:
ldurat
afchnge 0.024 (0.040)
highearn 0.215∗∗∗ (0.043)
afhigh 0.188∗∗∗ (0.063)
Constant 1.199∗∗∗ (0.027)
Observations 7,150
R2 0.016
Adjusted R2 0.015
F Statistic 38.342∗∗∗ (df = 3; 7146)
∗
Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
26 / 32
Datos de Panel
Section 2
Datos de Panel
27 / 32
Datos de Panel
Datos de Panel de 2 períodos
Anteriormente han visto que la omisión de variables hace que nuestro

estimador MCO sea inconsistente y sesgado.
Muchas veces, este problema puede ser resuelto agregando las
variables omitidas.
En otros casos esto no es factible, ya que las variables no son
observables.
Los Datos de Panel pueden proporcionar una solución a este
problema, dado que creamos que la variable no observable es
constante en el tiempo.
28 / 32
Datos de Panel
Estimador Primeras Diferencias
Tenemos el siguiente modelo:
yit = β0 + δ0 d2t + β1 xit + ai + uit
d2 es una variable dummy para indicar el período de tiempo.

La variable (o vector) ai representa todos las variables no observables
y constantes en el tiempo que afectan a nuestra variable dependiente.
Estas variables se suelen llamar efectos fijos.
El error uit , llamado error (o shock) idiosincrático, representa los
efectos no observables que sí cambian con el tiempo.
29 / 32
Datos de Panel
Estimador Primeras Diferencias

Claramente, no podemos usar un estimador MCO agrupado (como en
la sección anterior). Por qué no?
Para resolver este problema, procedemos a utilizar en estimador de
primeras diferencias.
Consideremos la versión expandida de nuestra regresión de 2 períodos:
yi2 = (β0 + δ0 ) + β1 xi2 + ai + ui2
yi1 = (β0 ) + β1 xi1 + ai + ui1
Tomando diferencias de las dos ecuaciones y obtenemos:
4yi = δ0 + β1 4xi + 4ui

30 / 32
Datos de Panel
Supuestos Estimador Primeras Diferencias
Para asegurar que el estimador de primeras diferencias es no sesgado

y consistente, debemos de tener que las siguientes condiciones se
cumplan:
La muestra de la población transversal es aleatoria.
Existe variación idiosincrática en el tiempo de las variables
independiente xit (Para algunas o todas las observaciones) y las
variables explicatorias no tienen una relación lineal perfecta.
E[uit |Xi , ai ] = 0, donde Xi es una matriz que contiene todas las
variables independientes en todos los períodos de tiempo, para una
observación en el corte transversal. (Exogeneidad estricta condicional
en los no observables).
31 / 32
Datos de Panel
Supuestos Estimador Primeras Diferencias
Además, para asegurar que los errores estándares y las pruebas

estadíticas son asimptoticamente válidas, debemos de asumir
homocedasticidad de los errores diferenciados y que no sean
serialmente correlacionados:
Homocedasticidad: V ar[4uit |Xi ] = σ 2 para todo t.
No corelación serial: Cov[4uit , 4uis |Xi ] = 0, para t 6= s.
Bajo estos el estimador de Primeras Diferencias es BLUE.
32 / 32

Datos de Panel

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Datos de Panel

Cargado por

Copyright:

Formatos disponibles

Datos de Panel

Trimestre Noviembre- Enero 19/20

Los datos de panel son bases de datos que incluyen tanto un

Los datos de corte transversal independientes en el tiempo no son

Cortes Transversales Independientes en el Tiempo.

Cortes Transversales Independientes en el Tiempo

Los cortes transversales independientes en el tiempo pueden ser

## [1] "year" "educ" "meduc" "feduc" "age"

s.lm.1 <-lm(kids ~ educ + age + agesq + black +

s.lm.2 <- lm(kids ~ educ + age + agesq + black +

Ejemplo 13.1 Regresión

Ejemplo 13.1 Prueba Anova

Res.Df RSS Df Sum of Sq F Pr(>F)

Para ver si el efecto de una variable independiente ha cambiado en el

log(wage) = β0 + δ0 y85 + β1 educ + δ1 educ ∗ y85

+β2 exper + β3 exper2 + β4 union

s.lm.1 <- lm(lwage ~ y85 + educ

[SSRp − (SSR1 + SSR2 )] n − 2(k + 1)

donde SSRx es la suma de residuos cuadrados de la regresión del

Otra manera de hacer el Chow Test es haciendo una regresión donde

Ejemplo 13.3 y el estimador diferencias-en-diferencias

Kiel y McClain (1995) estaban interesados en estimar el efecto que

Qué nos indica γ1 ?

s.lm.2 <- lm(rprice ~ nearinc,

Resultados regresión 1981

Resultados regresión 1978

δ1 = (rprice81,nr − rprice81,f r ) − (rprice78,nr − rprice78,f r )

Una forma más fácil de estimar δ1 es utilizando una variable de

rprice = β0 + δ0 y81 + β1 nearinc + δ1 y81 ∗ nearinc + u

Usando este método, también podemos calcular la desviación

Ejemplo 13.3 (Continuación)

s.lm.3 <- lm(rprice ~ y81 + nearinc +

Ejemplo 13.3 (Continuación)

La data que vimos en el ejemplo anterior provino de un experimento

En Julio 15 de 1980, Kansas aumento el límite superior de ingresos

s.lm.1 <- lm(ldurat ~ afchnge + highearn +

Datos de Panel de 2 períodos

Anteriormente han visto que la omisión de variables hace que nuestro

Estimador Primeras Diferencias

Tenemos el siguiente modelo:

yit = β0 + δ0 d2t + β1 xit + ai + uit

d2 es una variable dummy para indicar el período de tiempo.

Estimador Primeras Diferencias

yi2 = (β0 + δ0 ) + β1 xi2 + ai + ui2

yi1 = (β0 ) + β1 xi1 + ai + ui1

Tomando diferencias de las dos ecuaciones y obtenemos:

4yi = δ0 + β1 4xi + 4ui

Supuestos Estimador Primeras Diferencias

Para asegurar que el estimador de primeras diferencias es no sesgado

Supuestos Estimador Primeras Diferencias

Además, para asegurar que los errores estándares y las pruebas

También podría gustarte