Está en la página 1de 32

Datos de Panel

Carlos Ramos

Trimestre Noviembre- Enero 19/20

1 / 32
Introducción

Los datos de panel son bases de datos que incluyen tanto un


componente de corte transversal como un componente temporal.
Estas bases de datos son de mucha importancia, ya que permiten
hacer análisis de políticas que no son posibles con cortes transversales
ni datos de serie de tiempo.
El propósito principal de la bases de datos de panel es capturar la
heterogeneidad atemporal y no observable. Esto permite eliminar
variables omitidas cuando utilicemos el estimador MCO.
Además, los datos de panel nos permiten estudiar las dinamicas de
cortes transversales de la población.
Estudiaremos 2 tipos de bases de datos de panel: Cortes transversales
independientes en el tiempo y datos longitudinales.

2 / 32
Introducción

Los datos de corte transversal independientes en el tiempo no son


más que muestras aleatorias tomadas de una misma población en
diferentes puntos del tiempo.
La clave de estas bases de datos es que los diferentes muestreos son
independientes uno del otro, y por tanto no hay correlación de los
errores de las diferentes observaciones.
Esto nos permite utilizar el estimador MCO, extendiendo el método
para corregir por posibles cambios en la distribución de la población
en el tiempo.
Por el otro lado, los datos longitudinales toman el mismo corte
transversal, mirandolo en diferentes puntos del tiempo.
Esto implica que las observaciones ya no son distribuidas
independientes en el tiempo, por lo que el método de MCO no puede
ser utilizado sin primero transformar el modelo de regresión.

3 / 32
Cortes Transversales Independientes en el Tiempo.

Section 1

Cortes Transversales Independientes en el Tiempo.

4 / 32
Cortes Transversales Independientes en el Tiempo.

Cortes Transversales Independientes en el Tiempo

Los cortes transversales independientes en el tiempo pueden ser


combinados y utilizados como una sola muestra. Esto permite al
econometrista poder aumentar el tamaño de su muestra con facilidad.
Además, los cortes transversales independientes en el tiempo nos
permiten obtener diferentes estimados en el tiempo, y así ver si han
habido cambios en el tiempo en nuestra relación de interés.
Para lograr esto, sólo se necesita introducir variables dummy en la
regresión.

5 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.1

library(foreign)
library(wooldridge)

rm(list=ls())
fertil1<-read.dta("fertil1.dta")
names(fertil1)

## [1] "year" "educ" "meduc" "feduc" "age"


## [7] "black" "east" "northcen" "west" "farm"
## [13] "town" "smcity" "y74" "y76" "y78"
## [19] "y82" "y84" "agesq" "y74educ" "y76educ"
## [25] "y80educ" "y82educ" "y84educ"

6 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.1

s.lm.1 <-lm(kids ~ educ + age + agesq + black +


east + northcen + west +farm +
othrural + town + smcity +y74 +
y76 + y78 + y80 + y82 + y84,
data = fertil1)

s.lm.2 <- lm(kids ~ educ + age + agesq + black +


east +northcen + west +farm +
othrural +town + smcity,
data = fertil1)

anova_test<-anova(s.lm.2, s.lm.1)

7 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.1 Regresión

Dependent variable:
kids
educ −0.128∗∗∗ (0.018)
age 0.532∗∗∗ (0.138)
agesq −0.006∗∗∗ (0.002)
black 1.076∗∗∗ (0.174)
east 0.217 (0.133)
northcen 0.363∗∗∗ (0.121)
west 0.198 (0.167)
farm −0.053 (0.147)
othrural −0.163 (0.175)
town 0.084 (0.125)
smcity 0.212 (0.160)
y74 0.268 (0.173)
y76 −0.097 (0.179)
y78 −0.069 (0.182)
y80 −0.071 (0.183)
y82 −0.522∗∗∗ (0.172)
y84 −0.545∗∗∗ (0.175)
Constant −7.742∗∗ (3.052)
Observations 1,129
R2 0.130
Adjusted R2 0.116
Residual Std. Error 1.555 (df = 1111)
F Statistic 9.723∗∗∗ (df = 17; 1111)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

8 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.1 Prueba Anova

Res.Df RSS Df Sum of Sq F Pr(>F)


1 1117 2771.04
2 1111 2685.90 6 85.14 5.87 0.0000

9 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.2

Para ver si el efecto de una variable independiente ha cambiado en el


tiempo, se puede usar una variable de interacción, donde
multiplicamos la variable dummy del tiempo que queremos analizar
con la variable de interés.

log(wage) = β0 + δ0 y85 + β1 educ + δ1 educ ∗ y85

+β2 exper + β3 exper2 + β4 union


+β5 f emale + δ5 f emale ∗ y85 + u

10 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.2 en R

data("cps78_85")

s.lm.1 <- lm(lwage ~ y85 + educ


+ y85educ + exper +
expersq +union +
female + y85fem, data = cps78_85)

11 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.2 en R

Dependent variable:
lwage
y85 0.118 (0.124)
educ 0.075∗∗∗ (0.007)
y85educ 0.018∗∗ (0.009)
exper 0.030∗∗∗ (0.004)
expersq −0.0004∗∗∗ (0.0001)
union 0.202∗∗∗ (0.030)
female −0.317∗∗∗ (0.037)
y85fem 0.085∗ (0.051)
Constant 0.459∗∗∗ (0.093)
Observations 1,084
R2 0.426
Adjusted R2 0.422
Residual Std. Error 0.413 (df = 1075)
∗∗∗
F Statistic 99.804 (df = 8; 1075)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

12 / 32
Cortes Transversales Independientes en el Tiempo.

Test de Chow
El Chow test examina si una regresión multiple difiere entre dos
grupos. En un cortetransversal independiente en el tiempo, podemos
considerar período de tiempo como una muestra de un grupo
diferente. Esto nos permite utilizar el Chow test para comparar 2
períodos de tiempo.
Recordemos que para una regresión con k variables explanatorias y un
intercepto, y 2 grupos, el test de Chow no es más que un test F de
2(k + 1) restricciones dado por:

[SSRp − (SSR1 + SSR2 )] n − 2(k + 1)


F =
SSR1 + SSR2 k+1

donde SSRx es la suma de residuos cuadrados de la regresión del


grupo x y SSRp es la suma de residuos cuadrados de la regresión con
la muestra completa.
13 / 32
Cortes Transversales Independientes en el Tiempo.

Test de Chow

Otra manera de hacer el Chow Test es haciendo una regresión donde


incluímos una variable de interacción por cada variable explanatoria
que tenemos y haciendo un test de significancia conjunta de la
variable dummy y todas las variables de interacción.
Esto se puede extender fácilmente para comparar múltiples períodos
de tiempo.

14 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.3 y el estimador diferencias-en-diferencias

Kiel y McClain (1995) estaban interesados en estimar el efecto que


tuvo el anuncio de un incinerador de basuras en el valor de las casas
de North Andover, MA. Ellos tienen data de los precios antes del
anuncio (1978) y después del anuncio (1981).
Para lograr esto, ellos utilizaron una variable dummy que indicaba si
un hogar estaba cerca del lugar donde se iba a construir el incinerador.
Analicemos la siguiente regresión, donde utilizamos solamente el corte
transversal del 1981:

rprice = γ0 + γ1 nearinc + u

Qué nos indica γ1 ?

15 / 32
Cortes Transversales Independientes en el Tiempo.

Regresiones separadas

data("kielmc")
s.lm.1 <- lm(rprice ~ nearinc,
data = kielmc[kielmc$year==1981,])

s.lm.2 <- lm(rprice ~ nearinc,


data = kielmc[kielmc$year == 1978,])

16 / 32
Cortes Transversales Independientes en el Tiempo.

Resultados regresión 1981

Dependent variable:
rprice
nearinc −30,688.270∗∗∗ (5,827.709)
Constant 101,307.500∗∗∗ (3,093.027)
Observations 142
R2 0.165
Adjusted R2 0.159
Residual Std. Error 31,238.040 (df = 140)
F Statistic 27.730∗∗∗ (df = 1; 140)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

17 / 32
Cortes Transversales Independientes en el Tiempo.

Resultados regresión 1978

Dependent variable:
rprice
nearinc −18,824.370∗∗∗ (4,744.594)
Constant 82,517.230∗∗∗ (2,653.790)
Observations 179
R2 0.082
Adjusted R2 0.076
Residual Std. Error 29,431.960 (df = 177)
F Statistic 15.741∗∗∗ (df = 1; 177)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

18 / 32
Cortes Transversales Independientes en el Tiempo.

Estimador Diferencias-en-Diferencia

Para poder ver cual fue el cambio real en los precios de las casas
causado por el anuncio, debemos de tomar la diferencia entre el
estimado de 1981 y el de 1978.
Esta diferencia se llama el estimador de diferencias-en-diferencia. Es
fácil de ver de donde sale el nombre si tan sólo vemos la ecuación que
lo define:

δ1 = (rprice81,nr − rprice81,f r ) − (rprice78,nr − rprice78,f r )

= γ1981,1 − γ1978,1
Cuál es la interpretación de δ1 ?

19 / 32
Cortes Transversales Independientes en el Tiempo.

Estimador Diferencias-en-Diferencia

Una forma más fácil de estimar δ1 es utilizando una variable de


interacción y utilizando ambas muestras a la vez.

rprice = β0 + δ0 y81 + β1 nearinc + δ1 y81 ∗ nearinc + u

Usando este método, también podemos calcular la desviación


estandar de δ1 .

20 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.3 (Continuación)

s.lm.3 <- lm(rprice ~ y81 + nearinc +


y81nrinc, data = kielmc)

21 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.3 (Continuación)

Dependent variable:
rprice
y81 18,790.290∗∗∗ (4,050.065)
nearinc −18,824.370∗∗∗ (4,875.322)
y81nrinc −11,863.900 (7,456.646)
Constant 82,517.230∗∗∗ (2,726.910)
Observations 321
R2 0.174
Adjusted R2 0.166
Residual Std. Error 30,242.900 (df = 317)
F Statistic 22.251∗∗∗ (df = 3; 317)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

22 / 32
Cortes Transversales Independientes en el Tiempo.

Experimentos Naturales

La data que vimos en el ejemplo anterior provino de un experimento


natural. Vemos claramente que un cambio de política (el anuncio de
la construcción de un incinerador) creó 4 grupos diferentes.
Cuáles son los 4 grupos?
Utilizando el estimador de Diferencias-en-diferencia, podemos
entonces calcular el efecto de tratamiento average que tuvo el cambio
de política.

23 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.4

En Julio 15 de 1980, Kansas aumento el límite superior de ingresos


semanales que estarían cubiertos por el seguro de compensación por
accidentes en el trabajo.
Tomando esto en consideración, queremos ver que efecto tiene un
aumento en la compensación por accidentes en la cantidad de tiempo
que un empleado se toma fuera del trabajo.
Cuál es el grupo de tratamiento en nuestra muestra? Cuál es el grupo
de control?

24 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.4

data("injury")

s.lm.1 <- lm(ldurat ~ afchnge + highearn +


afhigh, data = injury)

25 / 32
Cortes Transversales Independientes en el Tiempo.

Ejemplo 13.4

Dependent variable:
ldurat
afchnge 0.024 (0.040)
highearn 0.215∗∗∗ (0.043)
afhigh 0.188∗∗∗ (0.063)
Constant 1.199∗∗∗ (0.027)
Observations 7,150
R2 0.016
Adjusted R2 0.015
Residual Std. Error 1.298 (df = 7146)
F Statistic 38.342∗∗∗ (df = 3; 7146)

Note: p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

26 / 32
Datos de Panel

Section 2

Datos de Panel

27 / 32
Datos de Panel

Datos de Panel de 2 períodos

Anteriormente han visto que la omisión de variables hace que nuestro


estimador MCO sea inconsistente y sesgado.
Muchas veces, este problema puede ser resuelto agregando las
variables omitidas.
En otros casos esto no es factible, ya que las variables no son
observables.
Los Datos de Panel pueden proporcionar una solución a este
problema, dado que creamos que la variable no observable es
constante en el tiempo.

28 / 32
Datos de Panel

Estimador Primeras Diferencias

Tenemos el siguiente modelo:

yit = β0 + δ0 d2t + β1 xit + ai + uit

d2 es una variable dummy para indicar el período de tiempo.


La variable (o vector) ai representa todos las variables no observables
y constantes en el tiempo que afectan a nuestra variable dependiente.
Estas variables se suelen llamar efectos fijos.
El error uit , llamado error (o shock) idiosincrático, representa los
efectos no observables que sí cambian con el tiempo.

29 / 32
Datos de Panel

Estimador Primeras Diferencias


Claramente, no podemos usar un estimador MCO agrupado (como en
la sección anterior). Por qué no?
Para resolver este problema, procedemos a utilizar en estimador de
primeras diferencias.
Consideremos la versión expandida de nuestra regresión de 2 períodos:

yi2 = (β0 + δ0 ) + β1 xi2 + ai + ui2

yi1 = (β0 ) + β1 xi1 + ai + ui1

Tomando diferencias de las dos ecuaciones y obtenemos:

4yi = δ0 + β1 4xi + 4ui


30 / 32
Datos de Panel

Supuestos Estimador Primeras Diferencias

Para asegurar que el estimador de primeras diferencias es no sesgado


y consistente, debemos de tener que las siguientes condiciones se
cumplan:
La muestra de la población transversal es aleatoria.
Existe variación idiosincrática en el tiempo de las variables
independiente xit (Para algunas o todas las observaciones) y las
variables explicatorias no tienen una relación lineal perfecta.
E[uit |Xi , ai ] = 0, donde Xi es una matriz que contiene todas las
variables independientes en todos los períodos de tiempo, para una
observación en el corte transversal. (Exogeneidad estricta condicional
en los no observables).

31 / 32
Datos de Panel

Supuestos Estimador Primeras Diferencias

Además, para asegurar que los errores estándares y las pruebas


estadíticas son asimptoticamente válidas, debemos de asumir
homocedasticidad de los errores diferenciados y que no sean
serialmente correlacionados:
Homocedasticidad: V ar[4uit |Xi ] = σ 2 para todo t.
No corelación serial: Cov[4uit , 4uis |Xi ] = 0, para t 6= s.
Bajo estos el estimador de Primeras Diferencias es BLUE.

32 / 32

También podría gustarte