Está en la página 1de 4

Tema 2.

Modelos con datos de panel

El objetivo de los datos de panel es recoger el comportamiento de los individuos a lo largo del
tiempo.

Estos datos tienen dos efectos:

- Individuales: recogen la respuesta diferencial de los individuos ante un fenómeno


concreto.
- Temporales: recogen la respuesta común de todos los individuos, pero diferente en
cada momento del tiempo, ante un mismo fenómeno económico, es algo que ocurre y
que nos afecta a todos a la vez.

Ejemplo*:

En un modelo de datos de panel en el que Y es la nota media de un estudiante un año y X sus


horas de estudio ese año, ¿qué interpretación tiene el efecto individual y el efecto temporal?

Inteligencia, carácter, disciplina, clase social, motivación  efecto individual, porque no varía a
lo largo del tiempo

Pandemia, dificultad de las asignaturas, estudiar de mañanas o de tardes, profesores, tipo de


docencia  efectos temporales, porque afecta a todos por igual y varía en el tiempo.

El problema de los datos de panel es que es muy difícil recolectar los datos, por lo que no
siempre tendremos la matriz completa. Cuando esto ocurre se dice que tenemos un panel de
datos desequilibrado.

Que el coeficiente beta sea igual para todos los individuos implica que independientemente de
los efectos individuales la relación entre la variable dependiente e independiente es la misma.
Si la beta es igual para todos los períodos de tiempo, significa que el efecto temporal no
importa.

El modelo de la diapo 6 considera efectos individuales. Esto lo podemos ver con el alfa, ya que
lo que cambia es el subíndice para los individuos y no para el tiempo.

De momento vamos a asumir que las betas son iguales para todos los individuos y todos los
períodos de tiempo.

*los modelos que cambian todos los coeficientes no son datos de panel.

Dentro de los modelos de datos de panel, hay varios modelos distintos.

En los modelos de coeficientes constantes (pool de datos) no hay diferencias ni en las


pendientes ni en las constantes, lo que deriva en una estimación sesgada y varianza alta a
pesar de aumentar el tamaño de la muestra (asume que todos los individuos se comportan
igual), y oculta la heterogeneidad de los individuos, que se va al término de error.

Esto se corrige teniendo en cuenta los efectos individuales, ya sean fijos o aleatorios. La forma
más fácil de hacer esto es con variables dicotómicas.

En los modelos de efectos fijos individuales (Mínimos Cuadrados con Variables Dicotómicas,
MCVD) partimos de la especificación general, donde agregamos una variable dicotómica por
cada individuo. Además tenemos una constante por cada individuo (alfa sub-i). De esta forma
consideramos diferencias entre individuos (con los alfa sub-i) pero no a lo largo del tiempo. El
problema que surge en estos modelos es que si el número de individuos es muy elevado puede
aparecer multicolinealidad.

Cuando esta última opción no es viable consideramos diferencias dentro del grupo, donde
transformamos las variables por diferencias dentro de su grupo. También consideramos
diferencias entre individuos pero no temporales. Expresa las variables como desviaciones
respecto a la media de todos los periodos de tiempo.

Yit = alfa-i + BXit + uit  Yi = alfa-i + BX (Yi y X son medias)

(Yit – Yi)  diferencia dentro del grupo de Y

(Xit – X)  diferencia dentro del grupo de X

La ecuación para estimar por MC es DGy = B(DGx) + uit

*within = DG = diferencias dentro del grupo

De esta forma pasamos de tener los individuos dispersos a tenerlos juntos en el origen de la
gráfica y nos ahorramos grados de libertad.

*la B en MCVD y DG es la misma

El modelo de efectos aleatorios individuales considera que el alfa i no es fija, es una variable
aleatoria con valor medio igual a alfa. El alfa es la misma pero el error varía para cada
individuo, por lo que el alfa i se define como alfa más el error del individuo. Esto supone que
no hay relación entre el alfa del individuo y el valor de las variables explicativas. En estos
términos tenemos dos términos de error, el de la combinación de individuo y momento
temporal por un lado y por otro el error individual.

Para trabajar con modelos de efectos temporales lo único que tenemos que hacer es
transformar los modelos de efectos individuales cambiando el alfa-i por alfa-t.

El último modelo es el que combina efectos individuales y temporales, que considera que
existen diferencias de comportamiento entre individuos y a lo largo del tiempo
simultáneamente. En este modelo las regresoras tienen siempre la misma pendiente y la
ordenada en el origen cambia para cada individuo en cada momento del tiempo. El problema
aquí es que tenemos muchos parámetros a estimar pero menos grados de libertad que
parámetros. Por ello, asumimos para alfa i-t, ya que no podemos estimar todos estos, que son
la combinación del efecto individual más el efecto temporal. De esta forma ya no estimamos
NxT parámetros, si no (N-1) + (T-1).

Esto también se puede hacer con DG, en los apuntes en folio está cómo se calcularía.

El modelo con todos los coeficientes distintos asume diferencias de comportamiento tanto
entre individuos como en el efecto de cada variable explicativa. Es una regresión por cada
individuo. Este modelo no se considera modelo de datos de panel porque se estimaría mejor
con una regresión por individuo.

Selección de modelos

- Contraste de homogeneidad, se utiliza para elegir entre un modelo de pool de datos y


un modelo de efectos fijos (sirve tanto como para efectos individuales como para
efectos temporales, lo importante es que sean efectos fijos). Lo que haremos será ver
si el alfa cambia o no. Si podemos aceptar que el alfa es el mismo entonces
utilizaremos un pool de datos. Si el alfa varía para cada individuo entonces
utilizaremos un modelo de efectos fijos. K es el número de variables independientes.
- Contraste de Hausman, se utiliza para elegir entre un modelo de efectos fijos o uno de
efectos aleatorios. Estudia si los betas de los EF y de los EA se pueden considerar
iguales. Si no hay diferencias en estos betas, es mejor utilizar EA ya que sus
estimadores son más eficientes. Si las diferencias son significativas elegiremos los EF,
ya que esto es probable que signifique que los EA estén correlacionados con las
regresoras.

Consideraciones generales:

- Si suponemos que el error individual no está correlacionado con las X, un modelo de


EA es más apropiado. Que haya correlación entre épsilon y X significa que los efectos
que no son observables están relacionados con los efectos que sí se ven.
- EA parte del supuesto que los individuos son una muestra aleatoria de una población
más grande. Si la muestra no es aleatoria, mejor utilizar efectos fijos.
- Si hay muchos periodos de tiempo y pocos individuos, habrá poca diferencia entre las
estimaciones por EF y EA. Aunque los coeficientes de EA, como ya hemos dicho antes,
son más eficientes, en este caso es mejor utilizar EF por temas de cálculo.
- La estimación de EA puede estimar coeficientes de variables que no cambian con el
tiempo.

SEMINARIO

Ejercicio 3

e) Significa que la probabilidad de obtener los mismos resultados que en un modelo nulo es
muy bajo, por lo que nuestro modelo en principio es bueno, por lo que rechazamos la hipótesis
nula.

Ejercicio 4.

a) estamos utilizando un modelo de efectos fijos individuales con diferencias entre grupos

b) la salida del comando ‘fixef’ extrae los efectos fijos estimados, es decir, las alfas.

c) costes = -131236 + 3.319e06*Q1t + 7.7307e-01*PF1t - 3 .7974e06*LF1t

Yit – Y(media)it = B(Xit – X(media)i) + mit  obtenemos alfa  alfa-i = Y(media)i – B(X(media))

d) 38000$

incremento Ct = B1*incQ + B2*incPF + B *incLF (incQ = incPF = 0)

inc Ct = -3,7974e06*0,01 = -3,7974e4 miles de $


*LF es en tanto por uno, lo asumimos*

e) costes = 470497 + 3.319e06*0,8 + 7.7307e-01*115000 - 3 .7974e06*0,51 =

f) elegir entre pool de datos y modelos de efectos fijos. Con ese p-valor rechazamos la
hipótesis nula, ya que es menor que 0,05 por lo que asumimos que sí que hay diferencias entre
individuos.

Ejercicio 5.

a) edad  no tiene sentido

desempleo  no es significativo pero tiene sentido

región de residencia  no es significativo pero tiene sentido

b) No hay grandes diferencias. Las diferencias existen en las edades 3 y 4, pero al estar ambos
modelos tan cerca de 0 no pasa nada, además el error es muy alto. Estos errores son más altos
en el modelo de efectos fijos, esto se puede deber a que exista correlación entre los errores y
las variables explicativas.

c) en ambos modelos, el coeficiente de la variable Sur nos está indicando que las personas que
viven en el sur cobran un salario menor con respecto al salario medio. Si eres del sur, el
logaritmo de tu salario es un 0,1569% $ menos. Como interpretar resultados con salarios es
difícil de comprender, lo interpretaremos como que si eres del sur, cobrarás un 15,69% menos
del salario medio aproximadamente.

d) A partir de los datos de la tabla, elegiríamos el de efectos aleatorios ya que tiene un error
menor, pero para comprobarlo y asegurarnos tendríamos que hacer el test de Hausman.
Además, el modelo de efectos aleatorios consume menos grados de libertad.

Ejercicio 6.

Cuando aceptamos la hipótesis en el contraste de hausman lo hacemos porque hay diferencia


en los estimadores que probablemente se deban a correlaciones entre las variables y las alfa.

También podría gustarte