Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas Econometría 2
Notas Econometría 2
Es útil después de mirar la correlación entre dos variables, observar el diagrama de dispersión para
concluir si algunas relaciones entre las variables son, por ejemplo, más bien cuadráticas en vez de
lineales, luego debo usar la variable explicativa al cuadrado. También es importante hacer la
estadística básica.
H 1 : βn ≠ 0
β^ n
t=
σ ^β
n
En Gretl el estadístico de prueba ya está dado cuando calculo el modelo (“Estadístico t”). Asimismo,
me ofrece el programa la probabilidad de que haya equivocación al rechazar la hipótesis nula, la cual
es que el beta real no es significativo o no hay evidencia de ello. Esta última probabilidad también la
da el modelo (“valor p”). La idea es que el valor P sea lo más pequeño posible, es decir, que sea menor
que el alfa que yo elijo (normalmente 5%, pero también puede ser otro menor), porque ello significa
que tengo pocas probabilidades de equivocarme al rechazar la hipótesis nula, luego acepto la hipótesis
alternativa, la cual dice que esa variable sí es significativa. Ahora bien, si el valor P es mayor que mi
alfa, yo NO rechazo la hipótesis nula porque ello significa que tengo muchas probabilidades de
equivocarme al decir que no es significativa beta.
En conclusión, sí el valor P es menor al alfa escogido (valor de significancia) rechazo la hipótesis
nula y me quedo con que sí es significativo el beta (hipótesis alternativa).
Y si el valor P es mayor al alfa, acepto la hipótesis nula y descarto la variable en estudio porque
tengo muchas probabilidades de equivocarme al elegir esa variable. Entonces aseguro que la
variable o más bien su beta real no es significativo para el modelo.
En Gretl entre más estrellitas o asteriscos tenga la variable del modelo más confiable es porque el P
valor es muy pequeño.
En Gretl
IMPORTANTE DE STATA:
Las tres primeras letras de cada comando sirven también como apodo para
reemplazar el nombre completo del comando y se pueden poner en la ventana de
abajo. Por ejemplo Summarize=Sum
Si yo le pongo “i.” antes que una variable cualitativa, esta me coloca
explícitamente en una regresión lineal cuales son los coeficientes o efectos de
cada categoría con respecto a una categoría de referencia. Por ejemplo, con la
variable “educación”, si uso “i.educación” me mostrará cual es el efecto de ser
bachiller con respecto a la educación básica, cual es el efecto de ser universitario
con respecto a la educación básica, etc.
“Tab” es un apodo del comando para mostrar la tabla de frecuencias de un
conjunto de datos. Escribo en la ventana de comandos “Tab” y en frente el
nombre de la variable. Puedo poner dos variables si quiero cruzar sus resultados.
“Gen” de “generate” sirve para crear una nueva variable.
Con “ssc install bcuse” instalo muchas bases de datos
Para hacer el test de homocedasticidad de breuch-pagan uso “hettest”
Para hacer el test de homocedasticidad de White uso “imtest, white”. Solo con
“imtest” me dará otro resultado.
La prevención de White para heterocedasticidad es ponerle al final de la
regresión “robust”
export excel using "cami" para guardar archivos de Excel en la carpeta de stata
la prueba de autocoreelación Durbin-Watson se calcula así: “estat dwatson”
la prueba de autocoreelación Breuch- Godfrey se calcula así: “estat bgodfrey”
Para hacerle entender a Stata que es una base de datos corresponde a una serie
de tiempo se usa el código “tsset (variable que explica el tiempo)”. Al frente de
“tsset” se pone por ejemplo la variable “Años”.
Para crear una variable de tiempo utilizo “Gen t=_n”.
Para crear una variable de diferencia en el tiempo (Xt - Xt-1) uso por ejemplo
para las variables “lpollo” y “lppollo”: “gen dlpollo=D.lpollo” y “gen
dlppollo=D.lppollo”. Este es el método de autocorrelación de diferencias o
variaciones de las variables.
Para el método de Prais-Winsten: “prais lpollo ling lppollo”
Para el método de Cochrane-Orcut: “prais lpollo ling lppollo, corc”
Para el método de Newey-West: “newey lpollo ling lppollo, lag(1)”. Aquí debo
escoger el retardo o rezago de acuerdo a los datos.
Este comando sirve para generar el error del último modelo ejecutado: “predict
error, resid”
“drop” seguido de una variable sirve para borrarla
“swilk error2” sirve para hacer el test de distribución normal, en este caso de los
errores llamados “error2”
“kdensity error2, normal” sirve para graficar la distribución de una variable con
respecto a la distribución normal, en este caso para la variable “error2”
“br” seguido de una variable sirve para mirar la variable
“vif” es un comando que se pone después de correr la regresión, para tener pista
de la colinealidad con el factor de inflación de la varianza.
“ovtest” sirve para hacer la Ramsey test de omisión de variable.
“twoway (scatter error2 faminc)” para hacer gráficos de dispersión entre la
variable “error2” (eje Y) y “faminc” (eje X).
“clear all” para borrar todo.
“predict yhat, xb” sirve para que me de los valores de Y pronóstico (nombrado
como “yhat”). Este comando formará una nueva columna en la tabla de datos
(“br”) con los Y pronosticados.
“blogit casosexitosos casosposibles X” es la manera de hacer una regresión para
el modelo Logit mediante el método de Máxima Verosimilitud. “casosexitosos” y
“casosposibles” hacen parte de la misma variable probabilidad luego, ambas
conforman la Y o variable dependiente; “X” corresponde a la variable
independiente. Esto se usa cuando quiero predecir la probabilidad de que ocurra
un evento.
Cuando le pongo a las regresiones de “logit” al final “, or” me ofrece los odds del
modelo.
Se utiliza el comando “estat classificatio” después de ejecutar una regresión logit
para saber que porcentaje de los datos fueron correctamente clasificados como 1
y 0.
“mfx” para saber en el modelo logit como afecta directamente cada X a Y
“margins, at (gpa=4 tuce=3 psi=0)” pendiente
“cls” sirve para limpiar la consola
“margins, atmeans” para saber los resúmenes de cada variable explicativa
“, or” después de la regresión sirve para tener los odds
En “tab x, nolabel” la parte “nolabel” sirve para quitarle las etiquetas a las
variables cualitativas y ver el numero que las representa: 0,1,2,3…
“xtline Y” sirve para graficar Y
“tsset empresa time” sirve para conocer información de datos panel donde
“empresa” son los individuos y “time” una variable de tiempo
“xtreg Y X1 X2, fe” modelo de efectos fijos para Y que depende de X1 y X2.
“i.X1#c.X2” sirve para introducir una interacción entre dos variables siendo X1
cualitativa y X2 continua. Se interpreta como que un aumento en una unidad de
X2 teniendo la característica de 1 (y no cero) para X1, como aumenta el Y.
Ninguna de estas razones por sí solas es suficiente para decidir sí hay que replantear las
variables explicativas. Hay que mirar varias razones y es una decisión bastante subjetiva. Pues
no hay manera de hacer una prueba de hipótesis. Luego entonces tengo que evaluar los
criterios de evaluación con el de Akaike y el R-cuadrado (SOLO SE PUEDE COMPARAR
CUANDO LA VARIABLE DEPENDIENTE SEA EXACTAMENTE IGUAL).
Cuando tanto la variable explicada como la explicativa son logaritmos el coeficiente hallado será una
elasticidad, entonces se interpretará como un porcentaje. Por ejemplo, si el beta me da 0.77 para X1,
yo digo un cambio del 1% de X1 genera un aumento del 0.77% en Y.
La incorrecta especificación se refiere a que no tengo las variables correctas o que no tienen una
base teórica.
Soluciones de colinealidad:
Cuando hay problemas de colinealidad, una de las soluciones es hacer transformaciones. Una
por ejemplo es no usar directamente las variables sino las desviaciones de todas con respecto a
sus medias (centrar variables).
También se pueden combinar variables creando nuevas variables. Hay otros métodos como el
de Análisis de Correspondencias Múltiples, el cual es para variables cualitativas.
Otra solución es cambiar las variables si tengo varias que explican más o menos lo mismo o
eliminarlas.
HOMOCEDASTICIDAD Y HETEROCEDASTICIDAD:
Cuando es heterocedástico es porque para un grupo de los datos, en sus errores hay una
dispersión pequeña mientras para otro grupo de datos hay una mayor dispersión. Por ejemplo
al comparar el consumo con el ingreso, para los pobres el consumo es más o menos igual
porque se tienen que gastar todo (lo poco que tienen), mientras para los ricos hay posibilidad
de decisión, algunos tienen la preferencia de gastar más y otros menos. Gráficamente puede
mostrar un embudo los datos con heterocedasticidad.
Cuando es homocedástica la distribución es porque de manera uniforme todos los datos tienen
errores con una misma dispersión.
Para captar la heterocedasticidad gráficamente, cruzo los errores al cuadrado con cualquier
variable menos la dependiente, por ejemplo con el valor pronosticado o con cualquier otra
variable explicativa. Observo entonces si hay una tendencia o no, si no la hay, si hay una
pendiente cero, entonces hay homocedasticidad, de lo contrario es heterocedástico.
La idea es entonces que la varianza de los errores no tenga ninguna relación con ninguna de las
variables. Puedo por ejemplo primero mirar sí hay relación entre la varianza con el Y
pronóstico (tendencia o correlación), si la hay, entonces analizo con cada una de las variables
explicativas, para ver cuál de ellas es la que muestra relación con la varianza (tendencia),
también haciendo una regresión entre la varianza y las variables explicativas, pero si no me da
coeficientes significativos con ninguna variable, significa que hay homocedasticidad pues los
errores tienen la misma dispersión.
Todos los test usan como hipótesis nula que los residuos son homocedásticos. Luego entonces
si el P-valor es pequeño rechazo la hipótesis nula y digo que hay heterocedasticidad.
IMPORTANTE: EL TEST DE BREUCH-PAGAN REQUIERE QUE LOS ERRORES
TENGAN NORMALIDAD, ES DECIR, TENGAN UNA DISTRIBUCIÓN NORMAL,
EN CAMBIO CON EL TEST DE WHITE NO IMPORTA. Para saber si hay una
distribución normal miro un test de distribución con la hipótesis nula de que si hay normalidad
y la hipótesis alternativa de que NO hay una distribución normal. Entonces si el P-valor es
mayor al 5% no puedo rechazar la hipótesis nula y entonces sí hay una distribución normal y
puedo usar breuch-pagan además de White.
Para prevenir heterocedasticidad cuando hago la regresión incluyo la prevención
de White.
o HETEROCEDASTICIDAD: LA VARIANZA DE LOS ESTIMADORES NO ES LA
MÍNIMA.
LEER CAPÍTULO 11 DE GUJARATI.
Autocorrelación:
La idea es que no haya autocorrelación.
La autocorrelación es la correlación de un residuo con otro a través del tiempo. Por ello, este
supuesto es solo para SERIES DE TIEMPO.
Se espera entonces que la covarianza del producto de los errores del modelo en el tiempo t y en
el tiempo t-1 sea cero.
Entre las causas puede estar un sesgo o problema de especificación (se omitieron variables
importantes). Por ejemplo, incluir una variable explicativa regazada (en un tiempo t-n) o la
misma variable dependiente rezagada.
Otra causa muy importante es la incercia de los datos o dependencia de los datos históricos.
Ella genera no estacionariedad, lo cual significa que la media, la varianza y la covarianza en
los primeros momentos de la variable cambia con el tiempo.
Otro problema surge cuando de manera inadecuada de tratan de manipular la variable para
completar los datos ausentes.
Una manera de ver si hay autocorrelación es que en la gráfica de los errores en el tiempo t con
respecto a los errores del tiempo t-1 haya una tendencia o relación que salta a la vista, no
necesariamente lineal, cualquier relación.
Asimismo no puede haber relación o tendencia alguna en la gráfica de los errores contra el
tiempo.
La correlación entre los errores a través del tiempo solo se mueve entre -1, 0 y 1. −1 ≤ ρ≤ 1
Los test que se hacen son el de Durbin Watson y el de Breuch-Godfrey. Allí la hipótesis nula
es que NO hay autocorrelación. Es decir, lo bueno es que sea alto el valor-p para no rechazar
H0. Lo que analizan los test es que en la ecuación de regresión entre los errores en el tiempo:
U t =ρ U t −1+ ε t el coeficiente ρ sea cero. ρ solo puede estar entre -1, 0 y 1.
Específicamente en el test de D-W cuando el valor de Durbin-Watson me da
cercana a 2 significa que no hay autocorrelación.
Para que el modelo Durbin-Watson sirva debe haber un intercepto, solo sirve con un modelo
AR (1) y no puede incluir en el modelo la variable dependiente rezagada como explicativa.
El test de Breuch-Godfrey permite usar AR (p), no solo AR (1) y permite incluir como
explicativa la variable dependiente. Permite usar modelo más complejos.
Cuando se concluye AR (1) se habla de que hay autocorrelación con la variable rezagada solo en
uno de los periodos anteriores.
Una de las posibles consecuencias de la autocorrelación es que los modelos sean espurios, es
decir, que tengan un R cuadrado inflado o mentiroso.
Cuando el Durbin-Watson está por debajo de 2 significa que hay una correlación negativa y
cuando está por arriba es porque la correlación es positiva.
En Gretl automáticamente se detecta que tengo series de tiempo, en contrastes voy al teste de
Breuch-Pagan.
SOLUCIONES PARA LA AUTOCORRELACIÓN
o La primera solución es incluir en el modelo la variable de tiempo.
o Otra solución es mirar el cambio de una variable en vez de la variable original (con
respecto al tiempo t-1). Entonces pongo la variación de la variable como explicativa y la
variación de la variable dependiente. Entonces comparo solo diferencias o variaciones
con respecto a más variaciones o diferencias. Aquí se pierden muchos datos.
o Para la tercera solución, se usa el modelo de cuasidiferencia:
Aquí hay tres posibilidades: 1) el Cochrane-Orcut, en el que se pierden varios
datos, 2) el Prais-Winsten, en el que pierden menos datos. Este último es el mejor
método.
o Otra manera es reestimar las variaciones estándar, es decir, robustecerlas. Para ello hay
que usar un tamaño de muestra grande. En Gretl se coloca en la regresión un chulito en
la opción Desviaciones típicas robustas. Este método es el de Newey-West.
También se pueden analizar también categorías que combinan variables cualitativas. Por ejemplo que
prefiera tanto queso como pan, solo queso y no pan, solo pan y no queso o ninguno de las dos.
Lo que se usa entonces es el Modelo de Regresión Probabilístico. Puede ser de varios tipos:
Analiza la esperanza condicional de Y o probabilidad de –Y– que suceda un evento o el otro –éxito o
fracaso– como una función lineal de las variables explicativas. Así que para E=esperanza condicional:
Para ello necesito establecer las probabilidades de éxito y fracaso o de que ocurra o no el evento,
siguiendo la distribución de probabilidad de Bernoulli:
Probabilidad de éxito(Y i=1)=P
IMPORTANTE
Como el Y pronóstico es una probabilidad, una condición de este modelo es que 0 ≤ Y^ ≤ 1
PROBLEMAS CON ESTE MODELO
Los residuos también siguen una distribución de Bernoulli, mas no normal.
o Los errores solo pueden ser:
Para saber la varianza de un beta estimado (los betas estimados tienen varianza porque
corresponden teóricamente a una de los tantos betas que se pueden estimar para cada una de las
diferentes muestras posibles)
Varianza de Y/suma de los cuadrados de las desviaciones estándar de la variable X
En reemplazo del modelo MPL, el cual tiene demasiados problemas están los modelos LOGIT Y
PROBIT. Ambos modelos tienen la restricción de que Y o la imagen de X siempre estará entre 0 y 1 y
tiene una forma en la que los valores se acumulan alrededor de valores determinados de X como lo
son o y 1:
2. Modelo Logit (logístico)
Parte también de la ecuación básica de que la probabilidad Y es igual a una función de X más un
error U.
Y =F ( X ) +U
1
P= p ( Y =1∨X )= −( B1 +B2 X )
1+ e
Z=B 1+ B2 X
1 Z
−Z
∗e
1+e
P= p ( Y =1∨X )= Z
e
Z
e
P= p ( Y =1∨X )= Z
e +1
Ahora bien, para la probabilidad de no tener éxito, es decir, que no sea 1 sino 0, o sea la
probabilidad de 1-p:
Z
e
1−P= p (Y =0∨X )=1− Z
e +1
1
1−P= p (Y =0∨X )= Z
e +1
Ahora bien, un método para hallar una ecuación lineal es usando la razón entre la probabilidad de
éxito y de no éxito:
Z Z
e e
Z Z
P e +1 e +1 z
= = =e
1−P 1 1
Z Z
e +1 e +1
P z
=e
1−P
ln ( 1−P
P
)=ln ( e )
z
ln (
1−P )
P
=Z
ln (
1−P )
P
=B + B X=L=Logit
1 2
L=B1 + B2 X+ U
En Stata me calcula la regresión de este modelo con el comando blogit (para máxima verosimilitud) y
glogit (para MCO). Para blogit la variable dependiente no puedo expresarla directamente como un
solo valor, puesto que la variable dependiente al ser una probabilidad consiste en una razón entre los
casos favorables sobre posibles para edad categoría o grupo. Así pues, en Stata para expresar la
variable dependiente debo poner la variable casos posibles (n) seguida de la variable casos probables
(N) o el total de los datos en cada grupo determinado. Ambas variables se deben haber tomado de la
muestra.
Ejemplificando y siendo “casos” el número de muestras con síntomas de la enfermedad H, “mineros”
el total de muestras analizadas y “exp” los años que llevan trabajando los mineros, quedaría entonces
así la regresión en Stata:
blogit casos mineros exp
nota: los coeficientes originales de Logit no me expresan la magnitud en que
afecta las X a la Y.
- Para interpretar los coeficientes β de la ecuación L o ln ( 1−P
P
) debo tomar en cuenta los
antilogaritmos u odds (e β ), restarle uno (si da negativo no está mal, sino que afecta
negativamente la variable) y multiplicarlo por 100 para saber el porcentaje en el que la X que
acompaña al β que estamos analizando afecta a Y (variable dependiente), por ejemplo:
Y =−0.05+0.087 X +U
0.087
e =1.1
1.1−1=0.1
0.1∗100=10 %
Entonces X afecta en un 10% a Y
Ahora bien, para los casos en los que tenemos una variable que determinamos como dependiente (Y),
la cual solo está conformada por valores de 0 y 1, además de que cada dato no tiene casos posibles y
exitosos, se utiliza la función “logit”. Es decir, en los casos en que los datos no están agrupados.
“estat classification” sirve para conocer la capacidad del modelo para asignar los individuos a
cada grupo.
Sensitividad: se refiere al porcentaje de aquellos datos de Y=1 que fueron correctamente
clasificados: se pronosticó que corresponden a uno.
Especificidad: se refiere al porcentaje de aquellos datos Y=0 que fueron correctamente clasificados:
se pronosticó que corresponden a cero.
Es muy útil utilizar la opción “mfx” para conocer los coeficientes de cómo afecta directamente
cada X a Y.
“margins, atmeans” sirve para saber el promedio de todas las variables
Como lo que se analiza es la probabilidad de una cualidad con respecto a las otras, Stata nos arrojará
m−1 ecuaciones, siendo m el total de categorías.
En Stata se hace un modelo de Logit para multivariable con “mlogit”. Para elegir la
categoría base sobre la cual se compara uso “, baseoutcome (1)” en frente del comando
del modelo mlogit para elegir la categoría 1 como la base. También puedo ponerle “,
baseoutcome (3)” por ejemplo para que la categoría base sea 3.
Es muy útil comparar las probabilidades de que ocurra cada uno de los m eventos para diferentes
valores posibles de las variables explicativas en Stata así: margins, at (age=60 male=1 nonwhite=1)
El “estat classification” lo que hace es que los valores pronosticados de las probabilidades (valores
entre 0 y 1) los clasifica como 0 o 1 dependiendo si están por debajo de 0,5 (para lo cual decide 0) o
iguales o mayores a 0,5 (para lo cual decide 1).
Comando en Stata: “ologit” y “oprobit”
Importante: se considera significativa una variable cuando el intervalo de confianza tiene ambos
extremos negativos o ambos positivos, en otras palabras, que el cero no está dentro del
intervalo.
Es importante tener en cuenta que en el MLP el efecto marginal siempre será el mismo
para cada variación en una unidad de X. Mientras que en Logit y probit el efecto
marginal es un poco diferente para cada cambio en X porque no es lineal. Ahora bien,
en ambos casos, el efecto marginal sobre la probabilidad es un aumento en puntos
porcentuales, es decir que, con un cambio en X de una unidad, a Y se le sumará el
efecto, por ejemplo se le sumará 0.05 si ese es el efecto marginal promedio. la
diferencia es que en el caso de Logit el efecto marginal promedio se hace con el cambio
desde un valor de referencia, normalmente es el cambio en una unidad desde el
promedio de la variable X en análisis.
Datos panel
Análisis de mismos individuos en diferentes puntos del tiempo, es decir, a través del tiempo.
Allí siempre hay heterocedasticidad pero no siempre autocorrelación.
La idea es que las variables sean completamente exógenas, es decir, que no dependan de ninguna cosa
que esté dentro del modelo. Esto se le llama problema de endogeneidad. Con los datos panel no
ocurre este problema.
Un corte transversal es el conjunto de datos de todos los individuos para todas la covariables para el
periodo 1, otro corte transversal son todos estos datos para el periodo 2. De esta manera forman una
serie de datos de corte transversal. Estos son los datos panel.
Unos datos que no son panel pueden convertirse en datos panel.
Debe procurarse que los individuos en análisis sean iguales para cada periodo, si los individuos son
totalmente diferentes entonces no son datos panel. A veces la muestra puede cambiar porque los
individuos pueden ya no estar disponibles generando un sesgo de atrición, pero si la mayoría se
mantiene, siguen siendo datos panel.
Las encuestas longitudinales corresponden a datos panel.
En Colombia no hay una encuesta de datos panel, pues es costosa.
Los datos panel controlan la heterogeneidad de los datos así estén explícitos en el modelo o dentro del
error.
Los datos panel sirve para evaluar la evolución de variables como la pobreza y la duración de esa
evolución. También sirven para ver efectos de las medidas políticas ejecutadas.
La mayor desventaja es el alto costo.
En los datos panel deben obligatoriamente la mayoría de los individuos deben permanecer en
la muestra a través del periodo de estudio. Por su parte, cuando los individuos no son los
mismos a través del tiempo se habla de datos pseudopanel.
Datos pseudopanel
Estos datos se analizan como una regresión normal. Sin embargo, estas bases tendrán más riqueza de
datos y menor dispersión. Por otro lado, en estas regresiones es muy útil incluir la variable tiempo
para ver el comportamiento de la variable dependiente a través del tiempo, además de que con
interacciones de la variable tiempo con otras covariables, se puede ver la evolución del efecto de cada
covariable en el tiempo sobre la variable explicada.
A los individuos que si asistieron también se les llama grupo de tratamiento mientras
que a quienes no disfrutan del programa se les llama también grupo de control.
Cuando se hacen los modelos DID hay que hacer uso de las tres covariables mencionadas. Una
relacionada con la situación coyuntural que supuestamente cambiará la dependiente, otra relacionada
con el tiempo o el antes y después y una de la interacción entre ambas, es decir, cual es el efecto, al
tiempo, de pertenecer a un grupo u otro y hacerlo antes o después de la situación coyuntural.
Para que tenga sentido este modelo, tanto el grupo de tratamiento como el grupo de control
deben tener la misma tendencia a través del tiempo. En el ejemplo anterior ambos grupos
deben tender a aumentar a través del tiempo independientemente de la capacitación, entonces
lo que se analiza es si la variación de la variable independiente es un poco más brusca en
determinado periodo a causa de la situación coyuntural.
IMPORTANTE: si la covariable de interacción no es significativa, entonces se
concluye que la situación coyuntural no tuvo un efecto significativo sobre la
variación a través del tiempo de la variable significativa.
Otra alternativa es mirar la diferencia entre un periodo y otro, porque como el termino de error no
cambia con el tiempo, se elimina. El problema es que las variables que sí podemos medir y son
constantes en el tiempo también se eliminan. Este modelo se usa cuando los datos nos ofrecen el
cambio en el tiempo de las variables y permite ver el cambio en las variables para dos periodos:
Sin embargo, es mucho mejor usar los modelos de efectos fijos y aleatorios
Lo que se hace es calcular al promedio de cada individuo a través del tiempo. Como μi es el mismo a
través del tiempo, el promedio va a ser el mismo μi :
Y i . =μi + β X i. +v i .
−Y i . =μi + β X i . +v i .
−−−−−−−−−−−−−−¿
Y ¿ −Y i . =α + β ( X ¿ −X i . )+(v ¿ −v i . )
Se analiza en este modelo (Y ¿ −Y i .) la relación entre el valor que toma el individuo en cada periodo a
través del tiempo con respecto al promedio de este mismo individuo en el tiempo. Por ejemplo, cual
fue el crecimiento en cada año de un país con respecto a cual fue el crecimiento en promedio de todo
el periodo estudiado.
Al modelo de efectos fijos se le llama “within” porque se trata de la relación de los individuos entre sí,
y no la relación con el tiempo. Arroja resultados eficientes incluso habiendo relación entre el termino
μi (heterogeneidad no observable) y las covariables.
Sirve para conocer que tanta importancia tiene la heterogeneidad no observable con respecto a todo el
error: la suma de la heterogeneidad y el término de error idiosincrático.
Efectivamente, en Stata, cuando las variables no cambian en el tiempo para datos panel, se eliminan o
se omiten en las regresiones, porque va a haber colinealidad de la variable en el tiempo con el
promedio de sí misma.