Está en la página 1de 8

Tema 3.

El modelo lineal uniecuacional


1. Estimación del modelo lineal
En la práctica económica la situación más frecuente a la hora de estimar un
modelo es la de disponer de una muestra aleatoria de la variable endógena
y1, y2, …, yn, tomada de una población más amplia a la que hay que
extrapolar los resultados de la estimación. Es pues necesario utilizar
técnicas de inferencia estadística en la estimación del modelo uniecuacional
general:

O, en notación matricial:

En el modelo lineal se verifican las siguientes hipótesis a priori o


condiciones:
 En relación a la forma funcional:
- Las variables predeterminadas x1, x2, …, xk influyen sobre la
variable endógena y, pero no son influidas por esta, ni existen
relaciones causales entre las variables exógenas.
- El número de datos n es claramente superior al de parámetros k+1
a estimar.
- La forma funcional del modelo es correcta y los coeficientes
estructurales 𝛽0, 𝛽1, … , 𝛽𝑘 son constantes para todas las
observaciones.
 Las variables predeterminadas x1, x2, …, xk se deben cumplir que:
- No existe multicolinealidad exacta, es decir, 𝑟(𝑋) = 𝑘 + 1 < 𝑛 y no
es deseable que exista multicolinealidad aproximada, lo que
implica que el determinante de la matriz X’X no debe estar
próximo a cero.
- Son variables no aleatorias, es decir, controladas por el
experimentador y medidas sin error.
 Las perturbaciones aleatorias, 𝜀1, 𝜀2, … , 𝜀𝑛, son variables aleatorias
que representan la parte de variabilidad de la variable endógena, y,
no explicada por las variables explicativas o predeterminadas, x1, x2,
…, xk, y su distribución probabilista debe cumplir las siguientes
propiedades:
- No existen desviaciones sistemáticas en el modelo; las
perturbaciones oscilan aleatoriamente alrededor de cero.
- La variabilidad de las perturbaciones se mantiene constante para
todos los datos, esto es, que los datos deben ajustarse al modelo
de forma aproximadamente igual en todo el rango de variabilidad
de las variables predeterminadas.
Esta hipótesis se denomina homocedasticidad. Para estimar los coeficientes
de regresión 𝛽0, 𝛽1, … , 𝛽𝑘, por el método de máxima-verosimilitud se
parte de la función de verosimilitud.

2. Propiedades muestrales de los estimadores


El método de máxima-verosimilitud tiene propiedades optimas cuando el
tamaño muestral tiende a infinito; sin embargo, asumiendo que se verifican
las hipótesis a priori formuladas sobre el modelo, se tiene que la
distribución muestral de los estimadores.

El teorema de Gauss-Markov establece que los estimadores mínimo-


cuadráticos 𝑏�⃗ son los mejores (más eficientes) estimadores lineales
insesgados de los coeficientes de regresión 𝛽⃗.
Los estimadores mínimo-cuadráticos son consistentes; al aumentar el
tamaño muestral, 𝑏�⃗ converge en probabilidad hacia 𝛽⃗.
La cuasi-varianza residual se define como:

La distribución muestral de V es independiente de la del vector de


coeficientes de regresión 𝑏�⃗, resulta que:

Para j = 0, 1, …, k; el estadístico T anterior se ajusta a una ley t de Student.


3. Contrastes de hipótesis sobre los coeficientes del modelo
Al construir un modelo econométrico, se siguen varias fases o etapas:
- Planteamiento de los objetivos, selección de la variable endógena,
y de las explicativas o predeterminadas.
- Especificación de la forma funcional (por ejemplo, el modelo
lineal).
- Estimación de los parámetros.
- Validación del modelo estimado y de las hipótesis a priori.
- Aplicación del modelo e interpretación económica de los
resultados.
En la fase de validación del modelo se usan tres tipos de técnicas.
- Medidas sobre el grado de ajuste de los grados a la ecuación
estimada (R2 o BIC).
- Análisis de los residuos y su adecuación a las hipótesis a priori
formuladas sobre las perturbaciones.
- Contrastes sobre los parámetros del modelo, medidas de
multicolinealidad, contraste de estabilidad y otros.
Se van a tratar ahora los test T sobre los parámetros estructurales. Los
contrastes sobre los coeficientes del modelo son herramientas de ayuda
para la inclusión o exclusión de variables explicativas, si bien, esta debe
estar justificada pro criterios económicos. Para el coeficiente 𝛽𝑗, las
hipótesis a contrastar son:

Si se acepta la hipótesis H0, se considera que la variable xj no tiene poder


explicativo sobre las variaciones de la variable endógena, y, si se elimina
esta variable del modelo, hay que volver a estimarlo.
Si se acepta H1, se concluye que xj influye (linealmente) sobre la variable
endógena.
La probabilidad límite es:
La decisión a nivel 𝛼 se realiza con la probabilidad limite o comprobando
si el estadístico pertenece a la región de aceptación o a la región critica

Al realizar los test T sobre un modelo de regresión, como el objetivo es el


incluir o excluir variables explicativas, no es recomendable tomar niveles
de significación 𝛼𝛼 inferiores al 5%, ya que los niveles de 𝛼𝛼 tienden a
aceptar la hipótesis 𝐻0: 𝛽𝑗 = 0, esto es, a excluir variables explicativas, que
pueden ser relevantes, es decir, influyentes sobre la variable endógena.
En definitiva, se recomienda seleccionar (salvo que se persiga un objetivo
asociado a limitar los errores de incluir variables no relevantes).

Ya que, al elegir un nivel de significación bajo, se corre el riesgo de excluir


variables causales, es decir, de cometer un error de especificación.
Los contrastes T sobre los coeficientes del modelo se basan en que las
perturbaciones aleatorias cumplan las hipótesis a priori. Si existieses
heteroscedasticidad, es decir, si:

O autocorrelación:

Para algún valor t y r > 1, los contrastes T quedan afectados y pierden


potencia.
Si las perturbaciones no se ajustan a una ley Normal, pero el tamaño
muestral no es pequeño, sigue siendo posible aplicar los contrastes T,
aunque de forma aproximada.

4. Contrastes de análisis de la varianza


Son contrastes sobre varios coeficientes del modelo: el contraste clásico es
sobre los coeficientes de todas las variables explicativas y otro es sobre un
subconjunto de coeficientes. Los estadísticos de estos contrastes se basan
en la descomposición de la varianza de la variable endógena en una parte
asociada a las variables explicativas y el resto de la variabilidad residual.
Y se obtiene:

Las variables Sy y Se son variables aleatorias según el teorema de Craig.


Cuanto más baja sea la varianza del error, más valido es el error.

La probabilidad limite se define como:

Y, si es 𝑝 ≥ 𝛼, se acepta la hipótesis H0 a este nivel 𝛼 de significación, y se


rechaza H0 si es 𝑝 < 𝛼.

- Si el valor numérico del estadístico pertenece a C0 se acepta la


hipótesis H0, es decir que ninguna de las variables 𝑥1, 𝑥2, … , 𝑥𝑘
influye sobre la variable endógena y, y se rechaza el modelo
globalmente.
- Si pertenece a C1 se considera que alguna o algunas de las
variables predeterminadas tiene poder explicativo.

La p seria la probabilidad de equivocarnos al aceptar H1 sin tener que


aceptarla → Probabilidad de aceptar un falso negativo. Cuanto mayor sea
F, pvalor será menor.

5. Análisis de residuos
El método de estimación mínimo-cuadrático proporciona unos estimadores
con propiedades estadísticas buenas, según se deduce del teorema de
Gauss-Markov. Pero estas propiedades dependen de la verificación de una
serie de hipótesis a priori sobre las perturbaciones aleatorias y sobre los
restantes elementos que definen la especificación del modelo. Como las
variables aleatorias 𝜀1, 𝜀2, … , 𝜀𝑛, son no observables, es necesario
primero estimar el modelo original:
Mediante mínimos-cuadrados y, posteriormente estudiar los residuos:

El conjunto de técnicas disponibles para el estudio de los residuos 𝑒1, 𝑒2,


… , 𝑒𝑛 se conocen con el nombre genérico de “análisis de residuos”, y se
clasifican en:
- Métodos gráficos.
- Contrastes sobre los residuos.
Al estimar un modelo econométrico, es necesario calcular sus residuos,
dado que estos informan sobre la magnitud y sentido de los errores
cometidos. Pero hay que tener en cuenta que la unidad de medida de los
residuos es la misma que la de la variable endógena.
Los residuos tipificados:

Se supone que la distribución de las perturbaciones es Normal, los residuos


tipificados estarán en su mayor parte comprendidos en el intervalo (-2, +2),
aproximadamente en el 95% de los casos, y en (-3, +3) casi su totalidad.
Para detectar la heterocedasticidad existen además del gráfico (𝑦𝑡, 𝑒) varios
contrastes. Sus consecuencias son serias, pues la aplicación del método
mínimos-cuadrados a un modelo en el que existe heterocedasticidad y/o
autocorrelación, origina unos estimadores no eficientes, y afecta a la
aplicación de os test T y F, sobre los coeficientes de regresión.

6. Interpolación y predicción
Interpolar son modelos de corte trasversal, no se tiene en cuenta el tiempo,
todos los datos se toman en el mismo momento.
Una vez estimado y contrastado el modelo, se puede utilizar para estimar
valores de la variable endógena correspondientes a valores de las variables
explicativas distintos de los que han servido para obtener sus coeficientes.
Este proceso se denomina “interpolación” o, si el modelo es dinámico,
“predicción”. Es necesario disponer de los valores “futuros” para estimar
𝑦 f.
La predicción por punto se obtiene sustituyendo los valores futuros del
as variables explicativas en el modelo estimado, obteniéndose:
El valor esperado del residuo no observado es cero, aunque más
adelante, al estudiar modelos con autocorrelación, se aprovechará esta
para obtener estimaciones, que pueden ser no nulas, para el valor
esperado de los residuos futuros.
La predicción por intervalo para 𝑦𝑓 se obtiene mediante la expresión:

El error cuadrático medio ECM o MSE es el error que hemos cometido con
esa nueva muestra, es decir, la media de errores cometidos:

El índice de desigualdad de Theil definido mediante:

Es adimensional y toma valores positivos:


- Si 𝑈 = 0, la predicción es perfecta.
- Si 𝑈 > 0 la capacidad predictiva del modelo disminuye a medida
que aumenta el índice.
La descomposición del error cuadrático medio se puede expresar mediante
la identidad:

7. Observaciones influyentes
Las observaciones anormales (o outliers) asociadas a residuos “grandes”
pueden originar errores importantes en la estimación, desvirtuando la
interpretación económica de los coeficientes estructurales. Las
observaciones influyentes son aquellas que, si se omiten, originan cambios
importantes en el modelo.
Una vez estimado un modelo, se debe investigar qué observaciones son
anormales y cuales son influyentes en la estimación.
Una forma de detectar observaciones influyentes es usando la matriz H o
varias técnicas que se exponen a continuación. Para ello basta considerar
que:

Los residuos estandarizados son similares a los tipificados:

Los valores absolutos de estos residuos son también indicativos de la


importancia del error asociado a la observación t-ésima, y se usan para
detectar observaciones influyentes

También podría gustarte