Está en la página 1de 308

CAPITULO 1

EL MODELO DE REGRESIÓN LINEAL

1.1. EL ANÁLISIS DE REGRESIÓN

1.1.1 Interpretación

El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión.
Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura
de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo,
la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o
converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los
hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”.

La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson,
quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson
se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la
estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor
que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma
similar hacia la estatura promedio de la población.

En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida
como la media de Y condicional en X, a través de una relación funcional entre X e Y. El
estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el
criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el
siguiente capítulo, y las observaciones muestrales de X e Y.

1
Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
Econometría Moderna El Modelo de Regresión Lineal

Una interpretación más moderna de regresión indica que la misma es cualquier aproximación
de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X,
siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación
existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o
independientes (X), con el objeto de estimar la media o valor promedio poblacional de la
primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la
relación entre el estudio de Galton y la definición moderna del término regresión.

A menudo se confunden los términos regresión y correlación, los cuales están estrechamente
ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de
correlación pretende medir el grado de asociación lineal entre dos variables a través del
coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación
entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza
comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se
analiza una regresión se trata de estimar o de predecir el valor promedio de una variable
(llamada explicada, dependiente o endógena) utilizando valores fijos3 de las variables
explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior,
puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral
de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de
encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un
análisis de regresión, será posible predecir valores de la variable dependiente utilizando
realizaciones de las independientes.

1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión?

El análisis económico toma en consideración diversas variables en conjunto. La relación


entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y
el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son
algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como
ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual
que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa
que existe una relación negativa entre las dos variables y, para contrastar el modelo, se
necesitará utilizar simultáneamente datos de ambas variables.

Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe


por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de
la siguiente forma:

f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)

2
El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
de dichas variables. Formalmente: ρ = Cov (Y , X )
(σ x )(σ y )
3
Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el
análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos
parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en
otro capítulo.
4
Se puede expresar matemáticamente de la siguiente manera: 3(un − u+1) = (Q+1 − Q f ) , donde un y Qf indican que el
producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se
utilizan en el estudio de las relaciones existentes entre éstas.

10
Econometría Moderna El Modelo de Regresión Lineal

Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el


análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución
condicional mientras que la marginal no se utilizará, por el momento.

De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos
indica que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el
ingreso permanente. La función anterior expresa únicamente una relación matemática, sin
embargo, y tal como se indicó en la introducción del libro, uno de los objetivos de la
econometría es formular un modelo econométrico a partir de un modelo económico, para luego
proceder a la estimación y comprobación del mismo a partir de los datos muestrales. En
consecuencia, se debe transformar la función anterior en un modelo econométrico, por ejemplo
consideremos el siguiente modelo de regresión lineal6:

C = β 0 + β 1 r + β 2 Yd + β 3 w + β 4 Yp + µ (1.2)

donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no


incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada
(el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad
conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación
indica la relación exacta entre la variable explicada (C) y las demás variables llamadas
explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los β son
conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las
variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos7,
cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la
variable independiente.

El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el


valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un
conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se
interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las
variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una
regresión puede interpretarse como la media condicional de Y dado X. Formalmente:

E (C /r, Yd, w, Yp ) = f (Xi) (1.3)

Un punto importante que debe notarse es que la estructura de la relación entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación
muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse
como una aproximación lineal de Taylor de un problema no lineal.

1.1.3 Definiciones Básicas

Una vez que hemos entendido el concepto de regresión como la modelación de la media
condicional de una distribución de probabilidades es deseable realizar algunas definiciones
básicas que vamos a utilizar a lo largo del libro.

El modelo de regresión lo podemos plantear de manera general de la siguiente forma:

6
Este modelo será estudiado en el Capítulo III.
7
Formalmente: ∂Y = β es decir, cada parámetro representa la derivada parcial de la variable dependiente con
i
∂X i
respecto a cada variable explicativa.

11
Econometría Moderna El Modelo de Regresión Lineal

y t = β 1 + β 2 x 2t + β 3 x3t + ............. + β k x kt + µ t

La variable Y que es aquella que condicionamos a los valores que adopte las demás variables
(X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las
variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o
independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:

• La parte sistemática o determinística que viene representada por :

β 1 + β 2 x 2t + β 3 x3t + ............. + β k x kt

Esta es la parte que es sugerida por el investigador y establece una relación sistemática
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresión, la parte sistemática representa lo que en
promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de
media condicional, la predicción será aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.

• La parte aleatoria o estocástica que viene representada por el término de error ( µ ).


Dado que la economía busca estudiar el comportamiento económico de las personas no
podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de
los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un
contexto estocástico debido a que existen muchos factores no controlables como los
estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los
descubrimientos de nuevos productos y tecnologías que pueden afectar de manera
inesperada cualquier relación que queramos estimar. Estos factores pueden ser
importantes en un momento determinado pero no afectan de manera permanente a la
variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño.
Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué
tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las
variables que afectan la producto de manera sistemática (incluidas en la parte explicada
de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada
podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño,
nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más
probable.

Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera:

• Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo
podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.

• Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de

12
Econometría Moderna El Modelo de Regresión Lineal

vida de las personas a través de la medición de ingresos y acceso a servicios básicos


como la salud, educación, nutrición. Etc.

• Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores.
Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en
diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización
es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos
para realizar la recolección de la información a lo largo del tiempo. En el Perú son
pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construcción de estos paneles dado que proveen
muy buena información acerca de cambios en los patrones de consumo e ingresos de las
personas.

Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio
de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de
los modelos que pretendamos estimar.

1.1.4 ¿Cómo obtener los parámetros?

Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los
valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los
parámetros verdaderos (los β ´s) son desconocidos. Por ello, debemos desarrollar una estrategia
que nos permita realizar una estimación adecuada de los mismos. En este punto es conveniente
tener claro el concepto de estimación. Un estimador se define como cualquier fórmula o función
de los datos que permite obtener estimaciones de los parámetros desconocidos. Así, se deduce
que una estimación es el valor numérico que resulta de la aplicación de esta función a un
conjunto de datos muestrales específicos.8

Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer
ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones
teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo
teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los
parámetros desconocidos por los estimadores correspondientes. Como estos no son los
verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que
veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal
es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con
las siguientes expresiones:

Y = Xβ + u ⇒ Y = X β̂ + e (1.4)

modelo modelo
teórico empírico

En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al número de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk. β es
un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede
apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β )

8
Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos
estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.

13
Econometría Moderna El Modelo de Regresión Lineal

por su estimador ( β̂ ). De igual manera ocurre con los errores teóricos ( µ ) y los errores
empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan
determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los
parámetros.

La estimación de los parámetros se deriva de un problema de predicción condicional. En


dicho problema se observa la realización de un vector aleatorio X y se desea predecir la
realización de una variable aleatoria Y.

En este punto debemos introducir el concepto de función de pérdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una
función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo
más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que
minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un
problema de minimización de la siguiente forma:

Min E [L (Y - P) / X] (1.5)
P

Observado Estimado

Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida


esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la
siguiente condición:

0<u<v ⇒

0=L(0)≤L(u)≤ L(v) (1.6)

0 = L(0) ≤ L(-u ) ≤ L(-v ) (1.7)

Evidentemente, la idea es que la función de pérdida sea lo más pequeña posible, donde u y v
son los valores para el error de predicción (Y – P). Si la función de pérdida es fija, el valor del
mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. En
otras palabras, la estructura de la función es elegida por el investigador y lo que varía es el error
de predicción para cada observación muestral de X e Y. En consecuencia, el valor del mejor
predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. En este
sentido, y recordando que la regresión es el valor esperado de la distribución condicional de Y
dado X, deducimos que el mejor predictor se obtiene mediante una regresión. Algo que no debe
perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de
la elección del estimador. Por ello, deberá elegirse aquel estimador que haga mínima la
diferencia dada una función de pérdida.

En la práctica, los mejores predictores son los que se estudian más detalladamente en el
análisis de regresión. Ellos describen brevemente la manera cómo varía Y ante cambios en los
regresores (X). Sin embargo, existen distintas funciones de pérdida interesantes y, a su vez,
muchas maneras de interpretar formalmente la posición de una variable aleatoria. A
continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores
que se derivan de ellas.

i) Pérdida cuadrática: La función de pérdida cuadrática es:

14
Econometría Moderna El Modelo de Regresión Lineal

L (u) ≡ u2 (1.8)

En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se


obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios, como veremos en
el siguiente capítulo.

ii) Pérdida absoluta: Cuya función de pérdida es la siguiente:

L (u) ≡ u  (1.9)

Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X.

iii) Pérdida discreta: Dada una constante positiva δ, la función de pérdida discreta sería:

L( * , δ )
L ( u ) ≡ 0 si u  < δ (1.10)
L ( u ) ≡ 1 si u  ≥ δ (1.11)

En este caso, el mejor predictor es el punto medio del intervalo de longitud 2δ que tiene la
más alta probabilidad de contener a Y. En la medida en que δ se aproxime a cero, el mejor
predictor se aproximará a la moda de Y condicional en X.

En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La


media como regresión puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresión aumente con X mientras la otra decrezca, o viceversa .

En el problema de predicción descrito, la función de pérdida escogida determina la regresión


sujeta a análisis. Dicha función debe reflejar las pérdidas asociadas al error de predicción, en
otras palabras, debe reflejar cuán cerca están las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada función de pérdida
aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la
distribución, lo que implica que distintos predictores se comporten similarmente.

1.2 Métodos de estimación de los parámetros

Cuando se efectúa una regresión se puede seleccionar el método de estimación más


adecuado, dependiendo de la información previa a la que el investigador tiene acceso. Por
ejemplo, si no se cuenta con información acerca de la forma de la regresión o no es de interés la
estimación de un forma particular y sólo se quiere haceruna aproximación general de la función
de densidad, se puede realizar una estimación no paramétrica, concepto que está fuera del
alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresión
paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n
mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios, el de Momentos
Muestrales o el de Máxima Verosimilitud, los cuales se definirán a continuación y

9
El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge
University Press.

15
Econometría Moderna El Modelo de Regresión Lineal

posteriormente se discutirán en detalle. Esos métodos son los más utilizados y responden a
diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son
arbitrarios. Su utilización generalizada obedece a que cumplen con una serie de propiedades
deseables que facilitan su aplicación.

i) Mínimos Cuadrados Ordinarios (MCO)

El método de Mínimos Cuadrados es uno de los más usados, eficaces y conocidos del
análisis de regresión debido al contenido de las propiedades estadísticas que posee. El principio
sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de
errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la
siguiente forma:
n
Min ∑e = ∑ (y
i =1
2
i i − x i βˆ ) 2 (1.12)

La minimización de los errores al cuadrado presenta una ventaja con respecto a la


minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada
por los signos de los errores. Así, podemos tener errores positivos muy grandes y errores
negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no
implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud
considerable.

ii) Método de Momentos

El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a
los poblacionales. Recordemos que un momento es un estadístico que resume algunas
características de una distribución de probabilidad, tal como un valor esperado o una desviación
estándar. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al
reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la función de pérdida
está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la
elección de los parámetros será aquella que minimice esta distancia. Este método ha sido
generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento
para la estimación de cada parámetro de un modelo.

iii) Máxima Verosimilitud

Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a
determinada distribución. Para ello se plantea como supuesto que la variable Y tiene una
distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil
posible, si sólo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que
hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta.

1.3 Significado de la línea de regresión

Cuando se define la regresión como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geométricamente este concepto a través de
una línea o curva de regresión.

De este modo, una curva de regresión llamada poblacional, es aquella que muestra el lugar
geométrico de las medias condicionales o esperanzas de la variable endógena para los valores
fijos de la(s) variable(s) exógena(s). Esto se puede apreciar en la siguiente figura:

10
Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.

16
Econometría Moderna El Modelo de Regresión Lineal

Figura 1.1
Línea de regresión poblacional

La figura muestra cómo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la línea o curva de regresión pasa por las medias
condicionales de la variable Y, y denota alguna función de la variable dependiente X. Así, se
define formalmente la regresión como:

E(Y/X ) = f (Xi) (1.13)

y, en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se
puede tener la siguiente función lineal de X:

E( Y/X ) = β 0 +β 1Xi (1.14)

Los parámetros o coeficientes de regresión son los β de la ecuación anterior. Asimismo,


β 0 es el llamado intercepto y β 1 es el coeficiente de la pendiente.

En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo


como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor
de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de
regresión. En otras palabras, el valor de una variable explicada para una observación en
particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar
la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente
forma:

µi = Yi − E (Y / X i ) (1.15)

Despejando la ecuación, queda:

17
Econometría Moderna El Modelo de Regresión Lineal

Yi = E(Y / X i ) + µi (1.16)

y reemplazando la ecuación (1.14) en (1.16) resulta:

Yi = β 0 + β 1 X i + µ i i=1,2, ... , n (1.17)

Como se mencionó en la sección anterior, µi es llamado perturbación estocástica o


estructural e introduce el elemento aleatorio a la ecuación de regresión, pudiendo tomar valores
positivos o negativos para cada observación muestral.

Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las


observaciones de la población, dado que en la práctica solamente se cuenta con una muestra de
valores de Y que corresponden a los valores fijos de X. Con dicha información muestral se
deberá estimar la función de regresión anterior, de modo que cuando se reemplacen los valores
estimados para β 0 y β 1 se hallará la siguiente ecuación, también llamada función de regresión
muestral:

Yˆi = βˆ 0 + βˆ1 X i (1.18)

La ecuación muestra las estimaciones de los coeficientes de regresión. Esta función es una
aproximación a la ecuación de regresión poblacional, por eso se dice, en algunos casos, que Ŷi
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la línea de regresión poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el análisis de regresión consiste en
diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los
verdaderos valores de los parámetros, aún cuando nunca se llegue a conocerlos.

El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un


modelo de regresión lineal simple. Sin embargo, es importante advertir que en los procesos
económicos, por lo general, se precisa de más de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas más complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximación analizando la
especificación más sencilla, de modo que luego se podrá comprender con menor dificultad el
modelo de regresión lineal múltiple o general, cuyo estudio detallado será materia del Capítulo
3.

2 SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL

El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de


regresión, sino también en hacer inferencia acerca de los verdaderos valores de los parámetros
(β 0, β 1). En otras palabras, se desea saber cuán cerca están los estimadores de sus contrapartes
poblacionales, o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta
necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y).
Así y debido a que la función de regresión poblacional de Y, depende de las variables X y de µi,
es necesaria una especificación de la forma como se generan las variables explicativas y los
errores. En este sentido, los supuestos que se plantean a continuación resultan críticos para
interpretar en forma válida los estimadores de una regresión lineal.

18
Econometría Moderna El Modelo de Regresión Lineal

Antes de proceder con la descripción de los supuestos, cabe mencionar que el modelo clásico
de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss, por quien también
recibe el nombre de Modelo de Gauss. Este matemático planteó diez supuestos, válidos tanto
para el análisis de regresión simple como para el modelo de regresión lineal múltiple, o de más
de un regresor.

Primer supuesto: El modelo es estocástico

Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el


término de error (µi). La inclusión del término de error se debe a las siguientes razones:

• Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrón
preestablecido de preferencias, hábitos de consumo, etc.

• Omisión de variables explicativas que deberían incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusión, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difíciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a través de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al
carácter subjetivo de la misma. En este sentido, la falta de información muestral conduciría
a una mala medición o a la omisión de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusión.

• Errores de medición en la variable endógena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, además de que dicha
variable puede no ajustarse a la teoría económica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempeña cada variable, es
decir, debe definir adecuadamente las variables exógenas y la endógena.

• Agregación de variables. En muchos casos, la relación existente entre la variable endógena


y las exógenas es un intento por resumir un conjunto de observaciones individuales en un
agregado económico. Por ejemplo, el gasto agregado intenta resumir un conjunto de
decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales
son probablemente distintas entre individuos, cualquier intento de relacionar el gasto
agregado con el consumo agregado es una aproximación. Así, la diferencia se le atribuye al
término de error.

Como ya se mencionó existe una distinción entre el error teórico o poblacional (µi) y el error
de estimación o empírico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define
como la diferencia entre el estimado de la variable dependiente (Xβˆ ) y la verdadera E (Y/X).

Segundo supuesto: La esperanza matemática del término de error o perturbación es cero.


Esto se expresa de la siguiente manera:

E(µi) = 0 (1.19)

Este supuesto indica que el valor de la media condicional del término de error para cualquier
variable explicativa X dada, es idéntico a cero. De este modo, este supuesto garantiza que las

19
Econometría Moderna El Modelo de Regresión Lineal

variables que no están incluidas en el modelo (y que por tanto están incorporadas en µi), no
trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. En términos más
sencillos, los valores negativos de µi se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningún efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el
intercepto del modelo.

Tercer supuesto: La varianza del error es constante (el error es homocedástico).

Formalmente:

Var(µi) = σ2 i = 1,2,3,...,n (1.20)

Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí


debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno
de los errores proviene de una distribución de probabilidades. El valor que observamos del error
para cada observación es la realización de la variable aleatoria ante la ocurrencia de un
determinado evento. Entonces una forma de entender le presente supuesto es que implica que la
varianza de cada una de las distribuciones de los distintos errores aplicables para cada
observación es la misma. En otras palabras, y dados los valores de X, la varianza del error no
cambia para distintas observaciones11. El siguiente gráfico ilustra los conceptos que hemos
mencionado hasta el momento:

Figura 1.2

11
Evidentemente, cada término de error representa la realización de un proceso estocástico y lo que se asume a través
de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión.

20
Econometría Moderna El Modelo de Regresión Lineal

Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores están
fijos lo que se refleja en las líneas discontinuas que parten de los valores x1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
función de distribución de los errores.

Cuando no se verifica este supuesto, se dice que el término de perturbación es


heterocedástico, es decir, posee una dispersión diferente para cada observación. Formalmente:

Var(µi) = σi2 i = 1,2,3,..., n (1.21)

El subíndice i indica que la varianza del término de error no es constante ya que presenta un
valor distinto para cada observación de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, serán de igual importancia y confianza como indicadores
de la posición de la línea de regresión. Se dicen que son confiables cuando poseen menor
dispersión, es decir, se mide la confiabilidad por la cercanía con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la línea de regresión poblacional. Si
analizamos con cuidado la expresión (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posición de la línea de regresión poblacional, esto
es, E(Y/X).

Cuarto supuesto: Ausencia de autocorrelación entre los errores.

Formalmente:
Cov(µi, µj) = 0 ∀ i ≠ j (1.22)

Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de
error µi y µj, dadas las observaciones xi y xj. En este sentido, podemos definir el término
autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el
tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error µt para un
periodo de tiempo t, está correlacionado con los términos de error µt+1, µt+2, .. y µt-1, etc.

Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el


modelo de expectativas adaptativas. Supongamos que los agentes económicos realizan su
pronóstico de la inflación futura basados en la inflación pasada, solamente. Formalmente:

Pˆ e +1 = Pˆ e + v( Pˆ − Pˆ e ) (1.23)

Esta ecuación implica que la expectativa de la inflación de mañana es una combinación


lineal de la expectativa para el período actual y el error de predicción registrado en este periodo.
En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al
próximo a través del mecanismo descrito en (1.23), el pronóstico de la inflación evidenciará
cierta inercia, es decir, estará autocorrelacionado con el error de predicción registrado en este
periodo.

En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes


económicos utilizan eficientemente toda la información disponible, ya sea porque conocen y
entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente
conocen al modelo que explica la economía. Por lo tanto, al plantear sus expectativas de
inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas.
De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación

21
Econometría Moderna El Modelo de Regresión Lineal

alguna.

Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensión Nx1 o Tx1, si se
habla de información muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva, de dimensión
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresión:

 Var ( µ 1 ) Cov( µ 1 , µ 2 ) ... Cov( µ1 , µ n )


 
 Cov( µ 2, µ 1 ) Var ( µ 2 ) ... 
E ( µµ ' ) = Var ( µ ) =
 ... ... ... 
 
Cov( µ n, µ1 ) Cov ( µ n , µ 2 ) Var ( µ n ) 

En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelación, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:

Var(µ)=σ2In (1.24)

Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esféricos.

Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí.

Formalmente:

Cov(xi,µi) = 0 (1.25)

Este supuesto implica que los errores y las variables independientes no presentan
correlación. Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relación entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde está definida la variable dependiente en dos
subespacios que son ortogonales entre sí12. En otras palabras, cuando se especifica el modelo,
se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).

Parte aleatoria µi
Yi =β 0 +β 1Xi +µi
Parte determinística β 0 +β 1Xi

Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov.

12
Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. Si tomamos que Y representa un
conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos
subconjuntos disjuntos (es decir, que no presentan intersección).

22
Econometría Moderna El Modelo de Regresión Lineal

Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los capítulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.

Sexto supuesto: El modelo es lineal en los parámetros.

Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y, o
alguna transformación monotónica de la misma, se puede expresar como una función lineal de
X o de alguna transformación de ella. Al respecto, consideremos las siguientes relaciones:

Y = α + βX +µ (1.26)

Y = β 0 + β 1 X + β 2 X2 + β 3 X3 +µ (1.27)

Y = β 0 + β 21 X1+ √β 2 X2 +µ (1.28)

La ecuación (1.26) muestra una relación lineal simple, mientras que la (1.27) es un modelo
lineal en parámetros, más no en las variables. Por otro lado, la ecuación (1.28) no es lineal en
parámetros, ni tampoco puede reducirse a una función que exprese una relación lineal.

Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El análisis de este modelo
implica la estimación de los parámetros α y β, sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deberá ser transformado de la siguiente manera:

Q = αP β e µ (1.29)

LnQ = lnα +β lnP +µ (1.30)

La linealiadad en los parámetros es relevante para el análisis de regresión, por consiguiente, de


ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es
lineal en los parámetros. Sin que esto necesariamente implique que también lo sea en las
variables explicativas (X).

Séptimo supuesto: Los parámetros son constantes entre observaciones.

Conocido también como el supuesto de estabilidad temporal, éste implica que los
coeficientes del modelo de regresión lineal son constantes en el tiempo. Igualmente, se supone
que el modelo es idéntico para todas las observaciones de la muestra. De hecho, este supuesto
resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de
la variable dependiente sobre la base de las independientes, sino principalmente si se busca que
el modelo realice predicciones confiables. Así, si la estructura que modela la variable
dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que
esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la
misma para predecir, este procedimiento es conocido como extrapolación.

Octavo supuesto: Causalidad unidireccional.

El análisis de regresión supone la existencia de una relación causal desde las variables
independientes (X) hacia la variable dependiente (Y).

Cabe mencionar que desde un punto de vista meramente estadístico, el modelo de regresión
no necesariamente tiene una connotación de causalidad. Es decir, de la misma manera como se

23
Econometría Moderna El Modelo de Regresión Lineal

puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresión de modo inverso.

En cambio, al plantear un modelo econométrico se debe tener cuidado al especificar las


variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). Así, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que sólo exista una dirección en la relación de causalidad. A manera de
ejemplo, recordemos que la teoría cuantitativa del dinero afirma que el volumen de
transacciones en una economía es igual a la cantidad de dinero que rota en la misma.
Formalmente:

P.Q=M.V (1.31)

donde:
P= precio
Q= producto
M= dinero
V= velocidad de circulación constante.

En la ecuación anterior existe una relación causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economía. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endógena), mientras que M es
fija o determinística (exógena).

Sin duda, en términos estadísticos podríamos estimar una relación de este tipo, esto es, una
regresión de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificación no
tendría ningún sustento teórico. En este sentido, el investigador debe decidir a priori cuál es la
especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida,
se supone una única dirección causal

Noveno supuesto: Las variables explicativas son linealmente independientes.

Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en términos de una combinación lineal exacta de las demás. Si alguna de las
variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta
nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cuál será abordado con detalle en el Capítulo (9)

Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias)

Si revisamos con cuidado el análisis hasta ahora expuesto, notaremos que este supuesto ha
estado implícito desde el inicio del capítulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exógenas no
deben cambiar.

Cuando se trabaja con datos de series temporales, es común la aparición de valores


retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
económicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresión como variables explicativas, se dice que son predeterminadas o en términos más
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso específico se analizará en un capítulo posterior.

3. A MODO DE RESUMEN

24
Econometría Moderna El Modelo de Regresión Lineal

En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión
así como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y será interesante analizar cuáles son los efectos de la relajación
de los mismos sobre los distintos estimadores que estudiaremos más adelante. Habiendo
establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la
exploración de los distintos caminos con los que contamos para a obtención de los parámetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mínimos
cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con
modelos lineales.

25
CAPITULO 2
EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS
ORDINARIOS:
MODELO DE REGRESIÓN BIVARIADO

2.1. INTRODUCCIÓN

Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro
camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo
lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el
método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de
los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión.
Recordemos que para obtener los parámetros partimos de un problema de predicción
condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la
pérdida esperada con respecto de una función de pérdida específica. Esta función depende de
criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3):

En este capítulo, iniciaremos nuestro estudio sobre la estimación de los parámetros tomando
en cuenta el modelo de regresión bivariado, modelo de regresión simple o modelo lineal
simple. Este modelo puede ser planteado de la siguiente manera:

Yi = β 0 + β 1 X i + µ i (2.1)

En este caso, observamos que la variable dependiente sólo es explicada por una variable
independiente aparte de la inclusión del intercepto. Debe hacerse una aclaración en este caso
porque muchos lectores pensarán que el intercepto podría ser considerado como una variable
explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto
promedio de aquellas variables no incluidas en el modelo. Su inclusión no implica que exista
Econometría Moderna MCO: El Modelo de Regresión Bivariado

una relación sistemática entre las variaciones de una variable independiente y la dependiente por
lo que su inclusión no es importante como variable explicativa sino para guardar cierta
consistencia de los resultados.

El modelo presentado en la expresión anterior es un modelo teórico. Para poder iniciar el


proceso de estimación de los parámetros desconocidos debemos plantear nuestro modelo
empírico, el cual toma la siguiente forma:

Yi = βˆ 0 + βˆ1 X i + ei (2.2)

En este caso, estamos reemplazando los parámetros desconocidos por sus estimadores y el
término de error es reemplazado por el error empírico (e). En este caso la primera parte de la
expresión, expresada por:

Yˆi = βˆ 0 + βˆ1 X i (2.3)

será la parte predicha (o explicada) por el modelo. Esto representará nuestro estimado de la
media condicional de la distribución de Y.

2.2. MÉTODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS PARA UN MODELO DE


REGRESIÓN LINEAL SIMPLE

Como ya se mencionó, en este modelo la variable endógena sólo se explica mediante una
variable exógena fija o no aleatoria. El criterio de mínimos cuadrados ordinarios implica
resolver el siguiente problema de minimización:

n
Min ∑e
i =1
2
i

Con respecto a β 0 y β 1 , siendo :


e i = (Yi − βˆ 0 − βˆ1 X i ) (2.4)

Así, planteamos el problema de minimización de la forma:

Min ∑ (Yi − βˆ 0 − βˆ1 X i ) 2 (2.5)


βˆ , βˆ
0 1
si derivamos con respecto a los parámetros, obtenemos las siguientes ecuaciones de primer
orden:

∂ (∑ ei2 )
= −2∑ (Yi − βˆ 0 − βˆ1 X i ) = −2∑ ei (2.6)
∂ βˆ 0

∂(∑e 2
i )
= −2 ∑ (Y − βˆ − βˆ1 X )X i = −2 ∑e X
i i (2.7)
∂ βˆ
i i
0
1

Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes


fórmulas:

28
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑ Yi = ∑ βˆ 0 + βˆ1 ∑ X i (2.8)

∑ X i Yi = βˆ 0 ∑ X i + βˆ1 ∑ X i
2
(2.9)

Estas ecuaciones son llamadas ecuaciones normales de la línea de regresión. Más adelante
veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores
mínimocuadráticos. Como vemos es un sistema de ecuaciones donde el número de incógnitas es
igual al número de ecuaciones. Si el sistema está exactamente identificado, entonces existe una
solución única.

Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo
utilizando para ello el método de Kramer. Si escribimos el sistema en forma matricial podemos
expresarlo de la siguiente manera:



n ∑X i
  βˆ 0  
 ˆ  = 
∑Y i

 ∑ Xi ∑X i
2
  β 1   ∑XY i
(2.10)

Aplicando el método de solución descrito, obtenemos las siguientes soluciones:

∑ Yi ∑ Xi

βˆ 0 =
∑ X i Yi ∑ Xi
2
=
(
∑ Yi ∑ X i − ∑ X i ∑ X i Yi
2
)
n ∑ Xi
2
(
n ∑ X i2 −(∑ X i )2 ) (2.11)

∑ Xi ∑ Xi

n ∑ Yi
∑ Xi ∑ X i Yi (n∑ X i Yi − ∑ X i ∑ Yi )
βˆ1 = =
n ∑ Xi
2
(
n∑ X i2 − (∑ X i )2 )
∑ Xi ∑ Xi

Si se trabaja con el denominador y numerador de β̂1 , y los dividimos entre n, podemos


llegar a las expresiones siguientes, las cuales resultan mucho más comprensibles en términos
estadísticos:

∑Xi −
2 (∑ X i )2
= ∑ X i2 −
(nX ) 2
(2.12)
n n

= ∑ X i2 − nX 2

= ∑( X i − X )2 (2.13)

29
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑ X i Yi − (1 / n)∑ X i ∑ Yi =∑ X i Yi − nXY

= ∑ X i Yi − nXY + nXY − nXY

= ∑ X i Yi − ∑ X i Y + ∑ XY − ∑ XYi (2.14)

Nótese que la última ecuación puede simplificarse como:


.
(
∑ Yi − Y (X i − X ) ) (2.15)

Reemplazando las ecuaciones (2.13)y (2.15) en la expresión (2.11) se tiene:

βˆ1 =
( =
)
∑ Yi − Y (X i − X ) Cov( X , Y )
(2.16)
∑ (X i − X )
2 Var ( X )

La última ecuación muestra que el estimador de Mínimos Cuadrados se puede expresar en


función de los datos muestrales. Donde Y y X expresan las medias muestrales de la variable
endógena y exógena, respectivamente. Para simplificar podemos definir las siguientes variables:

x i = (X i − X
y i = (Y i − Y )

Esta notación se utilizará para representar las desviaciones con respecto a los valores medios
de X e Y, y también para estimar el modelo en desviaciones en un capítulo posterior. Esta
representación resulta una herramienta interesante para demostrar algunas propiedades del
estimador de MCO.

Por otro lado, el intercepto de la función de regresión muestral ( βˆ 0 ) puede representarse


utilizando la primera ecuación normal y dividiendo ésta entre el tamaño muestral (n):

βˆ 0 = Y − βˆ1 X (2.17)

Con esto se demuestra una propiedad importante del estimador mínimo cuadrático: si el
modelo tiene un intercepto, la línea de regresión pasa por los valores medios de Y y X.

Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los
estimadores MCO como una función de estadísticos muestrales, sin necesidad de resolver las
ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( β̂1 ), para luego
reemplazar dicho valor en la ecuación (2.17). Para ilustrar este método de estimación
consideremos el siguiente ejemplo:

Ejemplo

El gerente de ventas de una tienda de electrodomésticos desea conocer la relación existente


entre el número de artefactos vendidos y el número de representantes de ventas, para luego

30
Econometría Moderna MCO: El Modelo de Regresión Bivariado

hacer algunas predicciones acerca de las ventas del próximo año. Para tal fin el gerente observa
las ventas efectuadas en diez días diferentes (ver la Tabla 2.1) Como se anotó en la sección
(1.1.2) se debe plantear un modelo de regresión lineal y a su vez especificar el papel que
desempeña cada una de las variables en función al estudio que se desea realizar. Por lo tanto, en
este caso se define la variable explicativa (X) como el número de representantes de ventas y la
variable explicada (Y) como el número de artefactos vendidos.

Tabla 2.1

Xi Yi X i Yi X2 Ŷi ei = Yi − Yˆi
DÍAS
1 1 3 3 1 7 -4
2 1 6 6 1 7 -1
3 1 10 10 1 7 3
4 2 5 10 4 8 -3
5 2 10 20 4 8 2
6 2 12 24 4 8 4
7 3 5 15 9 9 -4
8 3 10 30 9 9 1
9 3 10 30 9 9 1
10 2 9 18 4 8 1
Totales 20 80 166 46 80 0

Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones


normales halladas anteriormente, se tiene:
80 = 10 βˆ 0 + 20 βˆ1

166 = 20 βˆ 0 + 46 βˆ1

Si se despeja de la primera ecuación el intercepto y se reemplaza dicho valor en la segunda


se obtienen los siguientes estimadores MCO:

βˆ 0 = 6
βˆ1 = 1

Evidentemente, si utilizamos las ecuaciones obtenidas a través del método de Kramer,


también se deben obtener los mismos resultados. La comprobación queda para el lector.

Se puede utilizar el ejemplo anterior para hallar la función de regresión muestral, es decir la
regresión de Y con respecto a X. Formalmente:

Yˆi = 6 + X i

Si se sustituyen las observaciones muestrales de X en la ecuación anterior, obtenemos la


sexta columna de la Tabla 2.1 (Yˆi ) . Estos valores representan las estimaciones de la variable
dependiente obtenidas a través de los parámetros calculados por el método MCO. Comparando
estos valores con aquellos observados para la variable dependiente hallamos los errores
correspondientes a cada observación de la muestra. Debido a que el modelo incluye un
intercepto o término constante, se verifica que la suma de errores estimados es cero.

31
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Hasta aquí el lector ya debe estar apto para estimar una regresión bajo el método de Mínimos
Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresión, parámetros, línea
de regresión, estimadores, estimación, errores estocásticos. En la siguiente sección, se detallarán
las propiedades del estimador mínimo cuadrático, las que como se verá, resultan de suma
importancia para el análisis de regresión.

Algo importante que debe recalcarse es que todo estimador es una función de los datos y
como éstos pueden cambiar en cada muestra tenemos que serán variables aleatorias. Alguien
podría decir que si las X están fijas siempre tendremos la misma muestra pero pensando de
dicha forma se dejaría de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de
errores. Estos errores no son fijos y si tomamos una nueva muestra podrían variar lo que
implicaría un nuevo valor de Y para cada realización de la muestra.

Si reemplazamos en nuestro estimador una muestra determinada (valores observados de


variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de
la función de los datos (estimador) cuando utilizamos una muestra en particular. Es importante
hacer esta distinción porque las propiedades que se analizarán más adelante se referirán a la
variable aleatoria llamada estimador.

2.3. PROPIEDADES DEL ESTIMADOR MCO

Básicamente son dos la propiedades muestrales que nos interesan analizar del estimador
MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el
centro de la distribución del estimador es igual al parámetro verdadero mientras que la segunda
nos asegura que nuestro estimador será el de varianza mínima lo que nos dará una mayor
seguridad porque el grado de imprecisión inherente será menor. Estas dos propiedades son
aquellas que denominaremos de muestras pequeñas.

2.3.1 Insesgamiento del estimador MCO.

Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma:

( )
E E ( βˆ ) − β = 0

Esto quiere decir que el centro de la distribución del estimador de mínimos cuadrados
ordinarios coincide con el verdadero valor del parámetro. Si se cumple esta propiedad podemos
usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que
obtengamos provendrá de una distribución cuya media es el verdadero valor del parámetro por
lo que el estimado será equivalente, en términos estadísticos al verdadero parámetro1.

Para verificar esta propiedad, recordemos la expresión del estimador MCO:

β! 1 =
∑ (Yi − Y )( X i − X ) = Cov( X ;Y ) = ∑ xi yi
∑ ( Xi − X )2 Var ( X )
∑ xi 2 (2.28)

Trabajando con el numerador:

1
Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero
parámetro. De hecho podríamos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces
este nuevo estimado también podremos utilizarlo e interpretarlo como equivalente, en términos estadísticos, al
verdadero parámetro.

32
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑ ( X i − X )(Yi − Y ) = ∑ ( X i − X )Yi − Y ∑ ( X i − X )
y dado que ya conocemos que ∑ ( X i − X ) = 0 , podemos reexpresar el numerador de la
ecuación (2.28), de la forma2 :

∑ xi yi = ∑ xi Yi (2.29)

Ahora, y por propiedades matemáticas de las sumatorias, se puede expresar la ecuación


(2.28) como:
 x 
β̂1 = ∑  i  y i
∑x 2 
 i 

= ∑ k i yi (2.30)

Siendo:
xi
ki = (2.31)
∑ xi 2

Así, se dice que el estimador MCO es lineal, ya que es una función lineal de la variable
endógena (Y). Nótese que en la ecuación (2.30), β! 1 es una combinación lineal ponderada de Y,
donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden
interpretar como constantes.

Digresión:

Propiedades de ki :

i. Las ki son no estocásticas, debido a que las X tampoco lo son.

 
∑ xi = 0
∑ ∑  =
xi
ii. ki =

 ∑ xi 2  ∑ xi 2
Dado que xi representa la desviación de dicha variable respecto a su media, el numerador es
siempre cero. Además, se sabe que la suma de las desviaciones al cuadrado, para cualquier
muestra dada, es un valor conocido y diferente de cero.

∑ xi 2 = 1
iii. ∑ ki 2
=
(∑ xi 2 ) ∑ xi
2 2

iv. ∑ ki xi =
∑ xi 2
=1
(∑ xi 2 )
2
Nótese que únicamente el término Y ∑ ( X i − X ) puede ser igualado a cero.

33
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la


eficiencia del estimador MCO, como se verá más adelante.

Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo
de regresión lineal afirma que las observaciones de X son fijas, es decir, no varían si se utiliza
otra muestra de igual tamaño. En cambio, no se debe olvidar que las observaciones de Y sí
serían diferentes de repetir el proceso de muestreo, debido a que incluye un componente
aleatorio µ i cuyas realizaciones variarían al cambiar de muestra. Estos conceptos se utilizarán
repetidamente en la demostración de las propiedades.

Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer
lugar, sustituyamos en (2.29) la ecuación del modelo teórico de regresión (1.17) para luego, y
con la ayuda de las propiedades enunciadas en la digresión, demostrar la insesgabilidad de los
estimadores

Resulta fácil comprobar que en la ecuación (2.30) resulta indiferente multiplicar las
ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . Así tenemos que:

β! 1 = ∑ ki Yi = ∑ ki (β0 +β1 X i + µ i )
= ∑ k i β 0 + ∑ k i β1 X i + ∑ ki µ i
= β0 ∑ k i + β1 ∑ k i X i + ∑ k i µ i (2.31)
=β 0 (0) +β1 (1) + ∑ k i µ i

En la ecuación (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado


que un estimador insesgado es aquél cuya esperanza matemática es idéntica al verdadero valor
del parámetro que se desea estimar, se tomará esperanzas a la ecuación anterior.

E (β! 1 ) = E (β1 ) + E (∑ k i µ i ) = β 1 + ∑ k i E ( µ i )
=β 1 + ∑ ki (0)
E(β! 1 ) =β 1 (2.33)

Por consiguiente, se comprueba que β! 1 es un estimador insesgado de β1 . Ahora y para


verificar el insesgamiento del estimador del intercepto ( β 0 ), dividamos la ecuación (1.17) entre
el tamaño muestral (n) para calcular la esperanza de la expresion resultante:

Y = β 0 +β 1 X + µ (2.34)

E (Y ) = β 0 + E (β1 X ) + E (µ ) = β 0 +β1 X (2.35)

Reemplazando las expresiones (2.33) y (2.35) en la ecuación de la línea de regresión


muestral3(2.17) se obtiene:

3
En adelante, de no indicar lo contrario, nos referiremos a la línea de regresión muestral o estimada, esto es, X i β̂ .

34
Econometría Moderna MCO: El Modelo de Regresión Bivariado

β! 0 = Y −β! 1 X

E (β! 0 ) = E (Y ) − E (β! 1 X )

E (β! 0 ) = (β 0 +β1 X ) − E (β! 1 ) X

= β 0 +β1 X −β1 X

E(β! 0 ) = β 0 (2.36)

De esta manera queda comprobado que los estimadores mínimo cuadráticos de los
verdaderos parámetros, β 0 y β1 , son insesgados.

2.3.2. Varianzas y covarianzas de los estimadores de MCO

Nótese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria
de los mismos proviene de la variable endógena Y, la cuál es estocástica debido a la inclusión
del término de error en el modelo. Por consiguiente, los estimadores β! son una variable
aleatoria que provienen de una distribución de probabilidad cuya esperanza matemática es el
verdadero valor del parámetro lo que implica que es el valor con la mayor probabilidad de
ocurrencia. Adicionalmente a lo anterior, es preciso disponer también de medidas de dispersión
de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero
valor del parámetro que se pretende estimar . De ese modo, y para efecto de contrastar si los
regresores cumplen con ciertas condiciones teóricas mediante el análisis de inferencia
estadística, se hallará la expresión analítica de la varianza de cada uno de los estimadores β! y
una medida de dependencia entre ellos, es decir la covarianza. Así, y partiendo de la expresión
β! (2.32) tenemos:
1

β! 1 =β 1 + ∑ ki µ i
β! 1 −β1 = ∑ ki µ i (2.37)

Ahora, recordemos que la varianza puede expresarse en los siguientes términos:

[ ]
2
Var (β! 1 ) = E β! 1 − E (β! 1 ) (2.38)

y dado que el estimador MCO es insesgado, tenemos que:

[ ]
2
Var ( β! 1 ) = E β! 1 − β1 (2.39)

Sustituyendo la expresión (2.37) en (2.39), queda:

[∑ k µ ]
2
Var (β! 1 ) = E i i

= E ( k1µ 1 + k 2 µ 2 +...+ k n µ n ) 2

35
Econometría Moderna MCO: El Modelo de Regresión Bivariado

= E ( k12 µ 12 + k 22 µ 22 +...+ k n2 µ 2n + 2 k1k 2 µ 1µ 2 +...+2 k n −1 k n µ n −1µ n )


(2.40)

La expresión anterior puede simplificarse si consideramos los supuestos de


homocedasticidad y no autocorrelación. Así tenemos que:

E (∑ k i2 µ i2 ) = ∑ k i2 E ( µ i2 )

= σ 2 µ ∑ k i2

E (∑ k i k j µ i µ j ) = ∑ k i k j E ( µ i µ j ) = 0

y, reemplazando las ecuaciones precedentes, se obtiene:

∑ xi2

1
Var (β! 1 ) = σ 2 µ ki2 =σ 2
µ = σ2µ (2.41)
(∑ xi2 ) ∑ ( Xi − X )2
2

Nótese en la expresión anterior que la varianza de β! 1 depende directamente de la varianza


del término de error y mantiene una relación indirecta con las observaciones de la muestra
tomada. En tal sentido, y dada σ 2 µ , cuanto mayor sea la variabilidad de los valores de X,
menor será la varianza del estimador y de este modo la estimación de β1 será más precisa. Por
otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de µ mayor será la del
estimador. Por lo tanto, para garantizar una mayor precisión en la estimación debemos buscar
que las variables explicativas presenten mucha variabilidad.

Por otro lado, para hallar la varianza del estimador del intercepto ( β! 0 ) debemos partir de la
ecuación de la línea de regresión (2.18) y reemplazar la especificación para la media de la
variable endógena (2.34) para obtener:

β! 0 = (β 0 +β1 X + µ ) − β! 1 X

β! 0 = β 0 − (β! 1 −β1 ) X + µ (2.42)


Ahora, y dado que:
β! 1 −β1 = ∑ ki µ i
la ecuación (2.42) se puede escribir como:

(
β! 0 = β 0 − ∑ k i µ i X + µ )
(
(β! 0 − β 0 ) = − ∑ k i µ i X + µ ) (2.43)

Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la


pendiente:

36
Econometría Moderna MCO: El Modelo de Regresión Bivariado

[ ] (( ) )
2 2
Var (β! 0 ) = E β! 0 − β 0 = E − ∑ ki µ i X + µ

( )
Var (β! 0 ) = E  ∑ ki µ i X 2 + (µ ) 2 − 2 X ∑ ki µ i µ  ( )
2
(2.44)
 

Dado que el valor esperado afecta únicamente a las variables aleatorias, la expresión
anterior, puede representarse como:

2X
Var (β! 0 ) = X 2 E ( k12 µ 12 +...+ k n2 µ n2 ) + E ( µ ) 2 − E ( k1 µ 12 +...+ k n µ 2n + k1µ 1µ 2 +...+ k n µ n −1µ n )
n

Por la demostración de la varianza de (β! 1 ) , sabemos que:

1
E (k12 µ 12 +...+ k n2 µ 2n ) = σ 2 µ
∑ ( X i − X) 2
y además, por las propiedades de ki y por el supuesto de no autocorrelación entre los errores, se
tiene que:

E (k1 µ 12 +...+ k n µ 2n + k1µ 1µ 2 +.....+ k n µ n − 1µ n ) = σ 2 µ ∑ ki + ∑ ki E (µi µ j ) = σ 2 µ(0) + (0) = 0


Ahora, y a partir del tercer y cuarto supuesto del modelo de regresión lineal sabemos que:

1 1 σ2µ
E (µ ) 2 = E (µ 12 + µ 22 +...+µ n2 + µ 1µ 2 +...+ µ n−1µ n ) = n( σ 2 µ ) =
n2 n2 n

Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a:

1 σ2µ  1 1 
2  2
Var( β! 0 ) = X 2 σ 2 µ + = σ µ X + (2.45)
∑ ( X i − X )2 n 
 ∑ ( X i − X )2 n 

Conociendo la especificación para la varianza de cada uno de los estimadores involucrados,


pasemos ahora a analizar su covarianza. Como sabemos, la definición de covarianza viene dada
por:

([ ][
Cov (β! 0 , β! 1 ) = E β! 0 − E (β! 0 ) β! 1 − E (β! 1 ) ]) (2.46)

dada la propiedad de insegabilidad, la ecuación anterior puede escribirse como:

([ ][
Cov (β! 0 , β! 1 ) = E β! 0 − (β 0 ) β! 1 − (β1 ) ]) (2.47)

Ahora, recuérdese que :

37
Econometría Moderna MCO: El Modelo de Regresión Bivariado

β! 0 = Y − β! 1 X

y tomando esperanzas:
E ( βˆ 0 ) = Y − E ( βˆ1 X ) 4 (2.48)

Restando las dos expresiones anteriores tenemos:

β! 0 − β 0 = −(β! 1 −β1 ) X (2.49)

y sustituyendo la última expresión en (2.47), resulta:

[
Cov (β! 0 , β! 1 ) = E − X (β! 1 −β1 ) 2 ]
= − XE(β! 1 −β1 ) 2 (2.50)

Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los


estimadores MCO vendría dado por:

Cov (β! 0 , β! 1 ) = − XVar (β! 1 )


1
= − Xσ 2 µ 2
(2.51)
∑ (Xi − X )

Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores


MCO, se tiene:

σ2µ σ2µ
Var (β! 1 ) = =
∑ xi2 ∑ ( Xi − X )2
 X2 1 
Var (β! 0 ) = σ 2 µ  +

 ∑ ( X i − X ) 2 n 

σ2µ
Cov (β! 0 , β! 1 ) = − X
∑ ( Xi − X )2

Nótese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales
excepto por el elemento ( σ 2 µ ). Por ello, es preciso estimar mediante el método de Mínimos
Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordará, la naturaleza
aleatoria de la variable endógena proviene del término de error, por lo que la varianza de Y
resulta igual a la varianza de µ .

Y = β 0 +β1 X + µ , donde µ = 0 dado que ∑µi = 0 . En este caso, la presencia de un término


4
Recuérdese que
independiente resulta también indispensable. Recuérdese que el componente aleatorio de un modelo de regresión
lineal es ortogonal al componente determinístico y, en este sentido, se verifica que: β 0 ∑ µ i = 0 . Así, E (Y ) = Y .

38
Econometría Moderna MCO: El Modelo de Regresión Bivariado

2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov

El cálculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple
es indispensable para conocer el grado de dispersión que presenta nuestro estimador. Sin
embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberíamos tener
alguna certeza que dicha varianza es la menor posible5. Eso es lo que analiza el Teorema de
Gauss-Markov.

El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el


método de Mínimos Cuadrados Ordinarios resultan los mejores estimadores lineales e
insesgados (MELI) pues poseen la mínima varianza entre todas las clases de estimadores
lineales e insesgados.

Para verificar esta propiedad, recordemos que el estimador MCO β! 1 puede escribirse como:

β! 1 = ∑ ki Yi = ∑ ki (β0 +β1 X i + µ i )
Ahora, y con el objetivo de demostrar que este estimador es el de mínima varianza,
definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos
a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO
tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e
insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma:

∑ vi Yi
~
β1 = (2.55)

De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan
las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo
estimador cumple con la propiedad de insesgamiento:
~
E (β1 ) = E (∑ vi Yi ) = ∑ vi E (Yi )
= ∑ vi E (β 0 +β1 X i + µ i )
=β ∑ vi + β1 ∑ vi X i
0

Así, para que el nuevo estimador sea insesgado se debe cumplir que:

∑ vi = 0 (2.56)

∑ vi X i = 1 (2.57)

Nótese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas
anteriormente. Ahora, reemplazando la ecuación (2.55) en la fórmula de la varianza del
estimador, se tiene:

~
(∑ viYi )
Var ( β1 ) = Var

= (∑ vi2VarYi )

5
En resumen lo que se busca es determinar si el estimador MCO es eficiente.

39
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Como se recordará la varianza de la variable endógena es igual a la del error ( σ µ2 ) de modo


que la expresión anterior queda como:

∑v
~
Var ( β 1 ) = σ µ2 2
i (2.58)
Con el fin de escribir la expresión anterior en términos más conocidos, hagamos el siguiente
artificio:
2
 
v − xi xi 
=σ 2
∑  i
+

∑x ∑x
µ 2 2
 i i 

2
     
v −  + 2σ 2
∑  v  + σ µ2  
xi xi xi

1
=σ 2

 i    
∑x ∑x ∑x ∑x
µ 2 µ i 2 2 2
 i   i  i  i 

2
     
v − xi  + 2σ 2 v − xi  xi
+ σ µ2  
∑ ∑
1
= σ µ2
 i   i   
∑x ∑x ∑x ∑x
2 µ 2 2 2
 i   i  i  i 

El segundo término de la expresión anterior es igual a cero, por lo siguiente:

 
   xi 2  ∑ v i xi − ∑ xi 2
∑ v − 
∑ vi ∑
xi xi xi
= −  =
 i
 ∑ xi 2  ∑ xi 2 ∑ xi 2 
 (∑ ) xi 2 2
 ∑ x i 2 (∑ x i 2 ) 2
1 1
= − =0
∑ xi ∑ xi 2 2

~
Este resultado se obtiene debido a que el estimador β1 es insesgado y por tanto se cumplen
~
las condiciones (2.56) y (2.57). Resumiendo, la varianza de β1 se expresa como:

2
   
v − xi  +σ 2  

~ 1
Var ( β 1 ) = σ µ2
 i  µ 
 ∑x i
2
  ∑x i
2

Si analizamos la expresión anterior, notaremos que el segundo sumando es constante e igual


a la varianza de β! 1 (obtenida en la sección anterior). De este modo, la varianza mínima se
obtendrá reduciendo al máximo el primer término de dicha expresión. Esto se logra definiendo:

xi
vi = = ki
∑ xi 2
~
La expresión anterior nos indica que la varianza de β1 es mayor a la de β! 1 , ya que la única
forma de obtener un estimador de mínima varianza es utilizando las ponderaciones ki. Así, el
estimador MCO posee la mínima varianza entre todos los demás estimadores lineales e

40
Econometría Moderna MCO: El Modelo de Regresión Bivariado

insesgados existentes. Esta propiedad también puede verificarse para β̂ 0 utilizando un


procedimiento similar.

Un gráfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un


supuesto útil para este fin será que tanto el estimador MCO ( β! 1 ), como el estimador alternativo
~
( β1 ) poseen una distribución conocida que para este caso será un distribución normal.

Figura 2.1

En la figura 2.1, las distribuciones muestrales de ambos estimadores están superpuestas con
el fin de escoger el mejor predictor o estimador. Ambas distribuciones están centradas en el
verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador será
aquel que posea mayor probabilidad de acercarse a β1 , lo que se cumple cuando la distribución
de probabilidad del estimador está menos dispersa alrededor del valor de su media, es decir
cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el
estimador obtenido por el método MCO (aquel cuya distribución se presenta con una línea
continua) es el mejor estimador lineal insesgado ya que posee la mínima varianza, y así su
distribución presenta una mayor probabilidad asociada a su valor medio.

Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es
necesario que se cumplan del segundo al quinto supuesto de los mencionados en el capítulo 16.
Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de
dichos supuestos falla, ya no es válido el teorema por lo que el estimador MCO ya no será el de
mínima varianza y deberá buscarse la forma de transformar los datos o incluir ciertas
condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro
estimador MCO.

2.4 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MCO

1. La línea de regresión muestral a través del estimador MCO atraviesa los puntos que
representan las medias muestrales de X e Y.

Gráficamente:

6
Estos en esencia nos dicen que la esperanza matemática de los errores es igual a cero, que no existe ni
autocorrelación ni heterocedasticidad y que los regresores fijos no están correlacionados con el término de error.

41
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Figura 2.2

Esta propiedad se obtiene a partir de dividir la línea de regresión entre el número de


observaciones (n):

Y = βˆ 0 + βˆ1 X (2.18)

el término de error desaparece debido a que el promedio de los mismos es cero y por tanto
su sumatoria también lo será.

2. En promedio, el valor estimado de la variable endógena es igual a la media del valor


observado de dicha variable.

Este resultado se puede comprobar fácilmente, partiendo de la ecuación de la función de


regresión muestral y haciendo algunas operaciones algebraicas, tal como se detalla a
continuación:

Yˆi = βˆ 0 + βˆ1 X i (2.19)

Si se reemplaza la ecuación (2.18) en (2.19), se tiene:

Yˆi = Y − βˆ1 X + βˆ1 X i

Yˆi = Y − βˆ1 ( X i − X ) (2.20)

Tomando sumatorias a la ecuación (2.20), se obtiene:

∑ Yˆi = nY − βˆ1 ∑ ( X i − X ) (2.21)

Se puede comprobar fácilmente que la suma de las desviaciones de una variable, (llámese
dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de
modo que:
∑ (X i − X ) = 0 (2.22)

42
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Así podemos reexpresar la ecuación (2.21) de la forma:

∑ Yˆi = nY (2.23)

y, dividiendo entre el tamaño muestral:

Yˆ = Y (2.24)

El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es


decir que, en promedio, las estimaciones de la variable endógena (realizadas sobre la base de
datos muestrales), representan a sus contrapartes poblacionales.

3. La media de los errores estimados es nula.

Recuérdese que el proceso de minimización que nos permitió estimar los coeficientes de
regresión generó dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la
representación de esta propiedad7:

∑ (Yi − βˆ 0 − βˆ1 X i ) = 0

∑ ei = 0

Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que:

∑ ei = ∑ (Yi − βˆ 0 − βˆ1 X i )

∑ ei = ∑ Yi − ∑ Yˆi

∑ ei
= Y − Yˆ = 0 (2.25)
n

debido a la igualdad propuesta en (2.24)8.

4. El error estimado no está correlacionado con el valor estimado o predicho de la variable


endógena.

Lo anterior, garantiza que el método de MCO cumple con el supuesto de ortogonalidad entre
la parte explicada del modelo de regesión lineal simple y la parte no explicada. Formalmente:

7
De hecho, la presencia de un intercepto o término independiente resulta crucial para la validez de esta propiedad, tal
como se verificará posteriormente. Nótese, además, que la comprobación de esta propiedad está basada en la
ecuación normal del intercepto.
8
En este caso la presencia de un término independiente también resulta indispensable ya que, de otra forma, no sería
posible realizar la sustitución propuesta en (2.20).

43
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑ Y!i ei = 0 (2.26)

Para demostrar esta propiedad basta reemplazar la función de la línea de regresión muestral
(1.18) en la expresión anterior:

∑ ( βˆ 0 + βˆ 1 X i ) ei = ∑ βˆ 0 ei + ∑ βˆ 1X i ei

= βˆ 0 ∑ ei + βˆ1 ∑ X i ei = 0 (2.27)

Nótese que en (2.27) los coeficientes de regresión (el intercepto y la pendiente) están
multiplicados por la primera y segunda ecuación normal, respectivamente. Como resultado del
proceso de minimización se tiene que dichas ecuaciones son idénticas a cero, por lo que queda
demostrado que la parte predicha o estimada del modelo no guarda relación alguna con la parte
no explicada o estocástica.

2.5 ESTIMACIÓN MCO DE σ 2 µ

Hasta el momento hemos estimado únicamente los parámetros del modelo propuesto pero
aún nos queda la estimación de una última magnitud: la varianza del error. Nótese que hasta el
momento cuando obtuvimos la varianza de los estimadores el término σ µ2 ésta quedó expresado
en términos teóricos. Para poder estimar la varianza de los parámetros y la propia varianza de la
variable dependiente necesitamos un estimador de esta magnitud.

Una de las formas más utilizadas para la estimación de la varianza del error parte del modelo
teórico y de su representación en promedios muestrales:

Yi = β 0 +β1 X i + µ i
Y = β 0 + β1 X + µ

a partir de las cuales obtenemos:

Yi − Y =β1 ( X i − X ) + (µ i − µ )

y i = β 1 xi + µ i (2.52)

Recuérdese que el residuo o error estimado puede expresarse como:


e = Y − β! − β! X
i i 0 1 i
= Yi − (Y − β! 1 X i ) − β! 1 X i = (Yi − Y ) − β! 1 ( X i − X i )
ei = yi − β! 1 xi

De este modo, reemplazando (2.52) en la última ecuación se obtiene:

ei = −( βˆ1 − β1 ) xi + µ i

Así, elevando al cuadrado y sumando a ambos lados, resulta:

44
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑ ei2 = (β! 1 − β1 ) 2 ∑ xi2 − 2(β! 1 − β1 )∑ xi (µ i − µ ) + ∑ (µ i − µ ) 2


y, tomando valores esperados se tiene:

E( ∑ ei2 ) = E (β! 1 − β1 ) 2 ∑ xi2 − E[2(β! 1 − β1 )∑ xi (µ i − µ )] + E[∑ (µ i − µ ) 2 ]


(2.53)

Analizando la expresión anterior, el primer sumando se reduce a σ µ2 , por ser un componente


de la varianza del estimador de β1 . Mientras que el segundo sumando se obtiene mediante el
procedimiento siguiente:

 n  n 
[
E (β! 1 − β1 ) ∑ ]
xi ( µ i − µ ) = E 



k jµ j 



x i ( µ i − µ ) 

 j =1   j =1  

[ ]
Nótese que, E µ j (µ i − µ ) = 0 , excepto cuando (i = j ). De esta manera, el término anterior
resulta:
xi2
∑ k i xi E [µ i (µ i − µ )] = σ 2 µ ∑ = σ 2µ
∑ xi2

Por último, trabajando con el tercer sumando se tiene:

∑ (µ i − µ) 2 = ∑ (µ i2 − 2µ i µ + µ 2 )
(∑ µ i )
2

∑ (∑ µ i ) ∑ µ i2 − n (∑ µ i )
2 2 1 2
= µ i2 − + =
n n

y tomando esperanzas:

E [∑ ( µ i ]
− µ ) 2 = n σ µ2 − σ µ2 = (n − 1)σ µ2

De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que:

E (∑ e ) = σ2
i
2
µ − 2σ µ2 + (n − 1)σ µ2 = ( n − 2)σ µ2 (2.54)

Por consiguiente, y dado que el estimador MCO de σ 2 µ debe cumplir con la propiedad de
insesgamiento, se tiene que:


 ei2 
E (σ! 2 µ ) = E  = 1 E
 n−2  n−2
 
(∑ e ) = n −1 2 (n − 2)σ µ = σ µ
2
i
2 2

Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple
viene dado por la siguiente expresión:

45
Econometría Moderna MCO: El Modelo de Regresión Bivariado

∑e
i =1
2
i

σˆ µ2 = (2.55)
N −2

2.6 MEDIDAS DE BONDAD DE AJUSTE

Por lo revisado hasta el momento, sabemos que el criterio de Mínimos Cuadrados Ordinarios
garantiza que la línea de regresión obtenida es la que proporciona la menor suma de cuadrados
de residuos de todas las que se podrían obtener si se trazan a través de los valores observados de
X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las
observaciones caen sobre la línea de regresión, mientras que en otros pueden no obtenerse tan
buenos resultados. Así, se hace necesario considerar la bondad de ajuste de la línea de regresión
dado el conjunto de observaciones. En otras palabras, se desea verificar qué tan bueno es el
ajuste de la línea de regresión a los datos, o cuán cerca están las predicciones del modelo con
respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una
estructura que gobierna el comportamiento de la variable dependiente. Así, la bondad de ajuste
nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable
endógena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina
coeficiente de determinación, conocido también como r- cuadrado (r2 o R2 en el caso de una
regresión lineal simple o en el de una regresión múltiple, respectivamente).

2.6.1. ¿Cómo se calcula el coeficiente de determinación?

Para el cálculo del r2 se debe partir del modelo de regresión empírico, el cuál puede
escribirse de dos formas:

Yi = β! 0 + β! 1 X i + ei
Yi = Y!i + ei

Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuación


la expresión de la línea de regresión, del modo siguiente:

(Yi − Y ) = β! 1 ( X i − X ) + ei

yi = y! i + ei

En la expresión anterior, resulta indiferente escribir ei o (ei − e ) , pues recuérdese que e = 0


por la primera ecuación normal. Luego, elevando dicha expresión al cuadrado y tomando
sumatorias, se tiene:

∑ yi2 = ∑ y!i2 + ∑ ei2 + 2∑ y!i ei


Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuación
anterior es igual a cero, de modo que:

∑ yi2 = ∑ y!i2 + ∑ ei2 (2.59)

46
Econometría Moderna MCO: El Modelo de Regresión Bivariado

Podemos expresar la ecuación anterior de modo tal que resulte más conocida en términos
estadísticos9:

∑ (Yi − Y ) 2 = ∑ (Y!i − Y ) 2 + ∑ ei2 (2.60)

Cada una de las expresiones anteriores están relacionadas con sus respectivas varianzas.
Según ello, podemos descomponer la varianza de la variable endógena en dos partes: una
explicada por el modelo a través de la regresión lineal estimada y otra que el modelo no es
capaz de explicar debido a su naturaleza estocástica. Pasemos ahora a definir los componentes
de la expresión (2.59):

∑ yi2 , suma total de cuadrados de la variable explicada(STC)


∑ y!i2 , suma explicada de cudrados (SEC)
∑ ei2 , suma residual de cuadrados (SRC)
Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento
de la variable endógena, nuestra medida de bondad de ajuste (r2 ) vendría dada por el cociente
entre la SEC (variación de Y explicada por el modelo) y la STC (variación registrada para la
variable explicada):

r2 =
2
Var(Ŷi ) ∑ ŷ i
= =
( 2 2
∑ y i −∑ e i
=1−
) 2
∑ ei
(2.61)
Var(Yi ) ∑ y 2 ∑ yi
2 2
∑ yi
i

Algunas expresiones también útiles para calcular el r2 obtenidas mediante reemplazos de


algunas ecuaciones precedentes son las siguientes:

2
r =
∑ xi2 = β! 2  ∑ xi2  = β! 2 Var ( X )
β! 12

∑ yi2  ∑ yi 
1 2 1
Var (Y )

(∑ xi yi )
2
2
r =
∑ xi2 ∑ yi2
Así, el coeficiente de determinación se interpreta como la proporción de la variación total de
Y que la regresión es capaz de explicar. En otras palabras, el r2 mide la efectividad que poseen
las variables independientes X para explicar la variación que la variable dependiente
experimenta a lo largo de la muestra. Por lo tanto, cuando r2 es muy cercano a 1 se dice que el
modelo de regresión es capaz de explicar un alto porcentaje de las variaciones que registra la
variable explicada. Por lo tanto, el ajuste de la línea de regresión obtenida por MCO es bastante
bueno, en el sentido que los valores estimados de Y son casi idénticos a los observados y que
los residuos son muy pequeños.

Existen algunos casos en los que el coeficiente de determinación no es una medida confiable,
por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el número de observaciones es

9
Una condición necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se
podrá afirmar que e = 0 ya que no habría una ecuación normal asociada a este término.

47
Econometría Moderna MCO: El Modelo de Regresión Bivariado

reducido, quizá algún residuo alto puede hacer que el r2 sea insignificante y por tanto se
concluya que la regresión es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando
las observaciones de X e Y provienen de muestras de series temporales con tendencia similar.
En tal situación, sucede que el coeficiente de determinación es cercano a uno, pues las
variaciones que experimenta la variable dependiente son muy similares a las de la variable
independiente, y en consecuencia: ∑yi2 ≈ ∑
y!i2 . Basta con eliminar la tendencia para que el
resultado sea diferente, obteniéndose un coeficiente de determinación menor. En este caso, la
regresión recibe el nombre de espúrea o ficticia, pues el modelo estimado en realidad no recoge
la existencia de una relación de la variable dependiente y los regresores. Esto ocurre cuando las
series de tiempo involucradas presentan ciertas características que distorsionan la distribución
del error sobre la base de la cual se construyen las pruebas de inferencia.

La descomposición de la variación de Y, sobre la base de la cual se construye el r2, puede


ilustrarse de la siguiente manera:

Figura 2.3
La variación de la variable endógena es la suma de dos componentes

La figura 2.3 ilustra lo que hemos derivado de manera matemática. La línea continua sobre el
eje horizontal refleja el valor promedio de la variable dependiente Y. El término Yi refleja una
observación de la misma variable. La distancia vertical entre este punto y la línea del promedio
nos muestra la desviación total de Yi con respecto a su media (lo que equivale a la suma total de
cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical
la podemos descomponer en dos partes. La primera de ellas está relacionada con el segmento
que parte de la línea de regresión estimada y va hasta la línea del promedio (Yˆi − Y ) . Esta es la
desviación explicada por la regresión. El segmento restante representa aquella parte que no es
explicada por la regresión y por tanto se relaciona con el residuo ( Yi − Yˆi ).

48
Econometría Moderna MCO: El Modelo de Regresión Bivariado

2.6.2 Propiedades del coeficiente de determinación

1. Es un número no negativo. Para demostrarlo basta recordar que éste simboliza el cociente
entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no
se especifique un intercepto en el modelo, el r2 podría resultar negativo y por tanto no
debería tomarse en consideración10. Por ello, es preciso hallar el coeficiente de
determinación ajustado o corregido, el cuál se estudiará en el siguiente capítulo.

2. Puede tomar valores entre cero y uno, (0≤ r 2 ≤ 1) ¿Qué pasaría si r 2 fuese cero? No
existiría ninguna relación entre la variable endógena y la explicativa y, por tanto, el
estimador de la pendiente de la variable explicativa ( β! 1 ) sería igual a cero y se obtendría
una la línea de regresión horizontal al eje X.

3. No tiene unidades de medida. Recuérdese que es una proporción, siendo, por tanto, un
número puro.

2.7 A MODO DE CONCLUSIÓN:

En este capítulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo
considera sólo una variable explicativa aparte del intercepto. El estimador MCO cumple con una
serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el
mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrán la menor
incertidumbre asociados a ellos.

Dentro del largo camino que aún nos queda por recorrer en la exploración de las aplicaciones
del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la
lógica a partir del cual se deriva el estimador. Hasta aquí la herramienta más utilizada han sido
las sumatorias. Sin embargo, un enfoque más completo se basa principalmente en el análisis
matricial que es el que empezaremos a utilizar en los capítulos siguientes. Para ello se
recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores
así como la interpretación de las distintas operaciones con los mismos.

10
Recuérdese que sólo sí se incluye un intercepto se cumple que STC = SEC + SRC.

49
CAPITULO 3
EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS
ORIDINARIOS:
MODELO LINEAL GENERAL

3.1. INTRODUCCIÓN

En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos
sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las
principales variables que explican a otra variable a la cual le hemos dado el nombre de variable
dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las
relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o
explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del
modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que
concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el
análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el
mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k
variables (Y y X1, X2,..., Xk) en notación matricial. Este modelo es conocido como el modelo de
regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en
el Capítulo 2.

Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se
estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo
la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable
endógena (Y) y k variables exógenas (X). Formalmente:

Yi = β1 X 1i + β 2 X 2i + β 3 X 3i + ... + β k X ki + µ i i = 1,2,......n (3.1)

La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de
una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes
Econometría Moderna MCO: El Modelo Lineal General

( β1 ,.....β k ) y µi el término de error correspondiente a la i-ésima observación. Por otro lado, la


inclusión de un intercepto en el modelo hace que X1 represente un vector de unos, si
reemplazamos éste en la expresión (3.1) se obtiene el siguiente conjunto de ecuaciones:

Y1 = β1 + β 2 X 21 + β 3 X 31 + ... + β k X k1 + µ1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + µ 2
..........................................................................
Yn = β1 + β 2 X 2 n + β 3 X 3n + ... + β k X kn + µ n

En términos matriciales:

Y1  1 X 2 ,1 ... X k,1   β1   µ1 


Y  1 ... ... ...  β   
 2 =  .  2 +  . 
.  1 ... ... ...   .  . 
       
Yn  1 X 2 ,n ... X k ,n  β k  µ n 
(nx1) (nxk) (kx1) (nx1)

y en forma compacta: Y = Xβ + µ (3.2)

3.2. LA ESTIMACIÓN MCO PARA EL MODELO DE REGRESIÓN LINEAL GENERAL

Con el fin de estimar los coeficientes del modelo de regresión y el intercepto, debemos re-
escribir la ecuación (3.1) de modo que para la observación i tendríamos un valor observado de
Y y un valor estimado de la forma:

Ŷi = βˆ 1 + βˆ 2 X 2i + ... + βˆ k X ki

Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el


valor observado de la variable endógena resulta un residuo o término de error (e):

ei = Yi − β
ˆ −β
1
ˆ X − .. − β
2 2i
ˆ X
k kt

y, repitiendo este proceso para todas las observaciones muestrales se obtiene:

Y = βˆ 1 + βˆ 2 X 2 + ... + βˆ k X k + e = Xβˆ + e (3.3)

En la ecuación anterior, β̂ es un vector de coeficientes de k elementos, e es otro vector de


residuos de n elementos y X representa la matriz de variables explicativas de orden (nxk).

Como se mencionó en la introducción del presente capítulo, utilizaremos el criterio del


método de estimación MCO para obtener los estimadores: minimizar la suma de cuadrados de
los residuos (SRC = ∑ ei2 ). Se denota matricialmente como e′e :

 e1 
e 
e′e = [e1 e2 ..... en ]. 2  = e12 + e22 + ... + en2 = ∑ ei2
 .
 
e n 

52
Econometría Moderna MCO: El Modelo Lineal General

Por la ecuación (3.3), se tiene que:

e′e = ( Y - Xβˆ )' ( Y - Xβˆ )

De esta manera, el problema de minimización a resolver es el siguiente:

Min ( Y - X β̂ )' ( Y - X β̂ )
β̂

( Y - X β̂ )' ( Y - X β̂ ) = Y'Y - Y'X β̂ - β̂' X'Y + β̂' X'X β̂


= Y'Y - 2 β̂ 'X'Y + β̂ 'X'X β̂

en la expresión anterior Y'X β̂ y β̂' X'Y son escalares y por tanto son iguales(uno es el
transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la
suma de residuos al cuadrado define una función del vector de coeficientes β̂ . De modo que:

e ′e = f ( β
ˆ)

donde los elementos del vector β̂ son las variables de la ecuación, por lo que se debe minimizar
la misma con respecto a β̂ . Para tal fin, es preciso hacer una digresión acerca del álgebra
matricial utilizada para obtener los resultados que a continuación se detallan:

Min (Y'Y - 2 β̂ 'X'Y + β̂ 'X'Xβ̂)


β̂

e' e = Y ' Y − 2β
ˆ' X' Y + β
ˆ ' X ' Xβ
ˆ

∂e' e
= −2 X ' Y + 2 X ' X β
ˆ =0
∂β
ˆ

X ' Y = X ' Xβ
ˆ (3.4)

Digresión:
!
Se define f (b ) como una función de k elementos distintos de bi entonces debemos calcular k
derivadas parciales de dicha función con respecto a cada bi. En este sentido, se obtiene el vector
gradiente (primeras derivadas parciales) como definición general en formas lineales:
!
 ∂f (b ) 
!  
! ∂f (b )  ∂b1 
f (b ) → ! =  "!  (3.5)
∂b  ∂f (b ) 
 
 ∂bn 

53
Econometría Moderna MCO: El Modelo Lineal General

Ahora definamos una función lineal, donde a es un vector de k elementos constantes


cualesquiera.
!
f ( b ) = a’b
!
f ( b ) = a1b1+ a2 b2+.......+ak bk

y, utilizando la expresión(3.5) se obtiene:

 a1 
 
∂ (a ′b) ∂ (b ′a ) a 2 
= = =a
∂b ∂b  .. 
 
a k 

Nótese la similitud entre la expresión anterior y el problema de minimización definido en


(3.4). Así, obtenemos las siguientes expresiones:

∂ (X ' βˆ ) ∂ (βˆ ' X)


= =X
∂βˆ ∂βˆ

Asimismo, podemos definir la siguiente forma cuadrática en b, donde A es una matriz


simétrica de orden (kxk):

g (b) = b' Ab

 A11 A12 # A1k   b1 


A A22 # A2 k  b2 
[b1 b2 ... bk ]  12
 " " $ "  "
   
 A1k A2k # Akk  bk 

b' Ab = b12 A11 + 2b1b2 A12 + # + 2b1bk A1k


+ b22 A22 + ## + 2b2 bk A2k
"
bk2 Akk

Derivando parcialmente la expresión anterior, obtenemos lo siguiente:

 ∂g 
 ∂b1   2b1A11 + 2b 2 A12 + # + 2b k A1k 
   2 b A + 2b A + # + 2 b A 
∂g (b) ∂g
= ∂b 2  =  1 12 2 22 k 2k 
∂b    " 
 "   
∂g  2b1A1k + 2b 2 A 2k + # + 2b k A kk 
 ∂b k 

54
Econometría Moderna MCO: El Modelo Lineal General

 A11 A12 # A1k 


 "  b1 
$ "   
= 2 " = 2 Ab
 " $ "  
  b 
 A1k A2k # Akk   k 

Por lo anterior, notemos que:

∂ (b' Ab) ∂ (βˆ ' X ' Xβˆ )


= = 2(X ' X )βˆ
∂b ∂βˆ

Ahora regresemos a la expresión (3.4). Esta representa la simbolización compacta de las k


ecuaciones normales del modelo. Nótese que estas ecuaciones pueden reexpresarse en términos
de sumatorias, de forma similar al Capítulo anterior:


ˆ + ∑β
1
ˆ X + ... + ∑ β
2 2i
ˆ X = ∑Y
k ki i
ˆβ ∑ X + β ˆ ∑ X 2 + ... + β
ˆ ∑X X =∑X Y
1 2i 2 2i k 2i ki 2i i
...............................................................................................................................

β
ˆ ∑ X +β ˆ ∑X2 =∑X Y
ˆ ∑ X X + ... + β
1 ki 2 ki 2i k ki ki i

o en términos matriciales,

 n ∑ X 2i ... ∑ X ki   β ˆ   1
1 1 1 1  Y1 
 X  ˆ  
∑ 2i ∑ X 2i
2
... ∑ X 2i X ki  β 2   X 21 X 22 ... X 2n  Y2 
. = .
 ... ... ... ...   ...   ... ... ... ...   .. 
 2  ˆ    
 ∑ X ki ∑ X ki X 2i ... ∑ X ki  β k   X k1 X k2 ... X kn  Yn

( X ′X ) β̂ = ( X ' Y )

En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la
expresión anterior por ( X ' X )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el
estimador es una función de los datos, para ello basta con reemplazarlos en la siguiente
expresión:

ˆ = ( X ' X )−1 X ' Y


β (3.6)

Nótese que en este modelo también se verifica que las variables explicativas y el término de
error son ortogonales entre sí (Cov (X, µ) = 0). Para tal fin debemos reordenar la expresión
compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del álgebra
matricial:

X ' (Y − Xβˆ ) = 0 ⇒

1
En los casos en que la matriz (X ' X ) no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,
esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Sección (1.2).

55
Econometría Moderna MCO: El Modelo Lineal General

 X 1′e  0
 X ′ e  
2  0 
X 'e =  = =0 (3.7)
 ..  ..
   
 X k′ e  0

X ' e = X ' (Y − Xβˆ ) = X ' Y − X ' X ( X ' X ) −1 XY = X ' Y − X ' Y = 0

Observamos que el primer elemento de la matriz anterior resulta:

n
∑ ei = 0
i =1

e =0

por lo que, los residuos de la regresión estimada por MCO tienen media igual a cero, siempre
que el investigador incluya un término independiente en el modelo2. Por otro lado, los demás
elementos de la matriz muestran que, al igual que en el modelo de regresión lineal simple, el
supuesto de ortogonalidad entre los errores y las variables independientes se cumple.

3.3. UNA ILUSTRACIÓN

Para ilustrar este método matricial véase el ejemplo (2.1), donde se obtienen los
estimadores de un modelo bivariado por el método MCO. Así, obtenemos el modelo de
regresión lineal simple en términos matriciales:

Y = X βˆ + e

 Y1  1 X 21   e1 
Y  1 X   ˆ  e 
 2 =  22  β1
ˆ  +  
2
 ..  .. 
.. β 2  ..
     
Yn  1 X 2 n  e n 

y, por el resultado obtenido en (3.4)

( X ′X ).βˆ = ( X ′Y )

 n   n 
 n ∑ X 2i   ˆ   ∑ Yi 
i =1 β
   1  =  i =1 
nX n
2  βˆ  n
 
i∑ ∑ X 2i  ∑ X 2i Yi 
2
2i 
 =1 i =1  t =1 

Ahora, veamos la Tabla (2.1) y reemplacemos en la expresión matricial anterior los valores
correspondientes. Así, las matrices que resultan de la aplicación de este procedimiento son las
siguientes:

2
Nótese que la presencia de un término independiente en el modelo implica que la primera fila de X es un vector de
unos.

56
Econometría Moderna MCO: El Modelo Lineal General

10 20  80 
(X’X) =   (X’Y) =  
20 46 166

luego la inversa de la matriz (X’X) resulta.

 0,76666666 - 0,33333333
(X’X)-1 =  
- 0,33333333 0,16666666 

Si aplicamos la fórmula del estimador MCO en términos matriciales (3.6), obtenemos:

 βˆ   0,76666666 - 0,33333333  80  6


βˆ =  1  =    =  
β 2  - 0,33333333 0,16666666  166 1 
ˆ

los cuales son los mismos obtenidos en el capítulo anterior. Este resultado ilustra el hecho de
que el estimador presentado en esta capítulo (y que será el más utilizado a lo largo del libro) es
una generalización del estimador bivariado (que usualmente se trabaja en términos de
sumatorias).

3.4. PROPIEDADES DE UN BUEN ESTIMADOR

Todo estimador debe cumplir con ciertas condiciones que nos den cierta seguridad acerca de
su idoneidad. Si un estimador cumple con estas condiciones podrá utilizarse con relativa
seguridad de que los resultados obtenidos son equivalentes en términos estadísticos a los
verdaderos parámetros que siempre serán desconocidos.

Esta propiedades pueden agruparse en dos categorías: i) propiedades exactas (o de muestras


pequeñas) y ii) propiedades aproximadas (o de muestras grandes o asintóticas).

Las primeras de ellas se refieren a resultados sobre los cuales existe certeza y que pueden
analizarse incluso en un contexto de muestras pequeñas. El segundo grupo se refiere a
resultados que no se pueden comprobar en muestras pequeñas y que deben analizarse como
aproximaciones. La única forma de lograr hacer este análisis es realizando el ejercicio de ir
aumentando el tamaño de muestra y observar como se va comportando el estimador3. Las
principales propiedades se pueden resumir de la siguiente forma:

3.4.1 Propiedades de Muestras Pequeñas:

Primera propiedad: Insesgamiento

Recuérdese que en el Capítulo 2 estudiamos esta propiedad y demostramos que el estimador


MCO para un modelo de regresión con dos variables era insesgado. De esta manera, definimos
formalmente un estimador insesgado:
E ( β̂ ) = β

3
De allí que reciban el nombre de propiedades asintóticas. Estas propiedades serán analizadas en profundidad en el
capítulo X, dedicado a esta tópico.

57
Econometría Moderna MCO: El Modelo Lineal General

En promedio, el estimador resulta igual al parámetro desconocido si se repite el experimento


de muestreo varias veces. Gráficamente:

Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor
del parámetro, sino que proviene de una distribución cuya media es igual a dicho valor (β ).

Segunda propiedad: Eficiencia

El estimador debe tener la menor varianza posible con el fin de lograr mayor precisión en sus
aproximaciones. Por lo tanto, un estimador eficiente es aquél que cumple con la primera
propiedad y además es el que posee la mínima varianza entre todos los demás estimadores
insesgados posibles. Así, y como se demostró en la ilustración del teorema de Gauss-Markov, el
estimador MCO cumple con esta propiedad. Gráficamente: (Figura 2.3):

3.4.2 Muestras Grandes: (Propiedades Asintóticas)

Primera propiedad: Consistencia

Un parámetro es consistente si se cumple que:

P lim β̂ = β
n→ ∞

58
Econometría Moderna MCO: El Modelo Lineal General

Esta propiedad indica que conforme aumente el tamaño de la muestra la media de la


distribución del estimador se aproximará más al verdadero valor del parámetro. Es decir, si se
cumple esta propiedad β resulta la media de tal distribución.

Cabe destacar que esta propiedad es de suma importancia pues si un estimador resulta
sesgado utilizando un tamaño muestral reducido, el investigador puede eliminar dicho sesgo
aumentando el número de observaciones de la muestra. Por lo tanto, para garantizar que el
estimador MCO sea insesgado se debe utilizar muestras grandes (n ≥ 60) .

Segunda propiedad: Insesgamiento asintótico

La idea detrás de esta propiedad es analizar si el sesgo tiende a desaparecer en la medida que
el tamaño muestral tiende a infinito. Tiene cierta relación con la propiedad anterior pero no son
equivalentes. En este caso se analiza el comportamiento del sesgo, mientras que en la
consistencia se analiza el punto hacia el cual converge la distribución del estimador.

Tercera propiedad: Eficiencia Asintótica

Este propiedad está referida al comportamiento de la varianza de la distribución asintótica


del estimador. La distribución asintótica es aquella hacia la cual converge la distribución del
estimador a medida que crece el tamaño muestral. La idea es analizar si la varianza de esta
distribución es menor que cualquier otra proveniente de estimadores alternativos.

3.5. PROPIEDADES DEL ESTIMADOR MCO

1. Insesgamiento

Recordemos que para determinar el insesgamiento debemos reemplazar el modelo


verdadero dentro de la fórmula de nuestro estimador:

β̂ = ( X ' X ) −1 X 'Y
= ( X ´ X ) −1 X ' ( Xβ + µ)
= ( X ' X ) −1 X ' Xβ + ( X ' X ) −1 X ' µ
β̂ = β + ( X ' X ) −1 X ' µ (3.8)

Tomando esperanzas a la expresión precedente, obtenemos:

E (βˆ ) = β + ( X ' X ) −1 X ' E (µ)


E (β)ˆ =β (3.9)

De esta manera se verifica que el estimador MCO, para el modelo de regresión general, es
insesgado. Un resultado fundamental para la comprobación de esta propiedad es que las X son
fijas o que no están correlacionadas con el error. La ortogonalidad entre los regresores y el
términos de error es necesaria para comprobar el insesgamiento.

2. Matriz varianza-covarianza (Eficiencia)

59
Econometría Moderna MCO: El Modelo Lineal General

Var (βˆ ) = E[(βˆ − E (βˆ ))(βˆ − E (βˆ ))' ]


= E[(βˆ − β)(βˆ − β)' ]

Ahora, por la ecuación (3.8) se obtiene:

Var (βˆ ) = E[( X ' X ) −1 X ' µµ' X ( X ' X ) −1 ]


= ( X ' X ) −1 X ' E (µµ' ) X ( X ' X ) −1

Recordemos que por el segundo y tercer supuesto del modelo de regresión lineal4
verificamos que: E (µµ' ) = σ µ2 I n . Por consiguiente, la expresión anterior resulta:

Var (βˆ ) = ( X ' X ) −1 X ' σ µ2 I n X ( X ' X ) −1


Var (βˆ ) = σ µ2 ( X ' X ) −1 (3.10)

Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el
estimador β̂ de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que
cuando el investigador dispone de varias muestras el método de estimación de MCO arroja
estimadores que en promedio son idénticos a los verdaderos valores de los parámetros
desconocidos. Sin embargo, en la mayoría de los casos cuando corremos una regresión
solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia
entre el estimador y su valor esperado poblacional, es decir tenemos una aproximación de la
misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras
palabras, de la matriz de varianzas y covarianzas del estimador MCO.

Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende
de la varianza del error. Esto es, si la distribución poblacional del error presenta una alta
dispersión, la varianza del estimador β̂ se comportará de igual forma (existe una relación directa
entre los dos). Por otro lado, el análisis del segundo componente es un poco más complicado,
dado que los elementos de la matriz (X’X) están relacionados directamente con las varianzas y
covarianzas muestrales de las X5. Si analizamos las implicancias de la relación matemática
notaremos que a mayor dispersión de las variables independientes, la matriz (X’X) es mayor6 y
por tanto su inversa es menor, de modo que la varianza del coeficiente de regresión será menor.
Es decir, a mayor varianza de las X ganamos precisión en las estimaciones del modelo. Esta
última idea la podemos entender de manera utilizando un gráfico. En él, ilustraremos el caso de
una regresión bivariada, en el eje de las abcisas tenemos los valores de la variable independiente
y en el eje de las ordenadas, los valores de la variable dependiente:

4
Véase la sección (1.2) del primer capítulo
5
Tomemos en cuenta la fórmula de la varianza muestral de una variable:

Var ( x) =
∑ (x i − x)2
=
∑x 2
i − 2x ∑x i + nx 2
n −1 n −1
Como vemos, si el primer término del desarrollo de la sumatoria es mayor, la varianza de la variable x será mayor.
Ese término es precisamente uno de los términos de la diagonal principal de la matriz X´X. De igual manera ocurre
con los elementos fuera de esta diagonal principal que serán los elementos correspondientes de la covarianzas
muestrales de las variables explicativas incluidas en el modelo.
6
Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la
sumatoria de las variables elevadas al cuadrado tenderán a ser mayores, como estos son los elementos de la diagonal
principal, sabemos que a mayor la traza de una matriz cuadrada, mayor será su magnitud.

60
Econometría Moderna MCO: El Modelo Lineal General

Figura 3.1

La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la
línea de regresión que muestra dicha característica es LR1. Basta introducir una nueva
observación (a) para que la línea de regresión presente un cambio brusco de pendiente (LR2),
por lo que los estimadores MCO pierden precisión en la medida que son muy sensibles.

Figura 3.2

El gráfico anterior muestra como a mayor variabilidad de las X es más fácil identificar la
línea de regresión. Ahora se verifica que al incluir otra observación en el modelo la pendiente de
la línea de regresión no se ve afectada o de lo contrario varía ligeramente. Por lo tanto, se
concluye que la variabilidad en los datos (X) es indispensable para que las predicciones del
modelo estimado sean confiables y por ende los estimadores presenten mayor precisión.

De todo lo discutido hasta el momento, vemos que dos elementos para evaluar la calidad de
un estimador son el sesgo y la varianza. Sin embargo, se pueden presentar casos en donde la
varianza de un estimador sesgado es menor que la de un estimador insesgado. En este caso ¿cuál
estimador debemos escoger? La respuesta a esta pregunta encontró una solución en el
planteamiento de un criterio que nos permita evaluar un estimador tomando en cuenta el sesgo
y la varianza. Este criterio recibe el nombre de Error Cuadrático Medio (ECM)que se define
como la esperanza matemática de la diferencia entre el valor estimado del parámetro y su valor
verdadero:

ECM (θˆ) = E (θˆ − θ ) = Varianza(θˆ) + ( Sesgo(θˆ))2

61
Econometría Moderna MCO: El Modelo Lineal General

Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrático
medio será idéntico a su varianza, por tanto se deberá comparar dicha medida de dispersión con
el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicación de este criterio es
general y puede aplicarse a cualquier par o más de estimadores.

Hasta aquí hemos hablado de cómo estimar la varianza y la interpretación de la misma. Sin
embargo, la estimación de la varianza es un paso previo a la comprobación de que ésta es la
mínima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el capítulo anterior el
teorema de Gauss-Markov en su forma matricial.

Teorema de Gauss-Markov

Aquí extenderemos los resultados encontrados en el capítulo 2 a todo un vector de


coeficientes β̂ . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una
función lineal de la variable endógena (Y). Demostración:
~ ~ ~
Sea β = A Y donde A es una matriz de orden (kxT)

Definimos otra matriz A (kxT) a la diferencia:

~
A = A − ( X ´ X ) −1 X '

Según lo anterior:

~
β = [ A + ( X ' X ) −1 X ][ Xβ + µ]
~
β = AXβ + β + [ A + ( X ´ X ) −1 X ' ]µ (3.11)

y tomando esperanzas a ambos lados de la ecuación, obtenemos como resultado:


~
E (β ) = AXβ + β (3.12)

~
De modo que β será insesgado sí y solo sí suponemos que AX=0. De esta manera, resulta
útil reexpresar la ecuación (3.11) para el cálculo de la varianza del estimador:

~
β = β + [ A + ( X ´ X ) −1 X ' ]µ (3.13)

Ahora reemplacemos la expresión anterior en la definición de la matriz de covarianzas del


estimador, así obtenemos:
~ ~ ~
Var (β ) = E[(β − β)(β − β)' ]
= E[[ A + ( X ' X ) −1 X ' ]µµ'[ A'+ X ( X ' X ) −1 ]]
~
Var (β ) = AA' σ µ2 + ( X ' X ) −1 σ µ2 + ( X ' X ) −1 X ' A' σ µ2 + AX ( X ' X ) −1 σ µ2
= AA' σ µ2 + ( X ' X ) −1 σ µ2

matriz varianza del


definida positiva estimador MCO

62
Econometría Moderna MCO: El Modelo Lineal General

La expresión anterior indica que la matriz de covarianzas del estimador alternativo es igual a
la del estimador MCO más una matriz definida positiva. En este sentido, se verifica que la
varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor
que la varianza del estimador MCO.

3.6 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MATRICIAL DE MÍNIMOS CUADRADOS


ORDINARIOS

1.El vector de residuos de Mínimos Cuadrados es una transformación lineal del vector de
errores del modelo teórico. Recordemos que:

e = Y − Xβˆ
= [ I n − X ( X ' X ) −1 X ' ]Y
= [ I n − X ( X ' X ) −1 X ' ][ Xβ + µ] (3.14)
= M x [ Xβ + µ ]
e = M x µ = M xY

Este resultado se entenderá si tomamos en cuenta las propiedades que indicaremos más
abajo. Definimos la matriz Mx = [ I n − X ( X ' X ) −1 X ' ] 7 como la matriz de proyección ortogonal
de la variable dependiente en el espacio definido por los errores. Esta matriz cumple con las
siguientes propiedades:

i.) Simétrica e idempotente8:

M x M x = [ I n − X ( X ' X ) −1 X ' ] [ I n − X ( X ' X ) −1 X ' ]


−1 −1 −1 −1
= I n − X ( X ' X ) X '− X ( X ' X ) X ' I n + X ( X ' X ) X ' X ( X ' X ) X '
= I n − X ( X ' X ) −1 X '
= Mx

ii) Ortogonal a la matriz X

M x X = [ I n − X ( X ' X ) −1 X ' ] X
= X − X ( X ' X ) −1 X ' X = 0

Si utilizamos esta última propiedad obtenemos el resultado presentado en (3.14).

2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en


términos de los errores teóricos del modelo.

Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es


que la suma residual de cuadrados puede expresarse en términos del verdadero vector de
errores. Así, obtenemos:

7
En realidad, la matriz de proyección ortogonal Mx está asociada a otra matriz Px. Esto se explicará detalladamente
en la sección (3.9).
8
Una matriz simétrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente
es aquella que al ser multiplicada por sí misma da como resultado la misma matriz.

63
Econometría Moderna MCO: El Modelo Lineal General

SRC = e' e = Y ' M x Y


= ( Xβ + µ )'[ I n − X ( X ' X ) −1 X ' ]( Xβ + µ )
= β ' X '[ I n − X ( X ' X ) −1 X ' ] Xβ + µ '[ I n − X ( X ' X ) −1 X ' ]µ + β ' X '[ I − X ( X ' X ) −1 X ' ]µ
+ µ ' [ I n − X ( X ' X ) −1 X ' ] Xβ

SRC = e' e = µ ' M x ' M x µ = µ ' M x µ


SRC = e' e = Y ' M x Y = µ ' M x µ

3. Otra forma de expresar la Suma de Cuadrados de los Residuos Mínimo-Cuadráticos.

Recordemos que:

SRC - Suma de Residuos al Cuadrado:

e' e = (Y '− βˆ ' X ' )(Y − Xβˆ )


= Y ' Y − Y ' Xβˆ − βˆ ' X ' Y + βˆ ' X ' Xβˆ
= Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Xβˆ
= Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' X ( X ' X ) −1 X ' Y
= Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Y
e' e = Y ' Y − βˆ ' X ' Y (3.15)

4. Se verifica que en términos probabilísticos la esperanza del error estimado es igual a


cero.(Véase el segundo supuesto del modelo de regresión lineal- Cap 1)

E (e) = E (Y ) − E ( Xβˆ )
= Xβ − Xβ
E ( e) = 0

3.7. MEDIDAS DE BONDAD DE AJUSTE

Recordemos que el propósito del análisis de regresión es explicar el comportamiento de la


variable dependiente (Y). Al disponer de una muestra dada, sabemos que el comportamiento de
Y es aleatorio, es decir puede tomar un valor relativamente bajo para algunas observaciones y
relativamente alto para otras. Dichas variaciones de la variable pueden aproximarse con la
varianza muestral de Y (Var(Y)), Por ello, es importante cuantificar su magnitud.

Para el modelo de regresión lineal simple procuramos explicar la conducta de la variable


dependiente, escogiendo adecuadamente la variable explicativa(X), a través de la regresión.
Después de ajustar la regresión somos capaces de separar el valor de Yi para cada observación
en sus dos componentes: Ŷi y ei . Es decir:

Yi = Yˆi + ei (3.16)

64
Econometría Moderna MCO: El Modelo Lineal General

De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho (Ŷi ) y
su valor observado. Así, por la ecuación (3.16) podemos descomponer la varianza de Y de la
siguiente forma9:

Var (Yi ) = Var (Yˆi ) + Var (ei )

La expresión anterior muestra que es factible descomponer la varianza de la variable


endógena en un componente explicado por el modelo de regresión lineal, en el sentido descrito
anteriormente, y en otro no explicado relacionado a la presencia del residuo.

Recuérdese que la bondad de ajuste del modelo nos permite conocer el grado en que la
estructura que gobierna el comportamiento de la variable dependiente, recoge el
comportamiento de tal variable. O en otros términos, mide cuán bien explicado está el
comportamiento de la variable endógena por nuestro modelo.

En consecuencia, definimos formalmente al coeficiente de determinación:

Var(Ŷi )
R2 = (3.17)
Var(Yi )

y muestra la proporción de la varianza explicada por la regresión lineal. Asimismo, podemos


definir formalmente al R2 en términos de las sumas de cuadrados definidas en la sección (2.4).
Así, resulta:

STC = SEC +SRC

Y ′Y − nY 2 = Ŷ ′Ŷ − nY 2 + e ′e

Ŷ ′Ŷ − nY 2 SEC
R2 = = (3.18)
Y ′Y − nY 2 STC

donde la suma explicada de cuadrados(SEC) se define por:

Ŷ ′Ŷ − nY 2 = βˆ ′X ′Xβˆ − nY 2
= βˆ ′X ′X (X ′X )−1 X ′Y − nY 2
SEC = βˆ ′X ′Y − nY 2

Debe mencionarse que esta suma explicada de cuadrados está medida alrededor de la media
de la variable dependiente. El término nY 2 precisamente resta la media de la variable
dependiente10. Este cálculo se puede hacer si es que el modelo contiene un intercepto.

Asimismo, podemos expresar el coeficiente de determinación en términos de la suma


residual de cuadrados:

9
Recuérdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:
Ŷ ′ e = βˆ ′X ′e = 0 .

∑ (y − y) = ∑y ∑y
2
10 i
2
i − 2y i + ny 2
Recordemos que
=∑y 2
i − 2 yny − ny 2 = y′y − ny 2

65
Econometría Moderna MCO: El Modelo Lineal General

SRC e′e
R2 = 1− = 1− (3.19)
STC Y ′Y − nY 2

y por el resultado obtenido en (3.15), se tiene:

Y' Y − βˆ ' X' Y


R 2 =1−
Y ′Y − nY 2

Algo que debe discutirse a estas alturas es que el R2 estará acotado entre 0 y 1 si es que sólo
se incluye un intercepto en el modelo. Esto se concluye porque la inclusión del intercepto
asegura – a través de las ecuaciones normales- que la media de los errores mínimos cuadráticos
(ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados
en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto
asegura que existe ortogonalidad entre las variables explicativas y el término de error mínimo
cuadrático. De no incluir intercepto –por construcción- nada asegura que la parte explicada y la
parte no explicada sean ortogonales entre sí, por lo que la suma de total de cuadrados podría
incluir un tercer término que puede ser negativo o positivo. De ser negativo y mayor que yý, el
R2 podría ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no está
acotado por abajo. El valor máximo de 1 se seguirá manteniendo.

Debido a que el coeficiente de determinación mide la bondad de ajuste de los valores


estimados a la línea de regresión, puede ser utilizado para comparar el grado del poder
explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los
siguientes casos:

i) En los casos en que el investigador disponga de un modelo que incluya intercepto y otro
que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer
modelo podría resultar negativo, específicamente se haya en el siguiente
intervalo [− ∞,1] como ya se mencionó. En este caso los R2 no son comparables.

ii) Cuando dos modelos están especificados con igual número de variables explicativas y
tratan de explicar la misma variable endógena pero no incluyen intercepto. Es factible
utilizar al R2 como una medida de comparación, de esta manera se eligirá aquél que
tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.

iii) El R2 también es de mucha utilidad cuando comparamos dos modelos anidados, se


denominan así aquellos modelos cuya estructura consta de una variable endógena y
variables exógenas comunes. Pero, uno de ellos está especificado con un menor número
de variables explicativas. En tal sentido, debemos hallar el R2 del modelo que omite
algunas variables para luego incluir una por una las restantes. Con este procedimiento se
verificará que el modelo ampliado disminuirá su suma residual conforme se incluya
otra variable, por lo tanto el R2 mejora considerablemente.

iv) Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos
modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una
medida que tenga mucho sentido comparar, dado que cada R2 mide la explicación de la
varianza dela variable endógena que en este caso no son las mismas.

Una conclusión lógica que se infiere de lo anterior es que el R2 es una función creciente del
número de variables explicativas utilizados en el modelo. Es decir, una variable adicional
aumenta la proporción en que el modelo explica el comportamiento de la variable endógena. Por
ello, es importante que el investigador incluya todos los regresores necesarios para explicar con
mayor precisión a Y.

66
Econometría Moderna MCO: El Modelo Lineal General

Algo que se deriva de lo discutido en el párrafo anterior es que una forma de elevar cada vez
más el R2 es incluir nuevas variables. La inclusión de una nueva variable, en el peor de los
casos, no modifica el R2 pero en la mayoría de las veces logra aumentarlo11. Sin embargo, si
bien el beneficio de incluir una variable más está en la elevación del R2, tiene un costo. Este
viene dado por la pérdida de grados de libertad. Recordemos que por la inclusión de una
variable más, aumenta en igual cantidad el número de ecuaciones normales y por lo tanto existe
un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un
valor de tal forma que se cumpla la ecuación normal. Esto le quita libertad al modelo para captar
la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusión de una
variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que
tome en cuenta estas dos consideraciones, de tal forma de contar con una medida más confiable.
Este indicador es el estadístico conocido como R2 ajustado o corregido. Formalmente:

SRC /( n − k ) (n − 1)
R 2 = 1− = 1− (1 − R 2 ) (3.20)
STC /( n − 1) (n − k )

La interpretación de este R2 alternativo es similar al anterior pues cumple con las mismas
propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero,
le añade el ajuste por los grados de libertad que se pierden por la inclusión de una variable
(n − 1)
adicional en el modelo. De modo que, la fracción: aumenta cuando el número de
(n − k )
variables explicativas (k) se incrementa, mientras que el término (1-R2) disminuye. En
consecuencia, se dice que esta nueva medida de bondad de ajuste es relativamente neutral a la
introducción de variables adicionales.

Un punto importante como resumen de esta sección es presentar de manera sintética las
magnitudes involucradas en el cálculo de las medidas de bondad de ajuste. Como sabemos, cada
uno de los componentes de la suma total de cuadrados tendrá asociados ciertos grados de
libertad, los cuales serán utilizados más adelante. La formulación matricial de la
descomposición de la varianza (tabla ANOVA) para el modelo lineal general es la siguiente:

Fuente de Suma de Grados de


variación cuadrados libertad

Total de la 2 n-1
regresión Y′Y − nY
Debido a la 2 k-1
regresión βˆ ′X ′Xβˆ − n Y

Debido a los Y' Y − βˆ ' X' Y n-k


residuos

La pérdida de un grado de libertad para la STC proviene del hecho de que para el cálculo de
ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo.
Los grados de libertad son k-1 porque el espacio en donde están definidos los parámetros es k-
dimensional y se pierde un grado de libertad por el cálculo de la media de la variable
dependiente que sabemos es la misma que la media de la variable dependiente estimada a través
del modelo. Por último, los grados de libertad de la suma residual es la diferencia entre los dos
grados de libertas ya mencionados.

11
Recordemos que la suma explicada de cuadrados está relacionada a la siguiente magnitud:
β ′X ′Xβ que es una forma cuadrática. Al incluir una variable más esta magnitud aumentará o a lo más no disminuirá
debido a que si el efecto de la variable es cero no se modificará esta expresión.

67
Econometría Moderna MCO: El Modelo Lineal General

3.8 MODELO PARTICIONADO

Cuando los paquetes estadísticos utilizados no eran tan potentes como los de ahora o no
existían, los cálculos se complicaban cuando se introducían un número alto de variables. Ello
llevó a buscar formas de abreviar los cálculos. De allí surgió lo que ahora se denomina el
modelo particionado. Si bien actualmente los programas estadísticos permiten hacer
estimaciones con gran número de observaciones y variables explicativas, este análisis
permanece relevante dado que permite ilustrar la interpretación de los parámetros de un modelo.

Podemos plantear entonces nuestro modelo lineal general de la forma tradicional:

Y = Xβˆ + e

En este caso introduciremos un cambio. Este cambio implica particionar la matriz X en dos
submatrices:

X = [X1 X2]

De modo que, las ecuaciones normales del modelo resultan:

 X 1′ X 1 X 1′ X 2   βˆ 1   X 1′Y 
X ′ X  =
 2 1 X 2′ X 2  βˆ 2   X 2′ Y 
Digresión:

Cabe señalar que para hallar la inversa de una matriz particionada se tiene dos
procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz
original. Así, para la estimación de los parámetros del modelo debemos calcular la matriz
inversa de (X’X). Se pueden dar dos casos:

i) Se define la matriz particionada P, de orden kxk:

P P12 
P =  11
P21 P22 

donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr,
rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de
orden kxk:

F F12 
F =  11
F21 F22 

Si bien los elementos de ésta matriz no son idénticos a los de la matriz P-1, sí guardan una
relación importante con los elementos de la matriz P:
−1 −1
F11 = (P11− P12 P22 P21 ) −1 F12 = − P11 P21F22

68
Econometría Moderna MCO: El Modelo Lineal General

−1 −1
F22 = (P22− P21P11 P12 ) −1 F12 = −P22 P21F11

ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la
matriz inversa de (X’X) es igual al de una matriz cualquiera de orden (2x2).

Dada la digresión anterior, trabajemos con las ecuaciones normales del modelo y hallemos
los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:

X 1′ X 1βˆ 1 + X 1′ X 2 βˆ 2 = X 1′Y (3.21)

Despejando β̂1 , obtenemos la siguiente expresión:

βˆ 1 = ( X 1′ X 1 )−1 X 1′Y − ( X 1′ X 1 )−1 X 1′ X 2 βˆ 2

Factorizando llegamos a:

βˆ 1 = ( X 1′ X 1 )−1 X 1′ (Y − X 2βˆ 2 ) (3.22)

Del segundo conjunto de ecuaciones normales tenemos:

(X 2′ X 1 )βˆ 1 + X 2′ X 2βˆ 2 = X 2′ Y (3.23)

reemplazando (3.22) en (3.23):

[ ]
X ′2 X1 (X1′ X1 )−1 X1′ (Y − X 2βˆ 2 ) + X ′2 X 2βˆ 2 = X ′2 Y

X 2′ X 1 (X 1′ X 1 )−1 X 1′Y − X 2′ X 1 (X 1′ X 1 )−1 X 1′ X 2 βˆ 2 + X 2′ X 2βˆ 2 = X 2′ Y

[ ] [
X ′2 I − X1 (X1′ X1 )−1 X1′ X 2βˆ 2 = X ′2 I − X1 (X1′ X1 )−1 X1′ Y ] (3.24)

La expresión entre corchetes es similar a la matriz Mx definida anteriormente, salvo que en


lugar de X encontramos a una parte de ella que es X1. Recordemos que ella fue definida como
la matriz de proyección ortogonal de la variable explicada en el espacio definido por los
errores12. Si recordamos los resultados de la sección 3.6, específicamente los resultados
contenidos en (3.14), veremos que si aplicamos la matriz Mx al vector de observaciones de la
variable dependiente Y, obtenemos el vector de errores mínimos cuadráticos. Intuitivamente
ello significa que los errores son los valores resultantes cuando limpiamos o filtramos la
variable dependiente de todo efecto que tienen sobre ella las variables independientes. Las
propiedades de M1 son similares a las de la matriz Mx. Manipulando la expresión (3.24)
obtenemos:

X 2′ M 1 X 2 βˆ 2 = X 2′ M 1Y

Aplicando las propiedades de M1, llegamos a:

12
La razón del nombre quedara más clara en la sección 3.10.

69
Econometría Moderna MCO: El Modelo Lineal General

( M 1 X 2 )' ( M 1 X 2 )βˆ 2 = ( M 1 X 2 )' ( M 1Y )

βˆ 2 = ( X 2′ M 1 X 2 ) −1 ( X 2′ M 1Y ) (3.25)

La expresión precedente, muestra que los efectos que tienen las variables explicativas
incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,
β̂ 2 mide sólo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente
sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parámetro sólo
mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la
multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el
modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.

3.9 EL MODELO LINEAL EN FORMA DE DESVIACIONES CON RESPECTO A LA MEDIA

Recordemos que en el Capítulo 2 uno de los resultados que estudiamos fue que el modelo de
regresión de dos variables podía ser expresado en forma de desviaciones. Este enfoque mostraba
que los parámetros podían ser estimados en dos pasos: el primero consiste en calcular la
pendiente de X (βˆ 1 ) y el segundo es reemplazar dicho valor en la ecuación de la línea de
regresión muestral para hallar el intercepto. Un procedimiento similar puede aplicarse al
modelo lineal general. Partamos de un modelo especificado incluyendo un término
independiente o intercepto:

Yi = βˆ 1 + βˆ 2 X 2i + ... + βˆ k X ki + e (3.26)

Recordemos que podemos expresar al modelo en términos de los valores medios de las
variables:

Y = βˆ 1 + βˆ 2 X 2 + ... + βˆ k X k (3.27)

ahora, restando (3.27) de (3.26) obtenemos:

(Yi − Y ) = βˆ 2 (X 2i − X 2 ) + ... + βˆ k (X ki − X k ) + ei (3.28)

Nótese que, esta expresión muestra una reparametrización del modelo. En ésta no se incluye
un intercepto, cada variable está expresada en diferencias con respecto a su promedio muestral y
tanto las pendientes como los residuos son iguales a los del modelo original.

Consideremos al modelo en su forma matricial y planteemos una partición de nuestra matriz


X de tal forma que X1 sólo incluya la columna de unos que corresponden al intercepto y X2
contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de
la siguiente forma:

Y = Xβˆ + e

donde X y β̂ representan matrices particionadas de la forma:

X = [1n ;X 2 ] (3.29)

70
Econometría Moderna MCO: El Modelo Lineal General

 βˆ 
βˆ =  1  (3.30)
βˆ 2 

Nótese que, en la ecuación (3.29) X2 es una matriz de orden nx(k-1) y está formada por las
columnas de observaciones de las variables exógenas del modelo, exceptuando el intercepto.
Por otro lado, la expresión (3.30) muestra que el vector β̂ tiene como elementos al intercepto
( β̂1 ) y al resto de coeficientes estimados (desde β̂ 2 hasta β̂ k ). De esta manera, el nuevo
modelo particionado resulta:

Y = X 1βˆ 1 + X 2βˆ 2 + e (3.31)

Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos
utilizar la expresión (3.24):

[ ] [
X ′2 I − X1 (X1′ X1 )−1 X1′ X 2βˆ 2 = X ′2 I − X1 (X1′ X1 )−1 X1′ Y ]
En este caso particular, X1 sería un vector de unos, por lo que la expresión entre corchetes
quedaría de la siguiente manera:

[I n − (1 / n)(1n1′n )] (nxn) (3.32)

Esta matriz será denotada desde ahora por M0 y tiene la particularidad de transformar los
datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la
expresión anterior y comprobar esta afirmación.. Si tomamos el vector de observaciones de la
variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:

 Y1 − Y 
Y − Y 
 2 
M 0Y =  .. 
 
 .. 
Yn − Y 

La matriz M0 , al igual que las matrices similares a ella, es simétrica e idempotente. Cabe
mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos serán de
mucha utilidad para las estimaciones que desarrollaremos posteriormente:

M 0 (1n ) = 0 n (3.33)

M 0e = e (3.34)
Nótese que la última propiedad se cumple porque el valor medio de los errores estimados es
igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.

Ahora, premultipiquemos la expresión (3.31) por la matriz M0 y utilicemos las propiedades


definidas en (3.33) y (3.34). Así, obtenemos:

M 0Y = M 0 X 2 βˆ 2 + e (3.35)

Nótese que este modelo muestra la notación matricial del modelo definido en (3.27).

71
Econometría Moderna MCO: El Modelo Lineal General

Premultipicando por X 2′ obtenemos13:

X 2′ M 0Y = X 2′ M 0 X 2 β̂ 2 (3.36)

Por último, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a
(3.36) como:

(M 0 X 2 )' M 0Y = (M 0 X 2 )' (M 0 X 2 )βˆ 2 (3.37)

Analicemos ahora la expresión anterior. Ésta se interpreta como un sistema de (k-1)


ecuaciones normales en términos de desviaciones. Así, definimos las siguientes variables:

M 0 X 2 = x2

M 0Y = y

donde, x2 es una matriz de dimensión n x (k-1) que muestra al conjunto de las variables
explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la
variable endógena y es de dimensión (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:

(x2′ y ) = (x2′ x 2 )β̂ 2 (3.38)

De esta manera, la expresión (3.38) muestra que cuando transformamos las variables del
modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma
forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite
obtener los estimadores de las pendientes y no del intercepto, éste se obtendrá premultipicando
el modelo particionado definido en (3.31), por (1/n)1'n :

1 ' 1 '


 1n Y =  1n (Xβˆ + e)
n n

Y = Xβˆ = βˆ 1 + Xβˆ 2

 β1 
β 
Y = [1 X 2 X 3 ... X k ] 2 
 .. 
 
β k 

βˆ 1 = Y − βˆ 2 X 2 − ... − βˆ k X k (3.39)

Ahora tratemos de expresar tanto la SCT como la SEC en términos del modelo en
diferencias. Premultipliquemos la ecuación (3.35) por Y' :

13
Recuérdese que X 2′ e = 0 por el supuesto de ortogonalidad entre las variables independientes y el error. Véase la
expresión (3.7).

72
Econometría Moderna MCO: El Modelo Lineal General

Y ′M 0 Y = Y ′M 0 X 2βˆ 2 + Y ′e

Y ′M 0 Y = (Xβˆ + e)' M 0 X 2 βˆ 2 + (Xβˆ + e)' e

Y ′M 0 Y = βˆ ′X ′M 0 X 2 βˆ 2 + βˆ ′X ′e + e' M 0 X 2βˆ 2 + e' e

Y ′M 0 Y = βˆ ′2 X ′2 M 0 X 2βˆ 2 + e' e (3.40)

donde hemos utilizado: M 0 Xβˆ = M 0 (X1 X 2 )βˆ

= (O n M 0 X 2 βˆ 2 ) = M 0 X 2 βˆ 2

e ′M 0 = 0

La última expresión se cumple por la condición de ortogonalidad dada anteriormente. Así,


podemos expresar la ecuación (3.40) como:

STC = Y ′M 0 Y
SEC = βˆ ′2 X ′2 M 0 X 2 βˆ 2
SRC = e' e

De esta manera, podemos calcular el coeficiente de determinación (R2) para este modelo y
notar sus diferencias con el modelo original:

SEC e' e
R2 = =1−
STC Y' M 0 Y

βˆ ′ X ′ M X βˆ βˆ ′ X ′ M Y
= 2 2 0 2 2 = 2 2 0 (3.41)
Y' M 0 Y Y' M 0 Y

donde la expresión anterior se cumple por el resultado obtenido en (3.36).

3.10 INTERPRETACIÓN GEOMÉTRICA DE MCO

Introducción

Recordemos que el método de estimación más comúnmente usado y uno de los más
estudiados en el análisis econométrico es el de Mínimos Cuadrados Ordinarios. Cabe distinguir
entre dos variantes de tal método: Mínimos Cuadrados Ordinarios (MCO) y Mínimos
Cuadrados no lineales. Por el Capítulo 1 sabemos que, la línea de regresión MCO tiene como
supuesto la linealidad en todos los parámetros. Mientras que en la segunda variante, y tal como
su nombre lo indica, no se cumple tal supuesto. Para fines de este capítulo, sólo nos interesa
discutir la estimación MCO de un modelo lineal, ya que la comprensión de la regresión lineal y
del método MCO como método de estimación de ella es esencial para entender el resto de
Capítulos de este libro.

Nótese que existe una distinción importante entre las propiedades numéricas y las
estadísticas de los estimadores obtenidos usando MCO. Las propiedades numéricas son aquellas

73
Econometría Moderna MCO: El Modelo Lineal General

que se mantienen como consecuencia del uso de MCO, sin importar la generación de los datos.
Recordemos que estas propiedades fueron verificadas por reemplazos y cálculos directos14. Por
otro lado, las propiedades estadísticas se mantienen sólo bajo ciertos supuestos acerca de la
generación de los datos15.

A continuación discutiremos la interpretación geométrica de las propiedades numéricas de


MCO, pues todas estas propiedades pueden interpretarse en términos de la geometría
Euclideana.16

La Geometría de Mínimos Cuadrados

Recordemos el modelo de regresión lineal general:

Yi = β1 X 1i + β 2 X 2i + β 3 X 3i + ... + β k X ki + µ i

Y = Xβ + µ

donde, la variable dependiente representa a un vector de dimensión n y donde los regresores


forman una matriz de dimensión (nxk). Cada columna de X que contienen a las observaciones
correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos
en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente
independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos
formalmente como S(X).

Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por
todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X.
Por otro lado, la dimensión de S(X) es igual al rango de la matriz X17 (ρ( X ) = k ) . De esta
manera, asumimos que k es estrictamente menor que n (k < n).

El complemento ortogonal de S(X) en En , el cual es denotado por S⊥(X), esta formado por
todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez
definidos estos conceptos estamos listos para entender la interpretación geométrica del
estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable
dependiente, Y, que es de dimensión n en dos sub-espacios que sean ortogonales entre sí.
Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte
que sea explicada por las variables independientes y que esta parte explicada sea construida de
tal manera que implique que se extrae toda la información contenida en estas variables. Una
forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto
porque la ortogonalidad entre dos espacios implica que no existe relación alguna entre ellos. En
otras palabras, no existiría forma de explicar aquella parte no explicada a partir de información
contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta
condición el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes:
una predecible y una no predecible.

Teniendo en cuenta lo anterior, pensemos en nuestra descomposición. Uno de los objetivos


es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos

14
Véase las 4 primeras propiedades de la sección (2.3).
15
Una de las propiedades estadísticas más importante es el insesgamiento, al verificar esta propiedad suponemos que
la distribución de los errores es normal.
16
Se define un espacio Euclidiano como aquél que cumple con las propiedades de cerradura interna y cerradura
externa.
17
El rango de una matriz es igual al número de columnas linealmente independientes.

74
Econometría Moderna MCO: El Modelo Lineal General

un gráfico que nos permita ilustrar lo que está en juego. Para simplificar el análisis supongamos
que n=2 y k=1

Figura 3.3

El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos
los espacios ortogonales (cada uno de dimensión 1). Aquel definido por la variable explicativa
es S(X) y está representado por el eje horizontal y su complemento ortogonal está representado
en el eje vertical. Si queremos que la parte explicada sea la mayor posible, gráficamente
debemos encontrar el punto en S(X) que esté lo más cerca posible a Y. Existen diversas
opciones para ello. Sin embargo, sabemos que la distancia más corta estará representada por una
línea que sea perpendicular a S(X). El punto que representa esta distancia más corta será
~
denotado por Xβ̂ . Existen otras alternativas como puntos tiene S(X). Por ejemplo, Xβ
representa a uno de estos puntos, pero se puede apreciar que Xβ̂ implica una distancia menor y
es posible demostrar que la menor distancia es reflejada por este punto. Entonces Xβ̂ puede
interpretarse como la proyección ortogonal de la variable dependiente en el espacio definido por
las X (S(X)).

Por otro lado, sabemos que todos los puntos del espacio S⊥(X) son ortogonales a los puntos
de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los
errores (Y − Xβˆ = e) . Dado que Xβ̂ representa al punto donde la línea que parte de Y es
perpendicular a S(X), en dicho punto el espacio definido por X deberá ser perpendicular al otro
espacio que representa a los errores. Formalmente ello implica que deberá cumplirse la siguiente
condición X ' (Y − Xβˆ ) = 0 . Recordemos que esta es la condición de ortogonalidad de donde se
obtienen los estimadores MCO. Por tanto el vector de parámetros β es aquel que descompone
al espacio en el cual está definido la variable dependiente en dos ub-espacios que son
ortogonales entre sí.

Otra forma de abordar el problema y obtener un estimador para β es el siguiente. Si nosotros


queremos hallar el punto en S(X) que es más cercano al vector Y, el problema se cifra en la
solución de una minimización (con respecto a la elección de β̂ ) de la distancia entre Y y S(X).
El punto en S(X) que representa esto es Xβ̂ . La distancia entre estos puntos está dada por el
error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta
distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el
problema de la siguiente manera:

18
Debemos recordar que en el caso que se utilizó como ejemplo anteriormente se supuso que el número de
observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parámetro así que sólo se

75
Econometría Moderna MCO: El Modelo Lineal General

Min Y − Xβˆ 2

β̂
Min( Y - X β̂ )’ ( Y - X β̂ )
β̂

Entonces podemos observar que la minimización de la distancia entre Y y S(X) nos lleva al
planteamiento del estimador de mínimos cuadrados ordinarios. De esta manera comprobamos
que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los
cuales se puede descomponer la variable dependiente.

Ahora, reemplacemos el estimador obtenido por el proceso de minimización de MCO (3.6)


en el vector de la variable endógena estimada:

Yˆ = Xβˆ = X ( X ' X ) −1 X ' Y = Px Y (3.42)

La ecuación anterior define una matriz Px = X ( X ' X ) −1 X ' , de dimensión (nxn), dicha
matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz
de “proyección ortogonal”.

Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal
de S(X), es decir en S⊥(X):

[ ]
Y − Xβ̂ = Y − X ( X ' X ) −1 X ' Y = I − X ( X ′X ) −1 X ′ Y = M xY (3.43)

La matriz Mx es por tanto la matriz de proyección ortogonal de la variable Y en el espacio


definido por los errores del modelo. Recordemos que esta matriz ya ha sido definida y sus
propiedades han sido estudiadas. Nótese, que las matrices definidas líneas arriba son simétricas,
idempotentes y además cumplen con las siguientes propiedades:

M x + Px = I n (3.44)

Px M x = 0 (3.45)

Por la ecuación anterior, se verifica que cualquier punto en En, como Xβ̂ o Y es igual a:

Xβˆ = M x Xβˆ + Px Xβˆ

Y = M xY + PxY (3.46)

En función a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada
uno de los componentes de las expresiones anteriores como:

M x Y = vector de residuos de la regresión.

PxY = vector de valores estimados de Y.

toma en cuenta un error. Sin embargo el análisis se puede generalizar para un número mayor de observaciones.
Recue´rdese que el objetivo del estimador MCO es minimizar la suma de errores elevados al cuadrado que es similar
a la minimización de la norma de un vector.

76
Econometría Moderna MCO: El Modelo Lineal General

Ahora, utilizaremos la interpretación geométrica de MCO para establecer algunas


propiedades importantes del modelo de regresión lineal. De esta manera, por la la ecuacióon
(3.43) y por la descripción anterior de PxY y MxY, tenemos que:

( Px Y )' ( M x Y ) = 0 (3.47)

por lo que, se verifica que el residuo es ortogonal al valor estimado de Y. Gráficamente,


podemos observar la descomposición ortogonal de la variable explicada (Y):

S⊥(X)

S(X)

Px Y

φ M xY

Figura 3.4

Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la
estimación de MCO. Así, podemos reexpresar el problema de minimización descrito
anteriormente:

( Y - X β̂ )’ ( Y - X β̂ ) = ( M x Y )' ( M x Y )
= ( M x Y )' ( M x Y )
= Y ' M x M xY = Y ' M xY (3.48)
2
= M xY

Asismismo, la suma explicada de cuadrados (SEC) resulta:

( Xβˆ )' ( Xβˆ ) = ( Px Y )' ( Px Y )


2
= Y ' Px Px Y = Y ' Px Y = Px Y (3.49)

La expresiones (3.46) y (3.47) indican que la suma de residuos al cuadrado y la suma


explicada de cuadrados son simplemente la norma de ciertos vectores denominados las
proyecciones de Y (Mx y Px) sobre los subespacios de S⊥(X) y S(X), respectivamente. Esto se
puede mostrar gráficamente en la figura (3.4).

Ahora, notemos que la distancia entre Y y PxY es M x Y , la distancia entre el origen y PxY
es PxY , y la distancia entre el origen e Y es Y . Así, resulta útil aplicar el teorema de
Pitágoras:

2 2 2
Y = PxY + MxY (3.50)

77
Econometría Moderna MCO: El Modelo Lineal General

Esta expresión muestra que la suma total de cuadrados o STC, de la variable dependiente es
igual a la suma explicada de cuadrados (SEC) más la suma de residual de cuadrados (SRC).

Recordemos que, el coeficiente de determinación (R2) lo definimos como:

2 2
SEC SRC PxY MxY
R2 = =1− = =1− (3.51)
STC STC 2 2
Y Y

o en términos trigonométricos19:

2 2
PxY MxY
R 2 = cos φ = =1−
2 2
Y Y

Como conclusión de esta sección podemos decir que nuestro estimador MCO responde a una
necesidad de descomponer en dos conjuntos ortogonales entre sí el conjunto en donde está
definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente
así como el coeficiente de determinación tienen también una interpretación geométrica. Será
importante retener estos conceptos porque serán utilizados a lo largo del libro.

3.11 ESTIMACIÓN MCO DE LA VARIANZA DEL TÉRMINO DE ERROR

Cuando se estudió la eficiencia del estimador MCO un término que forma parte de la
varianza del estimador es σ µ2 la cual es la varianza del término de error. Si bien hemos
analizado el impacto que tiene esta expresión en la varianza del estimador hemos estado
hablando siempre del término teórico y por tanto desconocido. Por tanto, debemos hallar una
forma de estimar esta magnitud a fin de que podamos también construir un estimado de la
varianza de los estimadores hallados.

El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que


cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta
el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho
estimador insesgado. Una estrategia utilizada frecuentemente –y que aquí vamos a utilizar- es
partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la
esperanza matemática de esta expresión y veremos que transformación debemos hacer a la
expresión resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:

[
SRC = e′e = µ ′M x µ = µ ′ I − X ( X ′X ) −1 X ′ µ ] (3.52)

Es importante expresar la SRC en términos del error teórico porque cuando apliquemos el
operador de esperanza utilizaremos las propiedades del error teórico que ya han sido definidas
en el capítulo I. Sin embargo, antes de continuar con el análisis debemos definir algunas
propiedades que serán de mucha utilidad:

19
Recuérdese que el coseno de un ángulo de un triángulo rectángulo, en nuestro caso ( φ ), es igual al cateto opuesto
entre la hipotenusa.

78
Econometría Moderna MCO: El Modelo Lineal General

1. Si queremos analizar la traza de un producto de matrices, las trazas serán las mismas si
alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo
que se llama la propiedad de las permutaciones cíclicas. Formalmente:

Tr(ABC) = Tr(CBA) = Tr(BCA)

2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente:

E[Tr (ABC)] = Tr [ E (ABC)]

Ahora pongamos en acción estas dos propiedades para calcular la esperanza de la SRC:

E ( SRC ) = E [Tr ( µ ′M x µ )] = E [Tr ( M x µµ ′)] (3.53)

Aquí, en la última transformación hemos hecho uso de la propiedades de las permutaciones


cíclicas. Si hacemos el intercambio cambio de esperanza y traza y recordamos que la matriz Mx
contiene elementos fijos por lo que la esperanza se aplica a la expresión del términos de error,
obtenemos:

[ ]
Tr [E ( M x µµ ′)] = Tr [M x E ( µµ ′)] = Tr M xσ µ2 I n = σ µ2Tr [M x ] (3.54)

Estos resultados se obtienen a partir de la segunda propiedad del modelo presentada en el


capítulo I que supone que el error no presenta autocorrelación ni heterocedasticidad. Como la
varianza del error es una constante puede salir fuera de la traza. Ahora lo que nos queda analizar
es la traza de Mx:

[ ] [
Tr [M x ] = Tr I n − X ( X ′X ) −1 X ′ = Tr [I n ] − Tr X ( X ′X ) −1 X ′ ]
Tr [I n ] = n (3.55)
[ ] [ ]
Tr X ( X ′X ) X ′ = Tr ( X ′X ) X ′X = Tr [I k ] = k
−1 −1

Para estos resultados hemos hecho uso nuevamente de la propiedad de permutaciones


cíclicas y del hecho de que la traza de una matriz identidad de orden n es igual a n y la traza de
una matriz identidad de orden k es igual a k. Combinando todos los resultados obtenemos lo
siguiente:

E ( SRC ) = σ µ2 (n − k ) (3.56)

Si queremos obtener un estimador de la varianza que sea insesgado, la transformación obvia


que tendríamos que hacer a la expresión anterior es dividirla por (n-k). Por lo tanto el estimador
MCO de la varianza del error que se deriva de toda nuestra exposición sería el siguiente:

e′e
σˆ µ2 = (3.57)
n−k

Queda para el lector la comprobación de que este estimador es insesgado. La mayor parte de
los pasos a realizar ya se han hecho así que no deberá haber mucha dificultad en comprobar este
resultado. Algo que debemos notar es que para la obtención de este estimador no se ha utilizado
ningún criterio de optimización como puede ser la minimización de la suma de errores al

20
Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal
de esta matriz, siempre y cuando ésta sea cuadrada.

79
Econometría Moderna MCO: El Modelo Lineal General

cuadrado o la maximización de la probabilidad de ocurrencia de una muestra21 ni nada parecido.


El estimador ha sido construido de manera ad-hoc para cumplir con la propiedad de
insesgamiento. La razón para ello es que, como veremos más adelante, no existe ningún
estimador insesgado de la varianza del error que se pueda obtener a través de un criterio que
busque optimizar alguna expresión. Esto no quiere decir que no se pueda utilizar sino que habrá
que analizar sus propiedades asintóticas como ya fueron definidas anteriormente. El análisis de
este tipo de propiedades se verá más adelante en el capítulo 10 del presente libro.

En función a las resultados obtenidos podemos ahora definir algunas expresiones que serán
de mucha utilidad y que se utilizan bastante en el análisis que efectúan la mayoría de paquetes
econométricos. La primera de ellas es el error estándar de la regresión (standard error of
regresión) que no es otra cosa que la raíz cuadrada de la varianza estimada del error 8 es decir la
desviación estándar).

error estándar de la regresión = σˆ µ = σˆ µ2 (3.58)

Adicionalmente estamos en condición ahora de presentar la varianza estimada de los


parámetros estimados por MCO:

Var ( βˆ ) estimada = σˆ µ2 ( X ′′X ) −1 (3.59)

Esta expresión es la que se utilizará en todos los cálculos a realizarse por los paquetes
estadísticos especializados en la estimación de modelos econométricos.

3.12 A MANERA DE CONCLUSIÓN

En este capítulo hemos presentado el estimador MCO multivariado para el cual se han
utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades
del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto
porque los resultados aquí presentados –que son los fundamentos del estimador MCO y del
modelo lineal general- serán la base para entender la lógica y resultados de otro tipos de
modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalías del modelo
lineal general más adelante se hará uso de las propiedades y resultados presentados aquí. Es
importante entender la intuición y significado del estimador MCO porque los principios
estudiados hasta aquí marcan la pauta para lo que será analizado más adelante.

21
Como veremos más adelante, este último criterio es el que guía al estimador de máxima verosimilitud.

80
CAPITULO 4
INFERENCIA ESTADÍSTICA EN EL MODELO
LINEAL GENERAL

4.1. INTRODUCCIÓN

Hasta el momento hemos estudiado una de las formas más usadas de realizar la estimación
de un modelo lineal. El estimador adecuado para dichos casos es el de mínimos cuadrados
ordinarios del cual hemos mostrado todas sus propiedades, así como considerado todas sus
implicancias.

Sin embargo, todo modelo debe estimarse con algún propósito dado que si no fuera así la
modelación econométrica sería solamente un ejercicio estadístico que carecería de sentido y la
interpretación de los resultados se limitaría a la aplicación de reglas mecánicas que no dejan
ningún espacio para el raciocinio del investigador.

Lo anterior nos debe llevar a pensar en los propósitos de la investigación econométrica.


Hasta ahora sólo hemos mencionado tangencialmente los propósitos de la modelación
económica. Ya es hora de ponernos a pensar con mayor detenimiento la siguiente pregunta
¿para qué estimamos un modelo? En este capítulo intentaremos empezar a dar respuestas en
dicho sentido.

De esta manera, podemos iniciar la discusión de los usos de un modelo estableciendo los
principales propósitos de la modelación econométrica, los cuales pueden agruparse en tres
categorías:

1. Inferencia: Esto implica verificar si ciertas restricciones que imponen las diferentes
teorías económicas o nuestra intuición1 son válidas o no para la muestra que utilizamos

1
La cual se desarrolla paulatinamente a través de la observación y la experiencia acerca de un tema o fenómeno
económico.
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

en la estimación de nuestro modelo. Esto implica en la práctica verificar si dentro del


período muestral (en series de tiempo) o al interior de una muestra (si estamos en un
estudio de corte transversal) cierta hipótesis inicial se cumple o no. En este sentido el
análisis se limita a la muestra que nosotros tenemos. Por ello podemos decir que este tipo
de restricciones verifican la existencia de restricciones en el pasado (si hablamos de
series de tiempo) o para un grupo específico de individuos (en datos de corte transversal).
Es un análisis ex-post.

2. Predicción: Un modelo puede ser utilizado con el propósito de estimar el valor de la


variable dependiente más allá de la muestra. Por ejemplo, si hemos estimado la demanda
de un producto para el período 1940-1999 quizás nos interese conocer cuál será el nivel
de la demanda en el año 2000 y más allá. Ello nos permitirá realizar una mejor
planificación de las acciones a tomar como empresa si es que nuestro principal giro es
producir precisamente dicho producto. De la misma manera, el Estado o los hacedores de
política pueden estar interesados en hacer proyecciones macroeconómicas que por
ejemplo se usan para la planificación de las acciones de política económica a las cuales
se pueden comprometer esta autoridades en la firma de una carta de intención con el FMI
o en la elaboración del presupuesto general de la República.

Debe aclararse que el realizar el ejercicio de predicción implica suponer que las
condiciones subyacentes en la economía en general o en el mercado en particular
permanecerán inalterables cuando salgamos fuera de la muestra. Podemos utilizar nuestro
ejemplo anterior para ilustrar esta idea: si la predicción que queremos realizar
corresponde al año 2000, lo que vamos a suponer es que nuestro modelo es válido para
dicho año, lo que en la práctica implica suponer que las condiciones que prevalecieron
para el periodo muestral considerado en la etapa de estimación se mantendrán en el
futuro. Entonces el ejercicio de pronóstico significa hacer una predicción suponiendo que
las condiciones estructurales se mantienen constantes.

3. Simulación de Políticas: Esta categoría implica un uso mucho más atrevido del modelo
que en los demás casos. El ejercicio de simulación consiste en realizar predicciones
futuras de nuestra variable dependiente permitiendo que los factores estructurales2
varíen. Así bajo esta categoría se podría responder a la pregunta ¿Qué pasaría con el
producto bruto interno en el Perú si pasamos a un régimen mucho más intervencionista
que el actual? Obviamente un cambio en las condiciones estructurales afectará el
comportamiento de los agentes económicos y, por tanto, la respuesta de éstos variará. Si
hacemos un ejercicio de simulación de políticas debemos tener un elevado grado de
certidumbre con respecto a la idoneidad de nuestro modelo para tal fin. La crítica de
Lucas3 precisamente cuestiona el uso indiscriminado que se le daba a los modelos
macroeconométricos estimados a fines de la década del 60 y principios de los 70 para
este fin.

Cada uno de los usos mencionado implica ciertas condiciones sobre las variables que
intervienen en nuestro modelo que estudiaremos más adelante. Por ahora nos centraremos en el
primer uso de nuestro modelo que es el de la inferencia. Desarrollaremos las técnicas y
metodologías existentes para la realización de pruebas de inferencia estadística.

4.2. PRINCIPIOS DE LA INFERENCIA

2
También podemos utilizar la expresión factores subyacentes de la economía o régimen imperante.
3
Lucas, Robert E. (1977) “Econometric Policy Evaluation: A Critique” reimpreso en Lucas (1980) Studies in
Business-Cycle Theory, MIT Press.

82
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

En general, lo que se busca con la inferencia estadística es obtener un estadístico muestral


que nos permita responder, con cierto grado de certeza, si ciertas restricciones que impone una
teoría son respaldadas por los datos de una muestra en particular. En general, las restricciones
que se plantean están referidas a la población o el proceso generador de datos. Si los datos son
generados por dicha población, a partir de ellos podemos analizar si cumplen o no con las
características planteadas. Es decir, del análisis de los datos muestrales intentamos inferir si la
población presenta las características que nosotros planteamos a partir de nuestras hipótesis.
Entonces podemos decir que nosotros sospechamos que ciertos datos (nuestra muestra) son
consistentes con determinada teoría económica (que impone ciertas restricciones sobre la
población) y para ello necesitamos realizar pruebas a fin de contrastar la hipótesis que se
plantea. En ello se basa el conocimiento científico: plantear hipótesis que pueden ser refutadas
empíricamente a través de la experimentación. Si no hubiera forma de someter a prueba las
diferentes hipótesis estaríamos en el terreno de los dogmas y ello está más relacionado con la
fe4.

Varios ejemplos pueden ilustrar las ideas que estamos esbozando:

En primer lugar podemos pensar en que un investigador está estudiando cuáles son los
determinantes del consumo y para ello plantea la siguiente ecuación:

p
C t = β 0 + β1Yt + β 2 Yt + β 3 rt + β 4 Wt + µ t

donde:
Yt = Ingreso Corriente
Ypt = Ingreso Permanente
rt = Tasa de interés real
Wt = Riqueza

Según el modelo que piensa estimar el investigador se están incluyendo una serie de factores
que responden a diversas teorías que se han esbozado sobre el consumo. El investigador lo que
busca es identificar para el caso de la muestra que analiza (por ejemplo data peruana de 1940 a
1999) los principales determinantes de la variable económica mencionada. Sin embargo, ¿cómo
en la práctica puede discernir entre una teoría y la otra? Supongamos que piensa preguntar si
las teorías del ingreso permanente y del ciclo de vida son relevantes para el caso peruano. Para
ello necesita plantear alguna hipótesis que se puede comprobar sobre la base del modelo.

Como ya hemos mencionado, es relevante mencionar que una teoría implica imponer ciertas
restricciones sobre los datos. Nosotros podemos observar, por ejemplo, que la correlación entre
la cantidad saldos reales y el producto es positiva. Sin embargo, sabemos que dicha correlación
no implica ninguna causalidad. Por ello, algún teórico planteará ciertas relaciones entre las
variables y propondrá dicho esquema como una explicación convincente de lo que ocurre en la
realidad. Este esquema resumido en ciertas ecuaciones matemáticas será la teoría propuesta y
deberá comprobarse empíricamente su relevancia o no. Las pruebas de hipótesis no nacen de la
nada sino que son inspiradas por alguna teoría. El arte de la modelación está en plantear un
modelo que nos permita verificar en forma de restricciones (expresadas en hipótesis) las
explicaciones que propone alguna teoría. En este sentido se ve claramente que la economía guía
a la medición económica, de lo contrario sería un mero ejercicio estadístico que carecería de
sentido.

4
De hecho la base de todas las religiones es el dogma en donde lo que predomina es la fe. Los creyentes no piden
pruebas sino que han decidido creer, basado no en pruebas contrastables sino en otros elementos más espirituales.

83
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

En función de lo expresado en el párrafo anterior, el camino más utilizado para la


modelación econométrica consiste en el planteamiento de alguna hipótesis que se quiere
refutar. Este tipo de hipótesis recibe el nombre de hipótesis nula. En el caso de nuestro modelo
la hipótesis nula sería la siguiente:

H o : β2 = 0
H1 : β 2 ≠ 0

En este caso lo que estamos planteando es que el ingreso permanente no es un factor


determinante del consumo para el Perú durante el periodo 1940 – 1999 dado que el parámetro
que lo multiplica es igual a cero. Por tanto, lo que vamos a poder comprobar a través de la
inferencia es la validez de esta restricción, lo cual implicaría la eliminación de esta variable de
la ecuación.

La pregunta ahora es la siguiente ¿cómo vamos a comprobar esta hipótesis? Para ello
necesitamos aclarar un poco más qué implica la hipótesis planteada. En todo ejercicio de
inferencia estadística debemos tomar en cuenta cierta distribución de probabilidad conocida
para identificar si, en términos de esta distribución, la probabilidad de que se cumpla la
hipótesis nula es alta o no. Por tanto, debemos hacer ciertos supuestos de cómo se distribuyen
las variables consideradas. Entonces la hipótesis nula o planteada implica preguntar si el valor
del parámetro estimado proviene de una función de distribución probabilística centrada en el
valor que se plantea en la hipótesis nula.

El gráfico que se presenta a continuación nos da una idea de la metodología de


comprobación de una hipótesis. El planteamiento de la Ho mencionada arriba implica plantear
una función de distribución de probabilidad cuya media sería cero. Ello implica que si
pudiéramos repetir el proceso de estimación con diferentes muestras aleatorias generadas a
partir de la misma distribución el promedio de los parámetros estimados para cada muestra es
cero. De ninguna manera implica necesariamente que cada estimado sea igual a cero. Por lo
tanto, se va a buscar comprobar a través de la prueba de hipótesis si la diferencia observada
entre el estimado y la media supuesta de la distribución (Ho) se debe a factores meramente
aleatorios o a factores estructurales. Si el caso fuera el primero de los mencionados entonces no
se puede rechazar la hipótesis nula5. Si fuera el segundo caso, no podríamos aceptar la Ho6.

Sin embargo, ¿Cómo en la práctica respondemos la pregunta formulada o, en términos más


precisos, qué criterio utilizamos para decir que no rechazamos o aceptamos una hipótesis nula?

5
Lo que comúnmente mencionamos como aceptar la hipótesis.
6
Esto lo conocemos también como rechazo de la hipótesis nula o planteada.

84
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Aquí es donde cobra importancia el supuesto que hacemos con respecto a la función de
distribución válida. En términos del gráfico que presentamos, podemos esperar que una
diferencia aceptable entre el valor estimado y el valor que se plantea en la hipótesis nula sea de
2 desviaciones estándar. De hecho en muchas funciones de distribución en el rango µ ± 2σ se
encuentra el 95% de las observaciones7. Si la diferencia fuera mayor a dicha cifra entonces
diríamos que la probabilidad de que se cumpla la nula es muy baja y por tanto no podríamos
aceptar la Ho.

A estas alturas deben preguntarse por qué se habla de no poder rechazar o aceptar las
hipótesis en vez de afirmar tajantemente si acepto o rechazo. Esto se debe a que la conclusión a
la que llegamos no es una afirmación sobre la cual se tenga certeza absoluta. Es un criterio
arbitrario el que se ha usado para establecer el límite entre dos zonas (una llamada de
aceptación y otra de rechazo). Pero ¿Qué pasa si en verdad el parámetro proviene de una
distribución centrada en el valor que plantea la hipótesis nula pero la diferencia grande se debe
a la presencia de un shock o factor aleatorio muy fuerte? La respuesta es que seguramente se
rechazaría (siguiendo el criterio establecido) la hipótesis nula pero en verdad sería cierta.

Este tipo de problema que surge con la inferencia recibe el nombre de Error Tipo I. Esto es,
la probabilidad de que rechacemos una hipótesis que es cierta. En la metodología convencional,
el usuario escoge el nivel de Error Tipo I que más le acomode. El nivel que suele escogerse
generalmente es de un 5%. Esto es lo que se llama el nivel de significación estadística (o el α).

En cada prueba también se verifica la existencia de un Error Tipo II. Este error mide la
probabilidad que se acepte una hipótesis que es falsa8. Como vemos, la presencia de estos dos
tipos de errores indican que al aplicar la prueba no tenemos la absoluta certeza de nuestras
conclusiones sino que lo que buscamos es tratar de obtener un resultado con la mayor
probabilidad de que sea cierto. Una buena prueba es aquella que tiene el mayor poder, donde
poder se define como la probabilidad de rechazar correctamente una hipótesis falsa (en
términos de probabilidades, la mayor proporción 1 - β). Por ello, una prueba más poderosa será
aquella que para el mismo nivel de significación estadística tiene el mayor poder.
Generalmente, cuando se propone una prueba, su uso se justifica en la medida que sea más
poderosa que otras.

Estos conceptos pueden ser esquematizados en el siguiente cuadro:

Situación real de Decisión utilizando la información muestral


la población Acepto Ho Rechazo Ho

Ho cierta No hay error Error Tipo I


Prob()= 1-α Prob(Error Tipo I) = α

Ho falsa Error Tipo II No hay error


Prob(Error Tipo II) = β Prob()=1-β

Si todo lo anterior suena un poco complicado, el ejemplo del sistema judicial puede
ayudarnos. En todo juicio se parte de una premisa. Esta consiste en suponer que el acusado es
inocente y el trabajo del fiscal es demostrar a través de la presentación de pruebas contundentes

7
En otros términos ello implica que debajo de ese rango se concentra el 95% del área por debajo de la curva de
distribución.
8
Esta probabilidad tiene como símbolo la letra β generalmente.

85
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

que la premisa de la cual se parte es falsa. La premisa de la que se habla sería la hipótesis nula
o planteada. El juicio en sí sería todo el proceso de la realización de la prueba.

Si el fiscal no logra presentar pruebas suficientes usualmente se dice que el acusado no es


culpable, no se afirma que sea inocente. Ello porque si las pruebas no fueron suficientes para
demostrar su culpabilidad no quiere decir que la persona sea inocente. En la práctica se tiene
muchos asesinos que no pueden ser sentenciados porque no se comprobó su culpabilidad.

Los problemas con este tipo de sistema es que algunos acusados pueden ser declarados
culpables cuando son inocentes (Error Tipo I) y otros pueden ser declarados inocentes cuando
en verdad son culpables (Error Tipo II). En todo caso, de la discusión anterior se desprende que
el sistema judicial está diseñado para que se minimice la probabilidad que un inocente sea
declarado culpable. Como sabemos esto se mide por la probabilidad del Error Tipo I. Entonces
debe quedar claro que el α lo escoge la sociedad y vendría a representar la valla que debe
superar el fiscal para comprobar que el acusado es culpable. De la misma manera, al realizar
una prueba el usuario escoge el nivel de significancia con lo que está decidiendo cuál debe ser
el grado de evidencia en contra que debe presentarse a fin de no aceptar la hipótesis de la cual
se parte.

Una cuestión adicional que debe notarse es que la no aceptación de la hipótesis nula o
planteada no significa que se esté aceptando lo contrario. Lo único que se puede discutir es la
relevancia de la hipótesis planteada o nula. Por ello, las pruebas deben interpretarse como qué
tan relevante es la restricción que se está planteando en la hipótesis nula dada la evidencia que
se maneja, la cual está representada por la muestra (los datos) que se utiliza.

Por otro lado, si cierta restricción planteada por alguna teoría no es aceptada no quiere decir
que la teoría esté errada. Lo único que se podría afirmar es que para la muestra que nosotros se
tiene los datos no son consistentes con dicha teoría. Para rechazar una teoría tenemos que
acumular mucha evidencia en contra. Ello implica realizar el ejercicio estadístico de la
estimación de un modelo para distintas muestras, por ejemplo en otros periodos y para otros
países.

Si se acumulara mucha evidencia en contra, recién se podría empezar a sospechar de la


idoneidad de la teoría planteada y, por tanto, surgiría la necesidad de la proposición de una
teoría alternativa la cual luego debería ser contrastada empíricamente con los datos de distintos
países y/o muestras. De esta manera va avanzando el proceso de conocimiento económico.

4.3. LA METODOLOGÍA DE LAS PRUEBAS DE HIPÓTESIS

Como ya hemos mencionado, para realizar la inferencia estadística se debe partir de suponer
una función de distribución probabilística conocida. En este caso supondremos que los errores
se distribuyen de la siguiente manera:

e ~ N (0, σ µ2 ) (4.1)

Esta expresión debe leerse como “e se distribuye como una normal con media 0 y varianza
σ µ2 ”9. Dado que los errores se distribuyen de esta manera, ello implica que la variable
dependiente también sigue una distribución normal. Se deja como ejercicio determinar qué tipo
de media y varianza tendrá esta distribución.
9
Debe notarse que sólo se está describiendo a la función por sus dos primeros momentos. En el caso de una
distribución normal sólo es necesario ello dado que presenta ciertas propiedades dadas para los momentos superiores.

86
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Como sabemos, nuestro estimador es: βˆ = (X ′X) −1 X ′Y . Esta expresión implica que existe
una relación entre el estimador y la variable dependiente. Como ya se ha visto en secciones
anteriores, el estimador es una función de los datos y, en especial, es una función lineal de la
variable dependiente. Por tanto, podemos concluir que nuestro estimador es también una
variable aleatoria.

Un elemento que puede ayudar a aclarar el punto que está detrás de la conclusión anterior
es el siguiente: la muestra que tenemos es aleatoria. La variable dependiente es la suma de dos
componentes: el componente determinístico que está representado por la combinación lineal de
las variables independientes (las cuales consideramos fijas) más un término de error que es
aleatorio. Lo anterior implica que los valores que tome la variable dependiente estarán en
función de los valores que tomen los errores. Si se tomara otra muestra, los valores de las X
seguirían siendo los mismos (por ello el supuesto de que las X son fijas) pero los valores de los
errores podrían cambiar (dado que son variables aleatorias) dando como resultado valores de la
variable dependiente ligeramente distintos a los de la primera muestra. El suponer que la media
de los errores es cero implica de cierto modo que los nuevos valores muestrales no serán muy
distintos de los de otra muestra. Por tanto, si los valores de Y pueden variar ligeramente en
muestras distintas, el estimado obtenido a partir de cada muestra será distinto a los de otras
muestras.

Así, si la muestra es aleatoria, ello implica que para cada muestra (que será ligeramente
distinta a otras), tendremos un estimado distinto. Por ello se dice que el estimador es una
variable aleatoria dado que para cada valor de muestra específico tendremos un valor distinto
del parámetro. Al plantear una hipótesis nula lo que estamos diciendo es que si se repitiera el
proceso de estimación con distintas muestras un gran número de veces, el promedio de los
estimados sería igual al valor planteado en la hipótesis. Esto nos indica, de hecho, que el
estimado obtenido en una muestra particular no tiene que ser igual al valor planteado en la
hipótesis que se quiere analizar en un sentido estricto sino en un sentido probabilístico.

En vista de lo explicado anteriormente podemos decir que nuestro estimador de MCO se


distribuirá de la siguiente forma:

(
β̂ ~ N k β , σ µ2 ( X ′X ) −1 ) (4.2)

El resultado anterior se deriva del supuesto inicial de los errores. Además, se ha demostrado
que el parámetro es insesgado y se ha hallado la varianza del mismo.

Por otro lado, ya hemos comprobado que el término de error estimado es una transformación
lineal del error teórico o poblacional según la siguiente expresión:

!
[ ]
e = Y - Xβ = I n − X (X ′X ) −1 X ′ µ = Mµ (4.3)

Donde M es una matriz simétrica e idempotente conocida como la matriz de proyección


ortogonal de la variable dependiente sobre el espacio donde están definidos los errores y que
fue ya presentada en el Capítulo 3. Los elementos descritos hasta el momento serán útiles para
construir la expresión que permita evaluar empíricamente las diversas hipótesis planteadas.

Lo que queremos analizar es cuán lejos está nuestro estimado del valor que proponemos
como cierto en nuestra hipótesis nula. Como ya se ha mencionado, si la diferencia es pequeña
podremos interpretar nuestros resultados como que el valor estimado proviene de una
distribución que está centrada en el valor propuesto en la hipótesis planteada. Si la diferencia es

87
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

grande se tendrá algún grado de certeza (no absoluta) de que dicho valor proviene de una
distribución distinta.

Por tanto, la expresión a analizar será la siguiente:

(βˆ − β) (4.4)

en este caso β estará representado por el valor propuesto en la hipótesis nula. Esta expresión no
pierde sus propiedades si es que se multiplica por la matriz X que contiene las observaciones de
nuestras variables independientes:

X(βˆ − β)

Ahora se verá la conveniencia de plantear en estos términos la diferencia que se quiere


analizar.

Se sabe que:

X (βˆ − β) = (Y − Mµ) − Xβ = µ − Mµ = Pµ
(4.5)
P = X (X ′X ) −1 X ′

P es la matriz de proyección ortogonal de la variable dependiente en el espacio definido por


las variables independientes que ya fue presentada en el Capítulo 3. Como se sabe es una matriz
simétrica e idempotente de dimensión N x N.

La conveniencia de plantear de esta forma la expresión a analizar radica en las siguientes


propiedades que se presenta a continuación:

En una matriz simétrica e idempotente, su rango es igual a su traza:

En este caso:

[ ] [ ]
Rango (P) = Tr (P) = Tr X (X ′X ) −1 X ′ = Tr (X ′X ) −1 X ′X = Tr (I k ) = k (4.6)

Por otro lado, ya comprobamos en el Capítulo 3 que la traza de M es igual a (n-k)

Si x ~ N(0, σ 2x I n ) entonces:

x ′Ax
~ χ 2 ( m) (4.7)
σ 2x

lo cual quiere decir que la expresión definida en esta expresión se distribuye como una variable
chi-cuadrado con m grados de libertad. Donde m es el rango de la matriz A si es que esta es
simétrica e idempotente.

Si se toma en cuenta estas propiedades, se podrá plantear la siguiente expresión:

1 1
(βˆ − β)′X ′X (βˆ − β) = µ′Pµ (4.8)
σ µ2 σ µ2

88
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

esta expresión se distribuirá como una chi cuadrado con k grados de libertad. Ello se desprende
del hecho que cumple con los requisitos planteados en las propiedades mencionadas
anteriormente.

Adicionalmente se define la siguiente expresión:

σˆ µ2 1 1
(n − k ) = e ′e = µ ′Mµ (4.9)
σ µ2 σ µ2 σ µ2

la cual también cumple con las condiciones establecidas anteriormente, por lo que se distribuye
según una chi-cuadrado con n-k grados de libertad.

La razón por la cual se define estas dos expresiones es que si se utiliza la primera de ellas
para realizar la inferencia estadística afrontamos un problema: todas las expresiones son
conocidas a excepción de σ µ2 . Para eliminar dicha dificultad se debe buscar una forma de
eliminar esta expresión. Aquí es donde se encuentra la utilidad de la segunda expresión
definida. Nótese que si se divide la primera por la segunda, se elimina σ µ2 y se obtiene una
expresión en función de puras magnitudes conocidas.

Como se sabe, la división de dos variables chi-cuadrado divididas cada una por sus grados
de libertad da una variable que se distribuye como una F de Fisher. Sin embargo, para poder
estar seguros que la expresión resultante se distribuye como una F primero se debe demostrar
que ambas expresiones son independientes entre sí.

Para tal fin planteamos la siguiente proposición:

PROPOSICIÓN 4.1: Los estimadores MCO de β y σ µ2 son independientes entre sí.


Para realizar la demostración de esta proposición se debe mencionar la siguiente propiedad:

Supongamos que:

x ~ N (0, σ µ2 I n )

x ′Ax es una forma cuadrática en la que A es una matriz cuadrada simétrica e idempotente de
orden n.

Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las x. L es


de orden m x n y no necesita ser ni cuadrada ni simétrica.

Si las covarianzas entre las variables de Ax y Lx son cero, esto supondrá que:

E{Axx ′L ′} = σ 2 AL ′ = 0 (4.10)

o de forma equivalente LA = 0

Utilizando esta propiedad se debe buscar equivalentes en términos de las expresiones


planteadas anteriormente de tal forma que se pueda aplicar la propiedad descrita.

Para tal fin debemos recordar la expresión:

89
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

(βˆ − β) = (X ′X) −1 X ′µ

en esta expresión µ vendría a representar el x y (X ′X) −1 X ′ sería el equivalente del L.

Por otro lado, se tiene la expresión de los errores mínimos cuadráticos que se sabe son una
transformación lineal del verdadero término de error:

e = Mµ

en este caso M juega el papel de la matriz A. A partir de esta expresión se obtiene la suma de
errores al cuadrado e ′e = µ ′Mµ que es una forma cuadrática que cumple con las condiciones
requeridas. Entonces para poder aplicar el resultado anterior se debe demostrar que los
equivalentes de A y L son ortogonales entre sí (recordar LA = 0). Utilizando los términos
definidos anteriormente, planteamos la siguiente expresión, la cual será igual a cero:

(X ′X ) −1 X ′M = 0 (4.11)

Esto se desprende del hecho que X y la matriz de proyección ortogonal M son ortogonales
entre sí. El resultado presentado indica que ambas expresiones son independientes entre sí. Si
se analiza las expresiones, vemos que (βˆ − β) incluye el estimador mínimo cuadrático de los
parámetros y en la expresión e ′e , dicha magnitud se utiliza para la estimación de la varianza de
los errores. Por lo tanto los estimadores MCO de β y σ µ2 son independientes entre sí. LQQD.

Una vez demostrada la independencia entre ambas expresiones se puede construir el


estadístico F de la siguiente forma:

(βˆ − β) ′X ′X (βˆ − β)
µ ′Pµ (βˆ − β) ′X ′X (βˆ − β)
k = σ µ2 k k
= ~ F(k, n-k) (4.12)
µ ′Mµ (n − k )σˆ µ2 e ′e
n−k (n − k )
σ µ2 (n − k )

Como se ve en la última expresión se han eliminado aquellos elementos desconocidos y se


plantea todo en términos de magnitudes conocidas o que se pueden obtener a partir del proceso
de estimación. Los grados de libertad son k para el numerador y n-k para el denominador.

Con este procedimiento se puede ilustrar cuál era la motivación de la creación de la prueba
F. Usualmente las pruebas originales estaban basadas en la distribución normal y su
transformación chi-cuadrado. Sin embargo, estas pruebas incluyen magnitudes desconocidas.
La búsqueda de expresiones que estuvieran en función de magnitudes estimables a partir de la
muestra con que se cuenta llevó al planteamiento de distribuciones como la F de Fisher y la t de
Student, las cuales se derivan de una distribución normal tal como sabemos.

Una forma más compacta de las magnitudes anteriores viene dada por la siguiente
expresión:

[
(βˆ − β)′ σˆ µ2 (X ′X ) −1 ]
−1
(βˆ − β) / k ~ F(k, n-k) (4.13)

90
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

donde lo que se ha hecho es incluir la varianza estimada del error dentro del corchete. Esta
expresión contiene toda la intuición que se necesita para entender lo que está detrás de un
ejercicio de inferencia estadística. Como vemos, la expresión (βˆ − β) mide la diferencia
existente entre el estimado de mínimos cuadrados ordinarios y el valor que se plantea en la
hipótesis nula. Esta diferencia en términos absolutos no indica mucho dado que debe ser
evaluada en términos de la varianza del parámetro que es justamente la expresión que está entre
corchetes. Así, si la diferencia es pequeña en términos de la varianza quiere decir que en
términos relativos podemos pensar que los estimados provienen de una distribución que está
centrada en el valor que se propone en la hipótesis nula o planteada. Por el contrario si la
diferencia relativa es considerable se puede concluir (nunca con certeza absoluta) que los
parámetros obtenidos provienen de una distribución diferente.

Es importante señalar aquí el papel que juega la varianza de los errores o el grado de
dispersión de las X. Ya en los capítulos precedentes se mencionó el rol que desempeñan ambos
en la varianza de los parámetros. Así, si la varianza calculada de los estimados es elevada, ello
implica que el grado de precisión de los mismos es bajo. Ello llevará a que cualquier diferencia
absoluta del numerador sea pequeña en términos relativos si la varianza es elevada.

Un ejemplo puede ayudar a entender el punto. Si se plantea una demanda de dinero según el
enfoque de Cambridge y se supone que la relación es lineal, se puede llegar a la siguiente
expresión:

ln m = βˆ 1 + βˆ 2 ln Y + βˆ 3 ln r + e (4.14)

supongamos que existen dos investigadores que utilizan distintas muestras para estimar esta
demanda para el Perú y los estimados que obtienen cada uno son los siguientes:

Investigador A Investigador B
β̂1 0.44 0.67

β̂ 2 0.96 -0.15

β̂ 3 -0.34 0.65

Por otro lado, tenemos que la matriz de varianzas y covarianzas de los estimadores en cada
caso tienen los siguientes componentes:

35 45 36  65 56 76


(X ′X ) −1A = 45 65 57  (X ′X ) −1B = 56 84 65
36 57 64 76 65 72

σˆ µ2 = 2.5 σˆ µ2 = 3.6
A B

Nótese que según estos datos, la varianza de la elasticidad del ingreso en ambos casos es
162.5 (65x2.5) y 302.4 (84x3.6) la cual es muy alta si se considera los valores calculados en
cada caso (0.96 y –0.15 respectivamente). Si se plantea la siguiente hipótesis:

 β1  0
Ho: β 2  = 0
β 3  0

91
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

H1: al menos uno es distinto de cero

y se realiza el cálculo correspondiente se verá que no se puede rechazar la hipótesis nula (el
cálculo se deja al lector) en ninguno de los dos casos. Por otro lado si se plantea la siguiente
hipótesis:

 β1   0.5 
Ho: β 2  =  1 
β 3  − 0.5
H1: al menos una de las anteriores no se cumple

La cual tiene un planteamiento más realista se verá que tampoco se puede rechazar esta
hipótesis en ninguno de los dos casos. Así, cada investigador podrá comprobar que sus
resultados estén correctos. Sin embargo, los resultados indicarían que casi cualquier valor
planteado no podría ser rechazado lo cual no da mucha seguridad con respecto al ejercicio de
inferencia. La raíz del problema radica en la amplia varianza de los resultados en cada caso.
Dado el tamaño de esta vemos que casi cualquier valor plausible según distintas teorías no
podría ser rechazado. De esta manera, los resultados son pobres y no conducirían a ninguna
conclusión con respecto a las distintas teorías alternativas que se estarían verificando. Por ello
es importante obtener estimadores eficientes a fin de poder realizar buenos ejercicios de
inferencia estadística. Con una varianza muy grande el ejercicio carece de utilidad.

A manera de resumen se puede decir que la expresión (4.13) será la que marque la pauta
para todas las pruebas que se plantearán más adelante. La discusión anterior solamente ha
intentado aclarar la intuición detrás de la realización de un ejercicio de inferencia estadística.

Los pasos para realizar una prueba son los siguientes:

1. La estimación del modelo lineal a través del algoritmo de mínimos cuadrados ordinarios
nos provee de estimados relativos a la muestra con que contamos. Estos estimados
reemplazan a β̂ en la expresión planteada.

2. El β será reemplazado por los valores supuestos como ciertos que se establecen al plantear
la hipótesis nula.

3. (X ′X) −1 se reemplaza por su equivalente muestral.

4. σˆ µ2 se obtiene a partir de la estimación del modelo tomando los errores, elevándolos al


cuadrado, sumándolos y dividiéndolos entre (n-k).

5. El valor calculado se compara contra el valor F de tabla con k grados de libertad en el


numerado y n-k en el denominador.

Los criterios que se seguirán para analizar los resultados son los siguientes:

Si Fcalc < Ftabla (k, n-k) no se puede rechazar Ho


Si Fcalc > Ftabla (k, n-k) no se puede aceptar Ho

92
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

El nivel de significación estadística (el α ) lo escoge el usuario, aunque lo usual es escoger


un nivel de 5% ( α = 0.05). Se recuerda que esta es la probabilidad de error tipo I que se está
dispuestos a aceptar.

Debe quedar claro que si la restricción que se está analizando no puede ser rechazada ello
quiere decir que debe ser incorporada al modelo.

4.4. PRUEBAS ESPECÍFICAS DE INFERENCIA ESTADÍSTICA

Luego de analizar los principios que están detrás de la realización de un ejercicio de


inferencia estadística es muy útil revisar el planteamiento de las pruebas más utilizadas en el
análisis empírico cotidiano. Cada una de ellas tiene características y objetivos distintos y se
debe estar atentos a la idoneidad de cada una de ellas ante situaciones particulares.

4.4.1 Prueba de hipótesis para un sólo parámetro

Esta es la prueba más utilizada en el análisis econométrico empírico. Implica el análisis de


alguna restricción planteada para un sólo parámetro. La hipótesis planteada se puede establecer
de la siguiente manera:

Ho : β i = β i0
H1 : β i ≠ β i0

donde β i0 es una constante.

El primer paso para poder hallar una expresión que permita analizar esta hipótesis es
conocer la función de distribución de la variable aleatoria a analizar. En este caso, la variable
aleatoria es el estimador del parámetro individual i.

Nosotros sabemos que:

β̂ ~ N k (β, σ µ2 (X ′X) −1 ) (4.15)

lo cual muestra la distribución con respecto al estimador de todo el vector de parámetros. Sin
embargo, interesa conocer la distribución del estimador del parámetro i. Esta se puede obtener
fácilmente a partir de (4.15):

β̂ i ~ N (β i , σ µ2 a ii )

Si todo el vector se distribuye según una distribución normal es de esperarse que cada uno
de sus elementos también lo haga. La media será el verdadero valor dado que sabemos que el
estimador MCO es insesgado. a ii es el elemento i-ésimo de (X ′X ) −1 el cual corresponde a la
varianza del estimador de βi .

Si se quiere construir una expresión que sea comparable con una distribución conocida lo
mejor en este caso será estandarizar las observaciones (esto es, restarle la media y dividirla
entre su desviación estándar):

93
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

(βˆ i − β i0 )
~ N(0,1) (4.16)
σ µ a ii

Esta expresión se distribuye como una normal estandarizada (lo que implica que tiene una
media de cero y una varianza igual a uno). Debe notarse que la media que se está restando es
justamente el valor propuesto en la hipótesis nula lo que refleja el supuesto que se realiza en
todo ejercicio de inferencia: se parte suponiendo que la hipótesis nula es cierta y sobre la base
de ello se construye el estadístico a utilizar.

Como en el caso de nuestra prueba general, surge el problema que σ µ es desconocido y por
lo tanto, no se puede realizar el ejercicio de inferencia estadística con la información muestral
de la cual disponemos. La solución a esta dificultad pasa por intentar eliminar este término
desconocido a través de una transformación que permita obtener una expresión la cual tenga
una distribución conocida.

Esto lo podemos lograr dividiendo la expresión anterior por la expresión que ya hemos
utilizado anteriormente para obtener la prueba F:

(n − k )σˆ µ2
σ µ2

Como sabemos esta expresión se distribuye como una chi-cuadrado con (n-k) grados de
libertad. La ventaja de esta magnitud reside –como en el caso general- en que la división de una
distribución normal estándar entre la raíz de una chi-cuadrado dividida por sus grados de
libertad es una distribución t de student:

βˆ i − β i0
σ µ a ii βˆ i − β i0
= ~ t (n − k ) (4.17)
(n − k )σˆ µ2 σˆ µ a ii

σ µ2 (n − k )

La nueva expresión obtenida está en términos de magnitudes observables. Si se analiza en


detalle en el numerador se tendrá la diferencia entre el valor estimado y el valor que se supone
es la media de la distribución. En el denominador se tiene la desviación estándar estimada del
estimador. Nuevamente se cumple el principio de que el análisis de la diferencia que se
presenta en el numerador debe hacerse en términos de la dispersión del mismo.

Esta prueba es una de las más utilizadas por todos los paquetes econométricos. La hipótesis
que se quiere analizar es que los distintos parámetros son iguales a cero ( β i0 = 0 ). Con ello se
estaría comprobando si los parámetros de cada una de las variables independientes son en
términos probabilísticos iguales a cero. De no poderse rechazar estas hipótesis la conclusión es
que aquellas variables asociadas a cada uno de los parámetros deberían eliminarse del modelo.

4.4.2 Prueba para Restricciones Generales (Rβ − r )

Las pruebas que se han analizado hasta el momento implican restricciones relativamente
sencillas. En la mayoría de los casos, las hipótesis se han referido a ciertos valores para cada

94
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

uno de los parámetros a estimar. Sin embargo, las restricciones que puede imponer la teoría
económica pueden ser en la práctica más complicadas que las consideradas hasta ahora.

Un ejemplo de ello se puede observar en la formulación de una función de demanda para


cualquier producto. Como sabemos, la teoría económica plantea que la cantidad demandada de
un bien está en función de tres argumentos: el precio relativo (Px) del bien en cuestión, el
ingreso (I) y el precio de los bienes relacionados (Py). Dados los valores de estos tres
argumentos, el consumidor decide qué cantidad consumir de dicho bien. En términos
estadísticos podemos plantear el siguiente modelo:

LnX d = βˆ 1 + βˆ 2 LnPx + βˆ 3 LnI + βˆ 4 LnPy + e (4.18)

La ventaja de plantear el modelo en términos del logaritmo de las variables10 es que nos
permite calcular directamente las elasticidades de la demanda y hace el supuesto de que éstas
son constantes.

Como sabemos para que una demanda sea consistente con los principios de la teoría del
consumidor debe cumplir con una serie de propiedades. La homogeneidad de grado cero es una
de ellas. Como deben recordar, esta propiedad implica que si los precios y el ingreso cambian
en la misma proporción, no habrá ningún cambio en la elección que realice el consumidor.

En términos de nuestro modelo esta restricción se puede plantear de la siguiente manera:

β 2 + β3 + β 4 = 0

Lo cual en términos teóricos ello implica que la suma de las elasticidades debe ser igual a
cero.

Según lo que sabemos hasta el momento no es posible plantear una prueba que nos permita
verificar este tipo de restricciones.

Para tal efecto, se realizará un planteamiento general que permita la suficiente flexibilidad
como para verificar cualquier restricción que implique una combinación lineal de los
parámetros estimados.

Supongamos que para nuestro modelo (4.18), se plantean las siguientes hipótesis nulas:

H 0 : β 2 + β3 + β 4 = 0
β2 = β4
β 3 = β1
H1 : Al menos una no se cumple

Estas tres hipótesis pueden plantearse por alguna teoría en particular. La primera restricción
indica la propiedad de homogeneidad de grado cero ya mencionada. La segunda indica que la
elasticidad precio y la cruzada son iguales. Como sabemos, la elasticidad precio es casi siempre
negativa, si la elasticidad cruzada tiene el mismo valor y signo, entonces el bien relacionado
será un complementario. Por último, la tercera restricción indica que el valor de la elasticidad
ingreso es igual a la demanda autónoma. Suponemos que la teoría que está detrás de esta
demanda es la misma por lo que la validez de la misma implica que las tres restricciones se

10
En términos de la jerga econométrica este modelo se conoce como un modelo doble logarítmico

95
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

cumplen a la vez. El rechazo de cualquiera de ellas implica que la teoría no sería válida en el
contexto de nuestra muestra.

En términos matriciales estas restricciones se pueden plantear de la siguiente forma:

 β1 
0 1 1 1    0
0 1 0 − 1 β 2  = 0
  β   
1 0 − 1 0   3  0
β 4 
R β = r

La primera matriz, R, es la que resume las restricciones planteadas. Nótese que el número de
filas de R corresponde al número de restricciones. El vector β corresponde a todos los
parámetros estimados. Por último el vector r resume las constantes a las que son iguales las
restricciones. En este caso particular los tres valores son iguales a cero pero pueden ser
distintos a estos valores en función a las restricciones que se plantean.

Una vez descrita la forma general en que se puede plantear restricciones que impliquen
combinaciones lineales de los parámetros se debe plantear ciertas condiciones que aseguren que
la prueba pueda realizarse correctamente. Estos son los supuestos:

Las matrices R y r son conocidas. Es obvio que si se desea plantear alguna restricción
debemos saber cuáles son estas. Por otro lado, conocer los valores de estas matrices permite
construir el test sin el problema de tener términos desconocidos que obligan a transformaciones
adicionales.

El número de restricciones lineales (q) es menor o igual al número de parámetros del modelo
(k). Esta especificación está relacionada con la identificación de un sistema de ecuaciones.

El rango de la matriz R debe ser igual a q. Ello implica que las restricciones lineales serán
linealmente independientes. Esto previene el hecho de estar comprobando dos veces la misma
hipótesis.

Para la construcción del test estadístico se parte suponiendo que la distribución del
estimador es normal:

(
β̂ ~ N β, σ µ2 (X ′X) −1 )
Si R tiene rango q entonces:

(
Rβ̂ ~ N q Rβ, σ µ2 R (X ′X ) −1 R ′ )
entonces:

R (βˆ − β) ~ N q (0, σ µ2 R (X ′X ) −1 R ′)

Si suponemos que la hipótesis nula es cierta (como es el caso en la construcción de


cualquier estadístico que nos permita verificar cierta hipótesis): Rβ = r . De cumplirse esta
condición el estadístico quedaría convertido en:

96
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Rβˆ − r ~ N q (0, σ µ2 R ( X ′X ) −1 R ′)

Ahora, dado que la distribución está centrada en cero, si realizamos la siguiente operación:

[
(Rβˆ − r )′ σ µ2 R (X ′X ) −1 R ′ ]
−1
(Rβˆ − r ) ~ χ (2q ) (4.19)

Se obtiene una distribución chi-cuadrado con q grados de libertad dado que el rango del
elemento entre corchetes es igual a q, lo cual quiere decir que se suman q veces distribuciones
normales elevadas al cuadrado.

Sin embargo, como se sabe el problema con esta expresión es que no se conoce σ µ2 por lo
que se debe eliminar este término. Para tal fin se utiliza lo que a estas alturas ya debe ser un
procedimiento estándar, es decir, se divide por (4.9). Si la intención es obtener una distribución
conocida la candidata ideal es una F:

[
(Rβˆ − r ) ′ σ µ2 R (X ′X) −1 R ′ ]−1
( Rβˆ − r )
q
~ F(q, n-k)
e ′e
(n − k )σ µ2

Esta expresión permite eliminar la varianza teórica del modelo. Por otro lado, dado que
e′e /(n − k ) es el estimador de la varianza, se puede rescribir la anterior expresión como:

[
(Rβˆ − r )′ σˆ µ2 R (X ′X ) −1 R ′ ]
−1
(Rβˆ − r ) / q ~ F(q, n-k) (4.20)

Esta expresión tiene toda la intuición que se requiere. En términos matriciales en el


numerador tenemos la diferencia elevada al cuadrado entre la restricción planteada –r- y la
aplicación de las mismas a los estimadores de los parámetros no restringidos. Esta diferencia se
evalúa en términos de la varianza relevante. Para cumplir con la condición que se distribuya
como una F se divide entre el número de restricciones impuestas.

Como en todas las pruebas anteriores si el Fcalc < Ftab no se puede rechazar la Ho . Por otro
lado, si Fcalc > Ftab no se puede rechazar la Ho.

Utilicemos un ejemplo que pueda ilustrar lo que se ha planteado. Vamos a corroborar las
hipótesis presentadas como introducción a esta prueba. Se ha procedido a estimar un modelo y
se han obtenido los siguientes resultados:

LnQ d = 2.097 − 0.785 ln Px + 0.739LnI − 0.350LnPy


(0.151) (0.045) (0.048) (0.049)
(13.86) (−17.32) (15.12) (−7.04)

Los valores que están entre paréntesis son las desviaciones estándar y los estadísticos t
calculados para las hipótesis nulas que los parámetros son cero.

Por otro lado, se tiene la siguiente información:

97
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

200.00 333.22 312.96 317.20


333.22 914.91 496.10 508.87 
XX=

312.96 496.10 797.87 501.20
 
317.20 508.87 501.20 799.89

 0.0312 − 0.0053 − 0.0054 − 0.0056 


 − 0.0053 0.0028 0.0002 0.0001 
( X ′X ) −1 =
− 0.0054 0.0002 0.0032 − 0.00003
 
− 0.0056 0.0001 − 0.00003 0.0033 

σˆ µ2 = 0.8556

con esta información y aquella que ya se conoce (R y r) y se puede construir la siguiente


expresión:

 0.0101 − 0.0003 − 0.0198


R (X ′X ) −1 R ′ =  − 0.0003 0.0058 0.00002 
− 0.0198 0.00002 0.0453 

a partir de esto, el estadístico F es 36.20, lo cual es mayor al valor de tablas con 3 grados de
libertad en el numerador y 196 en el denominador (2.6). Por lo tanto no se puede aceptar la
hipótesis nula. La conclusión del ejercicio es que con un 95% de confianza los resultados de la
muestra no son consistentes con las restricciones que impone la teoría del consumidor. Esto no
invalida la teoría necesariamente sino que simplemente nos quiere decir que la teoría no se
aplica a estos datos.

4.4.3 Prueba de hipótesis para un coeficiente del modelo

Esta prueba ya se ha desarrollado en el contexto de una distribución t. Sin embargo, para


demostrar la generalidad de la prueba F para restricciones que implican combinaciones lineales
de los parámetros, se verá esta prueba como un caso particular.

Si en el caso que sirve de ejemplo planteamos la siguiente hipótesis:

H o : β 3 = 0.5
H 1 : β 3 ≠ 0.5

Esta restricción se podrá escribir siguiendo el esquema general ya planteado, de la siguiente


forma:

 β1 
β 
[0 0 1 0] 2  = 0.5
β3
 
β 4 
R β = r

98
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Si se siguen los pasos detallados para la prueba general, un paso adicional es construir la
expresión R (X ′X) −1 R ′ . Se debe notar que realizar esta operación implica que se está
extrayendo el 0.0032 (elemento 3,3 de la matriz cuadrada o a33). Si esto se multiplica por la
varianza estimada del error, se obtendría la varianza estimada de β 3 . Entonces la prueba
quedará reducida en este caso a la siguiente expresión:

(Rβˆ − r ) 2
~ F(1, n − k ) (4.21)
Var (βˆ 3 )

dado que Var (βˆ 3 ) = σˆ µ2 a 33 . Para los datos de nuestro ejemplo se obtiene lo siguiente:

(Rβˆ − r ) 2 (0.739 − 0.5) 2 0.057


= = = 21.11
Var(β 3 )
ˆ 0.8556 * 0.0032 0.0027

Este valor calculado es mayor al valor de tablas que es cercano a 2. Por lo tanto la
conclusión en este caso es que no se puede aceptar la hipótesis de que la elasticidad ingreso de
la demanda es igual a 0.5.

Algo que debe notarse es la similitud entre (4.21) y la expresión (4.17): la primera es el
cuadrado de la segunda. Así la prueba que se ha discutido anteriormente acerca de la relevancia
de un solo estimador se puede derivar de nuestro planteamiento general. Algo que se debe
recordar de estadística básica es la siguiente propiedad:

F(1, n − k ) = (t (n − k ) )2

lo cual implica que un estadístico t que se eleva al cuadrado se distribuye como una F con 1
grado de libertad en el numerador y n-k grados de libertad en el denominador.

4.4.4 Prueba de Hipótesis referente a aquellos parámetros del modelo distintos del
intercepto

Si la hipótesis nula establece que todo el subvector de pendientes de un modelo ( β 2 ) es


igual a un vector de constantes, se puede especificar la hipótesis de la siguiente manera:

H 0 : β 2 = β 02
H1 : β 2 ≠ β 02

En este caso tenemos k-1 restricciones dado que no se incluye el intercepto. Por lo tanto, la
matriz de restricciones queda de la siguiente manera:

0 1 0 . . 0
0 0 1 . . 0

R = . . . . . .
 
. . . . . 0
0 0 0 0 0 1

99
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Esta matriz tiene k-1 filas (recordar que las filas vienen dadas por el número de
restricciones) y k columnas. Nótese que la primera fila es de puros ceros lo que indica que no
estamos tomando en cuenta el intercepto. La matriz identidad de orden k-1 que acompaña al
vector de ceros nos indica que se está planteando una restricción por cada parámetro
independientemente de los demás. Esto quiere decir que cada restricción considerada toma en
cuenta a un solo parámetro y no a una combinación lineal de los mismos. Nuestro vector r sería
igual a los valores planteados en la expresión ( β 02 ).

Dado que sólo se está refiriendo a restricciones sobre las pendientes se puede particionar la
matriz de variables independientes de la siguiente forma:

X = [1 , X 2 ]

en esta partición el 1 corresponde a un vector n-dimensional compuesto de escalares iguales


a 1. X 2 corresponde a las variables asociadas a las k-1 pendientes, por tanto tiene k-1
columnas. Siguiendo con la exposición la matriz X´X queda de la siguiente manera:

 n 1′X 2 
X ′X =  
 X ′2 1 X ′2 X 2 

Si se quiere hallar la expresión R (X ′X) −1 R ′ esta equivale a hallar la inversa de la porción


inferior derecha de (4.21). Ello porque aplicar R y R´ implica eliminar la primera fila y
columna de la inversa de X ′X . Recordando las expresiones de inversa de matrices
particionadas vistas en el Capítulo 3 se obtendrá que la inversa del término inferior derecho es
igual a:

1
(X ′2 X 2 − X ′21 1′X 2 ) −1 = (X ′2 M 0 X 2 ) −1
n

1
donde M 0 = I n − 1′n1n . Esta matriz es la presentada en el Capítulo 3 y lo que hace es
n
transformar las variables del modelo a desviaciones. Dados los anteriores resultados el
estadístico quedaría de la siguiente forma:

(βˆ 2 − β 02 )′( X′2 M 0 X 2 )(βˆ 2 − β 02 ) /(k − 1)


~ F(k-1, n-k) (4.22)
e′e /(n − k )

Si el vector β 02 fuera cero, entonces la prueba se convierte en la prueba de significación


estadística global del modelo. Entonces el estadístico quedaría transformado de la siguiente
forma:

βˆ 2 (X ′2 M 0 X 2 )βˆ 2 /(k − 1)
~ F(k-1, n-k)
e′e /(n − k )

La significación estadística conjunta del modelo tiene el significado que de no poderse


rechazar la hipótesis nula entonces ello implica que debería imponerse la restricción de que
todas las pendientes son iguales a cero. Ello significa que el modelo estadístico relevante para
el ejemplo sería el siguiente:

100
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

LnQ d = β1 + µ

Lo cual muestra que ninguna relación se puede establecer entre la variable dependiente y las
variables que se creían la explicaban. Si se realiza la estimación, se obtendrá como resultado
que la constante sería igual a la media de la variable independiente (queda como ejercicio al
lector), lo cual es una identidad, dado que el modelo dirá que cada observación de la variable
dependiente es igual a su media más un término de error, algo que no agrega mayor
información.

Esta prueba es reportada en todos los programas estadísticos bajo el nombre de estadístico F
(F-Statistic). Debemos notar que la expresión βˆ ′2 (X ′2 M 0 X 2 )βˆ 2 es igual a la suma explicada de
cuadrados que se derivó para el caso del modelo lineal general cuando incluía intercepto. Por
otro lado, e′e es la suma de residuos al cuadrado. Si existe intercepto, se sabe que la suma de
las dos expresiones es igual a la suma total de cuadrados; por lo tanto, se puede realizar la
siguiente transformación:

βˆ ′2 (X ′2 M 0 X 2 )βˆ 2 /(k − 1) SEC /(k − 1) R 2 /(k − 1)


= = (4.23)
e′e /(n − k ) SRC /( n − k ) (1 − R 2 ) /( n − k )

La última expresión se obtiene al multiplicar y dividir la expresión por la suma total de


cuadrados (STC). Debe entenderse que esta interpretación es válida cuando el modelo incluye
un intercepto. Esta prueba también recibe el nombre de prueba de significación estadística del
R 2 . Verifiquemos esta hipótesis para el modelo que se ha planteado y estimado:


 − 0.785  359.71 − 25.347 − 19.624  − 0.785
  − 25.347 308.13 4.841   0.739  / 3
βˆ ′2 (X ′2 M 0 X 2 )βˆ 2  0.739  
 − 0.350  − 19.624 296.81  − 0.350
=
k −1 4.841
= 172
e′e 1.145
n−k

el valor de tablas (α = 0.05) es 2.6 por lo que no se puede aceptar la hipótesis nula. La
conclusión es que el modelo es estadísticamente significativo con un 95% de confianza. Este
resultado da la tranquilidad de poder seguir adelante con el análisis de la estimación.

4.4.5 Prueba de hipótesis para un subvector de parámetros

Se puede estar interesados en realizar un ejercicio de inferencia estadística para un


subconjunto de parámetros que no necesariamente comprende a todas las pendientes ni a un
solo parámetro. Aquí suponemos que interesa la prueba acerca de d parámetros donde
1 < d < k −1.

En este caso la prueba de hipótesis se puede plantear de la siguiente manera:

H 0 : β 2 = β 02
H1 : β 2 ≠ β 02

101
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

donde en este caso β 02 corresponde a un vector de orden d. Se va a suponer por conveniencia


que los parámetros que se quieren analizar son los últimos d parámetros. En el caso de este
ejemplo vamos a verificar hipótesis referentes sólo a la elasticidad ingreso y la elasticidad
cruzada por lo que el d sería igual a 2.

El planteamiento general de esta hipótesis implica la construcción de la siguiente matriz R:

0 . 0 1 0 . . 0
. . . 0 1 . . 0

R = [O k − d , I d ] =  . . . . . . . .
 
. . . . . . 1 0
0 . 0 0 . . . 1

Como se aprecia, las primeras k-d columnas de la matriz están llenas de cero indicando que
no se quiere analizar los primeros k-d parámetros. A continuación tenemos una matriz identidad
de orden d indicando que se analizarán cada uno de los d últimos parámetros.

Dado este orden, se puede escribir el modelo general como uno particionado de la siguiente
forma:

Y = X1β1 + X 2β 2 + µ

donde X1 es una matriz con k-d columnas, X 2 es de d columnas. Los vectores β1 y β 2 son
particiones que conforman el vector original β . En este caso la expresión Rβ̂ es igual a β̂ 2 .
Por otro lado:

 X′ X X1′ X 2 
X ′X =  1 1
X ′2 X1 X ′2 X 2 

Por tanto R (X ′X) −1 R ′ será la inversa del elemento inferior derecho de nuestra matriz X ′X ,
es decir, la premultiplicación por R y la postmultiplicación por R´ eliminan las primeras k-d
columnas y las k-d primeras filas.

Recordando la fórmula de la inversa de una matriz particionada, se obtiene que la inversa de


la expresión que nos interesa será:

( X 2′ X 2 − X 2′ X 1 ( X 1′ X 1 ) −1 X 1′ X 2 ) −1 = ( X 2′ M 1 X 2 ) −1

donde M1 = I n − X1 (X1′ X1 ) −1 X1′ es la matriz de proyección ortogonal sobre el espacio


definido por la variables que conforman la matriz X1 . Entonces el estadístico F para este caso
será igual a:

(βˆ 2 − β 02 ) ′(X ′2 M1X 2 )(βˆ 2 − β 02 ) / d


~ F(d, n-k) (4.24)
e ′e /( n − k )

En el caso en que β 02 = O d se reemplaza en la expresión anterior a β 02 por un vector de


ceros de orden d.

102
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Para el ejemplo se puede estar interesados en verificar la siguiente hipótesis conjunta:

H o : β 3 = 0.800
β 4 = −0.35
H1 : al menos una no se cumple

Con los datos que se tiene, el valor calculado del estadístico F sería:


(βˆ 2 − β 02 )′(X ′2 M1X 2 )(βˆ 2 − β 02 )  0.739 − 0.8  306.3 3.45   0.739 − 0.8 
− 0.35 + 0.35  3.45 295.7  − 0.35 + 0.35
d =      = 0.65
e′e 1.145
n−k

Si se compara este valor con el valor de tabla que es de 3.00 se verá que no se puede
rechazar la hipótesis nula y por tanto se podrá imponer estas restricciones en el modelo.

4.4.6 Pruebas de Hipótesis Mediante la Utilización de Sumas Residuales

Dada la existencia de programas econométricos que facilitan algunos cálculos, se puede


plantear la prueba general que se ha planteado para Rβˆ − r bajo otra perspectiva tomando en
cuenta la intuición que está detrás de cada modelo y su relación con las sumas residuales.

Como se sabe cualquier ejercicio de inferencia estadística implica preguntar si cierta


restricción puede ser impuesta en un modelo. Hasta ahora se ha construido un estadístico sobre
la base del supuesto de que la hipótesis nula o planteada es cierta y se ha visto si nuestros datos
avalan o no estas restricciones.

Sin embargo, podría existir otro camino que considere el siguiente ejercicio: estimar el
modelo inicial y compararlo con otro modelo en donde se hayan impuesto las restricciones que
se plantean en la hipótesis nula. Así, se llamará al primero el modelo sin restringir y al segundo
el modelo restringido. Las magnitudes que se utilizarán para comparar ambos modelos serán
las sumas de residuos al cuadrado.

La intuición detrás del ejercicio es que si no se imponen restricciones, la suma de residuos al


cuadrado alcanzará un mínimo global que es justamente lo que hace el estimador de mínimos
cuadrados ordinarios. Por otro lado la suma de residuos al cuadrado del modelo restringido
alcanzará un mínimo que está limitado justamente por las restricciones que se plantean. Si la
restricción es avalada por los datos, ambas magnitudes deberán ser similares por lo que su
diferencia será pequeña. En el límite podrían ser iguales. Sin embargo, si la restricción no es
válida, la diferencia de las sumas de residuos al cuadrado será muy grande por lo que
estadísticamente no se podrá aceptar la hipótesis propuesta.

Sobre la base de la intuición descrita, nuestra prueba F se puede plantear de la siguiente


manera:

(SRR − SRS) / q
~ F(q, n-k)
e′e /(n − k )

103
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

donde SRR es la suma de residuos al cuadrado del modelo restringido, SRS es la suma de
cuadrados del modelo sin restringir. Las demás expresiones son las usuales.

Como ya se ha mencionado la SRR será siempre mayor o igual a la SRS, por lo que se
asegura que el numerador sea positivo o cero. Ahora ¿cómo se llega a esta expresión? Para
poder demostrar la similitud entre esta prueba y la prueba general que se ha planteado se
trabajará con el caso especial para 1<d<k-1 que se ha visto líneas arriba. Además, se trabajará
con el caso en que β 02 = 0 d

Si tenemos un modelo particionado estimado de la forma planteada en el acápite anterior, el


primer paso será multiplicarlo por M1 :

M1Y = M1X1βˆ 1 + M1X 2βˆ 2 + M1e

Antes de continuar podemos utilizar dos propiedades ya establecidas en capítulos anteriores:

1. M1X1 = 0 . La proyección ortogonal de un conjunto de variables sobre el espacio


definido por los errores que representan el complemento ortogonal al espacio definido
por las mismas variables es nula. En otras palabras, si se filtra a X1 por sí misma, no
quedará ningún porción de ella sin explicar.

2. [ ]
M1e = I n − X1 (X1′ X1 ) −1 X1′ e = e . Los errores estimados son ortogonales a todas las
variables independientes incluidas en el modelo por lo que X1′ e e igual a cero lo que
anula el segundo término de la multiplicación y sólo queda la matriz identidad que
multiplica a los errores estimados.

Dados estos resultados nuestra expresión se simplifica a:

M 1Y = M 1 X 2 β 2 + e

Si se premultiplica esta expresión por su transpuesta se tendrá:

Y ′M1Y = β′2 X ′2 M1X 2 β 2 + 2β′2 X ′2 M1e + e ′M1e

el segundo término de la derecha se elimina dado que M1e = e y X ′2 e = 0 con lo cual la


expresión queda de la siguiente forma:

Y ′M1Y = β′2 X ′2 M1X 2β 2 + e ′e (4.25)

Analicemos esta expresión. Y ′M1Y es la suma de residuos al cuadrado de un modelo


donde se ha regresionado Y sólo contra las variables contenidas en X 1 , lo cual quiere decir que
se ha impuesto la restricción β 2 = 0 . Ello significa que es la suma de residuos al cuadrado del
modelo restringido. Por otro lado, e ′e es la suma de residuos al cuadrado del modelo original
el cual fue estimado sin restricciones. El primero es SRR y el segundo es SRS. Por lo tanto,
nuestra expresión (4.25) se puede expresar de la siguiente manera:

SRR = β′2 X ′2 M1X 2β 2 + SRS


(4.26)
β′2 X ′2 M1X 2β 2 = SRR − SRS

104
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Comparemos este resultado con (4.24). Si en dicha expresión se analizó el caso especial en
que se verifica la hipótesis que los d parámetros de interés son iguales a cero, dicha expresión
es igual a (4.26). entonces (4.24) quedaría transformado en

(SRR − SRS) / d
(4.27)
e′e /(n − k )

donde el único cambio es que q ha sido reemplazada por d. Esta demostración se está haciendo
para un caso particular de la prueba F para restricciones lineales y se ha mostrado la
equivalencia de las dos estrategias planteadas para la realización de la prueba. Sin embargo,
puede comprobarse que el resultado se aplica para todos los casos de la prueba F.

En resumen, existen dos estrategias para la realización de la prueba F:

1. La primera consiste en trabajar con expresiones como (4.20) en donde se utiliza para la
construcción del Estadístico las matrices R y q, o

2. Se estiman dos modelos: uno restringido y uno no restringido y se comparan las sumas de
residuos al cuadrado de ambos modelos.

El camino que se utilice dependerá de las preferencias del usuario. Para restricciones
simples quizás sea más recomendable utilizar la segunda estrategia. El siguiente ejemplo
puede ayudar:

Si se plantea un modelo de la siguiente forma:

Yt = β1 + β 2 X 2 t + β 3 X 3t + β 4 X 4 t + β 5 X 5 t + µ t (4.28)

y si se quiere verificar la hipótesis nula siguiente:

H o : β3 = 3
β4 = 2
H1 : al menos una restricción no se cumple

una estrategia conveniente sería estimar el modelo (4.28), el cual sería el modelo sin restringir.
A través de la estimación se obtiene la SRS. Para la estimación del modelo restringido se tiene
que imponer las restricciones de la siguiente manera:

Yt − 3X 3t − 2X 4 t = β1 + β 2 X 2 t + β 5 X 5t + µ t

en este modelo las restricciones son impuestas y pasan a restar al lado derecho multiplicadas
por sus respectivas variables. A partir de este modelo se halla la SRR y se procede a la
construcción del test.

Sin embargo, se debe notar que esta estrategia es relativamente fácil cuando las hipótesis
son sencillas. Si las restricciones son combinaciones lineales de los parámetros una estrategia
factible es calcular el estadístico F de la primera forma. Cuando queremos trabajar con la
segunda alternativa (comparación de las sumas de residuos al cuadrado) la estrategia señalada
líneas arriba no es tan sencilla. La estimación del modelo restringido implica pasos más
complicados que los reseñados en nuestro ejemplo. La forma de resolver esta dificultad es

105
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

estudiar el estimador de mínimos cuadrados restringidos el cual permitirá el cálculo de SRR en


situaciones más complejas.

4.5. ESTIMADOR DE MÍNIMOS CUADRADOS RESTRINGIDOS

Para la formulación del estimador MCO se minimizaron la suma de los errores al cuadrado
sin imponer ninguna restricción. La lógica del estimador de mínimos cuadrados restringidos es
minimizar la suma de errores al cuadrado pero sujeto a una restricción. Por lo tanto, la función
a minimizar quedaría de la siguiente manera:

" = (Y − Xβ r )′(Y − Xβ r ) − 2λ ′(Rβ r − r )

en este caso la función objetivo aumentada incluye las restricciones multiplicadas por la
expresión − 2λ ′ que representa el vector de multiplicadores de Lagrange. El valor –2 que se
incluye se hace simplemente con fines de hacer más sencillos los cálculos en cuyo caso la
interpretación de los multiplicadores de Lagrange se modifica ligeramente. Se considera la
transpuesta del vector de los multiplicadores de Lagrange debido a que el criterio a minimizar
es un escalar.

Las condiciones de primer orden en este caso serían:

δ"
= −2 X ′Y + 2 X ′Xβ r − 2 R ′λ = 0
δβ r′
δ"
= −2( Rβ r − r ) = 0
δλ

A partir de estas condiciones de primer orden se obtienen las siguientes expresiones:

(X ′X)β r − X ′Y − R ′λ = 0 (i)
Rβ r − r = 0 (ii)

Premultiplicamos (i) por R (X ′X ) −1 :

Rβˆ r − R (X ′X) −1 X ′Y − R (X ′X ) −1 R ′λ = 0

esta expresión puede reducirse notando lo siguiente:

1. (X ′X ) −1 X ′Y es el estimador MCO (sin restringir)


2. Si la restricción se cumple entonces: Rβˆ r = r

Utilizando estos resultados obtenemos:

r − Rβˆ = R (X ′X ) −1 R ′λ

[
λ = R (X ′X ) −1 R ′] −1
( r − Rβˆ )

reemplazando λ en (i) tenemos la siguiente expresión:

106
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

[
(X ′X)βˆ r − X ′Y − R ′ R (X ′X) −1 R ′ ]
−1
(r − Rβˆ ) = 0 k

despejando β̂ r de la expresión anterior llegamos al estimador de Mínimos Cuadrados


Restringidos (MCR):

[ −1
]
βˆ r = ( X ′X ) −1 X ′Y + ( X ′X ) −1 R ′ R( X ′X ) −1 R ′ (r − Rβˆ ) (4.29)

Si nos detenemos a analizar esta expresión notaremos que el primer término de la derecha es
el estimador MCO al que se le realiza una corrección. La magnitud de la corrección será una
función directa de la expresión (r − Rβˆ ) . Esta expresión nos indica cuán cerca está el estimador
no restringido de cumplir con la restricción. Si la restricción es correcta esta expresión será
cercana a cero, por lo que el estimador MCR será muy parecido (o igual en el límite) al
estimador MCO. Por el contrario, si el estimador MCO no cumple con las restricciones, ello
implica que la corrección que debe realizarse es grande para obtener el estimador MCR y por
tanto ambos serán diferentes.

Como tarea se deja al lector analizar el insesgamiento del estimador MCR. Como ayuda
puede mencionarse que debemos suponer que la restricción se cumple para probar el
insesgamiento. Por otro lado, debe sobreentenderse que el estimador MCR cumple con las
restricciones dado que ha sido construido sobre la base de imponer en la minimización de los
errores al cuadrado con las restricciones. Esto se puede comprobar de la siguiente manera:

[ −1
]
Rβˆ r = Rβˆ + R( X ′X ) −1 R ′ R( X ′X ) −1 R ′ (r − Rβˆ ) = Rβˆ + r − Rβˆ = r

La varianza del estimador MCR corresponde a la siguiente expresión:



[ −1
] 
Var (βˆ r ) = σˆ µ2 (X ′X) −1 − (X ′X) −1 R ′ R (X ′X) −1 R ′ R (X ′X ) −1 

(4.30)

A estas alturas del libro, ustedes deben estar familiarizados con el cálculo de las varianzas
de diferentes estimadores por lo que queda como tarea la derivación de esta expresión. Sin
embargo, algo que debe notarse es que la varianza del estimador MCR es menor que la del
estimador MCO. La intuición de este resultado descansa en la imposición de las restricciones.
Estas lo que hacen en la práctica es acotar el espacio donde están definidos los parámetros por
lo que la varianza será menor. Ojo: esto no quiere decir que el estimador MCR sea más
eficiente que el estimador MCO. Nosotros hemos comprobado por el teorema de Gauss-Markov
la eficiencia del estimador MCO. En este caso debido al acotamiento del espacio la varianza
resulta menor pero no implica una superioridad del estimador MCR sino que es un resultado
matemático.

Regresando al modelo de demanda que ha servido de ejemplo en este capítulo, se realizará


el ejercicio inicial de las restricciones lineales sobre los parámetros por la vía de la
comparación de las sumas de los residuos al cuadrado. Como se recuerda las hipótesis nulas
son:

H 0 : β 2 + β3 + β 4 = 0
β2 = β4
β 3 = β1
H1 : Al menos una no se cumple

107
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Dados los resultados que ya se conocen los valores restringidos estimados serían:

LnQ d = 1.057 − 0.528 ln Px + 1.057 LnI − 0.528LnPy


(0.036) (0.018) (0.036) (0.018)
(29.34) (−29.34) ( 29.34) ( −29.34)

Como se aprecia los estimados cumplen con las tres restricciones planteadas: la suma de los
tres últimos parámetros es igual a cero, la elasticidad precio y cruzada son iguales y la
constante y la elasticidad ingreso son iguales.

Otro resultado es que las desviaciones estándar son menores que los estimados no
restringidos y los estadísticos t son mayores. Una cosa adicional a notar es que todos los
estadísticos t son iguales en valor absoluto. Ello se debe a que el grado de significación es de
alguna forma forzado por las restricciones y como los cuatro estimados están sujetos a
restricciones el grado de significación estadística es el mismo.

Sobre la base de los estimados anteriores se procedió a realizar las pruebas mediante la
utilización de las sumas residuales. Los resultados se presentan a continuación:

(SRR − SRS) / q (268.32 − 167.69) / 3


= = 39.208
e ′e /(n − k ) 0.8556

el estadístico F calculado no es igual al obtenido anteriormente (36.2) pero son similares, por
lo que los resultados de ambas pruebas son equivalentes y las conclusiones las mismas: No se
pueden aceptar las restricciones planteada en la hipótesis nula.

TRICOso
ÉT ScSir

Para la realización de estimaciones econométricas existen distintos software en el mercado.


Los programas más utilizados son el Econometric Views, Rats (Regression Analysis of Time
Series), Gauss, PcGive, Shazam, etc. Todos estos programas realizan estimaciones de mínimos
cuadrados ordinarios. El resultado estándar que arrojan estos paquetes es más o menos es el
siguiente:

Variable dependiente: Ln Qd
Regresores: LnPx LnI, LnPy
Número de observaciones: 200
Estimación por MCO

Variable Estimado Desv. Estándar Estadístico t Prob(est t)

C (constante) 2.0973 0.1512 13.8667 0.0000


LnPx -.07853 0.0453 -17.3273 0.0000
LnI 0.7395 0.0488 15.1276 0.0000
LnPy -0.3505 0.0497 -7.0463 0.0000
R cuadrado 0.7253 Med. de Var Dep 1.3901
R cuadrado aj. 0.7211 Desv. Est. Var. Dep. 1.7517
Error St. Regresión 0.9249 Estadístico F 172.5799

108
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Sum Res al Cuadrado 167.6981 Prob(Estadístico F) 0.0000

Como se aprecia, en el encabezado se especifica cuál es la variable dependiente, el número


de observaciones, las variables explicativas y el método de estimación. Más abajo se tienen los
estimados que arroja el programa. La primera columna se refiere a qué parámetro está
estimando. Debe entenderse que el parámetro en cuestión es aquel que acompaña a la variable
que se señala. En la segunda columna se tienen los valores estimados de los parámetros. La
tercera columna muestra la desviación estimada de los parámetros.

La cuarta columna es la que interesa en esta sección del libro. En ella se presentan los
valores calculados de los estadísticos t donde la hipótesis nula es que cada uno de los
parámetros es igual a cero. Por ello los valores t calculados para cada parámetro son la división
de los respectivos valores de la segunda y tercera columna. Se recuerda que la prueba
individual de significación estadística para un parámetro es justamente el valor del parámetro
calculado dividido por la desviación estándar calculada y ello es lo que se obtiene en la cuarta
columna.

La quinta columna presenta una probabilidad. Esta debe interpretarse como la probabilidad
de que la hipótesis nula sea aceptada con los datos que tenemos. Al escoger el nivel de
significación estadística estamos escogiendo el punto de quiebre. Si se escoge el α = 5% , ello
quiere decir que si la probabilidad de que la hipótesis nula sea cierta es mayor al 5% no
podemos rechazar la hipótesis nula. Por el mismo razonamiento, si la probabilidad es menor al
5% ello quiere decir que no podemos aceptar la hipótesis nula. En el caso presentado se observa
que las probabilidades son iguales a cero, por lo que la conclusión es que con un nivel de
confianza de 5% los parámetros estimados son diferentes de cero, por lo cual debemos
mantener las variables dentro del modelo.

Usualmente lo que se realiza es una comparación entre el valor calculado y el valor de tabla.
Si el valor calculado es mayor al valor de tabla no se puede aceptar la hipótesis nula y
viceversa. Lo que hace el programa es realizar la comparación en términos de las
probabilidades de la distribución relevante que en este caso es una distribución t de Student.

Así, como la distribución t de Student es una distribución simétrica y con media cero, lo que
hace el programa es calcular el estadístico t y halla la probabilidad de los valores mayores al
valor calculado. Si la probabilidad es menor a 0.05, nos indica que el valor está muy alejado de
la media y por tanto, la diferencia entre el valor calculado y el valor de tabla es alto y no se
podrá aceptar la hipótesis nula. Por el contrario, si la probabilidad es mayor a 0.05, ello nos
señala que el valor calculado no está tan alejado de la media y se entenderá que proviene de
dicha distribución. Por ello se dice que no se puede rechazar la hipótesis nula. En conclusión, si
la probabilidad es menor a 0.05, nuestro estadístico calculado cae en lo que usualmente se
denomina zona de rechazo y si la probabilidad es mayor a 0.05 se dirá que cae en la llamada
zona de aceptación11

Si regresamos a la tabla presentada notaremos que se reporta un estadístico F. Este


estadístico evalúa la hipótesis nula de significación estadística conjunta de todo el modelo, es
decir la prueba que analiza si todas las pendientes del modelo son iguales a cero. La
probabilidad que se reporta tiene la misma interpretación antes mencionada, es decir, mide la
probabilidad de que la hipótesis nula sea cierta dado la muestra que utilizamos. Si la
probabilidad es menor a 0.05 quiere decir que no podemos aceptar la hipótesis nula y viceversa.

11
Como ya se ha mencionado al inicio de este capítulo esta terminología no es la más adecuada, pero es la que se
usa comúnmente.

109
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

Al momento de sacar las conclusiones, algo que debe haber llamado la atención es que el
punto de corte sea por ejemplo 0.05. Ello significa que solamente cuando la probabilidad es
menor al 5% no se puede aceptar la hipótesis nula. Algunos de ustedes probablemente se
preguntarán ¿por qué el punto de corte es 0.05 y no 0.5 como indicaría el sentido común? La
respuesta está en el significado del α . Recordemos que lo que mide esta expresión es la
probabilidad del error tipo I y esto lo escoge el usuario. Escoger 0.05 implica aceptar que existe
un 5% de probabilidad de rechazar una hipótesis verdadera. Recordemos el ejemplo del juicio
que mencionamos al inicio del capítulo. Lo que se hace al escoger un 0.05 como punto de
quiebre es exigir que la evidencia en contra de la hipótesis nula sea tan fuerte que la
probabilidad de que sea cierta la nula sea menor al 5%. Sólo así nos arriesgaremos a decir que
no podemos aceptar la hipótesis nula a pesar que existe un 5% de probabilidad de que sea
cierta.

Como ya se ha mencionado, el nivel de significación estadística lo escoge el usuario. Aquí


se ha mencionado el 5% porque es lo estándar en todos los paquetes pero de hecho uno podría
aumentar o disminuir el α según su criterio. Si alguien se pone más exigente probablemente
escogerá un α de 0.01 o alguien menos exigente escogerá un nivel de 10%.

4.7. UNA REFLEXIÓN FINAL

Habiendo hecho una revisión de la forma de realizar un ejercicio de inferencia estadística se


quiere presentar algunos resultados de una simulación realizada con el modelo que se ha
utilizado como ejemplo. Esto permitirá entender mejor lo que está en juego.

Como ya se ha mencionado lo que se hace al realizar una prueba de hipótesis es analizar si


la diferencia que se observa entre el valor calculado y el valor que se supone verdadero en la
hipótesis planteada o nula se explica por factores meramente aleatorios o se debe a factores
estructurales.

Una hipótesis que se planteó a lo largo del capítulo era la referida a la homogeneidad de
grado cero de la demanda. Ello implicaba verificar si la suma de las tres elasticidades era igual
cero. El modelo estimado arrojó valores de –0.855, 0.817 y –0.359 para las elasticidades precio,
ingreso y cruzada de la demanda respectivamente. La suma de las tres elasticidades estimadas
es de –0.397 para nuestro modelo. La conclusión que obtuvimos era que nuestros datos no
soportaban la implicación de la homogeneidad de grado cero.

¿Qué implica en términos empíricos la conclusión que acabamos de mencionar? Un gráfico


nos puede ayudar. En él se presenta la distribución de la suma de las tres elasticidades para
10,000 estimaciones del mismo modelo.

110
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

cuando se habla de 10,000 estimaciones se está refiriéndo a que se han generado 10,000
muestras aleatorias y con dichos datos se ha procedido a la estimación del modelo. Sin
embargo, estas muestras han sido generadas siguiendo un patrón: las elasticidades
“verdaderas”12 son -0.75, 0.8 y -0.35, por lo que la suma de las tres es igual a -0.3. Si nos
detenemos un momento a observar el gráfico se verá que justamente el -0.3 es el centro de la
distribución. No todos los valores son iguales a -0.3 porque interviene un factor aleatorio que
puede hacer que difieran los resultados de manera no sistemática. Pero lo que conviene resaltar
es el hecho que la distribución está centrada en el valor “verdadero”(-0.3).

Recordando la hipótesis nula, ésta se refería al cumplimiento de la homogeneidad de grado


cero o que la suma de las elasticidades es igual a 0. Como se ve el cero está ubicado en el
extremo derecho de la distribución por lo que está muy alejada del verdadero centro de la
distribución. Por ello es que la conclusión es que no se puede aceptar la hipótesis nula.

Por otro lado, dados los resultados se sabe que la elasticidad precio estimada es –0.785 y se
desea verificar si este valor es congruente con una distribución cuya media es igual a –0.75
(que es el valor que se ha supuesto como verdadero cuando hemos generado la muestra). Si se
quiere aplicar una prueba t para ello el valor calculado se halla de la siguiente forma:

(−0.785 + .75)
= −0.773
0.0453

12
El término verdadero está entre comillas debido a que el modelo fue generado de la siguiente forma:
LnQd= 2 - 0.75lnPx + 0.8LnI - 0.35LnPy + rndn. El último término rndn indica que a la anterior expresión se le está
agregando un término aleatorio. A su vez, LnPx, LnI y LnPy también han sido construidas a través del generador de
números aleatorios. Con este tipo de procedimiento estamos generando muestras aleatorias pero que responden a un
proceso generador de datos similar.

111
Econometría Moderna Inferencia Estadística en el Modelo Lineal General

como se sabe los valores críticos para más de 100 grados de libertad son aproximadamente 2 y
–2 respectivamente. La conclusión es que no se puede rechazar la hipótesis nula. Si se observa
el siguiente gráfico se ve que la distribución está centrada en –0.75 (que es el valor con el cual
fueron generados los datos). Un valor de –0.785 si bien no es igual a –0.75 se observa que en
términos de la distribución que se presenta cae dentro de la zona de aceptación.

Sin embargo, debe mencionarse que un valor de –0.95 aparecería como muy lejano, y
seguramente se tendería a no aceptar la hipótesis nula. Pero se observa que todos los valores
reportados en el gráfico responden a un modelo “verdadero” con una elasticidad precio igual a
–0.75, pero por factores meramente aleatorios el valor calculado en un modelo específico (una
muestra en particular) es de –0.95 y en términos de la distribución se tendería a no aceptar la
hipótesis nula cuando es verdadera. Esto ilustra el error tipo I en el cual se puede caer y por
ello es que algunos investigadores tienden a ser muy exigentes y elevan el nivel de significación
de ciertas pruebas. No obstante, como ya se mencionó el nivel de significación estándar es 0.05.

Algo que debe quedar en claro a partir de todo lo discutido en este capítulo es que cualquier
ejercicio de inferencia implica cierto grado de incertidumbre. La idea de las pruebas de
hipótesis es someter al juicio de los datos las afirmaciones que se pueden derivar de la teoría
(expresadas en forma de restricciones). Sin embargo, nunca podemos estar seguros sino hasta
cierto grado de certeza el cual no será absoluto.

112
CAPÍTULO 5
MÁXIMA VEROSIMILITUD

5.1. UNA APROXIMACIÓN INTUITIVA

En el modelo lineal clásico, donde el término de error satisface todas las condiciones de
Gauss-Markov, el criterio fundamental para la estimación de los coeficientes consiste en
minimizar la suma de cuadrados del error. Este procedimiento, definido como Mínimos
Cuadrados Ordinarios, garantiza la obtención de estimadores insesgados y eficientes. Sin
embargo, el criterio de mínimos cuadrados ordinarios es un criterio arbitrario que cumple con
un conjunto de propiedades deseables pero no es único. En la práctica pueden existir tantos
estimadores como criterios puedan establecer diversas personas. El arte del planteamiento de un
estimador es hacerlo de tal manera que cumpla con la mayoría de criterios esperados. Frente a
esto, cabe preguntarse si existe algún otro tipo de algoritmo que también nos provea de
estimadores eficientes y es en este punto, precisamente, donde podemos empezar a hablar de la
estimación por máxima verosimilitud. Este tipo de estimación, partiendo de una correcta
especificación y el cumplimiento de ciertas condiciones, garantiza la obtención de estimadores
asintóticamente insesgados, eficientes y consistentes.

El criterio de máxima verosimilitud consiste básicamente en suponer una distribución y, a


partir de ésta, estimar los parámetros que hagan máxima la probabilidad de que determinada
muestra pertenezca a dicha distribución. La relación entre la distribución supuesta inicialmente
y la muestra con que contamos se da a través de un modelo estadístico (forma estructural).
Dentro de este modelo se tienen ciertos parámetros que son magnitudes desconocidas. El
principio de máxima verosimilitud consiste en escoger aquellos valores de los parámetros de tal
forma que la muestra se parezca lo más que se pueda a la distribución supuesta inicialmente. En
este sentido lo que se busca es hacer lo más verosímil (creíble) posible el supuesto inicial
respecto de la distribución de probabilidades de la cual se partió. En otras palabras, lo que se
busca es maximizar la probabilidad de ocurrencia de la muestra. Sabemos que la probabilidad
Econometría Moderna Máxima Verosimilitud

se calcula a partir de una función de probabilidad específica por lo que es crucial partir
tomando en cuenta una de ellas.

Para comprender mejor qué implica este principio consideremos el siguiente ejemplo.
Supongamos una variable aleatoria y continua con media desconocida (µ) y una desviación
estándar unitaria. Supongamos también que esta variable se distribuye normalmente y que se
cuenta con dos hipótesis alternativas (µ =µ0 y µ = µ1) y una observación x1 (en definitiva:
X∼N(µ,1)). Según el principio de máxima verosimilitud, se debe elegir aquella hipótesis que
haga máxima la probabilidad de ocurrencia de x1. Para esto se compara el valor de la función de
densidad para x1 bajo ambas hipótesis.

Figura 5.1.

A partir del gráfico anterior se aprecia que es la hipótesis µ =µ0 la que garantiza el mayor
valor en la función de densidad para x1. Generalizando el resultado anterior, consideremos
ahora todos los posibles valores de µ y elijamos aquel que otorga a x1 el mayor valor en la
función de densidad. Definamos la siguiente función de densidad de x dado µ:

1 − (1/ 2 )( x −µ )2
f (x / µ ) = e

Se calcula ahora el valor de µ que maximiza la función anterior, dada la observación x1. Si
nos referimos al gráfico la respuesta consiste en igualar µ=x1, de modo que la distribución
tenga a x1 como media asignado a este evento la mayor probabilidad. Para comprender este
resultado en términos matemáticos conviene reconocer antes que x1 es un valor dado mientras
que µ es variable. En este sentido, podemos considerar la función de densidad como una
función de µ con x1 como dado. Tomando en cuenta esta salvedad, definamos ahora la nueva
función como la función de verosimilitud:

1 − (1/ 2 )( x1 −µ )2
L (µ / x1 ) = e

Nótese que el logaritmo de la función anterior también será máximo para el mismo valor de
µ que la función original, por lo que resulta conveniente hallar el máximo de la función
logL(µ) (función log-verosímil) debido a que resulta más sencillo en términos matemáticos:

114
Econometría Moderna Máxima Verosimilitud

log L (µ ) = − log 2π − 2 (x1 − µ ) 2


1

Ahora, diferenciando con respecto a µ tenemos:

∂ log L (µ )
= x1 − µ = 0
∂µ

de modo que el estimador de máxima verosimilitud de µ es igual a x1. La segunda derivada


del resultado anterior es negativa, confirmando que la función ha sido maximizada.

El resultado anterior puede generalizarse para más de una observación. Por ejemplo,
evaluemos nuevamente este procedimiento considerando dos observaciones distribuidas
independientemente (x1, x2). Tal como antes, el criterio de máxima verosimilitud consiste en
hallar el valor de µ que maximice el valor de la función de densidad conjunta:

 1 − (1/ 2 )( x1 − µ ) 2   1 − (1/ 2 )( x2 − µ ) 2 
f (x1 , x 2 / µ ) =  e  e 
 2π   2π 

Tal como se hizo en el caso anterior, esta función puede ser reinterpretada como la función
de verosimilitud de µ dados x1 y x2, la cual se maximiza indirectamente a través de su
logaritmo:

log L (µ ) = −2 log 2π − 2 (x1 − µ ) 2 − 2 (x 2 − µ ) 2


1 1

De la condición de primer orden tenemos que:

(x1 - µ) + (x2 - µ) = 0

por lo que el estimador de máxima verosimilitud de µ vendría dado por (1/2)(x1 +x2). Resulta
sencillo generalizar este resultado para el caso de n observaciones (x1,x2,...xn), donde el
estimador de máxima verosimilitud vendría dado por la media de la muestra, coincidiendo, por
tanto, con el estimador por mínimos cuadrados ordinarios (la analogía entre el estimador de
máxima verosimilitud y el estimador MCO será demostrada más adelante). Para verificar esto,
regresemos al ejemplo de dos observaciones (x1, x2), donde el estimador de máxima
verosimilitud de µ corresponde a la media de ambas observaciones. Gráficamente:

115
Econometría Moderna Máxima Verosimilitud

De esta manera, se está eligiendo aquel valor de µ que garantiza la mayor probabilidad de
ocurrencia para x1 y x2 conjuntamente. Si se pretende estimar µ a través de MCO, lo que se
busca es minimizar la suma de cuadrados de los errores. Formalmente:

(x1 − µ! ) 2 + (x 2 − µ! ) 2 = SE 2

y derivando con respecto a µ! :

∂SE 2
= −2( x1 − µ! ) − 2( x 2 − µ! ) = 0
∂µ!
2µ! − x1 − x 2 = 0
µ! = 2 ( x1 + x 2 )
1

Consideremos ahora otro ejemplo que ayude a un mejor entendimiento de lo que significa e
implica la estimación por Máxima Verosimilitud. Para esto, supongamos que se pretende
evaluar la calidad de determinado producto a partir de una muestra de diez elementos.
Evidentemente, si se encontraran cuatro productos defectuosos se podría estimar que la
proporción total de productos que son defectuosos es 0.5. Si se considera este problema desde
la perspectiva de la estimación por máxima verosimilitud, sin embargo, el enfoque resultaría un
tanto distinto. En primer lugar hay que suponer una distribución de probabilidad que refleje el
problema (en este caso elegimos una distribución binomial dado que tenemos dos resultados
posibles). Partiendo de esta distribución, supongamos que se extrae una muestra aleatoria de n
productos y que la probabilidad de que uno de éstos sea defectuoso viene dado por λ. Así, si
dentro de la muestra se encuentran D productos defectuosos, la probabilidad (P) de hallar D
productos defectuosos en la muestra vendría dada por:

λD (1 − λ ) n − D
n!
P=
D !(n − D)!

En el ejemplo planteado anteriormente teníamos que n = 10 y D = 4. Tomando como dados


estos valores, si se fijan arbitrariamente los valores de λ entre 0.1 y 0.9 (es decir, tanteando),
los resultados serían los que arroja la siguiente tabla:

116
Econometría Moderna Máxima Verosimilitud

λ probabilidad
0.1 0.01116026
0.2 0.08808038
0.3 0.20012095
0.4 0.25082266
0.5 0.20507813
0.6 0.11147674
0.7 0.03675691
0.8 0.00550502
0.9 0.00013778

Como se puede apreciar, cuando λ = 0.1 se tiene que P = 0.01116, de modo similar, fijando
λ = 0.2 se tiene que P = 0.0880. Si continuamos con este proceso descubriremos que el valor
de λ que maximiza P es 0.4, el cual arroja un PMAX =0.2508. En otras palabras, el valor de λ
que maximiza la probabilidad de ocurrencia de la muestra observada (D = 4 para n = 10) es, por
tanto, λ = 0.4. Esta corresponde a la estimación de máxima verosimilitud del valor poblacional
de λ. Este proceso de tanteo se pude complicar mucho más si tomamos en cuenta funciones de
probabilidad mucho más complejas. Sin embargo, en la práctica esta es la forma en que se
obtienen la mayoría de estimados de máxima verosimilitud. El proceso de búsqueda se
complica mucho más y para ello se utilizan algoritmos de búsqueda especializados.

Un método alternativo que puede ser utilizado cuando se trabajan problemas relativamente
sencillos es el método analítico. Esto implica obtener una solución algebraica al problema de
hallar el estimador de máxima verosimilitud en función de los datos muestrales. Dado que el
principio de máxima verosimilitud implica hacer que la muestra se parezca lo más que se pueda
a la población ello implica que hallemos el valor de λ que maximice la función de probabilidad
planteada líneas arriba. En términos matemáticos, ello implica derivar la función de
probabilidad con respecto a λ e igualar esta derivada a cero :

∂P  n!   n! 
= D λ! D −1 (1 − λ! ) n − D  − (n − D)  λ! D (1 − λ! ) n − D −1  = 0
!
∂λ  D !(n − D)!   D !(n − D)! 
Dλ! D −1 (1 − λ! ) n − D = (n − D) λ! D (1 − λ! ) n − D −1
Dλ! −1 = (n − D)(1 − λ! ) −1
D
λ! =
n

donde λ! es precisamente el estimador de máxima verosimilitud, en este caso:


λˆ = D / n = 4 / 10 = 0.4 que coincide con lo que la intuición y el método del tanteo nos habían
arrojado.

5.2. PLANTEAMIENTO GENERAL

Ahora que ya tenemos una idea más concreta de lo que significa el principio de máxima
verosimilitud, estamos en condiciones de generalizar su planteamiento para luego centrarnos en
las propiedades de este tipo de estimadores.

117
Econometría Moderna Máxima Verosimilitud

Para esto, supongamos una muestra (X1,X2,...Xn) que ha sido extraída de una función de
distribución P(Xi/β) donde β representa al conjunto de parámetros que determina la función de
densidad de X. Supongamos también que cada elemento de la muestra se distribuye
independientemente con función de distribución P(Xi/β). De esta forma, la función de
distribución conjunta de toda la muestra vendría dada por:

P( X 1, X 2, ... Xn / β) = P ( X 1 / β). P( X 2 / β)... P( Xn / β)


n
= ∏ P ( Xi / β)
i =1

Tal como en los ejemplos planteados anteriormente, los valores de la muestra (Xi) son
dados, por lo que el problema se reduce a preguntar cuál es el valor de β que maximiza la
probabilidad de ocurrencia de los valores observados (Xi). En este sentido tenemos que la
función de verosimilitud vendría dada por:

n
L(β) = ∏ P ( X i / β)
i =1

Como se puede apreciar la forma de la función de verosimilitud y la función de probabilidad


son iguales, lo único que cambia es el enfoque. En la función de probabilidad lo que se supone
como dado es el parámetro y de allí se generan los datos mientras que en la función de
verosimilitud lo que se considera fijo son los datos y debe hallarse el valor de los parámetros
que hacen que la probabilidad de la muestra sea la mayor posible, es decir aquellos valores que
hacen lo más verosímil posible el hecho de que la muestra haya sido generada por dicha
función de probabilidad.

Tal como se indicó en el primer ejemplo, resulta más conveniente trabajar con el logaritmo
de la función de verosimilitud el cual se reduce a:

n
log[ L(β)] = ∑ log[ P( X i / β)]
i =1

La función anterior (que recibe el nombre de función log-verosímil) es precisamente aquella


que se busca maximizar en términos de β. Esta transformación puede realizarse debido a que
las funciones de probabilidad son monotónicas crecientes y por tanto cualquier transformación
de este tipo no altera los resultados de los puntos de maximización.

5.3. EL SCORE EFICIENTE Y LA MATRIZ DE INFORMACIÓN

Dentro del enfoque de máxima verosimilitud analizado líneas arriba, existen dos matrices
particularmente importantes que es relevante analizar. Estas matrices nos dan información
valiosa que es muy importante incorporar en el estudio de los estimadores de máxima
verosimiltitud. La primera de ellas se conoce como el score eficiente y se define como:

∂ log L(β)
= S (β) = g (β)
∂β

Este vector es el gradiente de la función de log-verosímil. Contiene tantos elementos como


parámetros a estimar contenga un modelo. Como se desprende de lo discutido anteriormente, el

118
Econometría Moderna Máxima Verosimilitud

valor de la matriz de score eficiente, evaluada en el estimador de máxima verosimilitud (que


representa precisamente el máximo de la función) es cero.

La segunda matriz se conoce como la matriz de información y viene dada por la esperanza
del negativo de la segunda derivada de la función log-verosímil respecto al parámetro:

  ∂ 2 log L(β)  
E −   = − E [ H (β)] = I (β)
  ∂β∂β'  

Bajo ciertas condiciones de regularidad (las que se pasan a analizar más adelante), la
varianza del estimador de máxima verosimilitud viene dada por la inversa de la matriz de
información (propiedad que también será verificada más adelante):

[ ]
−1
Var (β! MV ) = I (β! )

La expresión anterior se deriva del teorema de la Cota Mínima de Cramer-Rao, el cual


establece que si la función de densidad de x satisface ciertas condiciones de regularidad, la
varianza de un estimador insesgado del parámetro β será siempre por lo menos igual a {I(β)}-1,
formalmente:

1
Var (β! ) ≥ −
 ∂ log L(β) 
2
E 
 ∂β 2 

La relación que existe entre la matriz de información y la varianza se desprende del


siguiente análisis. Primero debemos recordar que la segunda derivada de una función nos da
una idea de la curvatura que tiene una función. Si suponemos que las funciones de densidad de
probabilidad que utilizamos son doblemente diferenciables ello implica que podemos
determinar la curvatura de cualquier función.

El gráfico que presentamos contiene dos funciones log-verosímiles L1 y L2. Ambas tienen
un mismo máximo pro diferente curvatura. La curva L1 es más abierta que L2 por lo que esta
última presenta una mayor curvatura. Del gráfico se desprende que en el caso de L2 el
parámetro presenta un menor margen de variabilidad dado que el espacio en el cual puede
moverse es menor que en el caso de L1. Por ello esperaríamos que en el caso de L2 el

119
Econometría Moderna Máxima Verosimilitud

parámetro que se obtenga tenga una menor varianza que en el caso del que se obtenga si
utilizamos L1. Entonces podemos concluir que a mayor curvatura la varianza será menor y
viceversa. Esto nos da la intuición de la relación inversa que existe entre la matriz de
información y la varianza de los parámetros. En el caso de la matriz de información vemos que
se toma la esperanza del negativo de la matriz de segundas derivadas (el hessiano de la funcón
log-verosímil). Esto se explica porque la matriz de segundas derivadas de una función que
presenta un máximo es negativa definida. Como las varianzas no pueden ser negativas se toma
el negativo de la matriz para asegurar que las varianzas sean positivas.

5.4. EL ESTIMADOR MÁXIMO VEROSÍMIL DEL VECTOR DE PARÁMETROS DEL MODELO


LINEAL GENERAL.

El principio de máxima verosimilitud es muy flexible y se puede aplicar tomando en cuenta


varias formas estructurales y distintas funciones de distribución. En esta sección
consideraremos el estimador máximo verosímil del modelo lineal general que hemos analizado
en los capítulos anteriores. Como recordamos el modelo lineal general puede expresarse de la
siguiente manera:: y = xβ + u. En el contexto de máxima verosimilitud debemos suponer que la
variable aleatoria relevante sigue una función de probabilidad específica. Por ello vamos a
introducir el supuesto de que el vector u sigue una distribución normal manteniendo el supuesto
de que su media es igual a cero y su varianza viene dada por la matriz σ2uI. Bajo estos
supuestos, la función de densidad del vector u sería:

1
1 1 − 2 u 'u
f ( u) = e 2σ u
(2 π ) ( σ u )
n/2 2 n/2

Tal como en el ejemplo anterior, la función de densidad anterior puede transformarse en la


función de verosimilitud muestral si se expresa u en función de x e y. A diferencia del primer
ejemplo, donde se supuso una desviación estándar unitaria, aquí resulta necesario estimar,
además de los coeficientes, la varianza del término de error:

 1 
1 1  − 2 ( y − xβ )'( y − xβ ) 
 2σ u 
L(β, σ 2
u / y, x ) = e
(2 π) (σ u )
n/2 2 n/2

Siguiendo el criterio de máxima verosimilitud, debemos hallar aquellos valores de los


parámetros σ2u y β que maximicen la función planteada anteriormente. Nuevamente, conviene
trabajar con el logaritmo de la función de verosimilitud:

n n 1
log L (β, σ 2 u ) = − log 2π − log σ 2 u − ( y − xβ )' ( y − xβ )
2 2 2σ 2 u

la cual se deriva respecto a ambos parámetros:

∂ log L 1
= − 2 [−2x' ( y − xβ )] = φ
∂β 2σ u
−2 x' ( y − xβ ) = φ
(x' x )β = x' y
β! = (x' x ) −1 x' y

120
Econometría Moderna Máxima Verosimilitud

∂ log L n 1
=− 2 + ( y − xβ )' ( y − xβ ) = 0
∂σ u
2
2σ u 2σ 4 u
( y − xβ )' ( y − xβ ) = (σ 2 u )n
( y − xβ! )' ( y − xβ! ) u!' u!
σ! 2 u = =
n n

De esta forma, se verifica que, bajo los supuestos de normalidad del término de error y
forma lineal del modelo, el estimador de máxima verosimilitud de β coincide con el estimador
MCO. El estimador de la varianza del término de error, sin embargo, difiere del obtenido a
través de MCO, siendo ahora sesgado:

n− k !2  n−k 2
E (σ! 2 MV ) = E  σ MICO  = σ u
 n  n

Sin embargo, y tal como se verifica en la expresión anterior, el sesgo del estimador de
máxima verosimilitud tiende a cero al aumentar el tamaño muestral y se aproxima, por tanto, al
estimador MCO.

Analicemos ahora la matriz de información y la varianza de los estimadores de máxima


verosimilitud del modelo lineal general. Se sabe que las matrices de score para ambos
parámetros son:

∂ log L 1
= − 2 [−2 x '( y − xβ)]
∂β 2σ u

∂ log L n 1
= − 2 + 4 ( y − xβ)' ( y − xβ)
∂σ u
2
2 σ u 2σ u

Diferenciando nuevamente con respecto a cada parámetro resulta que:

∂ 2 log L 1
= − 2 x' x
∂β∂β' σ u
∂ 2 log L n 1
= − 6 ( y − xβ)' ( y − xβ)
( ) 2σ u σ u
2 4
∂ σ2u
∂ 2 log L 1
= − 4 ( x ' y − x ' xβ )
∂β∂σ u 2
2σ u

Ahora, tomando la esperanza y cambiando el signo se tiene:

121
Econometría Moderna Máxima Verosimilitud

 ∂ 2 log L  1
−E  = 2 x' x
 ∂β∂β'  σ u
 2 
 ∂ log L  n 1
−E = − 4 + 6 E (u' u)

( )  2σ u σ u
2
∂ σ2u 
 
n n
= − 4 + 6 σ2u
2σ u σ u
n
=
2σ 4 u
 ∂ 2 log L  1
−E 2 
= E[ x '( xβ + u) − x ' xβ]
 ∂β∂σ u  2σ u
4

1
= ( x ' xβ − x ' xβ )
2σ 4 u
=0

Considerando los resultados anteriores, la inversa de la matriz de información (que


representa la varianza de los estimadores de máxima verosimilitud) vendría dada por:

−1
β  σ u ( x ' x ) 0 
2
−1 
I  2 = 2σ 4 u 
σ u  0 
 n 

Tal como lo indica el resultado anterior, los resultados obtenidos a través de la estimación
por máxima verosimilitud son similares a los obtenidos a través de MCO. Ya se sabe que la
varianza del estimador MCO es igual σ2u(x’x)-1, sin embargo, para verificar el segundo
resultado es necesario realizar un desarrollo adicional. Considerando que el estimador MCO de
la varianza del término de error viene dado por:

u!' u!
σ! 2 u =
n−k

y que:

u!' u!
≈ Χ 2 ( n− k )
σ2u

se tiene:

σ2u 2
σ! 2 u ≈ Χ (n−k )
n−k

Sabemos también que la varianza de una distribución chi-cuadrado es igual a dos veces sus
grados de libertad, por lo tanto:

122
Econometría Moderna Máxima Verosimilitud

σ4u
Var (σ! 2 u ) = 2( n − k )
(n − k ) 2
2σ 4 u
=
(n − k )

Comparando este resultado con el obtenido a través de la inversa de la matriz de


información, se observa que el sesgo hallado en la sección anterior aparece nuevamente al
momento de calcular la varianza del estimador de máxima verosimilitud de σ2u, el cual, tal
como se indicó anteriormente, disminuye conforme aumenta el tamaño muestral.

5.5. PROPIEDADES DEL ESTIMADOR DE MÁXIMA VEROSIMILITUD (OPCIONAL)

Habiendo revisado los principales resultados referidos al estimador de máxima


verosimilitud, es conveniente para el lector interesado estudiar en profundidad algunas de las
propiedades del estimador a fin de tener una idea más cabal de las implicaciones de su
utilización. Esta sección requiere el uso de técnicas y conceptos un poco más elaborados por lo
que su lectura es opcional para el alumno de pregrado.

Una de las ventajas de la estimación por máxima verosimilitud es que resulta bastante
atractiva debido principalmente a lo general de su planteamiento y a sus propiedades
asintóticas. Si suponemos que se cumplen las condiciones de regularidad (las que serán
enumeradas más adelante) podemos verificar las siguientes propiedades asintóticas:

P1. Consistencia: Plim(β! MV ) = β


P2. Normalidad asintótica: β! 
d
[
→ N β, { I (β)}
−1
]
P3. Eficiencia asintótica

P4. Invarianza: el estimador de máxima verosimilitud de α = c(β) es c(β! ) .

Estas propiedades tornan atractivo este tipo de estimadores especialmente para el análisis
de muestras grandes. Con el fin de explorar más a fondo las propiedades enunciadas
anteriormente, resulta necesario considerar algunas características de la función de densidad
P(Xi,β) (L(Xi β) si lo consideramos desde la perspectiva de máxima verosimilitud, ambas serán
utilizadas indistintamente). Para la definición de dichas caracteríticas se requiere el
cumplimiento de ciertas condiciones conocidas como las condiciones de regularidad:

R1. Las primeras tres derivadas de logL(Xi,β) con respecto a β son finitas para casi todo X y β.
Esto garantiza la posibilidad de realizar aproximaciones a través de series de Taylor y la
existencia de una varianza finita para logL.

R2. Es posible obtener la esperanza de la primera y segunda derivada de logL(Xi,β).

∂ 3 LogL( X i , β )
R3. Para todos los valores de β, es menor a una función con esperanza
∂β j ∂β k ∂β l
finita. Esta condición permite truncar la serie de Taylor.

A partir de estas condiciones se pueden derivar las siguientes características:

123
Econometría Moderna Máxima Verosimilitud

∂LogL( X i , β ) ∂ 2 LogL( X i , β )
C1. LogL( X i , β ), S ( β ) = , Hi = , son todas muestras
∂β ∂β∂β ′
aleatorias de variables aleatorias. Es decir el score eficiente y el hessiano de la función
log-verosímil son muestras de variables aleatorias.

C2. E(S(β)i) = 0

C3. Var(S(β)i) = -E(Hi)

Pasemos ahora a verificar las características enunciadas anteriormente. Para esto


supongamos un rango para Xi: L(β) ≥ Xi ≤ U(β). L(.) representa el valor mínimo que puede
tomar X y U(.) el valor máximo. Consideremos la estimación por máxima verosimilitud de β
para una distribución continua y uniforme con rango (0,β) donde el integral ∫x dx indica la
integración múltiple sobre todos los elementos de Xi, formalmente:

U (β )
∫L(β) P( X / β)dx = 1

Diferenciando con respecto a β se tiene:

U (β )
∂ ∫L( β ) P( X / β )dx U ( β ) ∂P ( X / β) ∂U ( β ) ∂L ( β )
∂β
= ∫L( β ) ∂β
dx + P(U ( β ) / β )
∂β
− P( L( β ) / β )
∂β
=0

Para poder intercambiar los operadores de integración y diferenciación es necesario que los
dos últimos elementos sean iguales a cero. Para esto, una condición suficiente es que el rango
de la variable observada (Xi) no dependa de los parámetros lo que implica que:
∂L( β ) = ∂U ( β ) = 0. Según lo anterior, y considerando la segunda condición de
∂β ∂β
regularidad (R2) tenemos que:


∂ P( X , β )dx ∂P ( X , β )
∂β
= ∫∂β
dx

∂ log P( X , β )
= ∫ ∂β
P( X , β ) dx

 ∂ log P( X , β ) 
= E 
 ∂β 
=0

con lo que se verifica la segunda característica.

Dado que podemos intercambiar los operadores diferenciemos nuevamente para obtener:

 ∂ 2 log P( X , β ) ∂ log P ( X , β ) ∂P( X , β ) 


∫ 
 ∂β∂β '
P( x, β ) +
∂β ∂β ' 
dx = 0

124
Econometría Moderna Máxima Verosimilitud

Considerando que:

∂P ( X , β ) ∂ log P( X , β )
= P( X , β )
∂β ' ∂β '

y que la integral de una suma es la suma de los integrales se tiene que:

 ∂ 2 log P( X , β )   ∂ log P ( X , β ) ∂ log P( X , β ) 



− 
 ∂β∂β '
 P( X , β )dx = 
 
∫ ∂β ∂β '
 P( X , β )dx = 0

La primera parte de la expresión anterior corresponde al esperado la matriz de segundas


derivadas, mientras que la segunda parte al esperado del cuadrado del vector de primeras
derivadas. Sin embargo, y debido a que la esperanza de este vector es igual a cero (C2), la
segunda parte de la expresión representa en realidad la varianza del vector de primeras
derivadas. Tomando en cuenta lo anterior, se puede demostrar la tercera característica:

 ∂ log P( X , β )   ∂ log P( X , β )    ∂ log P( X , β )   ∂ 2 log P ( X , β ) 


E     = Var   = − E  
 ∂β  ∂β '   ∂β   ∂β∂β ' 

Ahora que ya se conoce como derivar las características de la función de distribución, y


teniendo éstas en mente, es posible verificar las propiedades asintóticas del estimador de
máxima verosimilitud. Como ya se sabe, la función log-verosímil viene dada por:

n
log[ L(β)] = ∑ log[ P( X i / β)]
i =1

por tanto1:

∂ log L n

∂β
=g= ∑ gi
i =1

∂ log L
2 n
= H = ∑ Hi
∂β∂β' i =1

A partir de C2, se concluye que:

 ∂ log L 
E  = E[g ] = 0
 ∂β 

 n   n 
 i =1 
∑  i =1 

Ahora, considerando que E[ gg '] = E  gi g i ' = E  ( − Hi )  = − E[ H ] se tiene que:

1
Debe notarse que en este resultado se llamará g al score eficiente.

125
Econometría Moderna Máxima Verosimilitud

 ∂ log L   ∂ 2 log L 
Var   = Var ( g ) = − E   = − E( H)
 ∂β   ∂β∂β ' 

Debido a que la demostración de la consistencia asintótica del estimador de máxima


verosimilitud requiere de operaciones matemáticas aún más complicadas2, se parte del supuesto
de que Plim( β! ) = β 3. Evidentemente, el gradiente de la función log-verosímil (el score
eficiente) evaluado en el estimador de máxima verosimilitud es igual a cero [g(β! ) = 0] .
Expandiendo este conjunto de ecuaciones en una serie de Taylor de segundo orden alrededor de
los verdaderos parámetros tenemos:

1
[
g ( β! ) = g ( β ) + H ( β )( β! − β ) + T ( β *, β! , β ) = 0
2 ]
El tercer término de la ecuación anterior es una función vectorial que incluye la tercera
derivada de logL evaluada en β * (que se encuentra entre β! y β ) y cuyos términos cruzados
vienen dados por: ( β! j − β j )( β! l − β l ) . Replanteando la expresión anterior y multiplicándola
por n tenemos:

n ( β! − β ) = −[ H ( β )]
−1
[ ]
ng ( β ) −
1
2
n [H ( β )]
−1
[T (β*, β! , β )]
La tercera condición de regularidad (R3) asegura que la tercera derivada converge a una
constante finita, además, debido a que Plim( β! − β ) = 0 , los términos cruzados en esta parte de
la expansión convergen a cero. En definitiva, y para muestras lo suficientemente grandes, el
[
lado derecho de la ecuación anterior ya no involucra a T( β *, β! , β ) (recordemos que la ]
tercera condición de regularidad permite truncar la serie de Taylor). Por tanto, la expresión
anterior se reduce a:

(
n β! − β 
)
d
→[ H (β)]
−1
[ ng (β) ]
Ahora, dividiendo H(β) y g(β) entre n tenemos:

( ) [ ] [ ng ]
−1
n β! − β 
 → H (β)
d 1
n

2
Para una demostración formal de esta propiedad puede consultarse Cramér,H.
Mathematical Methods of Statistics, Princeton University Press,1948.
3
Debe mencionarse que el plim de un variable aleatoria se refiere al límite en probabilidad definido como:
Lim P( x − u > ε ) = 0
n →∞
es decir que la diferencia entre cualquier variable aleatoria (x) y su media (u) tiende a ser muy pequeña a medida que
el tamaño de la muestra tiende a crecer. No implica que la esperanza en el límite sea igual al verdadero parámetro.
Esto se verá en más detalle en el capítulo 10.

126
Econometría Moderna Máxima Verosimilitud

donde g representa la media de una muestra aleatoria (recordemos la primera característica,


C1) de modo que es posible aplicar el Teorema del Límite Central de Lindberg-Levy4 (para esto
se debe tomar en cuenta que la varianza limitante de [ ng ] es −E[H(β)] ):
ng (β) 
d
→ N {0,− E [ H (β)]}

Tomando en cuenta que plim [ 1


n ]
H (β) = E [ H (β)] y que ésta es una matriz constante la
expresión anterior puede ser replanteada de la forma:

[ ] [ {− E[H (β)]}{ E[H (β)]} −1 ]


−1
→ N 0, { E [ H (β)]}
−1
H ( β) ng (β) 

1 d
n

y, por lo tanto:

(
n β! − β 
d
)
→ N 0,−{ E [ H (β)]}[−1
]
lo que da la distribución asintótica del estimador de máxima verosimilitud:

β! 
d
[
→ N β, {I (β)}
−1
]
Queda pendiente aún verificar la cuarta propiedad referida a la invarianza del estimador de
máxima verosimilitud. Esta propiedad, sin embargo, es un resultado matemático del método
utilizado en la estimación por máxima verosimilitud y no representa un resultado estadístico en
si. Específicamente, este resultado puede resultar de gran utilidad para el investigador ya que,
por ejemplo, si la función de verosimilitud contiene un parámetro de la forma 1/βj, usualmente
resulta útil trabajar con una reparametrización del modelo en términos de αj = 1/β j. Para ilustrar
esta propiedad consideremos la estimación por máxima verosimilitud de la media y varianza de
una muestra obtenida de una distribución normal. La función log-verosímil en este caso vendría
dada por:

n n 1 n  ( x − µ) 
log L(µ , σ 2 ) = − log(2 π) − log σ 2 − ∑  i 2 
2 2 2 i =1  σ 

de modo que la maximización respecto a cada parámetro sería:

4
Según el Teorema del Límite Central de Lindberg-Levy, si x1,...xn es una muestra aleatoria de una distribución con
media finita (vector µ) y una matriz de covarianzas finita y definida positiva (Q) se tiene que:
n ( xn − µ) 
d
→ N (0, Q)
donde
1 n
xn = ∑ xi
n i =1

127
Econometría Moderna Máxima Verosimilitud

∂ log L 1 n

∂µ
= 2
σ
∑ ( xi − µ ) = 0
i =1

∂ log L n 1 n

∂σ 2
=− 2 + 4
2σ 2σ
∑ ( xi − µ ) 2 = 0
i =1

A partir de las ecuaciones anteriores, los estimadores de máxima verosimilitud de la media y


varianza serían5:

1 n
µ! = ∑ xi = x
n i =1
1 n
σ! 2 = ∑
n i =1
( xi −x ) 2

Ahora, tomando en cuenta la propiedad de invarianza, reparametricemos la función en


1
términos del parámetro de precisión θ 2 = . De esta forma, la función log-verosímil vendría
σ2
dada por:

n n 1 n
log L(µ , θ 2 ) = − log(2 π) + log θ 2 − ∑ θ 2 ( xi − µ ) 2
2 2 2 i =1

Resulta fácil verificar que el estimador de máxima verosimilitud de µ sigue siendo x , sin
embargo la ecuación log-verosímil de θ2 sería, en este caso:

∂ log L(µ , θ 2 ) 1  n n
2
=  2 ∑ ( xi − µ )  = 0

∂θ 2
2 θ i =1 

por lo que la solución vendría dada por:

n 1
θ! 2 = =
n !σ 2
∑ ( xi − µ! ) 2
i =1

Tal como se verifica en la expresión anterior, el estimador de máxima verosimilitud de


1 1
θ2 = es 2 , con lo que se verifica la propiedad de invarianza.
σ 2
σ!

5.6. INFERENCIA EN EL CONTEXTO DE MÁXIMA VEROSIMILITUD. TESTS ASINTÓTICOS

Así como en el contexto del estimador de mínimos cuadrados ordinarios revisamos las
diferentes pruebas de hipótesis que nos servían para verificar las distintas restricciones que
plantea la teoría o la intuición es deseable presentar el marco dentro del cual se pueden realizar
5
Para obtener los estimadores se debe multiplicar la primera expresión por σ2 e insertar este resultado en la segunda
expresión.

128
Econometría Moderna Máxima Verosimilitud

pruebas de inferencia dentro del contexto de máxima verosimilitud. Veremos que los principios
que guían la inferencia en este contexto son aproximaciones y por ello no se realizan tests
exactos sino asintóticos. Por tanto, se utilizan distribuciones aproximadas siendo la más
utilizada la chi cuadrado. Veremos también cómo pruebas ya estudiadas son derivaciones o
casos especiales de las pruebas que aquí revisaremos.

Bajo el esquema de máxima verosimilitud son tres las pruebas que estudiaremos: la prueba
de Wald, la prueba de los multiplicadores de Lagrange y la prueba del ratio de verosimilitud.
Los tres procedimientos son asintóticamente equivalentes. Sin embargo, existe una diferencia
fundamental entre ellos. La prueba de Wald evalúa únicamente una estimación irrestricta del
modelo, la prueba de Lagrange utiliza una estimación restringida y, finalmente, la prueba del
ratio de verosimilitud utiliza tanto la estimación restringida como la irrestricta. En la práctica,
por tanto, la elección de determinada prueba depende de cual estimación resulta más fácil de
computar.

Pasemos ahora a formalizar el planteamiento de estos estimados. Supongamos que el


estimador sin restringir (irrestricto) del vector de parámetros β es β! y queremos probar la
restricción generalizada H0:f(β) = 0 contra la alterna H1:f(β) ≠ 0. La función f(β) debe ser
diferenciable de tal forma que permita la estimación de todos los parámetros restringidos.

5.6.1 La prueba de ratio de verosimilitud

La prueba del ratio de verosimilitud (RV) es la más antigua de los tres procedimientos que
analizaremos en esta sección y tuvo su origen en los trabajos de Neyman y Pearson (1928). Se
basa en la comparación del valor de la función de verosimilitud evaluada en el estimado sin
[ ]
restringir (β! ) y en el estimado restringido β r / f (β) = 0 . Según esto, resulta claro que:

L(β ) r
RV = <1
L(β! )

dado que por definición L(β! ) > L(β! r ) 6. Se necesita ahora expresar el ratio anterior en una forma
que tenga una distribución asintótica bien definida, lo que puede lograrse expandiendo logL(β)
en una serie de Taylor alrededor del estimado sin restringir. Teniendo en mente las condiciones
de regularidad enunciadas en la sección previa es factible expresar el logaritmo de la función de
verosimilitud de la forma:

 ∂ 2 log L(β)  !
[ ]  ∂ log L(β)  1 !
log[ L(β)] = log L(β! ) + (β! − β) 
 ∂β
+
 2

(β − β )' 
 ∂β∂β '
(β − β)

Evidentemente, evaluada en β!

6
Esto queda claro si tomamos en cuenta que una maximización sin restricciones nos permite alcanzar un máximo que
siempre será mayor o igual que una maximización con restricciones. En el mejor de los casos lo que tenemos es que
los valores maximizados serán iguales si es que la restricción pasa por el punto de maximización global de la función.

129
Econometría Moderna Máxima Verosimilitud

∂ log L(β)
= S (β) = 0
∂β
∂ 2 log L(β) p
→ I (β)
∂β∂β'

por lo que la expansión de Taylor vendría dada por:

1
log L(β) = log L(β! ) + (β! − β)' I (β! )(β! − β)
2

Aplicando logaritmos al ratio de verosimilitud tenemos que:

[
−2 log( RV ) = 2 log L(β! ) − log L(β r ) ]
Combinando los resultados anteriores y reemplazando el parámetro desconocido β de la
expansión de Taylor por β r tenemos que:

−2 log( RV ) = (β! − β r )' I (β! )(β! − β r )

Ya se conoce que bajo ciertas condiciones de regularidad el estimador de máxima


verosimilitud converge asintóticamente a:

( )
n β! − β 
d
[
→ N 0, I (β) −1 ]
por lo tanto, (β! − β)' I (β)(β! − β) se distribuye Χ2(m), donde m es el número de restricciones.
Teniendo esto en mente y tomando en cuenta la última expresión derivada para el logaritmo del
ratio de verosimilitud podemos construir el estadístico de la forma:

[ ]
RVT = 2 log L(β! ) − log L(β r ) ≈ Χ 2 (m)

La expresión anterior es la forma usual de la prueba del ratio de verosimilitud, el cual


simplemente implica que el doble de la diferencia entre la función log-verosímil evaluada en el
parámetro sin restringir y restringido se distribuye chi-cuadrado con m grados de libertad. Si el
estadístico RVT resulta mayor al valor crítico se rechaza la hipótesis nula y por tanto la
restricción. Si analizamos la expresión, tenemos que en primer lugar va el valor de la función
log-verosímil evaluada en el parámetro sin restringir el cual será mayor o igual al valor de la
función log-verosímil evaluada en el parámetro restringido. Esto asegura que la expresión es no
negativa lo que va acorde con los valores de la función chi-cuadrado que sabemos son no
negativos.

5.6.2 ¿Cómo se contruyen estos tests? Una aproximación intuitiva

Para ilustrar la relación entre los tres tests sugeridos líneas arriba Cuthbertson,Hall y Taylor
(1992) plantean el siguiente ejemplo. Supongamos que se prentende contrastar la siguiente
hipótesis acerca del parámetro escalar β: H0:β = β 0 contra H1:β ≠ β 0. Tal como se discutió

130
Econometría Moderna Máxima Verosimilitud

anteriormente, el test RV estima el valor de la función log-verosímil evaluada tanto bajo H0


como H1 y calcula la distancia (1/2)RV (ver gráfico).

La distancia (1/2)RV depende tanto de la distancia ( β! − β 0 ) como de la curvatura


∂ 2 log L
(pendiente) de la función log-verosímil que definiremos como R ( β! ) = evaluada en
∂β 2
β = β! . Para una distancia dada ( β − β ) , mientras mayor sea la curvatura o pendiente de la
0
función log-verosímil, mayor será la distancia (1/2)RV. Resulta sencillo verificar lo anterior si
nos remitimos al gráfico. Evidentemente, la función L1 presenta una mayor pendiente y resulta
comprobar que dada la distancia ( β! − β ) en el eje de las abcisas, la distancia
0

L( β! ) − L1 ( β 0 ) resulta mayor que la distancia L( β! ) − L2 ( β 0 ) . En este sentido, la “precisión”


del estimador de máxima verosimilitud β! es mayor para la función de verosimilitud L que 1
para la función L2, de modo que con la primera función se tendería a rechazar la hipótesis
β = β 0 más fácilmente que con la función L2. Si la curvatura de la función es grande entonces
la variabilidad de β alrededor de su estimado de máxima verosimilitud β! será pequeña como
ya vimos en secciones anteriores.

5.6.3 La prueba de Wald

Con la intuición detrás de la derivación del test RV en mente, pasemos ahora a analizar el
test de Wald, el cual utiliza únicamente la estimación irrestricta. Este test estima la distancia
(1/2)RV desde el punto X, midiendo la distancia ( β! − β ) y calculando la posición de P (o P
0 1 2

en el caso de L2) usando la curvatura R( β! ) evaluada en el punto máximo X. En este sentido,


podemos definir el estadístico del test de Wald para H0:β = β 0 de la siguiente forma:

W = ( β! − β 0 ) 2 R ( β! )

131
Econometría Moderna Máxima Verosimilitud

Sin embargo, este estadístico utiliza la curvatura promedio de la función medida a través de
la matriz de información, la cual, como se sabe, sería la inversa de la varianza del estimador.

W = ( β! − β 0 ) 2 I ( β! )

Se puede ahora generalizar la expresión anterior para un grupo (f) de restricciones no


lineales (f(β) = 0) sobre k parámetros (f < k) y el estadístico de Wald (1943) vendría dado por:

[ ]{
W = g ( βˆ ) ' F ( I ( βˆ )) −1 F '} −1
g ( βˆ )

Donde F representa la matriz de orden (f x k) de las derivadas parciales ∂g( β ) β evaluadas

en β! . Valores elevados de W son generados por grandes desviaciones de f ( β! ) de cero, y estas


desviaciones están ponderadas por la curvatura promedio de la función log-verosímil. En este
sentido, ante valores elevados de W resulta factible que se rechace la hipótesis nula. El
estadístico de Wald se distribuye chi-cuadrado con m grados de libertad, donde m es el número
de restricciones en el vector f. A manera de ejemplo, consideremos ahora el caso especial
donde se pretende contrastar la restricción β! = 0 en una restricción lineal. En este caso f(β) = β
- 0, y es evidente que F sería la matriz identidad. Para este caso especial, el estadístico del test
de Wald vendría dado por:

W = β! ( I (β! )) −1 β!
β! 2
= ≈ Χ 2 (1)
Var (β) !

Dado que la inversa de la matriz de información es precisamente la varianza del estimador


de máxima verosimilitud, el test de Wald, en este caso, sería simplemente el cuadrado del test t
de significancia para una restricción sobre un sólo parámetro de una regresión lineal.

Un ejemplo adicional que nos permite entender esta prueba y todas las expresiones que
aparecen en él es el siguiente: Supongamos que nuevamente estamos estimando una demanda
de un bien y tenemos la siguiente función a estimar:

LnX d = β 1 + β 2 LnPx + β 3 LnPy + β 4 LnY + µ

A partir de este modelo se plantean las siguientes restricciones:

Ho : β 2 + β 3 + β 4 = 0
2β 1 + β 4 = 3
H 1 : al menos una no se cumple

En la hipótesis planteada tenemos dos restricciones. La primera de ellas se refiere a la


homogeneidad de grado cero y la segunda puede haber sido planteada para el investigador para
el caso específico que se está analizando. Si bien estamos empleando un modelo lineal similar
al utilizado en el contexto de mínimos cuadrados ordinarios, éste puede ser muy útil para
ilustrar la prueba de Wald. En primer lugar, podemos decir que la función g ( β ) =0 implicaría
igualar ambas restricciones a cero. Ello implica pasar el 3 a la izquierda en el caso de la
segunda restricción. Así las restricciones quedarían de la siguiente forma:

132
Econometría Moderna Máxima Verosimilitud

β + β 3 + β 4 = 0
g (β ) :  2
 2β 1 + β 4 − 3 = 0

Dado esto calculemos la derivada de la función g con respecto al vector de parámetros β .


Realizando esto obtenemos:

∂g ( β ) 0 1 1 1
= 
∂β 2 0 0 1

Notemos que esta derivada tiene una forma equivalente a la matriz R que utilizamos en el
contexto de la prueba F analizada en el capítulo 4.

Ahora sabemos que por construcción los parámetros restringidos están construidos para
cumplir con las restricciones. Entonces la pregunta que se hace la prueba de Wald es si los
parámetros sin restringir cumplen con la restricción. El hecho de igualar a cero las restricciones
nos permite analizar una distribución con media cero. Si remplazamos los parámetros estimados
sin restringir dentro de g el valor obtenido es distinto de cero salvo que las restricciones estén
perfectamente planteadas. La idea es analizar si esa diferencia de cero es significativa o no.
Tomando en cuenta esto, y si los resultados obtenidos de la estimación sin restringir son los
siguientes:

LnX d = 1.04 − 0.75 LnPx + 0.70 LnPy + 0.51Lny

Aquí se han tomado con dos decimales los resultados obtenidos de la siguiente estimación:

Variable Coeficiente Error Estadístico Prob.


Estándar t
C 1.049972 0.173306 6.058474 0.0000
X1 -0.755151 0.108545 -6.957035 0.0000
X2 0.705307 0.057244 12.32100 0.0000
X3 0.514416 0.022911 22.45280 0.0000

La matriz de varianzas y covarianzas de los parámetros obtenida por la matriz de


información sería:

C X1 X2 X3
C 0.030035 -0.010378 -0.005635 -0.001917
X1 -0.010378 0.011782 0.000416 -1.81E-05
X2 -0.005635 0.000416 0.003277 -5.39E-05
X3 -0.001917 -1.81E-05 -5.39E-05 0.000525

Remplazando los parámetros sin restringir dentro de la matriz g, obtenemos el siguiente


vector:

0.464572
2.614359

Con estos valores y haciendo los reemplazos correspondientes en la siguiente expresión,

[ ]{ }
W = g ( βˆ ) ' F ( I ( βˆ )) −1 F '
−1
g ( βˆ )

133
Econometría Moderna Máxima Verosimilitud

obtenemos el siguiente valor para el valor W = 378.88, lo cual comparado con el valor de la
tabla chi-cuadrado con dos grados de libertad y al 95 por ciento de confianza nos arroja la
conclusión de que no podemos aceptar la hipótesis planteada. Por tanto las restricciones
planteadas en la hipótesis nula no pueden imponerse en el modelo.

5.6.4 La prueba de los multiplicadores de Lagrange

La prueba del multiplicador de Lagrange (LM), sugerido por Aitchison y Silvey (1938), tal
como se indicó anteriormente, está basado únicamente en la estimación restringida del modelo.
Esta prueba también es conocida como la del score eficiente dado que se basa en la distribución
asintótica de función del score.

1
S (β) ≈ N (0, I (β))
n

Intuitivamente hablando, la pregunta que se hace esta prueba es dado que el score evaluado
en el estimado sin restringir es igual a cero (dado que la condición para hallar el estimador de
máxima verosimilitud es igualar el score a cero), si remplazamos el estimado restringido dentro
el score ¿éste es igual a cero? Obviamente casi siempre será distinto de cero y lo que se
evaluará es si la diferencia del cero es grande o pequeña. En otras palabras lo que queremos
analizar es si la diferencia del cero se debe a factores aleatorios o a factores estructurales.
Debemos recordar que dado que la muestra es aleatoria, tanto el score como la matriz de
información y la función log-verosímil también serán variables aleatorias.

Formalmente hablando y tomando en cuanta el gráfico anterior, el test LM calcularía la


distancia (1/2)LR2 usando P2 como punto de partida. La función de verosimilitud (en este caso
L2) es primero evaluada en la restricción β = β 0, esto es, el en el punto P2. El segundo paso
consistiría en estimar el punto X basándonos en la curvatura de L2 en P2. Se sabe que la
estimación irrestricta β! debería satisfacer la ecuación S (β! ) =
∂ log L
∂β = 0
, donde S

representa la función del score. En el punto β = β 0 la función del score, evidentemente, no es


igual a cero y, por tanto, [S(β 0 ) ] da una medida de la diferencia entre β 0 y β! . Sin embargo,
2

lo anterior no garantiza que dos funciones de verosimilitud no den el mismo valor para
[S(β 0 )]2 , pero siempre una de las dos tendrá un valor de β0 más cercano al máximo. En este
sentido resulta conveniente ponderar [S(β 0 ) ] por la curvatura de la función de verosimilitud.
2

Para un valor dado de L(β 0), cuanto mayor sea la curvatura más cercano estará el estimado
restringido a β! . En el gráfico anterior resulta sencillo comprobar esto comparando los puntos
P2 y P3, donde este último corresponde a la función con mayor curvatura (L1) y β 0’ está
claramente más cerca a β! . En este sentido, en el test LM ponderamos el cuadrado de la
función del escore evaluada en el estimado restringido por la inversa de la curvatura
[I (β 0 )]−1 para obtener:

LM = [S (β 0 )] [ I (β 0 )]
2 −1

La versión generalizada del estadístico sería de la forma:

134
Econometría Moderna Máxima Verosimilitud

LM = [S (β 0 )] [ I (β 0 )] [S (β 0 )] ≈ Χ 2 (m)
' −1

donde m es, nuevamente, el número de restricciones.

Resulta sencillo verificar que si se cumple exactamente la restricción (esto es que β r = β! )


entonces S (β r ) = 0 . Por tanto, la distancia entre S (β r ) y cero indica la fuerza del efecto de la
restricción en el valor de máxima verosimilitud.

5.6.5 La relación entre las tres pruebas.

La relación entre los tres procedimientos descritos en esta sección depende del grado en
que la segunda derivada sea capaz de proporcionar el valor de la función de verosimilitud en los
estimados restringidos y sin restringir. Si se busca contrastar una restricción lineal, tal como la
que planteamos en el ejemplo previo, y la función de verosimilitud es cuadrática, entonces la
segunda derivada proporciona un estimado perfecto de la forma global de la función. En este
caso, los tres estadísticos proporcionarían el mismo valor numérico (W = RV = LM). Sin
embargo, cuando la segunda derivada no es conocida la igualdad desaparece y se verifica que
W > RV > LM (Berndt y Savin (1977)).

Analicemos ahora un ejemplo adicional que ayude a entender la analogía e intuición detrás
de los tres tests planteados. Consideremos nuevamente la estimación por máxima verosimilitud
del parámetro β y el contraste de la hipótesis H0:f(β) = 0.

Considerando el gráfico anterior, si la restricción f(β) = 0 es válida su imposición no debe


ocasionar una reducción considerable en el valor de la función de verosimilitud y, por tanto, el
test de RV se basa en la distancia L(β! ) − L (β r ) . Por otro lado, si la restricción es válida,
f (β! ) debería ser cercano a cero (ya que el estimador de máxima verosimilitud es consistente),
en este sentido, el test de Wald se basa en f (β! ) evaluando su distancia de cero. Finalmente, si
la restricción es válida el estimador restringido debería ser cercano al valor que maximiza la

135
Econometría Moderna Máxima Verosimilitud

función de verosimilitud por lo que el test Lagrange (LM) se basa en evaluar la pendiente de la
función (score) en el estimador restringido.

5.6.6 Cómo se realiza la estimación en la práctica.

En la primera parte de este capítulo se usó un ejemplo y se habló que una de las formas de
realizar la estimación era a través de un proceso de tanteo. Este procedimiento es el que más se
utiliza en la práctica. No siempre es posible obtener un estimador de forma analítica porque la
forma de las funciones de probabilidad conforme se utilizan formas funcionales más complejas
y distribuciones multivariadas los cálculos analíticos no son de fácil resolución y se requiere de
métodos numéricos de aproximación para obtener los estimados de máxima verosimilitud.
Estos métodos reciben en general el nombre de algoritmos de optimización. En general, son
pasos ordenados a seguir que se repiten hasta lograr satisfacer ciertos criterios.

Uno de los enfoques que más se utiliza es el de la resolución de problemas lineales-


cuadráticos. Se considera a un problema de optimización con estructura lineal cuadrática,
cuando la función objetivo es a lo más de grado dos en los parámetros a estimar, las posibles
restricciones del problema son todas funciones lineales de los parámetros. La estimación
analítica de este tipo de funciones es bastante sencilla. Este caso se presenta en las estimaciones
econométricas del modelo lineal general por mínimos cuadrados ordinarios, puesto que al ser el
modelo original un tipo de modelo lineal en los parámetros; la función a minimizar: sumatoria
de errores al cuadrado, representará una función cuadrática (los parámetros a estimar estarán
elevados a lo más al exponente 2). Sin embargo no ocurre algo similar en las estimaciones
econométricas por máxima verosimilitud, en las que la función a maximizar: función de
verosimilitud, adopta regularmente formas bastante complejas.

En este último tipo de estimación econométrica (aplicando el método de máxima


verosimilitud), la obtención analítica de los parámetros se hace imposible en determinadas
funciones, en cambio, no ocurre algo similar en estimaciones por mínimos cuadrados, en ellas,
aplicando las condiciones de optimización señaladas posteriormente, se puede llegar fácilmente
a los parámetros deseados.

Ante la dificultad que se presenta en la obtención analítica de los parámetros estimados


usando las condiciones de optimización, se hace necesario utilizar una serie de procedimientos
numéricos, denominados algoritmos, los cuales serán expuestos a continuación.

Generalmente los problemas de optimización no lineal son resueltos por técnicas iterativas.
Al tener una estimación, una nueva estimación es lograda por una regla dada, esta última
constituye un mejoramiento de la inicial. Si este procedimiento tiene éxito, la estimación final
satisfará todas las propiedades requeridas de la estimación inicial. Las reglas de estos
procedimientos iterativos proveen las bases de la optimización no lineal particular.

Existe un rango amplio de algoritmos posibles. Ellos difieren en el empleo de las derivadas
parciales de la función; así, algunos requieren segundas derivadas, otros únicamente primeras
derivadas, y otros más no las emplean. Los algoritmos basados en las primeras derivadas
ofrecen la opción de calcular numéricamente los parámetros.

La elección de un determinado algoritmo se encuentra directamente relacionado con el tipo


de función a maximizar o minimizar. Estos métodos son muy eficientes y evitan muchas de las
dificultades presentes en la estimación no lineal, evidentemente esto no implica que todos los
problemas de optimización no lineal queden resueltos. Algunas de las rutinas están sujetas a

136
Econometría Moderna Máxima Verosimilitud

problemas de ejecución quedando los resultados expuestos a malas interpretaciones, se hace


necesario tener mucho cuidado en el manejo de dichos resultados.

Existen varios tipos de algoritmos de optimización que están en función del problema a
resolver y de la complejidad de la función a optimizar. Entre los más utilizados están los de
descenso rápido (steepest descent), Newton-Raphson y el algoritmo del scoring. En verdad
existen muchas variedades de los mismos que están diseñados para resolver problemas de la
presencia de varios máximos o mínimos y otros problemas que pueden aparecer en la práctica.
Para ilustrar la lógica de estos algoritmos utilizaremos el algoritmo del scoring. Este se define
según la siguiente fórmula:

θˆn = θˆn −1 + [I (θˆn −1 )] S (θˆn −1 )


−1

Según esta expresión vemos que el vector de parámetros a estimar (denotado por θ en la
fórmula) es actualizado por una expresión que depende de la matriz de información y del score
de la función log-verosímil. Expliquemos en detalle la lógica que está detrás de esta expresión.

1. En primer lugar debemos partir de un valor inicial del valor del parámetro. Este
puede ser proveído por el usuario o por otro método de estimación. En modelos
sencillos se puede empezar con valores calculados por ejemplo por el método de
mínimos cuadrados ordinarios.
2. Una vez que se tiene estos valores se calcula el valor del vector de score y la matriz
de información. Como sabemos el score debe ser cero en el estimador de máxima
verosimilitud. Partiendo de un valor inicial arbitrario es muy difícil que el score sea
cero. Sin embargo, pensemos en la información que nos brinda el score. Si su valor
es positivo quiere decir que estamos a la izquierda del valor máximo y por tanto
debemos avanzar hacia la derecha de la función. El valor positivo del score
precisamente nos indica en cuánto debemos avanzar hacia la derecha. Ahora bien,
esta información es aún incompleta para ver cómo el salto a la derecha en el valor
del parámetro se transforma en un aumento del valor de la función log-verosímil.
Este pedazo de información faltante nos es brindada, en el caso de este algoritmo
de optimización, por la matriz de información que es una medida de la curvatura de
la función log-verosímil. Así vemos que de la multiplicación de estas magnitudes
nos indican el grado de corrección que debe hacerse sobre el estimado inicial.
3. Una vez que se obtiene el nuevo valor se vuelve a realizar la operación anterior. Si
el score sigue siendo distinto de cero se procederá a realizar una nueva corrección
del estimado. A cada repetición del proceso se le denomina una iteración. El
algoritmo seguirá operando tantas veces como sea necesario.
4. Como se mencionó en el paso 3, el algoritmo se repite tantas veces como sea
necesario. Para decidir si se sigue realizando las iteraciones se compara el estimado
obtenido en cada iteración con el obtenido en la iteración inmediata anterior. La
decisión de continuar está relacionada a lo que se denomina criterio de
convergencia. Este es proveído por el usuario, aunque la mayoría de programas
utiliza el valor de 0.001 para decidir si el proceso se detiene o no. Esto quiere decir
que si la diferencia de cada uno de los estimados con el obtenido en la anterior
iteración es mayor a este valor, el proceso continúa. Si es menor, el proceso se
detiene y el último estimado es el que se reporta como el estimado de máxima
verosimilitud. Obviamente podría hacerse más pequeño el criterio de convergencia
pero ello implicaría un costo en tiempo dado que sería necesario realizar más
iteraciones. Como se puede ver, este método es una buena aproximación para
obtener el máximo de una función.

137
Econometría Moderna Máxima Verosimilitud

Los diferentes algoritmos difieren en la expresión que utilizan para multiplicar al score. Este
nos indica la dirección hacia la cual debe moverse el valor del estimado. La ponderación que se
le dé a ese cambio vendrá dado por el la magnitud por la que se multiplique. En el caso del
algoritmo descrito lo que se utiliza es la matriz de información que nos da una medida de la
curvatura de la función log-verosímil. La elección de otras magnitudes estará supeditada a
criterios como la velocidad de convergencia y la forma y dificultad de la función a maximizar.

Un gráfico nos puede ayudar a entender los pasos a seguir. En él se está representando la
función log-verosímil. El eje horizontal contiene los valores posibles del parámetro. Por
simplicidad estamos suponiendo que sólo estimamos un parámetro. El eje vertical mide los
valores de la función log-verosímil.

En el gráfico se puede apreciar que iniciamos el proceso con un valor inicial θˆ0 y se calcula el
score que estaría representado por la línea tangente a la función log-verosímil. Si el score es
mayor a cero como nos indica la pendiente de la línea tangente ello implica que debemos
movernos hacia la derecha tal como nos señala la línea a la derecha de θˆ0 . El proceso se repite
hasta que se llegue al valor del parámetro que maximice la función log-verosímil, θˆmax .

5.6.7 A manera de conclusión.

En este capítulo hemos revisado el planteamiento, estimación y propiedades del estimador


de máxima verosimilitud. Entre los principales resultados encontrados podemos mencionar que
este estimador parte del supuesto que la población se distribuye según una función de
probabilidad específica y lo que se busca es, dada una muestra de datos, escoger el valor de los
parámetros que haga que la probabilidad de ocurrencia de la muestra sea la máxima posible. De
esta manera lo que se busca es que el supuesto inicial sea lo más creíble o verosímil posible. La
literatura acerca de este estimador es extensa y de hecho podría elaborarse todo un texto acerca
de las aplicaciones y propiedades del mismo. Sin embargo, ello escapa de los alcances de un
libro de texto de pregrado como el actual. No obstante lo anterior, tener una idea general de las
propiedades y principios detrás de este estimador es importante debido al uso cada vez más
generalizado del mismo. La velocidad con la que se va avanzando en la rapidez de las
computadoras han hecho mucho más factible realizar la estimación por este método además que
muchos nuevos estimadores están basados en este principio.

138
CAPITULO 6
QUIEBRE ESTRUCTURAL

6.1. DEFINICIÓN DEL PROBLEMA

El procedimiento normal al estimar una regresión bajo los supuestos del modelo lineal general
(MLG), conduce a la obtención de coeficientes que representan estimados de los parámetros
poblacionales de la regresión. Al estimar una ecuación de regresión múltiple y utilizarla para
predecir observaciones futuras que no pertenecen al espacio muestral que dio origen al coeficiente
estimado, se supone que los parámetros1 son constantes durante todo el periodo de estimación y de
predicción2. Por lo general se supone que las distintas realizaciones o submuestras que conforman
el espacio muestral total, son generadas por una misma estructura económica. Sin embargo,
cuando se tiene sospecha o evidencia de la existencia de una variación estructural del sistema
económico subyacente en algún momento del periodo muestral, se aplican las pruebas de cambio
(o quiebre) estructural. De este modo, se verifica si dicha variación es lo suficientemente
importante como para generar cambios en los coeficientes del modelo.

Tomando en cuenta lo anterior, se puede definir como cambio estructural a la variación atípica del
conjunto de observaciones, generada por una innovación o alteración en la estructura económica
básica sobre la cual se sustenta la serie. Como se entiende, el concepto de cambio estructural está
íntimamente ligado a la noción de estabilidad de parámetros ya que si se produce un quiebre, los
parámetros no serán constantes para todo el periodo muestral. En términos más prácticos, el cambio
estructural se genera en aquel período donde se detecta un quiebre pronunciado dentro de la
evolución de la serie.

1
Nótese que son los parámetros los que se asumen como constantes bajo el supuesto de estabilidad y que los estimadores
de dichos parámetros, sometidos a las pruebas de estabilidad deberán comportarse siguiendo este patrón.
2
Se supone estabilidad intertemporal de parámetros (parámetros constantes dentro del período de estimación y dentro del
de predicción).
Econometría Moderna

Como se verá en las siguientes líneas, el cambio puede darse ser en el intercepto, en una o varias de
las pendientes del modelo o en ambos y la solución para cada caso será particular (para ello
definiremos las llamadas variables dicotómicas, binarias o dummies en intercepto o en pendiente).
Las pruebas de detección, por otro lado, sí son aplicables de manera general puesto que para
evaluar la existencia de inestabilidad de parámetros, en cualquiera de los tres casos, basta que
exista una distorsión relevante (ya sea en intercepto, pendiente o en ambas) en la evolución del
sistema, mercado o economía que se materializa en cambios en el modelo estimado. Todo ello
implicaría que la hipótesis de inexistencia de quiebre se rechace.

Tomando en cuenta los conceptos antes mencionados, resulta claro que la intuición del quiebre
estructural tiene más sentido en series de tiempo que en modelos de corte transversal. Es más
coherente imaginar que la serie de observaciones de la variable que introduce el quiebre lo
experimenta a partir de una fecha a consecuencia del cambio estructural, que imaginar que entre
distintas observaciones de un conjunto de datos de corte transversal se produzca una variación
fuerte como consecuencia de un fenómeno semejante (cambio estructural). En todo caso, resulta
prudente no descartar la posibilidad de evaluar la presencia de un cambio estructural en un modelo
que contiene datos de corte transversal, ya que de hecho los resultados de estos modelos pueden
indicar inestabilidad de parámetros. De hecho si uno agrupa las observaciones de corte transversal
en orden ascendente o descendente tomando en cuenta una variable explicativa y encuentra que
existe un quiebre estructural en un parámetro podría estar identificando la presencia de un valor de
la variable independiente que altera la relación de comportamiento con la variable dependiente.
Esto podría considerarse como un umbral a partir del cual la relación cambia.

En el caso de los modelos de series de tiempo, existe un patrón predeterminado de ordenamiento: la


sucesión temporal, no interesa si los valores de las variables explicativas aumenten o disminuyan,
por el contrario, la existencia de ciclos enriquecerá el modelo puesto que si a pesar de ellos el
coeficiente de determinación es alto, la regresión será representativa. Sin embargo, en los modelos
de corte transversal, el criterio de ordenamiento de las observaciones depende del investigador y
ese ordenamiento de hecho influye en los resultados de los tests de cambio estructural puesto que el
“momento” (en este caso, la “observación”) en que se produce, y en última instancia, la presencia
de quiebre dependerá del criterio de orden que se empleó. Es por esto que el presente capítulo se
centrará únicamente en analizar el concepto de quiebre estructural desde la perspectiva de la
modelación de series de tiempo. Tal como se indicó líneas arriba, existen dos tipos de quiebre
estructural bien definidos y un tercero que nace de la combinación de los dos primeros.
Específicamente:

i) Quiebre en Intercepto: En este caso, los efectos sistemáticos que afectan a la variable
dependiente y que el modelo no recoge, han sufrido un cambio (quiebre estructural)
haciendo que el intercepto varíe. Esto implica que ha habido un cambio en el nivel autónomo
manteniendo los efectos marginales (medidos por las pendientes).

ii) Quiebre en Pendiente: A diferencia del caso anterior, las consecuencias del cambio
estructural que no son recogidos por el modelo afectan a los efectos marginales (coeficientes
de regresión). Es decir, los regresores afectarán en mayor o menor proporción (dependiendo
si los coeficientes de regresión aumenten o disminuyan respectivamente) a la variable
explicada a partir de la fecha de quiebre. Por ejemplo, en el caso de un modelo bivariado, la
submuestra anterior al período de quiebre dará origen a una recta de regresión estimada con
Capítulo 6: Quiebre Estructural

una pendiente distinta a la generada con las observaciones de la submuestra posterior a la


fecha de quiebre.

iii) Quiebre en Intercepto y en Pendiente: Si el cambio estructural conduce a observaciones


que generan una recta de regresión estimada con distinta pendiente e intercepto a partir del
período de quiebre. Es una combinación de los dos casos anteriores.

Tal como se puede notar, el rechazo de la hipótesis planteada de estabilidad de parámetros no sólo
depende de la existencia de quiebre. También se puede rechazar tal hipótesis cuando el modelo no
está bien especificado y tal deficiencia conduce a que los efectos sistemáticos que no son recogidos
por el modelo afecten al intercepto o a las pendientes cuando se consideran diferentes submuestras.

(a) Quiebre en Intercepto (b) Quiebre en Pendiente

(c) Quiebre en Intercepto y Pendiente

Figura 6.1

Los ejemplos clásicos que se emplean para explicar el proceso de quiebre estructural con modelos
que incluyen series económicas son las etapas de transición entre épocas de guerra y de paz, de
auge y depresión, de desastres naturales, de procesos hiperinflacionarios, y otros fenómenos que
afecten significativamente a las variables empleadas en el modelo de regresión que se evalúa.
Econometría Moderna

EJEMPLO 6.1

Como caso ilustrativo se plantea un modelo bivariado en el cual se analiza en qué proporción el
PBI peruano es explicado por las exportaciones. La presencia de quiebre estructural en intercepto
y en pendiente es notoria. Observe el gráfico de la izquierda en la Figura 6.1. La recta de
regresión estimada no recoge los efectos sistemáticos que afectan al PBI en 1987 y que implican
una cambio en los regresores que afectan a las variables que explican al producto. Al realizar la
prueba de estabilidad, se detecta la existencia de parámetros inestables. Tras correr la regresión
para la submuestra anterior y posterior al quiebre, se obtienen estimados discrepantes y que
reflejan el problema de cambio estructural. El rechazo de la hipótesis de estabilidad puede deberse
ya sea a que la especificación del modelo no es lo suficientemente rica como para capturar la
distorsión (y de hecho casi ocurre, puesto que para explicar al PBI por el método del gasto es
prudente incorporar otras variables explicativas como el consumo, gasto fiscal, etc.), o ya sea que
en 1987 la coyuntura económica del país haya experimentado fuertes fluctuaciones y cambios
estructurales que se reflejan en la inestabilidad de los coeficientes del modelo. Así pues, el
periodo de inestabilidad económica y pésima administración pública que experimentó el Perú
durante la gestión de Alan García representa el escenario en el que ocurre este cambio estructural.
La crisis del gobierno de Alan García a partir de 1987, en donde los niveles de inflación y
recesión de la producción, así como el empeoramiento de la distribución funcional del ingreso,
han registrado cifras nunca antes vistas en la historia económica peruana, explican el cambio
estructural detectado en este ejemplo. Las estrategias usuales de modelos con crecimiento “hacia
afuera” vía promoción de exportaciones, en particular manufactureras, y el alejamiento de
modelos con crecimiento “hacia adentro” vía un proceso de sustitución de importaciones que
expande la sustitución hacia industrias productoras de bienes intermedios y de capitales puede ser
una justificación a la mayor importancia que empiezan a tomar las exportaciones como
determinantes del producto. La instauración de organismos como PROMPEX es un claro
indicador del interés del Gobierno por impulsar el desarrollo del sector exportador. Esto explica el
porqué la pendiente de la segunda regresión es más empinada, es decir el coeficiente que
acompaña a esta explicativa incrementa el efecto marginal que ésta tiene sobre la dependiente.

60000 60000 60000

40000 40000 40000


PBI

PBI

PBI

20000 20000 20000

0 0 0
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000

X X X

1896-1995 1896-1987 1988-1995

Figura 6.2
Capítulo 6: Quiebre Estructural

LS // Dependent Variable is PBI


Sample: 1896 1995
Included observations: 100
Variable Coefficient Std. Error t-Statistic Prob.
C -3535.998 1013.423 -3.489164 0.0007
X 7.563716 0.509200 14.85412 0.0000
R-squared 0.692448 Mean dependent var 7417.541
Adjusted R-squared 0.689309 S.D. dependent var 12471.67
S.E. of regression 6951.661 Akaike info criterion 17.71327
Sum squared resid 4.74E+09 Schwarz criterion 17.76537
Log likelihood -1025.557 F-statistic 220.6449
Durbin-Watson stat 0.155067 Prob(F-statistic) 0.000000

LS // Dependent Variable is PBI


Sample: 1896 1987
Included observations: 92
Variable Coefficient Std. Error t-Statistic Prob.
C -2015.186 509.7807 -3.953045 0.0002
X 5.184631 0.288336 17.98120 0.0000
R-squared 0.782253 Mean dependent var 4492.371
Adjusted R-squared 0.779834 S.D. dependent var 7339.086
S.E. of regression 3443.638 Akaike info criterion 16.31007
Sum squared resid 1.07E+09 Schwarz criterion 16.36489
Log likelihood -878.8054 F-statistic 323.3237
Durbin-Watson stat 0.388793 Prob(F-statistic) 0.000000

LS // Dependent Variable is PBI


Sample: 1988 1995
Included observations: 8
Variable Coefficient Std. Error t-Statistic Prob.
C -43990.55 20725.24 -2.122559 0.0780
X 23.18801 5.627127 4.120756 0.0062
R-squared 0.738911 Mean dependent var 41057.00
Adjusted R-squared 0.695396 S.D. dependent var 9688.967
S.E. of regression 5347.436 Akaike info criterion 17.38106
Sum squared resid 1.72E+08 Schwarz criterion 17.40092
Log likelihood -78.87576 F-statistic 16.98063
Durbin-Watson stat 2.021519 Prob(F-statistic) 0.006211
Econometría Moderna

EJEMPLO 6.2

Otro ejemplo ilustrativo es el que a continuación se explica. Analice la evolución de la variación


mensual del índice de precios al consumidor para el Perú entre 1979 y 2000.

Inflación en el Perú
1979-2000

180%
160%
140%
120%
100%
80%
60%
40%
20%
0%
-20%
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
Figura 6.3

Como se puede observar en el gráfico, la inflación en el Perú experimentó durante las dos
últimas décadas de los noventas 3 etapas notoriamente demarcadas. La primera de ellas, entre
1979 y 1988, muestra un período relativamente estable con una inflación mensual promedio de
5.41 por ciento. Entre 1988 y 1990, con el gobierno de Alan García, se inicia un período de
crisis, que en nuestros términos representa un fuerte shock exógeno. Al respecto, el
financiamiento del déficit fiscal y los créditos a las empresas públicas y el Banco Agrario fueron
las causas más importantes del crecimiento desmesurado de la base monetaria, lo que significó
una inflación mensual promedio de 29.48.

A partir de los noventas, la situación estabilizarse y se llega a recobrar la disciplina monetaria


perdida durante los años precedentes, y que en su momento llevó a cometer vicios de
intervención estatal en la actividad económica. A partir de 1992, el Banco Central de Reserva
cuenta con su propia ley orgánica que le permite resguardar su autonomía, y de esta manera,
evita los excesos que el gobierno pueda cometer con la política fiscal.

El presente modelo se construye a partir de inflación mensual (inf), la cual se pretende explicar
mediante el cambio mensual de M1 (cm1). La figura 6.4 muestra cómo durante los 3 períodos
demarcados, la recta de regresión cambia de pendiente.
Capítulo 6: Quiebre Estructural

Ene 1979 - Mar 1988 Abr 1988 - Oct 1990 Nov 1990 - Dic 2000

0.25 2.0 0.25

0.20 0.20
1.5
0.15
0.15
1.0 0.10
INF

INF

INF
0.10
0.05
0.5
0.05
0.00

0.00 0.0 -0.05


-0.1 0.0 0.1 0.2 0.3 0.0 0.2 0.4 0.6 0.8 1.0 -0.2 -0.1 0.0 0.1 0.2 0.3

CM1 CM1 CM1

Figura 6.4

Dependent Variable: INF


Method: Least Squares
Sample(adjusted): 1979:02 1988:03
Included observations: 110 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 0.054921 0.003693 14.87256 0.0000
CM1 0.027756 0.044191 0.628103 0.5313
R-squared 0.003640 Mean dependent var 0.056545
Adjusted R-squared -0.005586 S.D. dependent var 0.027567
S.E. of regresión 0.027644 Akaike info criterion -4.320778
Sum squared resid 0.082535 Schwarz criterion -4.271678
Log likelihood 239.6428 F-statistic 0.394513
Durbin-Watson stat 0.697555 Prob(F-statistic) 0.531262

Dependent Variable: INF


Method: Least Squares
Sample: 1988:04 1990:10
Included observations: 31
Variable Coefficient Std. Error t-Statistic Prob.
C 8.81E-05 0.081107 0.001086 0.9991
CM1 1.218745 0.269230 4.526778 0.0001
R-squared 0.414043 Mean dependent var 0.319522
Adjusted R-squared 0.393838 S.D. dependent var 0.285946
S.E. of regression 0.222627 Akaike info criterion -0.104293
Sum squared resid 1.437326 Schwarz criterion -0.011778
Log likelihood 3.616546 F-statistic 20.49172
Durbin-Watson stat 2.391484 Prob(F-statistic) 0.000094
Econometría Moderna

Dependent Variable: INF


Method: Least Squares
Date: 08/28/01 Time: 15:08
Sample(adjusted): 1990:11 2000:11
Included observations: 121 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 0.016192 0.002910 5.564291 0.0000
CM1 0.165640 0.048541 3.412385 0.0009
R-squared 0.089130 Mean dependent var 0.020413
Adjusted R-squared 0.081476 S.D. dependent var 0.030232
S.E. of regression 0.028974 Akaike info criterion -4.228425
Sum squared resid 0.099902 Schwarz criterion -4.182213
Log likelihood 257.8197 F-statistic 11.64437
Durbin-Watson stat 0.608440 Prob(F-statistic) 0.000881

Tal como se observa en el primer cuadro de regresión, los resultados indican que la recta de
regresión estimada no explica con un grado de ajuste alto a la variable dependiente. Si se divide
el espacio muestral en dos subconjuntos diferenciados por el momento de quiebre, se logra
entender porqué la estimación global (empleando todos los elementos de la muestra) no era
robusta. Para cada subespacio muestral, los coeficientes de regresión cambian drásticamente.
Tras realizar sendas regresiones, el coeficiente de determinación se ve incrementado
notablemente comparado con el caso de la regresión global. Todas estas precisiones dan un claro
indicio de la existencia de inestabilidad de parámetros o de cambio estructural.

Ahora que ya se tiene una idea general de la naturaleza y origen del problema del cambio
estructural, se pasarán a tratar los métodos de detección de esta anomalía.

6.2. CÓMO DETECTAR UN CAMBIO ESTRUCTURAL

6.2.1 Test de Chow3

Una de las aplicaciones más comunes del test F es la evaluación de la existencia de cambio
estructural. El test de Chow o prueba de estabilidad mediante el análisis de varianza, compara las
sumas de errores al cuadrado (o suma de cuadrados residual) de modelos restrictos e irrestrictos
para analizar la existencia de cambio estructural.

Suponga que se evalúa la estabilidad de un modelo multivariado de k+1 regresores:

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k

3
Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol.
28, no. 3, pp 591 - 605. Esta prueba, si bien es conocida como test de Chow, fue discutida ocho años antes por C.R.Rao
en “Advanced Statistical Methods in Biometric Research”, Nueva York: Wiley, 1952 y por Kullback y H.M.Rosenblatt
en “On the Analysis of Multiple Regression in k Categories”, Biometrika, 1957, pp. 67-83.
• El primer paso para realizar el test consiste en tomar dos subconjuntos independientes del total
de la muestra y correr una regresión con las mismas variables explicativas del modelo original.
Cada subconjunto consta de n1 y n2 observaciones respectivamente. Así se obtiene:

Yt = α1 + β11x1t + β12x2t + ... + β1kxkt + µ t = 1,2,…,n1

Yt = α2 + β21x1t + β22x2t + ... + β2kxkt + µ t = n1+1, … , N

En forma matricial:

 y1   X 1   β 1   µ1 
 y  =  X  β  + µ 
 2   2  2   2 

• El segundo paso es construir la hipótesis sobre la cual se realizará la prueba estadística. Como
es obvio, lo que se hará es analizar el comportamiento de los coeficientes de regresión de ambos
modelos, y la hipótesis planteada implica la igualdad de dichos coeficientes para asegurar la
estabilidad de los parámetros de regresión y por ende la ausencia de quiebre. Formalmente:

 α1   α 2   α1   α 2 
β  β  β  β 
 11   21   11   21 
H0 :  β 12  =  β 22  H1 :  β 12  ≠  β 22 
       
 M   M   M   M 
 β 1k   β 2 k   β 1k   β 2 k 

Matricialmente:

Rβ = q donde R = [I: -I] y q=0

Es importante resaltar que la igualdad de coeficientes debe cumplirse para todos ellos a la vez,
si al menos uno de ellos fuese diferente, entonces se aceptará la hipótesis alternativa.

• Como tercer paso se construye el estadístico F tomando en cuenta la suma de cuadrados residual
de cada uno de los dos subconjuntos y la suma de cuadrados residual de la combinación de
ambos:

(∑ er2 − ∑ eu2 )
F= k ∼ F( k , n1 + n2 − 2 k ) (6.1)
∑ eu2
(n1 + n2 − 2k )

donde :

∑e 2
u = ∑e 2
1 + ∑e 2
2
Econometría Moderna

EJEMPLO 6.3

El procedimiento para evaluar el test consiste en examinar el valor del estadístico F que arroja el
programa y contrastarlo con el de tabla. Si el valor es menor al de tabla, se acepta la hipótesis de
estabilidad de los coeficientes, caso contrario se acepta la existencia de quiebre estructural. Sin
embargo, al momento de realizar este test, es necesario introducir como insumo la fecha en que
se presume se produce el quiebre. Esto es una desventaja puesto que si el número de
observaciones es alto, la fecha de quiebre puede pertenecer a un subconjunto bastante amplio de
esta muestra y realizar el test para cada período resultaría engorroso. Se sabe, sin embargo, que
el quiebre se producirá en el período en el que el F tome el valor más alto.

Este programa genera series (Y y X1) de 500 observaciones. El modelo autogenerado contiene
una variable dependiente definida como Y = 0.5 + 0.3X1. Asimismo, se crea una serie y1 que
contiene un cambio estructural en intercepto y en pendiente y sobre la cual se evaluará el
quiebre estructural, tenga en cuenta el cambio radical en el intercepto introducido a partir del
periodo 281 (el intercepto pasa de 0.5 a 20) y en la pendiente (de 0.3 a 0.7). Note que el
programa subdivide la muestra total en dos submuestras e introduce la distorsión en el segundo
intervalo (280 - 500), por lo tanto, el quiebre se producirá en el periodo 280. La ecuación EQ
contiene al modelo libre de quiebre, por lo tanto el estimado obtenido tras ejecutar dicha
regresión será el que se espera obtener tras eliminar el quiebre de la variable exógena. La
ecuación EQD contiene el modelo que ha subsanado el quiebre pues introduce las dummies en
intercepto y en pendiente. Si analiza esta regresión y compara los resultados con los obtenidos
para el modelo “normal” (sin quiebre), notará que los valores son semejantes:

Modelo Real
LS // Dependent Variable is Y
Sample: 1 500
Included observations: 500

Variable Coefficient Std. Error t-Statistic Prob.

C 0.500000 7.65E-17 6.54E+15 0.0000


X1 0.300000 7.65E-18 3.92E+16 0.0000

R-squared 1.000000 Mean dependent var 0.560643


Adjusted R-squared 1.000000 S.D. dependent var 3.001924
S.E. of regression 1.71E-15 Sum squared resid 1.46E-27
F-statistic 1.54E+33 Durbin-Watson stat 1.831856
Prob(F-statistic) 0.000000
Capítulo 6: Quiebre Estructural

Modelo con Quiebre


LS // Dependent Variable is Y1
Sample: 1 500
Included observations: 500

Variable Coefficient Std. Error t-Statistic Prob.

C 8.984574 0.541397 16.59518 0.0000


X1 0.892797 0.054148 16.48806 0.0000

R-squared 0.353126 Mean dependent var 9.165048


Adjusted R-squared 0.351827 S.D. dependent var 15.03372
S.E. of regression 12.10352 Akaike info criterion 4.990985
Sum squared resid 72954.66 Schwarz criterion 5.007844
Log likelihood -1955.216 F-statistic 271.8560
Durbin-Watson stat 0.672825 Prob(F-statistic) 0.000000

Modelo con Dummies


LS // Dependent Variable is Y1
Sample: 1 500
Included observations: 500

Variable Coefficient Std. Error t-Statistic Prob.

C 0.499156 0.063505 7.860112 0.0000


X1 0.292692 0.006328 46.25504 0.0000
D1*X1 1.412031 0.009560 147.7077 0.0000
D2 19.48763 0.095484 204.0929 0.0000

R-squared 0.995058 Mean dependent var 9.165048


Adjusted R-squared 0.995028 S.D. dependent var 15.03372
S.E. of regression 1.060017 Akaike info criterion 0.124538
Sum squared resid 557.3237 Schwarz criterion 0.158255
Log likelihood -736.6038 F-statistic 33291.60
Durbin-Watson stat 2.075011 Prob(F-statistic) 0.000000

Observe cómo en el modelo con variables dummies, tanto el intercepto como la pendiente se
acercan a los valores reales de los parámetros. En las últimas secciones del capítulo se describe
detalladamente el álgebra matricial de este procedimiento.

Si se deseara evaluar la presencia de quiebre para otras series, lo único que se debe hacer es
modificar el programa en los comandos que hacen referencia a series autogeneradas, por
ejemplo en lugar de trabajar con la series Y y X1 se abre el archivo de trabajo que contiene la
información y se cargan las series a la ventana de programación. Así mismo, se deberá arreglar
el tamaño de muestra que fue predeterminado en 500 observaciones para el ejemplo. Note que la
separación en submuestras para generar el quiebre ya no será útil en este caso para generarlo,
pero sí para curarlo. En este sentido, una vez ejecutado el programa y conocida la fecha de
quiebre, se sabe a partir de qué periodo hacer que las dummies funcionen.
Econometría Moderna

∑e 2
r = suma de cuadrados residual para todo el conjunto de datos (modelo restringido) . Esto
se conoce como suma de cuadrados residual restringida y a través de ella se impone la
restricción de igualdad de parámetros.

∑e 2
1 = suma de cuadrados residual para el primer subconjunto de datos.

∑e 2
2 = suma de cuadrados residual para el segundo subconjunto de datos.

• En seguida se realiza el test y se compara el F estadístico hallado en el paso anterior con el F


tabular con k y (n1 +n2 -2k) grados de libertad. Si el estadístico resulta ser menor al tabular
entonces se acepta la hipótesis de estabilidad, caso contrario la consolidación de datos no tiene
sentido, es decir, agrupar los subconjuntos para correr una regresión conjunta sería inútil puesto
que los coeficientes difieren para cada submuestra.

En muchos casos, esta evaluación se realiza para comprobar si al ampliar el tamaño de muestra, las
nuevas observaciones suponen un cambio significativo con respecto al resto de la muestra. En estos
casos, el tamaño del segundo subconjunto (n2) puede ser muy pequeño y ello haría imposible
estimar el segundo de los modelos por falta de grados de libertad (n2-k) sería negativo puesto que n2
es muy pequeño). En el caso extremo en que n2 = k, ∑e 2
2 = 0 y por lo tanto, el estadístico quedaría
de la forma:

(∑ er2 − ∑ e12 )
F= k (6.2)
∑e 2
1
(n1 − k )

Esta expresión es válida para el caso en el que n2 < k como se verá en el test predictivo.

6.2.2 Test Predictivo para estabilidad4

Esta prueba es útil cuando el tamaño de muestra del segundo subconjunto es menor al número de
regresores más uno (si k no incluye el intercepto), ya que bajo estas condiciones no es posible
realizar la regresión del segundo modelo (con n2 observaciones) y consecuentemente no se puede
obtener la suma de cuadrados residuales necesaria para realizar el test de la sección anterior. Como
su nombre lo indica, la prueba inicia con la regresión del primer subconjunto de observaciones (de
n1 elementos) para luego realizar, y sobre la base de estos resultados, predicciones para las n2
observaciones del segundo subconjunto.

Una vez realizada la predicción, se prueba la hipótesis de que los errores de predicción tienen
media cero en cuyo caso se rechazaría la presencia de un quiebre estructural. Dado que se espera
que los errores de predicción tendrán un valor esperado nulo, se entiende que los valores predichos
para el segundo subgrupo se aproximarán en promedio a los reales, en cuyo caso, los estimadores

4
Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol.
28, no. 3, pp 591 - 605.
Capítulo 6: Quiebre Estructural

empleados para aproximar a la variable dependientes serán válidos y estables durante todo el
periodo cubierto por la muestra total. En este sentido, el estadístico a evaluar será el siguiente:

(∑ e r2 − ∑ e12 )
( n2 )
F= ∼ F n ,n − k (6.3)
( 2 1 )
∑ e12
(n1 − k )

Como se observa, el estadístico se construye con n2 y n1-k grados de libertad puesto que el
numerador está incluyendo de manera indirecta la suma de cuadrados residual del modelo predicho.
Así mismo, y dado que el denominador sólo incluye a la primera submuestra, los grados de libertad
se reducen al tamaño de la primera submuestra menos el número de parámetros del modelo.

En este caso, es posible revertir el orden de las submuestras, es decir, es lícito intercambiar el
primer y segundo período para ver si la estabilidad de parámetros se mantiene con la predicción de
las observaciones de los elementos del primer subconjunto y no del segundo.

Sin embargo, bajo condiciones normales, si el número de elementos de la segunda submuestra es


mayor al número de regresores (incluyendo al intercepto), es decir, si se cuenta con suficientes
grados de libertad, es preferible el análisis de varianza pues resulta una prueba más potente para
descartar la existencia de quiebre estructural.

Tal como se vio anteriormente, el Test de Chow realiza un análisis basado en la descomposición
del espacio muestral en dos realizaciones o submuestras. Un supuesto esencial en la ejecución de
este test es que la varianza para cada subconjunto es idéntica puesto que de no ser así, se violaría
uno de los supuestos del MLG ya que se aceptaría la existencia de heterocedasticidad. Puesto que
se evalúan dos subconjuntos independientes y diferentes que conforman el espacio muestral total,
el supuesto de homocedasticidad implica que las regresiones de dichos subconjuntos tiene un
término de error que se distribuye con una varianza idéntica para cada submuestra.

Figura 6.4
Econometría Moderna

Según estudios realizados por Schmidt y Sickles5 (1977), Ohtani y Toyoda (1985) y Toyoda y
Ohtani (1986), bajo estas circunstancias se podría sobrestimar el nivel de significancia de las
pruebas estadísticas tratadas en los dos puntos anteriores. Esto implica aceptar un t estadístico
como mayor que un t tabular cuando en realidad es menor . Esto se entiende claramente
recurriendo a la gráfica de una distribución de probabilidades con zonas limitadas por los niveles
de confianza.

Una vez que se haya constatado que las varianzas difieren considerablemente para cada una de las
submuestras (de un modo semejante al sugerido en el test de Goldfeld y Quandt) y teniendo en
cuenta que el test de Wald es aplicable sólo para muestras grandes, se realiza la prueba de
estabilidad de los parámetros.

Suponga que θ1 y θ2 son dos estimadores distribuidos normalmente basados en muestras


independientes (esto se asemeja a los pasos iniciales que se siguen en la ejecución del test de
Chow) y con matrices de covarianzas V1 y V2. Bajo la hipótesis nula de que los dos estimadores
tienen el mismo valor esperado (igual al parámetro, lo cual implica la estabilidad del mismo para
las dos muestras), se concluye que:

(θ1 − θ2) ∼ N (0, V1 + V2)

En seguida se construye el estadístico de Wald con el cual se realizará la prueba:

W = (θ1 − θ2) ‘(V1 + V2)-1(θ1 − θ2) ∼ χ 2 con k +1 grados de libertad (6.4)

Es de utilidad la aplicación de este estadístico puesto que considera restricciones y varianzas


estimadas. En este caso, la restricción que se impone es la igualdad de los coeficientes en ambas
regresiones. Como se sabe, el test de Wald evalúa las restricciones, si éstas se cumplen, las
estimaciones hechas por las ecuaciones de regresión restringidas e irrestrictas no deberían discrepar
en gran magnitud, es decir, en el caso de estabilidad, los coeficientes deberían ser estables y por lo
tanto se rechazaría la presencia de quiebre estructural.

Si el valor del estadístico es muy elevado, se rechazará la hipótesis nula de estabilidad.

Esta evaluación es válida sólo para muestras grandes puesto que el estadístico de Wald requiere
como dato previo la matriz de covarianza para las perturbaciones de las regresiones ejecutadas para
cada submuestra, es decir, demanda como insumo a V1 + V2. Dado que en la práctica sólo se cuenta
con los estimadores de tales parámetros resulta conveniente trabajar con muestras grandes ya que
en estos casos los resultados no se distorsionan significativamente si se emplean los estimadores en
lugar de V1 + V2.

Para muestras pequeñas y moderadas, el test de Wald presenta alta probabilidad de arrojar
resultados con error tipo I, es decir, el frecuente rechazo de la hipótesis planteada de estabilidad
cuando en realidad ésta es verdadera. Una forma de evitar el error es emplear valores críticos
mayores a los normales (recordemos que para rechazar la hipótesis nula el valor estadístico debe
ser mayor al valor tabular de modo que si el valor tabular o crítico aumenta, la probabilidad de
rechazar la hipótesis planteada se reduce).

5
P. Schmidt y R. Sickles 1977. “Some further evidence on the use of the Chow test under heteroskedasticity”,
Econometrica, Vol. 45, No.5, pp. 1293 - 1298.
Capítulo 6: Quiebre Estructural

EJEMPLO 6.5

Al hacer el análisis de las perturbaciones, se detecta heterocedasticidad:

White Heteroskedasticity Test:

F-statistic 103.9318 Probability 0.000000


Obs*R-squared 147.4495 Probability 0.000000

Test Equation:
LS // Dependent Variable is RESID^2
Sample: 1 500
Included observations: 500

Variable Coefficient Std. Error t-Statistic Prob.


C 16996.56 899.4082 18.89749 0.0000
X1Q -0.535115 1.336643 -0.400343 0.6891
X1Q^2 -0.000522 0.000240 -2.175656 0.0301

R-squared 0.294899 Mean dependent var 10082.14


Adjusted R-squared 0.292062 S.D. dependent var 14879.03
S.E. of regression 12519.07 Akaike info criterion 18.87600
Sum squared resid 7.79E+10 Schwarz criterion 18.90129
Log likelihood -5425.469 F-statistic 103.9318
Durbin-Watson stat 0.068123 Prob(F-statistic) 0.000000

Se sabe que existe un quiebre estructural en el periodo 280 (pues el programa así lo determina),
pero que también existe heterocedasticidad en el modelo, entonces, la división de las
submuestras se hará justo en el período 280 y se aplicará el Test de Wald.

Tras correr las dos regresiones (una para las 279 observaciones y otra para las restantes), se
obtienen los estimadores (θ1 , θ2) y las varianzas estimadas de tales estimadores. Así pues:

θ1 = 0.498078 θ2 = 0.079632

V1 = 2.21204147308e-06 V2 = 1.63880104589e-08

De donde se obtiene un estadístico W = 78574.2142 que por ser demasiado alto indica que la
restricción de igualdad de estimadores no se cumple, lo cual lleva a rechazar la estabilidad de
coeficientes.

6.2.3 Test alternativos de residuos recursivos para evaluar la estabilidad

Los tests que se presentan a continuación están basados en el empleo de residuos recursivos y
fueron propuestos por Brown, Durbin y Evans(1975). La estructura de estas pruebas sigue una
lógica similar al test predictivo para estabilidad pero no llegan a ser tan potentes como el test de
Chow original. Sin embargo, tienen la ventaja de no requerir la fecha en que se produce el quiebre
como insumo necesario para evaluar las hipótesis.
Econometría Moderna

Suponga que el espacio muestral total consta de n observaciones. El residuo recursivo de la


enésima observación se define como el error de predicción de la variable explicada hallado
empleando el estimador MCO obtenido a partir de las t-1 observaciones anteriores. Formalmente:

et = y t − xt ' β t −1 MCO

Lo que interesa es calcular el residuo recursivo normalizado. Para ello es necesario conocer la
varianza del residuo recursivo (et ), que está definida por la siguiente ecuación:

Var (et ) = σ µ2 [1 − xt ' ( X t −1 ' X t −1 ) −1 xt ]

Note que se emplea minúsculas para nombrar a las variables que involucran sólo observaciones del
período t y mayúsculas para las mismas variables pero que incluyen las t-1 observaciones
anteriores.

Una vez obtenida la varianza se construye el residuo recursivo normalizado:

et
wt = ∼N (0, σ µ2 ) (6.5)
−1
1 + xt ' ( X t ' X t ) xt

Bajo la hipótesis planteada de estabilidad de parámetros, wt se distribuye como una Normal con
media cero y varianza constante e independiente de ws ∀ s ≠ t.

Brown Durbin y Evans sugieren dos pruebas basadas en el residuo recursivo normalizado, éstas
son:

i) Test CUSUM (Cumulate Sum of Residuals)

Como su nombre lo indica, esta prueba se basa en la suma acumulada de los residuos normalizados.
El estadístico que se emplea es el estadístico CUSUM o Wt:

t
wr
Wt = ∑ σ̂
r = k +1
2
(6.6)

donde:

T T

∑ (w r − w)2 ∑w r
σˆ =
2 r = k +1
y w= r = k +1

T − k −1 T −k

Si los valores del residuo recursivo normalizado cambian en el tiempo de manera sistemática, se
tomará como evidencia de inestabilidad en el modelo. Bajo la hipótesis nula de estabilidad, Wt
tiene media cero y una varianza aproximadamente igual al número de residuos acumulados (ya que
cada término tiene varianza igual a uno y además son independientes). La evaluación se realiza
graficando el estadístico CUSUM a lo largo del tiempo. Si esta gráfica permanece dentro de las
bandas de confianza (definidas por dos rectas que conectan los puntos [k, ± α(T-k)1/2] y [T, ± 3α(T-
Capítulo 6: Quiebre Estructural

k)1/2] donde α representa diversos valores de significancia6) entonces los coeficientes son estables
en el tiempo, pero si la gráfica traspasa las bandas, se rechaza la hipótesis planteada y se reconoce
la existencia de un cambio estructural en el modelo para el período muestral.

Cabe destacar que la prueba se realiza trazando la gráfica alrededor del eje de abscisas, es decir, se
espera que el estadístico CUSUM fluctúe alrededor del valor nulo. Si eso ocurre, la línea
permanecerá dentro de las bandas de confianza y se aceptará la estabilidad de parámetros, en otras
palabras, se acepta que la suma de residuos recursivos tiene esperanza nula.

60

40

20

-20

-40

-60
20 40 60 80 100 120 140 160 180 200

CUSUM 5% Significance

Figura 6.5

ii) Test CUSUM2 (Cumulate Sum of Square Residuals)

En este test alternativo se emplea el estadístico CUSUM2 o St que hace referencia a la suma
acumulada de los residuos normalizados al cuadrado. Formalmente:

∑w
r =k
2
r
St = T
(6.7)
∑w
r =k
2
r

Dado que los residuos recursivos se distribuyen independientemente, tanto el numerador como el
denominador son sumas de variables que se distribuyen como una Chi-cuadrado, cada una con un
grado de libertad. Por lo tanto el valor esperado de este estadístico E[St] es aproximadamente igual
a (t - k)/(T- k). La prueba se realiza graficando los valores de E[St] para cada momento en el
tiempo. Si esta gráfica sobrepasa los límites impuestos por el intervalo de confianza E[S] ± c07
entonces se rechaza la hipótesis nula y se acepta la presencia de quiebre.

6
Los valores de α que se encuentran en el paper de Brown et al. son α = 0.948 al 95% de confianza y α = 1.1143 al
99%.
7
c0 depende de T-k y del nivel de significancia deseado.
Econometría Moderna

1.2

1.0

0.8

0.6

0.4

0.2

0.0

-0.2
20 40 60 80 100 120 140 160 180 200

CUSUM of Squares 5% Significance

Figura 6.6

Es preciso señalar además que ambas pruebas (CUSUM y CUSUM2) dan indicios de la fecha de
quiebre. Dado que son pruebas gráficas, la exactitud de la fecha de quiebre no es una de sus
ventajas, sin embargo aproxima con un margen de error aceptable tal período. Por ejemplo,
siguiendo el caso de la inflación en el Péru, se sabe que existen dos quiebres: el primero de ellos se
da en Marzo de 1988 y el segundo se da en octubre de 1990. Teniendo esto en cuenta, al realizar las
pruebas de residuos recursivos CUSUM y CUSUM2, se obtienen los siguientes resultados:

60 1.2

1.0
40

0.8
20
0.6
0
0.4
-20
0.2

-40 0.0

-60 -0.2
50 100 150 200 250 50 100 150 200 250

CUSUM 5% Significance CUSUM of Squares 5% Significance

Figura 6.7

Finalmente, cabe señalar que existe una ventaja del test CUSUM2 sobre el test CUSUM
convencional puesto que al elevar al cuadrado los errores se elimina la distorsión que pueden
incluir los signos de los errores. El test CUSUM normal sólo agrega los errores de predicción que
se van obteniendo al ir ampliando la muestra en una observación, pero estos errores pueden tener
signos contrarios y cancelar su efecto, distorsionando el resultado de la prueba. El test CUSUM2 no
es afectado por este problema ya que al elevar al cuadrado los errores, se elimina el efecto del
signo, sin embargo, la intuición del estadístico no es tan pura como en el caso convencional ya que
no se espera que sea nulo en promedio sino se busca que el valor esperado sea igual a (t - k)/(T - k).
Capítulo 6: Quiebre Estructural

iii) Test t de Harvey y Collier:

Existe un test propuesto por Harvey y Collier (1977) relacionado al uso de residuos recursivos para
evaluar la estabilidad y que se basa en la media muestral de tales residuos.

Bajo la hipótesis nula de estabilidad, la media muestral de los residuos recursivos ( w ) se


distribuye normalmente con media cero y varianza σ2/(T - k). En este test, se evalúa la hipótesis de
que la media de wt es cero a través de la construcción de un estadístico t que se compara con un
valor tabular con T - k - 1 grados de libertad:

( T − k )w
t= ∼ tT - k -1 (6.8)
s
donde:
r =T 2

2
∑ (w
r = k +1
r − w)
s =
T − k −1

iv) Test de Predicción de una Etapa:

Como se puede inferir de la definición, cada residuo recursivo es el error de una predicción de una
etapa (es decir la discrepancia entre el valor estimado de la iésima observación predicho con las i -
1 observaciones anteriores). Tal error puede ser comparado con su desviación estándar bajo la
hipótesis nula con el propósito de evaluar si el valor de la variable dependiente en el periodo t ha
provenido del modelo estimado empleando todas las observaciones hasta ese punto.

En la figura 6.8, se traza los residuos recursivos y los errores estándares en la parte superior, y en la
parte inferior, se muestran los valores de las probabilidades para aquellos puntos muestrales en los
cuales la hipótesis de estabilidad de coeficientes se rechazaría a niveles de 0, 5, 10 y 15% de riesgo.
Tal como se ve, en el periodo 280 existe una acumulación de puntos bien marcada y con niveles de
confianza muy altos (casi 0% de riesgo).

500

-500

-1000
0.00
-1500

0.05

0.10

0.15
50 100 150 200 250 300 350 400 450 500

One-Step Probability Recursive Residuals

Figura 6.8
Econometría Moderna

v) Test de Predicción de N Etapas:

Este test gráfico, arroja los resultados que se obtendrían si se ejecutase el Programa 6.2. El test
explota los cálculos recursivos para armar una secuencia de tests de Chow predictivos. En contraste
a la versión convencional del Test de Chow Predictivo, éste no requiere como insumo la fecha en
que se cree se genera el quiebre pues automáticamente calcula todos los casos posibles empezando
con el tamaño de muestra más pequeño posible para estimar la ecuación de predicción e ir
introduciendo una observación adicional cada vez. El gráfico muestra en la parte superior los
residuos recursivos y las probabilidades de rechazo de estabilidad en la parte inferior con 0, 5, 10 y
15% de riesgo.

En este caso, el quiebre se detecta en el periodo 280, con lo cual se puede concluir
consistentemente y sin contradicción con ninguna de las pruebas anteriores que el cambio
estructural existe y se da en el periodo 280.

500

-500

-1000
0.00
-1500

0.05

0.10

0.15
50 100 150 200 250 300 350 400 450 500

N-Step Probability Recursive Residuals

Figura 6.9

vi) Estimaciones de Coeficientes Recursivos:

6 1.5

1.0
5
0.5

4 0.0

-0.5
3
-1.0

2 -1.5
20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200

Recursive C(1) Estimates ± 2 S .E . Recursive C(2) Estimates ± 2 S .E .

Figura 6.10
Capítulo 6: Quiebre Estructural

Esta prueba gráfica permite trazar la evolución de cualquier coeficiente a medida que la muestra
empleada para regresionar se amplía cada vez más. El gráfico muestra la evolución del coeficiente
seleccionado para todas las posibles ecuaciones estimadas recursivamente. Si tal gráfico muestra
variaciones significativas a medida que se va adicionando mayor cantidad de observaciones para
estimar las ecuaciones, entonces se tiene un argumento fuerte que indica la presencia de quiebre
estructural.

6.3. ALGUNAS CRÍTICAS A LOS TESTS DE CAMBIO ESTRUCTURAL

En general, los diversos tests alternativos propuestos para evaluar la estabilidad de los coeficientes
son menos potentes que el Test de Chow de análisis de varianza. Sin embargo, éste también tiene
debilidades y no es aplicable en cualquier espacio muestral, a continuación se citan tres críticas
referidas a estas pruebas:

1. A.L. Wilson8 afirma que si bien el test predictivo de estabilidad propuesto por Chow es
sugerido sólo para el caso en el que el tamaño de muestra del segundo subconjunto es menor
que el número de regresores (es decir, cuando no existen suficientes grados de libertad para
correr la regresión del segundo modelo)9, debería ser considerado también en el caso en el que
el tamaño de muestra de tal subconjunto sea mayor al número de regresores. Esto debido a que
la prueba predictiva tiene propiedades deseables de potencia cuando existen algunos errores
desconocidos de especificación.

2. Rea10 establece que no es posible considerar la prueba predictiva de Chow para evaluar
estabilidad en el caso de insuficiencia de grados de libertad. Afirma que lo único que
demuestra este test es que el error de predicción tiene media cero, es decir que las predicciones
son insesgadas. Si no existe cambio estructural, el error de predicción tendrá una media de
cero. Pero si el error de predicción tiene media cero, no necesariamente se aceptará la
existencia de estabilidad de parámetros en el caso en que n2 < (k+1). En otras palabras, el error
de predicción podrá tener una media cero aun si los coeficientes son inestables si, por ejemplo,
los regresores tienen un comportamiento atípico. Rea concluye que no es posible afirmar a
partir de los resultados de los tests de Chow que los parámetros son estables, sólo se puede
afirmar que no lo son. Es decir, no considera al test de Chow como una prueba de estabilidad
sino como una de insesgamiento en la predicción. Rea considera que todo lo dicho es válido
sólo en el caso de la prueba predictiva aplicada cuando n2 < k+1, es decir si n1 y n2 son mayores
que k + 1, las dos pruebas de predicción aplicadas sobre cada submuestra son de estabilidad.

3. Como se mencionó anteriormente, surge un problema al realizar los tests de estabilidad cuando
existe heterocedasticidad. Si las varianzas del error de ambas muestras son distintas, entonces
las pruebas predictivas y de análisis de varianza arrojan resultados imprecisos en el sentido de
que se subestiman los valores tabulares de los estadísticos y se tiende a caer en un error de tipo
I. Ante esta situación se emplea el test de Wald explicado en la sección II parte iii.

8
A.L.Wilson “When is the Chow Test UMP?” The American Statistician,Vol.32, No.2, mayo 1978, pp. 66-68.
9
Ver sección II parte ii.
10
J.D.Rea “Indeterminacy of the Chow Test when the number of observations is insufficient” Econometrica, vol. 46, No.
1, enero 1978, pág. 229.
Econometría Moderna

6.4. CÓMO SE CORRIGE UN CAMBIO ESTRUCTURAL

Tal como se hizo referencia en la parte introductoria del capítulo, existen dos razones por las cuales
se puede aceptar la existencia de quiebre estructural en un modelo. Una de ellas radica en la
deficiente especificación del modelo, de modo que éste no captura ciertos shocks o fluctuaciones
que sí serían incorporados de presentar una especificación más rica. Tales fluctuaciones pueden ser
aceptadas como cambios estructurales que generan modelos estimados con coeficientes inestables.
La segunda razón consiste en la presencia de un cambio sistemático que afecta a la variable
dependiente y que no es recogido por el modelo correctamente especificado.

Para corregir el problema de cambio estructural surgen por lo tanto dos posibles soluciones:

6.4.1 Reespecificación del Modelo

Si no se posee la certeza de que el modelo que se está empleando para explicar el comportamiento
de la variable dependiente está bien especificado, es decir, si no presenta una estructura tal que las
variables independientes explican con un grado de ajuste elevado a la variable dependiente a pesar
de los ciclos y fluctuaciones que ella presente, entonces es conveniente tratar de reespecificar el
modelo introduciendo nuevas variables o extrayendo las irrelevantes.

Como se sabe, el primer paso para el desarrollo de una evaluación econométrica es la


especificación del modelo. Generalmente, y sobre todo en los modelos estructurales, la
construcción de los modelos está basada sobre intuición y teoría económica. A pesar de que dichos
modelos tengan un sustento teórico sólido, la regresión puede arrojar resultados discrepantes. En
esos casos es conveniente revisar la especificación de la ecuación de regresión. En este sentido, si
se acepta la hipótesis de cambio estructural dentro de modelos deficientemente especificados, se
estaría aceptando la existencia de un problema subsanable con una correcta especificación, es decir,
se puede introducir una variable relevante que mejore el modelo de manera que el grado de ajuste
de los puntos observados a la recta de regresión sea mayor y a la vez tal improvisación repercuta en
la capacidad que tienen las variables independientes para explicar los cambios sistemáticos que
afecten al modelo.

El análisis riguroso acerca de error de especificación, se realiza en el capítulo X. No obstante, las


conclusiones relevantes y que deben considerarse son las siguientes:

• En el caso de omisión de variables relevantes, existirá un sesgo en la estimación de los


parámetros.

• En el caso de introducción de variables irrelevantes, el estimador no es segado, entonces podría


considerarse razonable una estrategia de introducir una elevada cantidad de variables
explicativas en el modelo de regresión. Sin embargo, tal estrategia conduce a aumentar la
varianza con que se estiman los coeficientes de las variables explicativas verdaderamente
relevantes, sobre las que se perdería en consecuencia, precisión.

Por lo tanto, la introducción de variables relevantes será beneficiosa sólo si no afecta la precisión
de estimación de los coeficientes del resto de explicativas. En este sentido, será provechoso
reespecificar el modelo para que capture el quiebre incorporando tales variables, puesto que si
antes el modelo no explicaba con la suficiente exactitud a la variable explicada y esa era la razón de
la aceptación de inestabilidad de parámetros, tras incrementar el grado de exactitud con que las
Capítulo 6: Quiebre Estructural

explicativas describen a la endógena, es muy posible que el problema desaparezca. Por otra parte,
otra estrategia para solucionar el problema de quiebre consiste en reducir el número de variables
puesto que alguna de ellas puede que origine inestabilidad en alguno de los periodos a la hora de
correr la regresión. Tal como se mencionó, si la variable es irrelevante, el modelo será mejorado,
pero si es relevante, los estimadores quedarían sesgados y se tendría que decidir entre la omisión de
la variable o la inestabilidad de los coeficientes. En este caso es recomendable convivir con el
quiebre puesto que se podría solucionar con introducción de variables dummies. Además, la
contribución marginal de esa variable podría ser muy relevante para explicar el comportamiento
sistemático de la variable endógena.

6.4.2 Introducción de Variables Dicotómicas

El procedimiento algebraico para solucionar el problema de series que presentan quiebre dependerá
si el cambio estructural es en media, tendencia o en ambas. Sin embargo, en todos los casos se hará
uso de variables dummy o dicotómicas.

Dado que las variables dicotómicas pueden tomar sólo dos valores (1 y 0), se deduce rápidamente
que tomará un valor para el subespacio anterior al quiebre y otro para el posterior. Es decir, además
de las variables independientes originales del modelo, se incluyen las variables dummy como
explicativas adicionales. Precisamente, la función que tendrán será la de explicar la presencia del
quiebre.

Como se sabe, el test más potente para detectar la detección de la existencia de cambio estructural
es el test de Chow, prueba que requiere como insumo la fecha en que se sospecha se genera el
quiebre. Por lo tanto, una vez hecha la prueba y tras haber rechazado la hipótesis nula de
estabilidad de los coeficientes, se conocerá cuándo se produce el cambio estructural en las series.
Con esta información se podrá solucionar el problema incorporando variables dummy.

i) Cambio en Intercepto:

En este caso, el procedimiento para la corrección consiste en introducir una dummy aditiva al
modelo, la que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir
de él. Resulta redundante comprobar la significancia estadística del coeficiente de la dummy ya que
se verificó la existencia de quiebre con el test de estabilidad.

Figura 6.11
Econometría Moderna

La intuición detrás de la incorporación de una dummy aditiva en el caso de un cambio en media


resulta bastante sencilla. Puesto que la dummy empieza a “funcionar” a partir del período
inmediatamente siguiente al quiebre, lo que hará será explicar la variación en el intercepto de la
recta de regresión estimada, solucionando de esta manera el problema.

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k + µ modelo original

Y = α + β 1 x1 + β 2 x 2 + ... + β k x k + µ + γd modelo con dummy

donde: d=0 ∀ t =1,2,...,tquiebre

= 1 ∀ t = tquiebre+1, ...., T

reordenando:

Y = (α + γd ) + β 1 x1 + β 2 x 2 + ... + β k x k + µ

1 0 x11 L x k1 
1 0 x12 L x k 2 
 α 
M M M O M  
  γ
1 0 x1t quiebre L x ktquiebre   
Y=  β  + µ
1 1 x1tquiebre +1 L x ktquiebre +1   1 
  M
M M M O M  
β 
1 1 x1,n −1 L x k , n −1   k 
 
1 1 x1n L x kn 

Claramente se observa que la dummy afecta al intercepto a partir del período tquiebre +1 puesto que
recién entonces toma valores no nulos. Gracias a la influencia de la variable dummy a partir del
periodo tquiebre, la nueva recta de regresión ya no presenta un cambio en media y por lo tanto, los
coeficientes serán estables, es decir válidos para explicar el comportamiento de la variable
endógena para todo el intervalo muestral.

ii) Cambio en Pendiente:

En este caso la corrección se realiza introduciendo una variable dummy multiplicativa al modelo
que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir de él. Esta
variable afectará directamente al regresor que esté ocasionando el quiebre. Si fuesen varias las
variables explicativas que presentan un cambio estructural, se deberá incluir una dummy por cada
una de ellas. Cada dummy empezará a “funcionar” en el período inmediatamente siguiente en que
se genera el quiebre dentro de la serie a la cual afecta.

Suponga un modelo bivariado:

Y = α + β1x1 + µ modelo original

Y = α + β1x1 + µ + γdx1 modelo con dummy


Capítulo 6: Quiebre Estructural

donde: d=0 ∀ t = 1,2,...,tquiebre

=1 ∀ t = tquiebre+1, ...., T

reordenando:

Y = α + (β1 + γd)x1 + µ

1 x11 0 
1 x12 0 
 
M M M 
  α 
y= 
1 x1, tquiebre 0  β  + µ
1 x1, t +1 x 1, tquiebre +1   1 
 quiebre
  γ 
 M M M 
1 x x 1,n −1 
1,n − 1
 
1 x 1n x1n 

Note que la tercera columna de la matriz de información contiene a los valores de la dummy que
multiplica a la observación de la exógena correspondiente al periodo, por eso es que no aparecen
valores unitarios una vez producido el quiebre.

Al igual que en el caso de un quiebre en media, se puede esbozar gráficamente el efecto de la


variable dummy sobre la serie que presenta el quiebre en tendencia:

Figura 6.12

Para un modelo multivariado, por otro lado, se sigue un procedimiento similar. Se crea una variable
dummy por cada exógena que introduzca quiebre al modelo. Para verificar esto, suponga un
modelo multivariado en el cual las tres primeras explicativas presentan quiebre:

Y = α + β1x1 + β2x2 + ... + βkxk + µ modelo original

Y = α + β1x1 + β2x2 + ... + βkxk + µ + γ1d1x1 + γ2d2x2 + γ3d3x3 modelo con dummy

donde: d=0 ∀ t = 1,2,...,tquiebre


Econometría Moderna

=1 ∀ t = tquiebre+1, ...., T

y reordenando:

Y = α + (β1 + γ1d1)x1 + (β2 + γ2d2)x2 + (β3 + γ3d3)x3 + β4 x4 + ... + βkxk + µ

1 0 0 0 x11 x 21 x31 L x k 1   α 
1 0 0 0 x12 x 22 x31 L x k 2   γ 1 

1 M 0 0  γ 2 
  
1 x1,tquiebre 0 0  γ 3 
1 x1,t +1 M 0   β1 
 quiebre
 
 1 x 2,t quiebre 0  β 2 
Y=
M +µ
x 2 ,tquiebre +1 0 M M M O M β3 
  
1 M M  
1 M x3,t quiebre  M 
  
1 x3,t quiebre +1  
  
1 M  
1 x1n x2 n x3 n x1n x2 n x3 n L x kn   β k 

Observe la matriz de información. Notará que las dummies empiezan a “funcionar“ en distintos
períodos (según la fecha en que se produzca el quiebre en cada serie) para cada endógena.

Es importante señalar que, en este caso, la inclusión de una dummy multiplicativa podría generar
multicolinealidad si es que el quiebre ocurre en un período muy cercano al inicial. Imagine un
espacio muestral de 500 observaciones. Si una de las exógenas presenta un cambio estructural en el
período 6, las 494 observaciones restantes entrarán a constituir la nueva columna (generada a través
del producto de la dummy con la variable) en la matriz de información, y esta será idéntica a la
original para 496 períodos.

iii) Cambio en Intercepto y en Pendiente:

La solución en este caso es una fusión de las dos secciones anteriores. Así, para el caso bivariado,
se tiene lo siguiente:

Y = α + β1x1 + µ modelo original

Y = α + β1x1 + µ + γdx1 + γ2d2 modelo con dummy

donde: d=0 ∀ t = 1,2,...,tquiebre

=1 ∀ t = tquiebre+1, ...., T

reordenando:

Y = (α+ γ2 d2) + (β1 + γd)x1 + µ


Capítulo 6: Quiebre Estructural

Los efectos de la inclusión de estas variables dummy pueden verificarse, nuevamente, a través de
un gráfico:

Figura 6.13

El álgebra matricial, tanto para el caso bivariado como para el multivariado, es semejante a los
casos anteriores. A continuación se representa la matriz de información para el caso bivariado con
quiebre en media y en tendencia:

1 0 0 x11 
1 0 0 x12 
 
M M M M  
  α 
1 0 0 x1,t quiebre   
Y=  γ +µ
1 1 x1,t quiebre +1 x1,tquiebre +1  γ 
  2 
M M M M  β 
 1
1 1 x1, n −1 x1,n −1 
 
1 1 x1n x1n 

La segunda columna de la matriz de información contiene la dummy que soluciona el quiebre en


media y la tercera la que soluciona el quiebre en tendencia.
CAPITULO 7
PREDICCIÓN

7.1. INTRODUCCIÓN

Recuérdese que cuando un investigador está interesado en diseñar un modelo econométrico,


tal que sea satisfactorio o congruente con toda la data que posee, enfrenta, en general, tres
objetivos o propósitos1. El primero consiste en realizar pruebas estadísticas acerca de los
parámetros del modelo, es decir, probar ciertas restricciones utilizando los tests de inferencia
estadística estudiados en el Capítulo 4. El segundo es utilizar el modelo para estimar el valor
futuro de una variable endógena, es decir predecir el valor de Y en un periodo fuera de la
muestra, dado el valor de las exógenas. Finalmente, y tal vez uno de los más ambiciosos,
consiste en utilizar el modelo para la simulación de políticas económicas.

El tema del presente capítulo consiste en analizar el segundo objetivo. Específicamente, nos
centraremos, entre otros puntos, en los requisitos que debe cumplir el modelo antes de realizar
una predicción. Para tal fin, debemos efectuar las pruebas estadísticas, ya conocidas, que
garanticen que el modelo está apto para realizar pronósticos confiables. Así, en la parte final del
Capítulo, desarrollaremos un ejercicio aplicado utilizando las herramientas del Econometric -
Views para que el lector se familiarice con el tipo de previsiones que realiza un economista o
un alumno que se interese por la Econometría.

De esta manera, se puede intuir cuál es la definición de una predicción. En términos de


Pyndick & Rubinfield(1991)2, se define una predicción como un estimado cuantitativo acerca de
la verosimilitud de eventos futuros basados en información pasada y actual. En este sentido, se
pueden hacer pronósticos utilizando distintos modelos econométricos. Algunos de estos se
detallan a continuación:

1
Ver la introducción del cuarto capítulo.
2
Pyndick Robert S. and Rubinfield Daniel L. (1991), Econometric models and economic forecast. Capítulo 8, p. 180.
EE.UU.
Econometría Moderna Predicción

• Modelos estructurales uni-ecuacionales: Son el tipo de modelos que se han trabajado hasta
ahora, por ejemplo el siguiente modelo lineal general:

Y = Xβ + µ

• Sistemas de ecuaciones estructurales: Por ejemplo en el modelo de IS-LM de


Macroeconomía

C = C 0 + bYd
I = I 0 − hr
Y =C + I

• Modelos de series de tiempo: los modelos de series de tiempo muestran una secuencia de
datos numéricos asociados con un instante específico de tiempo. A manera de ejemplo, se
citarán los índices diarios de las cotizaciones de las acciones en la Bolsa de Valores de Lima
(BVL). Así, se puede construir un modelo autorregresivo (AR) pues se tiene como variables
explicativas a rezagos de la variable endógena, o bien un proceso de medias móviles (MA),
el cual representa un promedio ponderado de los shocks pasados y actuales de una serie.
Como se verá en un capítulo posterior3, una serie de este tipo es estacionaria. Esta última
característica, garantiza que los estimadores obtenidos por un proceso (MA) sean
confiables.
Yt = ρ 0 + ρ1Yt −1 + ρ 2Yt −2 + .... + ρ p Yt − p + µ t AR(p)

Yt = θ 0 + et + θ 1et −1 + θ 2 et −2 + .... + θ q et −q MA(q)

Tal como se mencionó líneas arriba, antes de realizar la predicción un modelo debe cumplir
ciertos requisitos para que el pronóstico de la variable independiente sea confiable y verosímil.

7.2. REQUISITOS

1) El modelo lineal estimado no presente errores de especificación. Recordemos que una


ecuación de regresión presenta una buena especificación4, cuando tanto su forma funcional
como su función de distribución de probabilidades es correcta y, además, no existen
variables omitidas ni redundantes que deben ser incluidas o extraídas, respectivamente del
modelo. Una de las vías utilizadas que para analizar la presencia de una buena
especificación es la prueba de Ramsey.

2) Los parámetros deben ser estables. Como estudiamos en el Capítulo 6, el análisis de


posibles cambios estructurales en los parámetros, implica realizar las pruebas gráficas de
estabilidad como son Cusum Cuadrado o el test de Chow5.

3) Se corrija la presencia de perturbaciones no esféricas esto es, los problemas poblacionales


en la distribución de probabilidad del error: heterocedasticidad y autocorrelación. Con tal
fin, se realizan las pruebas estadísticas para detectar y corregir dichos problemas.

3
Véase el Capítulo de Series de tiempo estacionarias.
4
En la sección 6.4 del Capítulo de Cambio Estructural, se mostró los problemas que ocasionan una mala
especificación.
5
Ver la sección 2 del Capítulo 6.

174
Econometría Moderna Predicción

4) Sólo debe existir una dirección de causalidad: de las variables independientes hacia la
dependiente. Para determinar si existe este requisito, se puede utilizar el criterio de
Causalidad a lo Granger.

7.3. TIPOS DE PRONÓSTICOS

i) Predicción puntual. La ecuación estimada es la representación estadística de la media de la


distribución condicional de la variable dependiente en las independientes. En función a
ello, cuando se habla de una predicción puntual, se trata de la predicción de los valores
futuros de la variable endógena ( Yt ) en términos del valor de la media condicional, por lo
que obtendremos un único valor o número. Un ejemplo sería el anuncio que la inflación
para el año próximo será de 0.5% mensual.

ii) Predicción por intervalos. Si queremos tener mayor información acerca de la distribución
condicional un elemento importante es conocer la varianza. Esta magnitud nos permite
tener un idea de la dispersión que presenta la variable dependiente. Si tomamos en cuenta
la varianza, sabemos que dentro de un rango que tiene como centro la media, podremos
encontrar un determinado porcentaje de las observaciones6. Un ejemplo de este tipo de
pronóstico sería decir que la inflación estará en valores desde 0.15% hasta 0.36% mensual
para el año próximo.

7.4. CLASIFICACIÓN DE PRONÓSTICOS:

Si introducimos otros aspectos podemos plantear clasificaciones alternativas:

a) Predicciones incondicionales. Este tipo de predicciones se refieren a aquellas que se


realizan si se conocen los valores de las variables independientes del modelo para los
períodos en los cuales se va realizar el ejercicio de predicción.

b) Predicciones condicionales. En este caso, los valores de las variables independientes para
los períodos en los cuales se va a realizar el ejercicio de predicción, no se conocen con
certeza y por tanto deben ser estimados.

c) Predicciones ex–ante. Son las predicciones más allá del periodo de estimación y son
hechas usando variables explicativas que pueden o no ser conocidas con certeza. Nótese que
este tipo de predicciones puede ser condicional o incondicional, dependiendo de la
información muestral con la que se cuente.

d) Predicciones ex –post. Cuando las observaciones, tanto de la variable dependiente como de


las independientes, son conocidas con certeza. Lo anterior implica que este tipo de
predicciones sea solamente incondicional. Este tipo de pronósticos es utilizado para evaluar
la bondad predictiva de nuestros modelos a partir de los indicadores que se analizarán más
adelante.

El gráfico de la siguiente página puede ser útil para ilustrar la diferencia entre los dos
últimos tipos de pronósticos presentados. Si apreciamos el eje horizontal que representa el
tiempo, veremos que el período T es aquel que denota la información muestral con que
contamos. La t minúscula indica la porción de información muestral que utilizamos para estimar
un modelo. La diferencia entre t y T es lo que se llama muestra de validación y dichas
observaciones se utilizan para realizar la predicción ex-post. El procedimiento es el siguiente:

6
Por ejemplo, si consideramos una distribución normal en un intervalo que tiene como centro la media ±2
desviaciones estándar generalmente encontraremos el 95% de las observaciones.

175
Econometría Moderna Predicción

con el modelo estimado hasta t se realizan predicciones utilizando la información de las


observaciones de las variables independientes. Con ello se obtienen los estimados (o
predicciones) de la variable dependiente para ese período. Como tenemos la información de la
variable dependiente observada se puede realizar la comparación entre los valores observados y
las predicciones del modelo. La predicción ex-ante implica utilizar el modelo estimado con la T
observaciones y de allí estimar valores de las variables independientes según distintos modelos
y supuestos y de allí se procede a realizar el verdadero ejercicio de predicción. La idea es que la
predicción ex –post se debe realizar primero para evaluar qué modelo es el que nos permite
realizar la mejor predicción a través de las distintas evaluaciones que se hacen. Una vez
seleccionado el mejor modelo se procede a realizar la predicción ex –ante.

Pronóstico Pronóstico
Ex - post Ex - ante

Tiempo

t T

Ejemplo 7.1

Se tiene el siguiente modelo:

Yt = β 0 + β1 K t −3 + β 0 Lt −2 + µ t

donde la producción (Yt) depende de los valores rezagados del capital (Kt) y del trabajo (Lt).
Por otro lado, se observa que con este modelo se pueden pronosticar los valores futuros de la
producción para los períodos siguientes que deseemos.

Sin embargo, debemos tener en cuenta que dentro de las predicciones posibles de hacer con
este modelo tendremos una gran variedad. Así las predicciones de y t +1 e y t + 2 serán
predicciones ex – ante pero incondicionales debido a que los rezagos de K y L son aquellos que
explican el valor actual de y. Hasta el periodo t+2 los valores que explicarán a la variable
dependiente serán k t −1 y Lt que son valores conocidos en el periodo t. Cuando pasemos al
periodo t+3 el valor de K seguirá siendo conocido pero el de L tendrá que estimarse. Por ello se
podrá decir que la predicción ex –ante a partir del periodo t+3 será condicional.

7.5. EVALUACIÓN DE UNA PREDICCIÓN:

Para evaluar una predicción es preciso contar con un criterio de evaluación tal que haga que
las predicciones seleccionadas sean confiables. Por tal motivo, es conveniente introducir el
concepto de error de predicción.

Recuérdese que en el primer capítulo se definió al error estimado de la regresión como la


discrepancia entre el valor de la variable dependiente y su valor estimado. Ahora se utilizará un
concepto similar para definir al error de predicción. Es decir, el error de predicción muestra la

176
Econometría Moderna Predicción

diferencia que existe entre el valor futuro pronosticado de la variable endógena y su valor futuro
observado7.

Es conveniente recordar que para evaluar la bondad de un estimador se analizaban las


propiedades de insesgamiento y eficiencia. De esta manera, decíamos que el estimador
MCO( β ) es MELI porque cumplía con estas propiedades bajo las condiciones de Gauss
Markov. Por consiguiente, se necesita verificar que el error de predicción posee la menor
varianza porque, de ese modo, se obtendría el mejor pronóstico de la variable Yt8. Si es que se
cumple lo anterior, se concluye que la estimación por MCO provee la mejor predicción para
todos los estimadores linealmente insesgados.

Tomando en cuenta los conceptos anteriores, es necesario y útil conocer el origen del error
de pronóstico. Este puede surgir de cuatro fuentes:

a) La naturaleza aleatoria del modelo (µ t+1).

b) Los valores estimados de los parámetros son variables aleatorias que pueden fluctuar. Por lo
tanto, puede existir error en la estimación del vector ( β ).

c) Para predicciones condicionales podemos cometer errores en el pronóstico de las variables


independientes.

d) Errores de especificación en la ecuación de pronóstico.

En las siguientes líneas, se analizará cuál es la mejor predicción y las propiedades que
presenta el error de pronóstico para diferentes casos.

Primer Caso: Predicción incondicional

Cuando se hace una predicción incondicional, a partir de un modelo de regresión, se necesita


conocer el valor de las variables explicativas para todo el periodo de predicción. Este caso
puede resultar no creíble; sin embargo, frecuentemente ocurre porque en muchos modelos de
series temporales, que son utilizados para realizar pronósticos, se incluye una estructura
dinámica. En otras palabras, se utilizan modelos que incluyen variables explicativas rezagadas
las cuales están predeterminadas para el periodo en que se evalúa la predicción. Por otro lado, es
posible realizar este tipo de pronósticos si es que el investigador cuenta con series de tiempo
estacionales o variables demográficas cuya variación es lenta y previsible.

Notemos que, es importante construir modelos que pueden utilizarse para generar
predicciones incondicionales. Su importancia radica en que, de ese modo, se elimina una fuente
del error de pronóstico cuando se construyen modelos condicionales. A continuación, se
analizará un modelo de regresión bivariado que cumple con los supuestos de una predicción
incondicional.
Yt = α + βX t + ε t donde ε t ∼ N (0, σ ε2 )

Dado un valor conocido de X t +1 , interesa calcular el mejor predictor para Yt +1 si todos los
parámetros son conocidos con certeza. De esta manera, el mejor pronóstico resulta la media
condicional de la regresión:

7
Formalmente: eˆt +1 = (Yˆt +1 − Yt +1 ) .
8
El mejor pronóstico sería: Yˆt + 1 = αˆ + βˆX t + 1

177
Econometría Moderna Predicción

Ŷt +1 = E( Yt +1 ) = α + βX t +1 (7.1)

lo anterior es cierto por que el error de predicción se define como:

êt +1 = Ŷt +1 − Yt +1 = −ε t +1 (7.2)

Ahora, se verificará si este error de predicción posee las propiedades deseables de todo buen
estimador.

Insesgamiento:
E (eˆt +1 ) = E (−ε t +1 ) = 0 (7.3)
Varianza :
σ e2 = E (eˆt +1 ) 2 = E (−ε t +1 ) 2 = σ ε2 (7.4)

Nótese que, al construir una ecuación de regresión lineal y al utilizarla para realizar
pronósticos incondicionales, no se asegura que la predicción obtenida será igual a la observada
( Ŷt +1 − Yt +1 = 0 ). Lo anterior es atribuido a la presencia del término de error del modelo que
hace que el valor de Yt+1 no este sobre la línea de regresión. De esta manera, solamente
podemos afirmar que el error de predicción tendrá una media igual a cero y una varianza igual a
la de la perturbación del modelo σε2.

Como se dijo anteriormente, se puede realizar una predicción de la variable endógena


puntual o por intervalos. Para la segunda, es necesario construir un intervalo de confianza y se
puede realizar, a partir de lo anterior, pruebas de inferencia relativas al valor predicho la
variable dependiente. Se recuerda que, al realizar pruebas de inferencia se plantea un conjunto
de restricciones (impuestas por la teoría económica o por el desarrollo de nuestra propia
intuición), que se desea verificar si tienen validez o no. Como primer paso, se debe partir de una
distribución de probabilidad conocida y luego estandarizar el error de la predicción:

Si ε t ∼ N (0, σ ε2 )

El error de predicción normalizado, resulta:

Yˆt +1 − Yt +1
λ= ∼ N (0,1) (7.5)
σε

Así, con una confianza del 95% se obtiene:

Yˆt +1 − Yt +1
Prob (−λ 0.025 ≤ ≤ λ 0.025 ) = 0.95 (7.6)
σε

donde el valor predicho de la variable dependiente se encuentra en el siguiente rango:

Yˆt +1 − λ 0.025σ ε ≤ Yt +1 ≤ Yˆt +1 + λ 0.025σ ε (7.7)

De la expresión anterior se deduce que si el modelo predice bien, o en otras palabras, si los
pronósticos son fiables, el verdadero valor se ubicará dentro del intervalo. De modo que, uno de
los motivos por los cuales nos inclinaríamos a pensar que el modelo no funciona de manera
adecuada es verificar que el valor de la variable Yt+1 cae fuera de los límites del intervalo
planteado en (9.7). Así, este intervalo sirve para realizar tests acerca de la calidad del
pronóstico. Gráficamente:

178
Econometría Moderna Predicción

Figura 7.1
Las bandas de confianza, para un 95% de confianza, de una
predicción donde se conocen los valores de los parámetros.

Sin embargo, se debe tener mucho cuidado antes de descartar un modelo econométrico por el
hecho de arrojar una "mala predicción". El lector se preguntará ¿por qué? la respuesta es simple,
basta recordar que el “rechazo9 de una hipótesis nula no implica que la teoría subyacente esté
errada. Para afirmar lo anterior, se debe realizar muchas pruebas y acumular mucha evidencia en
contra. En el mismo sentido, vale decir que para concluir que un modelo no es satisfactorio y
sus pronósticos no son fiables, el investigador deberá efectuar repetidas observaciones y más de
una prueba estadística.

Antes de estudiar el siguiente caso, es importante que se puntualicen algunas observaciones.


Las cuales, reforzadas con los conocimientos adquiridos en capítulos anteriores, ayudarán a
tener en claro los conceptos descritos en esta sección.

Observaciones

1) Un R2 alto y un T- estadístico significativo no necesariamente indica que el modelo predice


bien. Lo anterior es consecuencia de un cambio estructural en la economía durante el
periodo de predicción y que modifica el valor de los parámetros10. Así, el modelo no puede
explicar lo que realmente sucede en el sector económico por que las reglas de juego han
sido cambiadas: un shock de oferta negativo o la discrecionalidad del gobierno cuando
cambia una regla fija. Por ejemplo, el gobierno fija la cantidad de dinero que va emitir
basándose en una regla del k%11 preestablecida y conocida por todos los agentes
económicos. Un empresario fija sus niveles de producción de acuerdo con la cantidad
demandada estimada para el próximo periodo. Si es que el gobierno decide financiar su
deuda a través de señoreaje, generará un incremento en la demanda agregada y un
incentivo para que se active la inflación. De esta manera, el pronóstico realizado por el
investigador no será fiable y la empresa no podrá cubrir la demanda de su producto.

9
Frecuentemente se utiliza este término. Pero, en realidad cuando se afirma que una hipótesis nula es rechazada, se
quiere decir que no existe suficiente evidencia estadística para afirmar que la hipótesis se acepta.
10
Recordemos que en el Capítulo 6, sino que podrían ocurrir cambios en la economía, no previsibles por los agentes
económicos, que generen quiebre o variaciones atípicas en los parámetros de la ecuación de regresión. Asimismo, se
debe recordar que uno de los requisitos y supuesto básico para realizar una predicción es que los parámetros sean
estables dentro y fuera de la muestra.
11
Milton Friedman propuso la llamada regla del K%. La cual esta diseñada para obligar a las autoridades a escoger
una misma tasa de crecimiento monetario en cada periodo.

179
Econometría Moderna Predicción

2) Un R2 bajo y un T- estadístico malo, no necesariamente significa que el modelo realiza


pronósticos inexactos. Esto se debe a que, si existe poca variación en la variable
dependiente el R2 será reducido. El resultado anterior, se debe a que las variables
independientes pierden la capacidad de explicar correctamente a la variable endógena. Sin
embargo, dada las características del modelo, resulta fácil predecir el comportamiento de la
serie.

Segundo Caso: Predicción incondicional, cuando no se conocen los parámetros

En la mayoría de los casos en los que se efectúa el tipo de evaluaciones descritas en el


presente capítulo, no se pueden conocer con certeza todos los parámetros del modelo ni
tampoco la varianza del error. De esta manera, se retomará el caso anterior pero utilizando este
nuevo supuesto, que se ajusta más a la realidad.

Partamos de un modelo lineal simple y supongamos que se dispone de series temporales para
X t y Yt (t = 1, 2, 3,.........T). En este caso, no conocemos el modelo verdadero y por ello se
estiman los parámetros mediante las técnicas mínimo cuadráticas descritas en el Capítulo 2 y 3.
De modo que, si al investigador le interesa predecir el valor de Yt+1 asociado al valor de Xt+1 de
la manera más verosímil posible, por ejemplo si Y es el saldo de la balanza de pagos y X
representa los pagos de la deuda externa, se podría predecir el saldo de la cuenta de capitales si
en el futuro el gobierno decide refinanciar sus deudas. Así, el valor futuro de X t puede estar
dentro del recorrido de la muestra o, como es más frecuente, podríamos estar interesados en la
predicción para un valor de X que esté fuera del alcance de la muestra.

Recuérdese que es posible realizar dos tipos de tareas predictivas o dos formas distintas de
predicción. Éstas son: predicción por puntos o predicción por intervalos, de la misma forma que
podemos obtener un estimador para β 12 puntual o por intervalos. Sin embargo, en la práctica
una predicción por puntos no es tan confiable sin un indicador de su precisión, por ello es
necesario estimar el error de la predicción. Por otro lado, en diversos textos de econometría, la
predicción puntual es también llamada individual, pues interesa en predecir un valor individual
de la regresión (Y) correspondiente a Xt+1.

De esta manera, luego de estimar la ecuación de regresión por MCO, el siguiente objetivo
consiste en obtener la mejor predicción de Y correspondiente al valor de Xt+113. Formalmente:

Yˆt +1 = αˆ + βˆX t +1 (7.8)

Además, el modelo verdadero en el periodo de predicción (t+1) sería:

Yt +1 = α + βX t +1 + ε t +1 (7.9)

notemos que ε t +1 indica el valor que se obtendría de la distribución de los errores en el periodo
de predicción.

Para este caso, definimos el error de predicción de la siguiente manera:

eˆt +1 = Yˆt +1 − Yt +1

12
Este parámetro es el que se incluye en la regresión de Y sobre X, del modelo teórico ( Y = Xβ + µ ).
13
Recordemos que en el segundo capítulo vimos que el mejor estimador resulta la media de la regresión.

180
Econometría Moderna Predicción

= (αˆ − α ) + ( βˆ − β )X t +1 − ε t +1 (7.10)

Ahora, se verifican sus propiedades:

i) Insesgamiento:

E (eˆt +1 ) = E [(αˆ − α ) + ( βˆ − β ) X t +1 − ε t +1 ] = 0 (7.11)

Este resultado se obtiene debido a que los estimadores MCO ( α , β ) son insesgados y la
variable X es conocida para el periodo de predicción (t+1).

ii) Varianza:

 1 ( X t +1 − X ) 2 
σ e2t +1 = σ ε2 1 + +  (7.12)
 T ∑ ( X t +1 − X ) 
2

Para la demostración de este resultado, se han utilizado las expresiones de las varianzas de
los parámetros estimados en el modelo bivariado analizados en el capítulo 2.

[
Var (eˆt +1 ) = Var (αˆ − α ) + ( βˆ − β ) X t +1 − ε t +1 ]
= Var (αˆ ) + X t2+1Var ( βˆ ) + 2Cov(αˆ , βˆ ) X t +1 + Var (ε t +1 ) (7.13)

donde:
σ2 σ ε2
Var ( βˆ1 ) = ε =
2
∑ (X t − X )
2
∑ xt

 X2 1
Var (αˆ ) = σ ε2  + 
 ∑ (X − X )2 T 
 t 

σ ε2
Cov(αˆ , βˆ ) = − X
∑ (Xt − X )
2

Reemplazando estos valores tenemos:

 X2 1 X t2+1 (2 X ) X t +1 
Var (eˆt +1 ) = σ ε2  + + − + 1
 ∑ (X − X ) 2 T ∑ (Xt − X ) 2
∑ (X t − X )
2 
 t 

 1 (X t +1 − X ) 
2
σ 2f = σ ε2 1 + +  (7.14)
 T ∑ (X − X )2 
 t 

Nótese que la varianza del error de predicción presenta tres importantes componentes: la
varianza de la variable X, el tamaño de la muestra y la desviación existente entre X t + 1 y la

181
Econometría Moderna Predicción

media de X ( X ). Por otro lado, así como se mencionaron algunas condiciones acerca de los
resultados del caso anterior, es importante señalar lo siguiente:

i) Si el tamaño de la muestra (T) es grande, se reduce la varianza, dado que cuando se


dispone de mayor información las estimaciones de los parámetros ganan precisión. De
esta manera, los mejores pronósticos de Y serán los correspondientes a aquellos valores
de X en torno a los cuales se disponga de la mayor información muestral.

ii) A mayor dispersión de X, la varianza de los estimadores de la ecuación de regresión


será menor y por tanto el error de predicción presentará una menor dispersión.

iii) Si la desviación de Xt+1 con respecto a su media es reducida, la varianza del error de
predicción es también reducida. Asimismo, se observa que cuando X t +1 = X , la
varianza del error de predicción alcanza su valor mínimo.

iv) Si el horizonte de predicción es largo, la varianza tenderá a incrementarse, bajo el


supuesto que Xt+1 se aleja de X .

Cabe mencionar que, de acuerdo con la expresión (9.10) eˆt +1 es una función de variables
que se distribuyen normalmente14, y así presenta la misma distribución. Además, si se
conociera el verdadero valor de la varianza del error de predicción se podrían construir
intervalos de confianza similares al descrito en (9.7), utilizando el error normalizado. Es decir:

eˆt +1
∼ N(0,1)
σf

En la práctica el supuesto anterior no se da, lo cual implica que se debe estimar σ 2f . Así, se
obtiene:

σˆ 2f = σˆ ε2 1 + +
1 (
X t +1 − X 
2
) (7.15)
T ∑ ( X t − X )2 
 

Estandarizando el error de predicción:

Yˆt +1 − Yt +1
∼T(t-k)
σ̂ f

Dado que el presente análisis esta dirigido a un modelo de regresión lineal simple, este error
normalizado se distribuye según una T de Student con (t-2) grados de libertad. Además, se
observa que en la expresión anterior, la única variable desconocida es Yt +1 . De modo que se
puede aproximar su valor utilizando un intervalo de confianza del 95%15. Formalmente:

Yˆt +1 − t 0.025σˆ f ≤ Yt +1 ≤ Yˆt +1 + t 0.025σˆ f (7.16)

Si se reemplazan todos los valores de la muestra para X y se obtienen intervalos de confianza


para cada una de las variables, así se genera lo que se conoce como “banda de confianza para la
14
Recordemos que los estimadores MCO, ( α , β ) siguen un proceso estocástico y la distribución de cada uno se
supone que es la normal.
15
La gráfica muestra como para cada valor de X, la distancia entre la recta de regresión y uno de los límites de
confianza es idéntico al doble de la estimación de la desviación estandar de la predicción.

182
Econometría Moderna Predicción

función de regresión poblacional”. Como se sabe, dicha función de regresión poblacional


representa, precisamente, la media condicional de Y dados los valores de X. Gráficamente:

Figura 7.2

Intervalos de confianza para una predicción donde


los valores de los parámetros son desconocidos.

Una característica importante de las bandas de confianza que se muestran en el gráfico


anterior, es que su amplitud aumenta conforme aumenta el horizonte de predicción. Sin
embargo, alcanza su menor tamaño cuando X t +1 = X . Lo anterior sugiere que la capacidad de
predicción de la línea de regresión muestral decrece a medida que X t +1 se aleja
progresivamente de X .

Además de la predicción por puntos y por intervalos, analizada en páginas anteriores, se


puede estar interesados en calcular el pronóstico de la media condicional de Y para el periodo
(t+1) dado los valores de las variables independientes. Este caso será ilustrado, a continuación,
con el siguiente ejemplo.

Ejemplo

Supóngase que luego de aplicar el método MCO a un conjunto de observaciones se obtiene


la siguiente función de regresión muestral:

Yˆt +1 = 36.569 + 0.847 X t +1

Sea X t +1 = 75 y se desea predecir el valor medio de Yt+1 dada la información acerca de la


variable independiente, E (Yt +1 / X t +1 = 75) . Ahora, se hallará la estimación puntual de esta
predicción media ( Yˆ ):
t +1

Yˆt +1 = 36.569 + 0.847(75) = 100.094

Puesto que se está estimando el verdadero valor de E (Yt +1 / X t +1 ) mediante Yˆt +1 , es


probable que estos dos valores sean diferentes y así se defina un error en la predicción. Con la

183
Econometría Moderna Predicción

finalidad de evaluar este error, es necesario encontrar la distribución muestral de Yˆt +1 . Así, de
la función de regresión muestral se tiene:

Yˆt +1 = αˆ + βˆX t +1

Ahora, hallemos el valor esperado de la expresión anterior:

E (Yˆt +1 ) = E (αˆ ) + E ( βˆ ) X t +1

= α + βX t +1

esto se cumple porque los estimadores son insesgados, dado a que han sido obtenidos por el
método MCO. Así, se obtiene un estimador insesgado de E (Yt +1 / X t +1 ) :

E (Yˆt +1 ) = E (Yt +1 / X t +1 ) = α + βX t +1

Ahora, hallemos la varianza del estimador:

Var (Yˆt +1 ) = Var (αˆ ) + Var ( βˆ ) X t2+1 + 2 cov(αˆ , βˆ ) X t +1 (7.17)

donde, utilizando las mismas formulas que en el segundo caso16, se tiene el siguiente resultado:

 1 (X
t +1 − X )
2 
Var( Ŷt +1 ) = σˆ f = σˆ ε2  +  (7.18)
 T ∑ ( X − X )2 
 t 

Así se demuestra que el estimador del valor futuro de Y se distribuye normalmente, con
media y varianza definidas en pasos anteriores. Ahora, se estandariza el error de predicción,
para obtener los intervalos de confianza y hacer pruebas de inferencia. Formalmente:

Yˆt +1 − (α + βX t +1 )
≈ T (t − k )
σˆ f

Se puede utilizar un intervalo de confianza del 95%, como en el caso anterior, para
aproximar el valor de E(Yt+1/Xt+1):

[ ]
Prob αˆ + βˆX t + 1 − t 0.025σˆ f ≤ α + βX t + 1 ≤ αˆ + βˆX t + 1 + t 0.025σˆ f = 0.95

Ahora, supongamos que en el ejemplo anterior se tienen 20 observaciones, la media muestral


de X es igual a 55 , σˆ ε2 = 2.38 y la varianza muestral de X t es 16.5. Por tanto, la varianza de
Yˆ sería:
t +1
 1 (75 − 57 )2 
Var (Yˆt +1 ) = 2.38 + 
 20 330 
 
= 2.4557

16
Notemos que, a diferencia del caso anterior, cuando realizamos una predicción media, se elimina el componente de
la varianza del error de la regresión de Yt+1. De esta manera, la varianza del error de predicción, que es lo mismo que
la varianza de la estimación deYt+1, es más reducida que el de una predicción puntual.

184
Econometría Moderna Predicción

Por los procedimientos descritos líneas arriba, se puede construir un intervalo de confianza
para la verdadera media de Y dado X t +1 ( E (Yˆt +1 ) = E (Yt +1 / X t +1 ) = α + βX t +1 ). Reemplazando
los valores se obtiene:

100.094 − 2.086(2.4557) ≤ α + βX t + 1 ≤ 100.094 + 2.086(2.4557)

o, en otros términos:

94.9714 ≤ E (Yt +1 / X t + 1 = 75) ≤ 105.21659

La expresión anterior, se debe leer de la siguiente manera: para un valor de Xt+1=75, en 95 de


cada 100 veces los intervalos de confianza incluirán el verdadero valor medio. Del
procedimiento anterior se puede deducir que la mejor estimación para este valor es la predicción
puntual: 100.094.

Tercer Caso: Predicción condicional

En el desarrollo de los casos anteriores se ha mantenido como supuesto que: se conocen de


antemano los valores de las variables explicativas. En líneas precedentes, se ha mencionado que
este supuesto no refleja, en varias ocasiones, lo que verdaderamente ocurre en la práctica. Esto
se explica porque cuando se desea utilizar el modelo para realizar pronósticos ex ante, a veces
es necesario prever valores futuros de las variables explicativas antes de realizar las
predicciones. Para tenerlo más claro y de un modo más intuitivo, se dirá que la naturaleza
estocástica de los valores estimados para las X originarán predicciones de la variable Y menos
fiables que los obtenidos en el caso de predicciones incondicionales. Una de las importantes
conclusiones que se obtendrán del presente análisis, es que los intervalos de confianza del 95%
para el error de predicción son de mayor amplitud cuando también se pronostican los valores de
las X. A continuación, se planteará un caso particular de manera simple pero del que se podrá
obtener resultados que enriquecerán nuestro análisis. Así, considerando un modelo de regresión
bivariado:

Yt = α + βX t + ε t ∀ t=1,2,3,...........T

donde εt ∼ N ( 0 ,σ µ2 )

dado que no se conoce con certeza los valores de la variable independiente, se estima su valor
futuro (para el periodo t+1). Como se expresa a continuación:

Xˆ t +1 = X t +1 + µ t +1 µ ∼ N ( 0 ,σ µ2 ) (7.19)

Además, las variables aleatorias ( ε t , µ t ) no presentan correlación. Es decir el proceso de


error asociado con la predicción de X t +1 es independiente del proceso de error asociado con
cada una de las Y. A pesar de que es más probable que las variables X sean estocásticas, un
supuesto restrictivo utilizado en la estimación por MCO17 y retomado en esta sección es que las
variables independientes son determinísticas o frecuentemente denominadas exógenas. La
exogeneidad de estas variables se ve reflejada en que no presentan correlación alguna con el

17
Recordemos que en el primer capítulo desarrollamos los supuestos implicados en la estimación por Mínimos
Cuadrados Ordinarios, y uno de los supuestos básicos era que las variables independientes no siguen un proceso
estocástico. Asimismo, hicimos notar que este supuesto era muy restrictivo.

185
Econometría Moderna Predicción

término de error presente en la ecuación. Por otro lado, el pronóstico de la variable dependiente
resulta:

Yˆt +1 = αˆ + βˆ Xˆ t +1 (7.20)

de esta manera, se define el error de pronóstico de la siguiente manera:

eˆt +1 = (αˆ − α) + (βˆ Xˆ t +1 − βX t +1 ) − ε t +1 (7.21)

Siguiendo los procedimientos utilizados en páginas anteriores, se probarán las propiedades


de este error:

Insesgamiento18:
[ ]
E (eˆt +1 ) = E (αˆ − α) + E βˆ ( X t +1 + µ t +1 ) − β X t +1 − E (ε t +1 ) = 0

La varianza del pronóstico resulta:

 1 ( X t +1 − X ) + σ µ 
2 2
σˆ 2f = σˆ ε2 1 + +  + β 2σ 2
 µ (7.22)
 T ∑ (X t − X )
2
 

Un procedimiento similar al de la demostración de la varianza para el caso anterior se


utilizará a continuación. Si el lector tiene alguna dificultad con los cálculos que se describirán
en las siguientes líneas, se recomienda revisar el Capítulo 2.

eˆt +1 = (αˆ − α ) + ( βˆXˆ t +1 − βX t +1 ) − ε t +1

[
Var (eˆt +1 ) = Var (αˆ − α ) + Var ( βˆXˆ t +1 − βX t +1 ) + 2Cov (αˆ − α )( βˆXˆ t +1 − βX t +1 ) ]
+ Var (ε t + 1 )
(7.23)

Resulta útil, para el desarrollo del segundo y tercer término de la expresión anterior,
reemplazar en la expresión anterior la siguiente transformación:

βˆXˆ t +1 − βX t +1 = βˆ ( Xˆ t +1 − X t +1 ) + X t +1 ( βˆ − β )

Así, el segundo término de la expresión (7.23) resulta:

Var ( βˆXˆ t +1 − βX t +1 ) = Var ( βˆ ( Xˆ t +1 − X t +1 )) + Var ( X t +1 ( βˆ − β )) (7.24)

donde:
Var( βˆ ( X̂ t +1 − X t +1 )) = E( βˆ ( X̂ t +1 − X t +1 )) 2 = E( βˆ 2 ( X̂ t +1 − X t +1 ) 2 )

E  βˆ 2 ( Xˆ t + 1 − X t + 1 ) 2  =  βˆ 2 + Var ( βˆ )Var ( µ t + 1 )
   

18
Esta propiedad se cumple, puesto que el estimador de β no tiene relación con µt+1 .

186
Econometría Moderna Predicción

para obtener este resultado, se hace uso de la ecuación (7.19), de los supuestos acerca de las
perturbaciones estocásticas y de la siguiente relación: βˆ 2 = β 2 + Var ( βˆ ) . Luego, se reemplaza
la ecuación (7.24) en la expresión anterior, así se tiene:

Var ( βˆXˆ t +1 − βX t +1 ) =  βˆ 2 + Var ( βˆ )Var ( µ t + 1 ) + X t2+1Var ( βˆ ) (7.25)


 

Por otro lado, el tercer término de la ecuación (9.23) se reduce a:

[ ] [ ] [
Cov (αˆ − α )( βˆXˆ t +1 − βX t +1 ) = Cov (αˆ − α ) βˆ ( Xˆ t +1 − X t +1 ) + X t +1Cov (αˆ − α )( βˆ − β ) ]
= X t+1Cov(αˆ , βˆ ) (7.26)

Por último, reemplazando las ecuaciones (7.25) , (7.26) en la expresión (7.23) y agrupando
términos, se obtiene la ecuación correspondiente a la varianza del error de pronóstico para una
predicción condicional:

Var (et +1 ) = Var (αˆ ) + ( β + Var ( βˆ ))σ µ2 + X t2+1Var ( βˆ ) + 2 X t +1Cov(αˆ , βˆ ) + σ ε2


[ ]
= Var (αˆ ) + Var ( βˆ ) X t2+1 + σ µ2 + 2 X t +1Cov(αˆ , βˆ ) + σ ε2 + β 2σ µ2 (7.27)

Ahora, como en el segundo caso, se utilizará las expresiones correspondientes a las medidas
de dispersión de los estimadores mínimo cuadráticos, desarrolladas en el Capítulo 2. De esta
manera, se obtendrá la expresión (7.22) comparable con el resultado obtenido en (7.15).
Analicemos comparativamente tales expresiones. Así, se observa que en la ecuación (7.22) se
adicionan dos términos positivos. En primer lugar, el último componente de tal expresión
indica que dada la estimación de la variable aleatoria X, se incrementa la dispersión del error de
predicción, así se comprueba que al introducir supuestos más realistas (el desconocimiento de
los valores futuros de las variables independientes) al modelo aumenta la posibilidad de cometer
errores en la predicción. En segundo lugar, para conseguir reducir al máximo la expresión (7.22)
es necesario que el pronóstico de Xt+1 se obtenga con una varianza mínima o nula.

Por el analisis anterior, se deduce que los intervalos de confianza del 95% para una
predicción condicional tendrá mayor amplitud que los obtenidos después de efectuar una
predicción incondicional. El cálculo se complica cuando se quiere obtener los intervalos de
confianza para predicciones condicionales pues se observa que en la expresión (7.21) se
incluyen productos de variables aleatorias que se distribuyen normalmente. Así, el pronóstico de
la variable dependiente no seguirá una distribución normal como en el caso anterior.

7.6. TEST DE PRONÓSTICO PARA UNA PREDICCIÓN EXPOST

Recuérdese que, uno de los test alternativos de residuos recursivos para evaluar la estabilidad
de parámetros en un modelo, visto en el Capítulo 619, es el test de predicción de una etapa
("One step forecast test"). El cual se abordará, con mayor detalle, en esta sección.

Así, el estadístico Chi- cuadrado para el análisis de una etapa es una prueba de la estabilidad
de los parámetros, incluyendo a la varianza del error del modelo de regresión. Lo que hace este

19
Recomendamos revisar la sección 6.2.4 del presente libro para una mejor comprensión de lo descrito en esta
sección.

187
Econometría Moderna Predicción

test es buscar la estabilidad en el periodo extramuestral comparándolo con el valor registrado


durante el periodo muestral. Acontinuación se detallará el tratamiento formal:

Test Chi- cuadrado:


T +H eˆt2
∑ ≈ χ 2 (H )
2
t =T +1 σˆ ε

donde H representa el número de periodos a pronosticar, el numerador indica una proxy de la


varianza del error de pronóstico durante el periodo de predicción y el denominador indica dicha
varianza dentro del periodo muestral.

Se sabe que toda prueba estadística posee una hipótesis nula, la cual está sujeta a rechazo o
aceptación. La hipotesis nula, para este test, indica que no ocurren cambios estructurales en
ningún parámetro durante la muestra (periodo de estimación) y el periodo de predicción ex post.
De modo que, en las siguientes líneas se denotará β1 al parámetro dentro de la muestra y a β 2
como el parámetro fuera de ella. Un tratamiento similar tendrán las varianzas, formalmente:

H0 : β1 = β 2

σ ε2 = σ 2f

Notése el parecido de esta prueba con el test de Chow, bajo el test de Chow rechazar la
hipótesis de estabilidad implica que el modelo es rechazado para todo el periodo muestral.
Mientras que en este caso, el rechazar la hipótesis nula implica que el modelo no brinda
resultados fiables o exactos para predicciones ex ante. La regla es la siguiente:

χ 2 ≤ χ 2(H )
Si

el modelo predice bien, por tanto se puede usar para predicción ex ante.

χ 2 ≥ χ 2(H )
Si

el modelo no predice bien, no se puede usar para predicción ex ante.

7.7. CRITERIOSPARA COMPARAR LA CAPACIDAD PREDICTIVA DE MODELOS QUE


COMPITEN ENTRE SÍ

Además del test mencionado líneas arriba, exsiten diversos criterios que nos permiten
evaluar la calidad de una predicción. Estos criterios son arbitrarios por lo que podrían ser
bienvenidos criterios adicionales que sugieran los lectores.. Acontinuación presentaremos los
más utilizados en el trabajo aplicado:

188
Econometría Moderna Predicción

1) Raíz del error cuadrático promedio (ECM). Este indicador lo que busca es obtener el error
promedio para un horizonte de predicción. Este se aproxima por la raíz cuadrada del
promedio de los errores elevados al cuadrado:

1 T+H 2
RECM= ∑ ê t
H t =T +1

2) Error absoluto medio. Este indicador busca obtener el error de predicción promedio a través
del valor promedio para un horizonte de predicción dado (de H períodos) de los valores
absolutos de los errores:

T +H
∑ eˆt
t =T +1
EMA=
H

3) Media del valor absoluto del error porcentual. Los dos anteriores indicadores están
influencados por las unidades en las cuales están medidas las variables dpendientes de los
distintos modelos que se evalúan. Una alternativa propuesta en este indicador es calcular el
promedio de los valores absolutos de los errores de predicción para un horizonte de
predicción dado con respecto al valor observado de la variable dependiente en cada periodo:

1 T + H eˆt
EPMA= ∑
H t =T +1 Yt

4) Coeficiente de desigualdad de Theil: (U de Theil), fue propuesto por Theil en el año 1961 y
es el que más se utiliza para evaluar predicciones. Esta prueba lo que busca es tratar de
acotar el valor del indicador de bondad de predicción de tal manera que esté en el intervalo
(0,1). Una de las versiones que se utiliza de este indicador es la que se presenta a
cotinuación:

1 T +H
∑ (Yt − Yˆt )
2
H t =T +1
U=
1 T +H ˆ 2 1 T +H 2
∑ Yt + ∑ Yt
H t =T +1 H t =T +1

Este indicador muestra, de alguna manera, si la correlación entre los valores predichos y los
valores observados en una predición ex-post es alta o baja. Este se puede apreciar en el
numerador de la expresión. Dado esto podemos explorar los siguientes casos :

• Si U tiende a cero, el modelo puede ser utilizado para predecir dado que sus pronósticos
serán fiables. La razón de que esto sea cero es que el numerador es cero y ello implica que
los valores predichos son muy parecidos a los valores observados.

• Si U tiende a 1, el modelo el modelo no sirve para predecir sus pronósticos no son reales.
Nótese que solamente si Yt Ŷt = 0 (son ortogonales entre sí), el numerador será muy
parecido al denominador. No son exactamente iguales porque en el denominador tenemos la
suma de las raíces cuadradas y en el numerador tendríamos la raíz cuadrada de la suma de
los términos del denominador.

189
Econometría Moderna Predicción

Usualmente, es recomendable descomponer la U de Theil en tres proporciones. Estas nos dan


mayor información acerca de las fuentes del error. Y son utilizadas por algunos programas
econométricos o estadísticos. La descompsoción se hace de tal manera que:

Sesgo + Varianza + Covarianza =1

La expresión que se utiliza para descompner la U de Theil proviene del error cuadrático de
predicción medio, el cual se puede escribir como:

∑ ( yˆ − y t ) / H = ( yˆ − y ) + (σˆ yˆ − σˆ y ) 2 + 2 (1 − r )σˆ yˆ σˆ y
2
t

Donde:

i) Sesgo (Bias proportion): indica la presencia de algún error sistemático, esto es, si es
que se está sub o sobre prediciendo sistemáticamente. Esta proproción debe ser lo más
pequeña posible, para considerar al pronóstico confiable. La expresión que se utiliza
para computar este proporción es el siguiente:

( yˆ − y )2
∑ ( yˆ t − yt )2 / H

El indicador analiza si es que las medias de los valores predichos y valores observados
son muy distintas. Como sabemos si se realiza una estiamción el valor promedio de los
valores predichos y los valores observados son iguales. En este caso se toma sólo una
parte de la muestra y se generan valores predichos con el modelo estimado con una
proporción de la muestra. Si los valores de las medias son distintos entonces podremos
considerar que existe sesgo en la predicción.

ii) Varianza (Variance proportion): indica la habilidad del pronóstico para replicar la
variabilidad de la variable real observada. Si esta proporción es grande significa que el
modelo posee menor capacidad para replicar el comportamiento de la serie. Esto se
computa a partir de la siguiente expresión:

(σˆ yˆ − σˆ y ) 2
∑ ( yˆ t − yt )2 / H

Esta proporción analiza si las predicciones tienen una variabilidad similar a las variables
observadas. Se analiza entonces si es que el modelo es capaz de replicar la variabilidad
de las observaciones actuales de la variable.

iii) Covarianza (Covariance proportion): Esta medida analiza la correlación que existe
entre los valores predichos y los valores observados. Se clacula a partir de la siguiente
expresión:

2(1 − r )σˆ yˆ σˆ y
∑ ( yˆ t − yt ) 2 / H

donde r es el coeficiente de correlación entre los valores predichos y los valores


observados.

190
Econometría Moderna Predicción

!"
Comando Eviews

Si se desea utilizar el Econometric Views para predecir una variable, se deben realizar todas
las pruebas referidas en la sección (X.2) sobre el modelo que explica dicha variable y, después
de correr esta regresión, se utiliza la opción Forecast del menú del cuadro de regresión. Dentro
de esta opción, se tienen dos sistemas o métodos para realizar la predicción. La conveniencia de
utilizar una u otra depende de si el interés está en realizar una predicción ex post o ex ante, o si
se utiliza un modelo autorregresivo o no. Estos métodos son los siguientes:

i) Dinamic: este método utiliza los valores predichos para realizar las predicciones de modelo
de regresión. Hace lo siguiente:

Ŷt +1 = αˆ + βˆ Yt

Ŷt + 2 = αˆ + βˆ Ŷt +1

ii) Static: en este caso se utilizan los valores reales de las variables

Ŷt +1 = αˆ 0 + αˆ 1Yt

Ŷt + 2 = αˆ 0 + αˆ 1Yt +1

Analicemos, con más detalle, estos dos conceptos. En primer lugar, cuando se dispone de la
información necesaria (observaciones para la variable dependiente) se puede utilizar el método
estático. De modo que, para hacer predicción ex-post resulta el más adecuado en términos de
bondad predictiva porque utiliza los valores reales. Sin embargo, si se desea hacer una
predicción fuera de la muestra, no podremos utilizar tal método dadas sus características. En ese
caso se utilizará el sistema dinámico.

Cabe mencionar que, analizar la bondad predictiva del modelo con la opción static puede
sesgar nuestros resultados si luego utilizamos la opción dynamic para la predicción ex ante. A
continuación, se plantearemos los siguientes ejemplos para profundizar todos los conocimientos
descritos en este Capítulo.

7.8. EJEMPLOS APLICATIVOS

Ejemplo
Para aclarar estos conceptos se considera el siguiente ejemplo20 donde se busca demostrar la
capacidad predictiva de un modelo que incluye la variable dependiente: DEPEND, y los
regresores: INDEP1, INDEP2, INDEP3 y DEPEND(-1).

Con este propósito, se debe escoger una adecuada muestra de validación (para una
predicción ex–post) y un conjunto apropiado de estadísticos de eficiencia predictiva. Es decir, se
debe responder a la pregunta: ¿Qué muestra de trabajo (período de estimación), muestra de
validación y estadísticos utilizaría, de tal modo que optimice el atractivo de su modelo en
términos de bondad predictiva?
20
Primera pregunta del Exámen Parcial del curso Ïnformática para Economistas de la Universidad del Pacífico.

191
Econometría Moderna Predicción

Así, el modelo cuya bondad predictiva se desea evaluar es el siguiente:

depend = β 0 + β 1indep1 + β 2 indep 2 + β 3indep3 + β 4 depend (−1) + µ

Date: 06/14/98 Time: 23:39


Sample: 2 200
Included observations: 199

Variable Coefficient Std. Error t-Statistic Prob.

C 213.0174 85.88013 2.480404 0.0140


INDEP1 3.442259 0.406753 8.462785 0.0000
INDEP2 1.023553 0.010462 97.83736 0.0000
INDEP3 2.515853 1.402607 1.793698 0.0744
DEPEND(-1) 0.302066 0.009614 31.41787 0.0000

R-squared 0.981684 Mean dependent var 1236.272


Adjusted R-squared 0.981307 S.D. dependent var 123.9630
S.E. of regression 16.94872 Akaike info criterion 5.685189
Sum squared resid 55728.25 Schwarz criterion 5.767935
Log likelihood -843.045 F-statistic 2599.484
Durbin-Watson stat 1.775883 Prob(F-statistic) 0.000000

Según la sección (7.2), el primer paso para comprobar la bondad predictiva de un modelo
consiste en verificar la no-existencia de algún tipo de problema, así se debe comprobar que:

• El error del modelo se distribuye normalmente (Test de normalidad del error - Jarque Bera).
• El modelo está bien especificado (Test de Ramsey)
• Los parámetros son estables (Test CUSUM cuadrado).
• El error del modelo no presenta heterocedasticidad (Test de White)
• El error no se encuentra autocorrelacionado (Test de Breusch-Godfrey).

Pruebas estadísticas

Ahora, se probará si nuestro modelo cumple con los requisitos antes descritos. De esta
manera, se empieza con probar la normalidad del error, utilizando el test de normalidad (Jarque-
Bera)

192
Econometría Moderna Predicción

20
Series: Residuals
Sample 2 200
Observations 199
15
Mean -2.56E-14
Median -0.504959
Maximum 44.16566
10
Minimum -48.35876
Std. Dev. 16.77665
Skewness 0.074088
5 Kurtosis 2.999243

Jarque-Bera 0.182058
Probability 0.912991
0
-50.0 -37.5 -25.0 -12.5 0.0 12.5 25.0 37.5

Dado que ya se conoce la hipótesis nula de este tipo de test, sólamente se dirá que la
probabiliadad asociada al estadístico indica que la hipótesis nula de normalidad del error es no
rechazada (aceptada en el argot común). Luego se prueba la especificación del modelo, con el
test RESETde Ramsey. Así, después de correr la regresión en el Econometrics Views y de
realizar la prueba correspondiente, se obtiene los siguientes resultados, en resumen:

Ramsey RESET Test:

F-statistic 0.807717 Probability 0.490998


Log likelihood ratio 2.508764 Probability 0.473709

Test Equation
LS// Dependent Variable is DEPEND
Sample: 2 200
Included observations:199

Notemos que, la probabilidad asociada al F estadístico del test de Ramsey RESET es igual a
0.49. Por lo que no se puede rechazar la hipótesis nula de que el modelo está bien especificado.
Es decir que todos los regresores cumplen con el objetivo de explicar bien el modelo.

Ahora, se prueba la estabilidad de los coeficientes. Los siguientes test fueron estudiados en
el Capítulo (6) del presente libro:

Tests de Estabilidad de Parámetros:

A) Test Cusum cuadrado

B) Test de parámetros recursivos

193
Econometría Moderna Predicción

7 1.10

1.2 5
1.05

4
1.00
3

1.0 2
0.95
1

0 0.90
20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
0.8 Recursive C(1) Estimates ± 2 S.E. Recursive C(2) Estimates ± 2 S.E.

15 0.34

0.6 10
0.32

0.30

5 0.28

0.26
0.4 0 0.24

0.22
-5
0.20

0.2 -10
20 40 60 80 100 120 140 160 180 200
0.18
20 40 60 80 100 120 140 160 180 200

Recursive C(3) Estimates ± 2 S.E. Recursive C(4) Estimates ± 2 S.E.

0.0 1200

800

400
-0.2
20 40 60 80 100 120 140 160 180 200 0

-400

-800
CUSUMof Squares 5% Significance 20 40 60 80 100 120 140 160 180 200

Recursive C(5) Estimates ± 2 S.E.

El Test de CumsumQ, señala de modo gráfico que los parámetros hallados para la muestra
utilizada son estables a lo largo de la misma. Sin embargo, se observa que el valor del test toca
la banda de confianza alrededor del intervalo 115 a 120. Para asegurar de que no existe quiebre
en esos periodos se utiliza un prueba mas potente como es el Test de Chow para los periodos
desde 115 a 120, el resultado de estos tests fue que no se puede aceptar la presencia de quiebre
estructural de los parámetros.

Es necesario recordar que la prueba de estabilidad de parámetros es muy importante al


momento de evaluar la bondad de predicción de un modelo. Si se tiene que una determinada
muestra presenta muchos quiebres, se tiene que enfrentar la probabilidad que en el futuro los
parámetros también cambien de valor por lo que el modelo perdería su capacidad predictiva.

White Heteroskedasticity Test:

F-statistic 2.455404 Probability 0.014944


Obs*R-squared 18.64598 Probability 0.016872

Test Equation:
LS // Dependent Variable is RESID^2

Sample: 2 200
Included observations: 199

Por el cuadro anterior se observa que existe evidencia de heterocedasticidad, problema que
comúnmente debe ser solucionado antes de realizar una predicción.

Pero, recuérdese la intuición que está detrás de un error heterocedástico. La


heterocedasticidad hace que σ2µ deje de ser una constante y por tanto un supuesto básico de la
regresión por MCO se violaría. Así, la varianza del error del modelo de regresión sería una
función del tiempo. Lo cual deberá tomarse en cuenta al momento de calcular la amplitud de los
intervalos de confianza. De esta manera, la heterocedasticidad parece afectar al modo como se
hallan los intervalos de confianza más no a la predicción misma, lo cual sí sucede con la
autocorrelación.

194
Econometría Moderna Predicción

En consecuencia, para efectos del ejemplo presentado, se decide dejar de lado el problema de
la heterocedasticidad. Pues, como se ha señalado, ésta no afectará a la predicción en sí. A
continuación se probará la autocorrelación del error.

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 0.845386 Probability 0.519123


Obs*R-squared 4.353219 Probability 0.499759

Test Equation:
LS // Dependent Variable is RESID

El Test de Breusch-Godfrey nos señala que no existe suficiente evidencia estadística para
confirmar la presencia de autocorrelación del error en el modelo.

La autocorrelación, a diferencia de la heterocedasticidad, sí altera el modo de generar las


predicciones numéricas. Por ello, si los resultados hubieran sido desfavorables tendríamos que
resolver el problema utilizando los métodos ya estudiados en el Capítulo 8.

Evaluación de la predicción

Como primer paso para evaluar la predicción del modelo se elige una muestra de validación
al azar, por ejemplo las 5 últimas observaciones. Al aplicar la opción forecast static del E-Views
resulta lo siguiente:

Actual: DEPEND Forecast: DEPENDF


Sample: 195 200
Include observations: 6

Root Mean Squared Error 23.32726


Mean Absolute Error 19.21309
Mean Absolute Percentage Error 1.570302
Theil Inequality Coefficient 0.009255
Bias Proportion 0.133292
Variance Proportion 0.034349
Covariance Proportion 0.832359

Como se observa en el cuadro de regresión precedente, el modelo parece adecuado para


predecir, pues el estadístico U propuesto por Theil, es muy cercano a cero.

Por otro lado, el sesgo y la varianza son relativamente pequeños mientras que la covarianza
entre la variable observada y la predicha es grande. En otras palabras, están altamente
correlacionadas, lo cual es favorable para la predicción.

El problema planteado consiste en hallar la muestra de validación con la cual se obtenga la


mejor prueba de la bondad predictiva del modelo. Para tal fin, es recomendable utilizar un
procedimiento estático dado que éste utiliza los valores observados de la variable dependiente
rezagada que se halla dentro del modelo en lugar de los predichos.

195
Econometría Moderna Predicción

Para evaluar las distintas predicciones se decide utilizar el estadístico de la U de Theil y el


Error cuadrático medio. Pues, como se ha desarrollado en páginas anteriores, el primer
estadístico no enfrenta el problema de unidades de medida, y es el más confiable de los
estadísticos de predicción. Luego, para encontrar estos estadísticos en cada muestra de
validación se elaboró el un programa en E-Views que se presenta en el anexo 7.1.

Al correr el programa y observar la tabla “TABLA” vemos que la mejor U de Theil así como el
menor error cuadrático medio corresponden a la muestra de validación desde 164 a 200.

mejor # mejor mejor # mejor


utheil utheil ecm ecm
163.00000 0.0059560 163.00000 15.037422

Donde:

Mejor # utheil = tiempo de la última observación antes del primer momento de la muestra de
validación con la menor U de Theil.
Mejor utheil = la menor U de Theil de las diferentes muestras de validación evaluadas.

Mejor # ecm = tiempo de la última observación antes del primer momento de la muestra de
validación con el menor error cuadrático medio.
Mejor ecm = el menor error cuadrático medio de las diferentes muestras de validación evaluadas.

ANEXO 7.1

'PROGRAMA PARA HALLAR LA MEJOR MUESTRA DE VALIDACIÓN ÓPTIMA

'==============================================================

'En la primera parte se definen los valores que serán utilizados a lo largo del programa, las primeras
tres variables toman el valor de la última observación a partir de la cual se desea realizar una predicción
ex post (si son iguales a 155, se tomará pruebas expost a partir de 156, calculando los parámetros hasta
155, luego se hará la prueba expost a partir de 157 hasta 200, tomando los parámetros con la muestra
tomada hasta 156 y así sucesivamente).

'El total indica el número de observaciones conque se trabaja. Por otro lado el !menutheil será
utilizado para considerar los u de Theil menores al valor indicado, y el !menecm indicará cuál es el
mínimo error cuadrático medio con el que al final del programa se trabajará.

'!col será utilizada porque indica el numero total de regresiones que se tendrán.

!q=150
!per=150
!ult=150
!k=!q-1
!total=200
!col=200+1-!q
equation temp
matrix(5,!col) betas=0
!menutheil=1
!menecm=1000

%0
%1
%2
%3

196
Econometría Moderna Predicción

'==============================================================
'En esta parte del programa se busca hallar los coeficientes estimados, con los que se "predecirá" en la
predicción expost y se evaluará la bondad de dicha predicción. Para ello, se comienza corriendo una
regresión de las variables a utilizar con una muestra desde 1 hasta la señalada en !q (donde se parte la
muestra), los coeficientes obtenidos sin guardados en una matriz denominada "betas". Luego, se hallarán
los parámetros de la regresión que usa una muestra desde 1 hasta !q+1 (156 en este caso) y así
sucesivamente hasta utilizar la muestra entera, y guardar todos los parámetros obtenidos en las !col
regresiones dentro de la matriz creada.

while !q<=!total
smpl 1 !q
temp.ls %0 c %1 %2 %3 %0(-1)
!conteo=1

while !conteo<=temp.@ncoef
betas(!conteo,!q-!k)=temp.c(!conteo)
!conteo=!conteo+1
wend
!q=!q+1
wend

'==============================================================
'Luego de obtener los parámetros, estos deben de multiplicarse por las series que contienen a las
variables explicativas. Previamente, en el workfile, se genera la serie deprez=depend(-1) y una serie de
unos denominada const y luego agrupar las variables indep1, indep2, indep3 y deprez, para transformar el
grupo obtenido denominado "explicativas" en una matriz como se muestra en líneas siguientes. Nótese
que, es necesario recortar la muestra pues, de otro modo, no se podrá formar la matriz ya que la serie
deprez no tiene observación para el momento t=1.

'Después de formar la matriz explicat, se multiplica por los coeficientes que componen la matriz
“betas”. De este modo, se obtiene los estimados de la variable dependiente utilizando los coeficientes
calculados con la muestra hasta 150, 151, 152, etc. hasta 200. Para trabajar con estas predicciones se
transforma la matriz resultante en un grupo de series.

genr deprez=%0(-1)
genr const=1
group explicativas const %1 %2 %3 deprez
smpl 2 !total
stom(explicativas,explicat)
matrix(199,!col) estimad=explicat*betas
mtos(estimad,estim)

'==============================================================
'Una vez obtenidas las series con los valores predichos (forecast) de la dependiente utilizando distintos
coeficientes, se hallarán los estadísticos que permitirán evaluar la bondad de predicción. Estos, serán
insertados en una tabla con el fin de facilitar su uso.

table(100,6) tabla
tabla(1,1)="numero"
tabla(1,2)="ecm"
tabla(1,3)="suma1"
tabla(1,4)="suma2"
tabla(1,5)="utheil"
tabla(1,6)="mejor # utheil"
tabla(1,7)="mejor utheil"
tabla(1,8)="mejor # ecm"
tabla(1,9)="mejor ecm"

197
Econometría Moderna Predicción

'==============================================================
'Aquí se inicia el look que permitirá hallar el error cuadrático medio y la U de Theil de cada
predicción, dependiendo del tamaño de la muestra utilizada ex post. Los valores serán colocados en una
tabla.

'Para facilitar el trabajo se forma primero un grupo de series, las series error!per que equivale a la serie
de errores de predicción, esta serie sólo toma en cuenta los errores para la muestra ex post, mientras que
en el resto de observaciones no presenta ningún valor (por ello se delimita la muestra).

FOR !n=1 to !col-1

smpl !n+!ult !total


genr error!per=depend-ser!n
genr suma1!per=ser!n
genr suma2!per=depend

'==============================================================
' El siguiente paso consiste en llenar la tabla: En la primera columna, se colocará el número de la
última observación utilizada en la regresión que dio origen a los parámetros utilizados para calcular el
error de predicción. El error cuadrático medio será colocado en la segunda columna.

'En la tercera y cuarta columna se irán poniendo otros componentes que son utilizados para calcular la
U de Theil.

smpl 1 !total
genr ec!per=error!per^2
genr ecm!per=(ec!per/(!total-!per))

tabla(!n+1,1)=!per
tabla(!n+1,2)=(@sum(ecm!per))^0.5

genr sum1!per=(suma1!per^2)/(!total-!per)
tabla(!n+1,3)=(@sum(sum1!per))^0.5

genr sum2!per=(suma2!per^2)/(!total-!per)
tabla(!n+1,4)=(@sum(sum2!per))^0.5

'==============================================================
'La U de Theil se colocará en la quinta columna de la tabla.

'Luego, se buscará si ésta es menor que la anterior, de ser así, se tomará como valor de la variable
!menutheil. Es decir, se considerará el menor valor de la U de Theil hasta el momento. El programa
ordenará que la mínima U theil sea colocada en la séptima columna, acompañada en la sexta columna por
el numero de observaciones considerado para hallar la predicción. Algo similar se efectúa con el error
cuadrático medio, donde los valores son colocados en la novena y octava columna respectivamente.

tabla(!n+1,5)=@val(tabla(!n+1,2))/(@val(tabla(!n+1,3))+@val(tabla(!n+1,4)))

!utheil=@val(tabla(!n+1,5))
!ecm=@val(tabla(!n+1,2))

IF !utheil<!menutheil THEN
!menutheil=!utheil
tabla(2,6)=tabla(!n+1,1)
tabla(2,7)=tabla(!n+1,5)
ENDIF

IF !ecm<!menecm THEN
!menecm=!ecm
tabla(2,8)=tabla(!n+1,1)

198
Econometría Moderna Predicción

tabla(2,9)=tabla(!n+1,2)
ENDIF
!per=!per+1
NEXT

For !borra=!ult to !total-1


d ec!borra
d ecm!borra
d error!borra
d sum1!borra
d sum2!borra
d suma1!borra
d suma2!borra
next

For !borra=1 to !col


d ser!borra
next

'FIN del PROGRAMA

Este programa, como se ha señalado, hallará los estadísticos de la U de Theil y del Error Cuadrático
Medio para cada muestra de validación y los colocará en una tabla llamada “TABLA”.

Luego, en la misma tabla señalará cuál es la muestra de validación que presentará la mejor U de Theil
(la menor U de Theil) así como el valor que toma ésta U de Theil mínima. Por otro lado, hace lo mismo
respecto al error cuadrático medio, indica cuál es su menor valor y a qué muestra de validación
corresponde.

199
CAPÍTULO 8
PERTURBACIONES NO ESFÉRICAS
HETEROCEDASTICIDAD Y AUTOCORRELACIÓN

8.1. LAS CONDICIONES DE GAUSS - MARKOV

El planteamiento del modelo lineal general asume que el término de error o perturbación
cumple con las cuatro llamadas condiciones de Gauss - Markov. Suponiendo una ecuación de
regresión de la forma:

y = α + βx + u (8.1)

estas condiciones (que son parte de los supuestos del modelo lineal general) pueden resumirse
en:

• E(ui) = 0 para todo i


• Var(ui) = σ2 (constante) para todo i
• Cov (ui,uj) = 0 para todo i ≠ j
• Cov (xi, ui) = 0 (lo cual implica que las variables explicativas son no estocásticas)

El segundo y tercer supuestos se pueden resumir en términos matriciales (para el modelo lineal
general) a través de la siguiente expresión:

E ( µµ ′) = σ µ2 I n (8.2)

Cuando se cumplen estas dos condiciones se dice que los errores son esféricos. La idea que está
detrás de este concepto es que si pensamos en una distribución multivariada de orden n el centro
de la distribución estaría dada por la media de la misma. A partir de allí si nos queremos alejar
de ese centro en cualquier dirección (que corresponde a cada una de las dimensiones del espacio
Econometría Moderna Perturbaciones no esféricas

n-dimensional) la distancia a la que nos alejamos vendrá dada por la desviación estándar de los
errores ( σ ). Si unimos todos esos puntos el resultado será una esfera.

En las siguientes páginas se analizarán las consecuencias de no satisfacer el segundo y


tercer supuesto, es decir que la matriz de varianzas y covarianzas de los errores ya no será
diagonal y que todos los elementos de la diagonal principal serán iguales. La violación del
segundo supuesto da origen al problema de heterocedasticidad e implica que la varianza del
término de error no es constante para cada observación. Por otro lado, Si los elementos fuera de
la diagonal de la matriz de varianzas y covarianzas de los errores son distintos de cero, se viola
el tercer supuesto y como resultado tendremos el problema de autocorrelación. Este problema
significa que los términos de error no son independientes, es decir, el tamaño del error para un
periodo determinado afecta el valor del periodo u observación siguiente. En general,
intentaremos analizar los efectos que tiene sobre el estimador de mínimos cuadrados ordinarios
la siguiente condición:

E ( µµ ′) = σ µ2 Σ donde Σ ≠ I n

Debe mencionarse que la presencia de ambos problemas se refiere a las características de la


distribución de los errores, la cual es de donde provienen todos los elementos que conforman la
población de los errores. Recordemos que nosotros trabajamos con una muestra de datos que
suponemos provienen de una población con ciertas características. Estas características vienen
dadas por la forma de la distribución. Por tanto, son problemas poblacionales.

En general, a partir de la discusión anterior nos queda la impresión de que estos problemas no
deberían existir porque van a afectar las propiedades del estimador de mínimos cuadrados
ordinarios. De hecho, sabemos desde el capítulo 3 que si no se cumplen las condiciones de
Gauss-Markov tendremos un estimador que ya no será el estimador lineal insesgado óptimo
(ELIO). Sin embargo, debemos recordar que si las características de los datos son distintas a los
de los supuestos con los cuales se construye un estimador, debemos incorporar estas
características al momento de realizar la estimación. Los supuestos de homocedasticidad y
ausencia de autocorrelación pueden verse como restricciones sobre los datos las cuales deberán
ser verificadas a través de distintas pruebas. Por ello, el planteamiento general es que ambos
problemas pueden estar presentes y el método de estimación deberá incorporarlos de manera
general.

8.2. EL ESTIMADOR DE MÍNIMOS CUADRADOS ORDINARIOS

Antes de iniciar cualquier planteamiento general que intente incluir los efectos mencionados
líneas arriba conviene analizar cuáles son los efectos de la estructura de varianzas y covarianzas
de los errores que hemos planteado sobre las propiedades del estimador de mínimos cuadrados
ordinarios. Para esto estudiaremos las propiedades de insesgamiento y eficiencia de este
estimador.

El modelo que utilizaremos para analizar estos efectos será el lineal general:

Y = Xβ + µ (8.3)

Sin embargo debemos dejar explícitos los siguientes supuestos con respecto al error.

E (µ ) = 0 E ( µµ ′) = σ µ2 Σ (8.4)

202
Econometría Moderna Perturbaciones no esféricas

El estimador de mínimos cuadrados ordinarios que busca minimizar la suma de errores al


cuadrado es, como sabemos:

β = ( X ′X ) −1 X ′Y (8.5)

Para analizar el insesgamiento del estimador reemplazamos el modelo verdadero en la fórmula


del estimador:

βˆ = ( X ′X ) −1 X ′[Xβ + µ ]
βˆ = ( X ′X ) −1 X ′Xβ + ( X ′X ) −1 X ′µ
E ( βˆ ) = β + ( X ′X ) −1 X ′E ( µ )
E ( βˆ ) = β + 0 = β

Como se puede apreciar el estimador MCO sigue siendo insesgado. Esto se deriva del hecho que
para analizar esta propiedad sólo se hace uso del primer momento de la distribución que como
hemos señalado no ha cambiado (la esperanza de los errores es igual a cero).

Analicemos ahora la varianza del estimador. A partir de los resultados obtenidos en torno al
sesgo, podemos plantear lo siguiente:

[ ] [
E (βˆ − E ( βˆ ) )(βˆ − E ( βˆ ) ) = E ( X ′X ) −1 X ′µµ ′X ( X ′X ) −1
l
]
−1 −1
= ( X ′X ) X ′E ( µµ ′) X ( X ′X ) (8.6)
= σ µ2 ( X ′X ) −1 X ′ΣX ( X ′X ) −1

La presencia de la matriz Σ evita que se anulen los términos ( X ′X ) −1 y X ′X por lo que


observamos es que la varianza del estimador MCO dada la nueva estructura de varianzas y
covarianzas del error es mayor que cuando los errores son ruidos blancos. Por lo tanto, el
estimador MCO ya no tiene varianza mínima, se ha perdido la propiedad de eficiencia.

Dado lo anterior, es necesario buscar la forma en que se restablezca la propiedad deseada de los
errores para obtener un estimador eficiente. Este estimador será el de mínimos cuadrados
generalizados.

8.3. EL ESTIMADOR DE MÍNIMOS CUADRADOS GENERALIZADOS

En el acápite anterior hemos analizado los efectos de la estructura de varianzas y covarianzas


nueva sobre el estimador de mínimos cuadrados ordinarios. La pregunta ahora es ¿podemos
hacer algo para recuperar las condiciones deseadas? La respuesta a esta pregunta es afirmativa.
Lo que buscamos ahora es ver qué transformación debemos hacer a los datos para convertir a
los errores en ruidos blancos.

Una manera de iniciar todo lo anterior implica premultiplicar el modelo original por una
matriz P de dimensiones n x n, de la forma:

PY = (PX)β +PU

Y* = X*β + U* (8.7)

Al realizar esta operación, cada nueva observación (y*) resulta una combinación lineal de
todas las observaciones contenidas en el vector original. De un modo similar, cada nueva

203
Econometría Moderna Perturbaciones no esféricas

observación de la variable xi (xi* donde i = 1,...,k) es ahora una combinación lineal de todas las
observaciones de la variable xi. La matriz de covarianzas del nuevo término de error sería:

Var (U * ) = Var ( PU ) = σ µ2 PΣP ′ (8.8)

donde la matriz ∑ contiene los coeficientes que, multiplicados por σ2, garantizan que la varianza
no sea constante en el tiempo (evidentemente, en el caso de una perturbación homocedástica ∑
sería la matriz identidad).

Partiendo de este nuevo planteamiento para el modelo, el análisis se centra ahora en construir
una matriz P que garantice que el producto matricial P∑P’ sea igual a la matriz identidad, de tal
suerte que la varianza del término de error no varíe con cada observación. Para esto,
descompongamos la matriz ∑ en el producto de dos matrices cuadradas de tal forma que1: ∑ =
VV’o, equivalentemente:

V-1 ∑ (V-1)’ = I (8.9)

Lo anterior demuestra que la matriz de transformación P, que garantiza una matriz de


covarianzas (∑) escalar y por tanto términos de error homocedásticos, es precisamente la matriz
V-1. En otras palabras, premultiplicando el modelo original por la matriz V-1 de tal forma que
Y* = V-1Y, X* = V-1X y U* = V-1U, la matriz de varianzas y covarianzas del término de error
vendría dada por:

Var(U*) = σ2V-1 ∑ (V-1)’ = σ2I (8.10)

Lo cual implica que cada varianza sería constante para cada observación y las covarianzas entre
los distintos errores serían nulas.

En este caso, el estimador MCO de los parámetros del modelo recibe el nombre de estimador
de mínimos cuadrados generalizados (MCG) y viene dado por la expresión:

βˆ mcg = (X * ´ X * ) X * ´Y * = (X ′(V −1 ) ′V −1 X ) X ′(V −1 ) ′V −1Y


−1 −1

(8.11)
(
= X ′Σ −1 X )−1
X ′Σ −1Y

Evidentemente, para que la estimación por mínimos cuadrados generalizados pueda ser
considerada como una posible solución al problema de heterocedasticidad, los estimadores
deben ser insesgados y óptimos (recordemos que uno de los principales problemas asociados a
la presencia de errores heterocedásticos es la estimación de parámetros ineficientes). La primera
condición, referida a la obtención de estimadores insesgados, puede ser comprobada fácilmente.

βˆ mcg = (X * ´ X * ) X * ´Y * = (X * ´ X * ) X * ´(X * β + U ) = β + (X * ´ X * ) X * ´U
−1 −1 −1

Aplicando el operador de esperanza matemática:

E ( β mcg ) = β (8.11)

Este resultado se obtiene a partir de la propiedad que la esperanza de los errores es igual a cero.

1 Para poder realizar esta descomposición ∑ debe ser una matriz simétrica y definida positiva. Esto sería el
equivalente matricial a decir que cualquier número positivo tiene una raíz cuadrada definida en el conjunto de los
números reales.

204
Econometría Moderna Perturbaciones no esféricas

Para demostrar la optimalidad del estimador MCG debemos primero calcular su varianza:

Var(β*MCG) = E{(β*MCG - E(β*MCG)(β*MCG - E(β*MCG)’}


= E{((X*’X*)-1X*’U*)((X*’X*)-1X*’U*)’}
= E{(X*’X*)-1X*’U*U*’X*(X*’X*)-1 ’}
= E(U*U*’)(X*’X*)-1
= σ2(X*’X*)-1 = σ2(X’∑-1X)-1

Al comparar este resultado con la varianza estimador MCO obtenemos la siguiente


formulación:

Var(β*MCG) - Var(β MCO) = σ2(X’∑-1X)-1 - σ2(X’X)-1X’∑X(X’X)-1


= σ2 {(X’∑-1X)-1 - (X’X)-1X’∑X(X’X)-1} (8.12)

La matriz resultante {(X’∑-1X)-1 - (X’X)-1X’∑X(X’X)-1} es semidefinida negativa por lo que


la varianza del estimador MCG es menor que la varianza del estimador MCO en presencia de
perturbaciones no esféricas.

Lo anterior se deriva del hecho que la transformación efectuada restablece las condiciones de
Gauss –Markov acerca de la ausencia de heterocedasticidad y de autocorrelación. Una vez
restablecidas estas condiciones a través de las transformaciones efectuadas a los datos, el
estimador que se obtiene de aplicar el criterio de mínimos cuadrados ordinarios al modelo con
las variables transformadas contará con las propiedades usuales.

8.4. HETEROCEDASTICIDAD

La segunda condición de Gauss - Markov implica que la varianza de la perturbación debe ser
constante para cada observación. Si este supuesto se verifica para toda la muestra se puede
concluir que los errores son homocedásticos. Antes de desarrollar más profundamente lo que
implica que este supuesto no se cumpla vale la pena discutir lo que significa que la varianza del
error sea o no constante.

Evidentemente, al momento de estimar una regresión el término de error para cada


observación tiene sólo un valor, de modo que resulta interesante preguntarse a qué nos estamos
refiriendo al momento de hablar de su varianza. Específicamente, al referirnos a las propiedades
del término de error se está hablando de su comportamiento potencial antes de que la muestra
sea analizada. En este sentido, al suponer un comportamiento homocedástico se está realizando
una conjetura acerca de la dispersión del término del error, específicamente, supone que esta
dispersión es la misma para toda la muestra, en otras palabras, quiere decir que la probabilidad
de que el error tome un determinado valor va a ser siempre la misma. También se puede decir
que, para cada periodo existe una distribución para el término de error y el valor observado
corresponde sólo a una realización de dicha distribución. En este sentido, el supuesto de
homocedasticidad implica que la distribución relevante para cada observación es la misma. En
algunos casos, sin embargo, puede ser más razonable pensar que la distribución del término de
error es diferente para cada observación en cuyo caso su varianza también diferiría. Por
ejemplo, el hecho de que la varianza de la perturbación muestre un comportamiento creciente
para cada observación no significa que el error deba necesariamente registrar un valor muy alto
en las últimas observaciones pero sí implica que la probabilidad de tener un valor errático sea
mayor. Este es un ejemplo de heterocedasticidad la cual, en términos generales, significa que el
error muestra diferentes dispersiones para cada observación o, lo que es lo mismo, que la
probabilidad de que el término de error tome un determinado valor es diferente para cada
observación.

205
Econometría Moderna Perturbaciones no esféricas

8.4.1 ¿Qué implica la heterocedasticidad?

En general, existen dos problemas principales al momento de trabajar con una muestra que
presenta un término de error heterocedástico. Ambos se refieren a los estimadores de los
parámetros de la ecuación de regresión pero el primero está relacionado a su eficiencia mientras
que el segundo a su significancia estadística.

Al momento de estimar los parámetros se busca que éstos sean insesgados y óptimos.
Específicamente, la optimalidad de los estimadores depende de su varianza la cual deberá ser
mínima. Si los términos de error presentan un comportamiento homocedástico, la varianza de
los estimadores MCO será la mínima de todos los posibles estimadores lineales insesgados. Por
el contrario, ante la presencia de heterocedasticidad, los estimadores de los parámetros no serán
eficientes, lo cual implica que se pueden calcular otros estimadores de menor varianza. En otras
palabras, para demostrar que un comportamiento heterocedástico del término de error conlleva a
la existencia de estimadores MCO no eficientes basta encontrar otro estimador que registre una
menor varianza.

Una vez descritas las implicancias de la heterocedasticidad sobre el estimador de mínimos


cuadrados ordinarios, conviene precisar cuál sería la forma específica del estimador de mínimos
cuadrados generalizados para este caso.

Si tomamos en cuenta el modelo lineal general:

Y = Xβ + µ

en donde el vector de errores tiene esperanza igual a cero y le estructura de covarianzas tendría
el siguiente patrón:

σ 12 0 . . . . 0 
 
0 σ 22 . 
 . . . 
 
E ( µµ ′) =  . . .  (8.13)
 . . . 
 
 . σ n2−1 0 
 
0 . . . . 0 σ n2 

Aquí vemos que la matriz de varianzas y covarianzas es diagonal y que los elementos de la
diagonal no son iguales entre sí. Sin embargo debemos recordar que la estructura general
presentada anteriormente responde a la siguiente forma:

E ( µµ ′) = σ µ2 Σ (8.14)

Esto implica que existe una constante que se puede factorizar y que la matriz Σ es diagonal con
elementos distintos a lo largo de ella. La única forma por la cual ambas expresiones sean
compatibles es suponer que la constante ( σ µ2 ) es igual a 1. La racionalidad de este supuesto
quedará clara más adelante. Teniendo esto en mente podemos proceder a realizar la
descomposición de la matriz Σ en VV´. Dada la forma de la matriz Σ la descomposición
implica que V tendrá la siguiente forma:

206
Econometría Moderna Perturbaciones no esféricas

σ 1 0 . . . . 0 
 
0 σ2 . 
 . . . 
 
V = . . .  (8.15)
 . . . 
 
 . σ n −1 0 
 
0 . . . . 0 σn

Como se puede apreciar la matriz V también es diagonal y sabemos que una matriz diagonal es
simétrica por lo que su transpuesta es igual a sí misma. Es fácil comprobar (y queda como
trabajo para el lector) que, para este caso Σ = VV ′ . Dada la descomposición anterior veremos
que la matriz por la cual habría que transformar los datos (V-1) tendría la siguiente forma:

1 / σ 1 0 . . . . 0 
 
 0 1/ σ 2 . 
 . . . 
−1  
V = . . .  (8.16)
 . . . 
 
 . 1 / σ n −1 0 
 
 0 . . . . 0 1/ σ n 

Ahora, si premutiplicamos tanto el vector de observaciones de la variable dependiente así como


la matriz que contiene las observaciones de las variables independientes, el resultado será:

 y1 /σ1   1/ σ1 x 21 / σ 1 . . x k1 / σ 1 
 y / σ 2   1/ x k 2 / σ 2 
 2  σ2 x 22 / σ 2
 .   . . . 
−1   −1  
V Y = .  V X = . . .  (8.17)
 .   . . . 
   
 y n −1 / σ n −1  1 / σ n −1 x 2 n −1 / σ n −1 x kn −1 / σ n −1 
 y / σ n   1/ σ x 2n / σ n x kn / σ n 
 n  n

Asimismo, si premultiplicamos el vector de errores tendremos lo siguiente:

 µ1 /σ1 
 / σ 2 
 µ2
 . 
−1  
V µ= .  (8.18)
 . 
 
 µ n −1 / σ n −1 
 µ / σ n 
 n

207
Econometría Moderna Perturbaciones no esféricas

Tal como se muestra en (8.18), la transformación del vector de errores implica estandarizar los
errores. Como sabemos, la esperanza de cada uno de los errores es igual a cero por lo que el
numerador de cada observación es interpretado como la desviación con respecto a la media y si
lo dividimos entre la desviación estándar obtenemos los errores estandarizados. Como sabemos
que los errores están estandarizados y suponemos que estos siguen una distribución normal, la
varianza de cada uno de ellos será igual a 1. Por ello, anteriormente supusimos que la constante
por la que se factorizaba toda la matriz de varianzas y covarianzas de los errores era igual a 1. El
objetivo de toda la transformación ha sido estandarizar los errores para lograr observaciones de
ellos que tengan una varianza constante. Ese sería el beneficio de realizar tal transformación. El
costo es que las demás variables del modelo también han sido divididas por dicha desviación
estándar con lo cual su interpretación es distinta a la original. Debemos notar que lo que se ha
hecho en última instancia es ponderar cada uno de los errores por su desviación estándar a fin de
lograr cierta equivalencia entre ellos

En el modelo lineal simple, el planteamiento es similar. Para ilustrar lo anterior planteemos el


modelo de forma explícita:

yi = βxi + ui donde V(ui) = σi2

El modelo a estimarse no incluye intercepto con el fin de simplificar los resultados. En este
caso, el estimador MCO vendría dado por:

β! = ∑ = β + ∑
x iy i x iu i (8.19)
∑ xi ∑ xi
2 2

y su varianza sería igual a:

σ 2
µ (8.20)
V( βˆ ) =
(∑ xi2 )

Ahora, suponga que σi2 = σ2zi2, donde zi es conocido. Entonces, dividiendo el modelo
planteado anteriormente por zi se tendría:

yi xi (8.21)
= β + vi
zi zi

donde vi = ui/zi tiene varianza constante (σ2). Como ya hemos mencionado, la estimación
mínimocuadrática de los parámetros del modelo con las variables transformadas recibe el
nombre de mínimos cuadrados ponderados ya que se está ponderando la i-ésima observación
por 1/zi. En este caso, el estimador vendría dado por la siguiente relación:

β* =
∑ (y / z )(x / z )
i i i i (8.22)
∑ (x / z )
2
i i

y su varianza vendría dada por:

σ 2 (8.23)
V (β *) =
∑ (x i / z i )
2

Tal como se indicó anteriormente, para demostrar que la presencia de heterocedasticidad


implica la estimación de parámetros no óptimos basta con encontrar algún otro estimador de

208
Econometría Moderna Perturbaciones no esféricas

menor varianza. Sustituyendo σi2 = σ2zi2 en la expresión para la varianza del estimador MCO
tenemos:

V( βˆ ) = σ 2 ∑ z 2
i (8.24)
(∑ x ) i
2 2

Por lo que:

V( β *) (∑ xi2 ) 2

=
V (βˆ ) ∑ (x i
2
/z i
2
)∑ zi2

Esta expresión es menor a uno si zi2 no es constante en cuyo caso los errores son
heterocedásticos2. En conclusión, la varianza del estimador de mínimos cuadrados ponderados
resulta menor a la varianza del estimador minimocuadrático cuando zi2 no es constante o, lo que
es lo mismo, cuando el término de error presenta un comportamiento heterocedástico.

El problema asociado a la ineficiencia de los parámetros estimados puede, sin embargo, ser
demostrado de un modo más intuitivo. Supongamos, tal como en el ejemplo planteado
anteriormente, que la varianza del error muestra un comportamiento creciente para cada
observación. Si elige una observación donde el término de error registra una menor desviación
estándar, esta observación será un indicador confiable de la ubicación de la línea de regresión.
Por el contrario, si elegimos una observación con una mayor desviación estándar (mayor
dispersión), ésta será un indicador muy pobre de la ubicación de la línea de regresión. El método
de Mínimos Cuadrados Ordinarios no discrimina respecto a la calidad de las observaciones,
otorgándole un mismo peso a todas. Esto implica que frente al problema de heterocedasticidad
existe la posibilidad de encontrar otro mecanismo para la estimación de los parámetros que, en
este caso particular, consistiría en otorgar un mayor peso a las observaciones que muestren una
mejor calidad en cuanto a indicadores de la posición de la línea de regresión.

Por otro lado, y en lo que se refiere a la significación estadística de los parámetros


estimados, cabe recordar que éstos son calculados bajo el supuesto de que los términos de error
presentan un comportamiento homocedástico. El problema referido a la validez de los
estimadores surge debido a que, frente a la presencia de heterocedasticidad, las desviaciones
estándar tienden a ser subestimadas lo que implica que los estadísticos-t tenderán a estar
sobrestimados. Esto último implica que, bajo un nivel de significancia dado, será probable que
se rechace la hipótesis nula de que el coeficiente es significativamente distinto de cero cuando
en realidad no lo es.

8.4.2 ¿Por qué se presenta la heterocedasticidad?

El problema poblacional de la heterocedasticidad como ya hemos visto se debe a que cada


observación proviene de una distribución diferente y que cada una de estas distribuciones
presenta una varianza distinta. Esa es la consecuencia estadística del problema que nos preocupa
en esta sección. Sin embargo, es importante determinar qué razones asociadas a los datos
explican la presencia de esta característica de las distribuciones.

• Relación entre los variables explicativas y la varianza del error

Usualmente, la heterocedasticidad surge cuando los valores de las variables involucradas en


la ecuación de regresión varían significativamente para cada observación. En estos casos es

2
La demostración de ello queda como tarea al lector.

209
Econometría Moderna Perturbaciones no esféricas

probable que las variaciones en el término del error tiendan a ser pequeñas cuando las variables
registran valores pequeños y grandes cuando las variables involucradas muestran valores
elevados.

Específicamente, cuando se trabaja con información económica el comportamiento de los


agentes resulta una variable clave. Por ejemplo, si se plantea un modelo que explique el
consumo en función al ingreso de las familias se debe considerar que aquellas familias con
mayores ingresos disponen usualmente de un mayor excedente de renta, el cual deben repartir
entre consumo y ahorro. Distintas familias dentro del mismo estrato o nivel de ingresos tendrán,
a su vez, distintas preferencias y tomarán por tanto decisiones diferentes respecto a su exceso de
renta. Por esto, es de esperar que las cifras de consumo para familias con mayores ingresos
presenten una mayor varianza que las de familias de menores ingresos. Por otro lado, aquellas
familias con menores ingresos estarán muy cerca de la línea de pobreza y su consumo estará en
niveles de subsistencia. Por ello es de esperar que estos presenten una menor varianza.

Asimismo, al momento de trabajar con variables que dependen del comportamiento de los
agentes económicos resulta importante considerar que estos agentes usualmente aprenden a lo
largo del tiempo por lo que los errores en su comportamiento tienden a disminuir conduciendo a
una menor varianza.

• Datos Agregados

Al momento de trabajar con datos agregados es común encontrarse con errores


heterocedásticos. Específicamente, si se trabaja con promedios de datos obtenidos de distintos
grupos, la varianza de estos datos será inversamente proporcional al número de individuos
considerados dentro de cada grupo. Asimismo, la dispersión misma de los datos juega un papel
importante. Por ejemplo, si trabajamos con datos promedios de la tasa de mortalidad infantil por
provincias, podría observarse que en algunas provincias los distritos que la componen presentan
datos muy diferentes y el promedio oculta esa dispersión. En otras provincias, los distritos
pueden tener una menor dispersión y el promedio resultante no muestra esta propiedad. Sin
embargo cuando realicemos la estimación es obvio que la distribución de cada promedio tendrá
una varianza distinta. Este hecho deberá incorporarse al momento de la estimación.

• Error de Especificación

Otra de las causas más frecuentes de la presencia de heterocedasticidad es la mala


especificación de un modelo. Si se omite una variable relevante al momento de plantear el
modelo, la varianza del error del modelo mal especificado vendría dada por la varianza del

210
Econometría Moderna Perturbaciones no esféricas

modelo verdadero (la cual es constante) más el cuadrado del producto de la variable omitida y
su coeficiente. En este sentido, la varianza del error del modelo mal especificado no sería
constante. Supongamos que el modelo verdadero es la forma:

yt = β1 + β2x2t + β 3x3t + ut

sin embargo, si se estima el modelo omitiendo la tercera variable explicativa se tendría lo


siguiente:

yt = β1 + β2x2t +vt

donde vt = ut + β3x3t y su varianza vendría dada por:

V(vt) = σ2u + β32x3t2

En este sentido, la varianza del error mal especificado dependería de los valores de la
variable x3t y sería, por tanto, cambiante a lo largo del tiempo. Esta causa de la presencia de
heterocedastidad es sobre la cual se ha prestado especial interés recientemente. Esto porque
sabemos que la omisión de una variable relevante en el modelo verdadero provoca un sesgo en
los parámetros y vemos que puede causar la presencia de heterocedasticidad con lo cual el
estimador MCO pierde sus dos principales características: insesgamiento y eficiencia. Esto es
grave dado que la estimación pierde toda relevancia. Si tomamos en cuenta estas
consideraciones una recomendación que usualmente suele hacerse es que cualquier estimación
debe hacerse partiendo de una especificación amplia donde es preferible tener más variables que
las relevantes para luego, después de un proceso ordenado, ir eliminando variables hasta llegar a
un modelo que cumpla con la mayor cantidad de propiedades.

8.4.3 ¿Cómo detectar la heterocedasticidad?

Descritos ya los efectos de la presencia de heterocedasticidad sobre el estimador MCO y las


formas de corregirlo de manera teórica debemos pasar al terreno práctico. Debemos recordar
que los errores y su varianza son desconocidos por lo que debemos buscar la forma de realizar
una estimación de ellos. Algunas de las pruebas para detectar la heterocedasticidad nos
sugieren la forma de la varianza. Sin embargo, no todas las pruebas nos sugieren la forma de la
varianza y sólo detectan la presencia de heterocedasticidad. Cuando tenemos una forma
explícita de la varianza podemos aplicar la ponderación con la varianza estimada por lo que
estamos en el caso en que podemos aplicar el estimador de mínimos cuadrados generalizados de
forma factible.

Dada la discusión anterior podemos agrupar en dos categorías las pruebas de heterocedasticidad:

1. Pruebas de detección: Estas pruebas sólo detectan la presencia de


heterocedasticidad pero no sugieren la forma de la varianza. Usualmente están
centrados en determinar si es que existe heterocedasticidad entre grupos de
observaciones y analizan si es que la varianza del error presenta un cambio
estructural.

2. Pruebas de detección y corrección: Estas pruebas aparte de detectar la presencia de


heterocedasticidad nos sugieren la forma de la varianza por la que debemos
ponderar cada una de las observaciones. Con la varianza estimada se hace factible la
corrección recomendada en estos casos por lo que estamos en capacidad de utilizar
el estimador de mínimos cuadrados generalizados factibles.

211
Econometría Moderna Perturbaciones no esféricas

Teniendo lo anterior en mente, podemos iniciar la discusión de cada una de las pruebas más
utilizadas para detectar (y si es posible corregir ) la heterocedasticidad.

i) Test gráfico

Cuando la muestra es grande, se puede utilizar el cuadrado de los residuos estimados (ei2)
como una aproximación de la varianza del error. Los residuos estimados se obtienen a través
del análisis de regresión del modelo original sobre el supuesto de homocedasticidad. Este test
plantea verificar la presencia de algún patrón sistemático en el comportamiento de la varianza
del término de error a través de un gráfico que relacione el cuadrado de los residuos con alguna
de las variables explicativas. En este caso, el supuesto de homoscedasticidad implica la ausencia
de un patrón sistemático en los gráficos planteados ya que, en este caso, la varianza del error
sería independiente del comportamiento de las variables explicativas a lo largo del tiempo.

Ejemplo:

Se supone un modelo de la forma:

CONPRIt = β 0 + β 1CAPITALt + β 2INGDISPt + ut

donde:

CONPRI = Consumo privado


CAPITAL= Stock de capital
INGDISP = Ingreso Disponible

LS // Dependent Variable is CONPRI


Sample: 1896 1995
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C 208.6535 46.70111 4.467848 0.0000


CAPITAL 0.023852 0.004480 5.323810 0.0000
INGDISP 0.454549 0.013246 34.31568 0.0000

R-squared 0.993622 Mean dependent var 4263.275


Adjusted R-squared 0.993490 S.D. dependent var 3987.850
S.E. of regression 321.7478 Akaike info criterion 11.57708
Sum squared resid 10041598 Schwarz criterion 11.65523
Log likelihood -717.7477 F-statistic 7555.668
Durbin-Watson stat 0.543929 Prob(F-statistic) 0.000000

Este modelo, el cual será utilizado para todos los ejemplos sugeridos para cada test, se
contruyó con data anual para el periodo 1896 - 1995 (100 observaciones).

!"Comandos EViews:

• GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos de la
regresión anterior.
• SCAT RESID2 CAPITAL

212
Econometría Moderna Perturbaciones no esféricas

• SCAR RESID2 INGDISP: generar un gráfico del cuadrado de los residuos contra cada una
de las variables explicativas.

!"
Resultados:

1200000

1000000

800000
RESID2

600000

400000

200000

0
0 20000 40000 60000 80000

CAPITAL

1200000

1000000

800000
RESID2

600000

400000

200000

0
0 5000 10000 15000 20000 25000

INGDISP

En ambos casos se puede apreciar la existencia de un patrón sistemático entre el cuadrado de


los residuos y las variables explicativas. Se concluye que existe heterocedasticidad. Debemos
notar que en este caso que si bien se sugiere que existe relación entre una variable explicativa y
los términos de error no nos da una idea explícita de la relación. Es más como se puede advertir
la relación es entre la varianza y más de una variable explicativa. Esto nos indica que la forma
explícita sería una combinación lineal de variables independientes. Por tanto esta prueba es sólo
de detección.

ii) Test LR (Likelihood Ratio)

Al igual que el test anterior, el LR es aplicable cuando el número de observaciones de la


muestra es significativo. El primer paso para la aplicación de este test consiste en dividir los
residuos MCO en k grupos, cada uno con ni observaciones tal que Σ n i = n , donde n es el
número de observaciones en la muestra. Luego se estima la varianza de los residuos para cada

213
Econometría Moderna Perturbaciones no esféricas

grupo ( σ
! 2 i ) y la varianza de los residuos para toda la muestra ( σ! 2 ). A partir de esta
información se define una función λ de la forma:
k
λ= ∏ (σ! i ) n i
/ σ! n (8.25)
i =1

donde -2 ln λ se distribuye como una χ 2


( k − 1) .

El paso final consiste en comparar el valor de χ 2 ( k −1) tabular con -2 ln λ. Si el primero es


mayor al segundo se acepta la hipótesis nula de homocedasticidad grupal. Si existe sólo una
variable explicativa, el ordenamiento de los residuos se puede hacer sobre la base de las
magnitudes absolutas de estos. Sin embargo, si existiesen dos o más variables explicativas se
puede utilizar el valor estimado de la variable dependiente ( y! ).

Ejemplo:

!" Comandos EViews:


• FIT: calcular el valor estimado del consumo para cada periodo a partir de los coeficientes
estimados.
• SORT: ordenar los residuos recogidos de la ecuación original según el consumo estimado.
• (@VAR(serie de residuos))^0.5: calcular la desviación estándar de los residuos para toda la
muestra y para cada uno de los grupos definidos.

!"
Resultados:

- Desviación estándar de los residuos para el total de la muestra (σ) = 318.48


- Número de grupos (k) = 4
- Número de observaciones en cada grupo (ni) = 25
- Desviaciones estándar para cada grupo (σi):
σ1 = 30.70
σ2 = 34.23
σ3 = 156.92
σ4 = 269.37

∏(σ!
i =1
i ) ni
2.6581x10 +38 x 1.0397x10 +42 x 1.34249x10 +61 x 1.064910 +69
λ= =
σ! n 2.0341x10 +250

- Valor del estadístico (-2 ln λ) = 182.79 (X2(3))

El valor calculado para el estadístico (182.79) resultó significamente mayor que el valor
tabular con 95% de confianza y 3 grados de libertad (7.815). Por tanto, rechazamos la hipótesis
nula de homocedasticidad. Esta prueba al agrupar los datos y verificar si las varianzas son
iguales entre los grupos lo que detecta es la presencia de heterocedasticidad pero no nos da una
forma explícita. Es una prueba de detección.

iii) Prueba de Spearman

Este test supone que la varianza del término de error depende de los valores de alguna de las
variables explicativas. Si existe esta dependencia, el tamaño de los residuos debería estar

214
Econometría Moderna Perturbaciones no esféricas

relacionado con el tamaño de la variable explicativa. Se recuerda que en estos casos las
variaciones en el término de error tienden a ser pequeñas cuando las variables explicativas
registran valores pequeños y grandes cuando las variables involucradas muestran valores
elevados.

Para llevar a cabo este test, es necesario ordenar en sentido creciente tanto los residuos
obtenidos a través de la estimación MCO (ei) (en valor absoluto) como los valores de la variable
explicativa (xi). A través de este ordenamiento o ranking se calcula el coeficiente de correlación
de rangos (rx,e).

6 ΣDi 2

rx , e = 1 − (8.26)
n( n 2 − 1 )

donde Di es la diferencia entre el puesto que ocupan en la ordenación el valor de la i-ésima


observación de la variable explicativa y el i-ésimo valor absoluto del residuo.

Si el tamaño muestral es grande, entonces la expresión:

rx,e n − 2
(8.27)
1 − rx,e 2

se distribuye aproximadamente como una T de Student con n-2 grados de libertad. Esta
expresión podría calcularse para cada una de las variables explicativas del modelo con el fin de
determinar si alguna de ellas determina el comportamiento de la varianza del término de error.
Específicamente, si el valor calculado del estadístico t es menor al valor tabular, se aceptará la
hipótesis nula de homocedasticidad respecto a la variable explicativa analizada.

Ejemplo:

En este caso, se estimó el coeficiente de correlación de rangos para cada una de las variables
explicativas (CAPITAL e INGDISP).

!"
Comandos Eviews:

• GENR RESIDABS = ABS(RESID): generar una serie que recoja el valor absoluto de los
residuos estimados.

!"
Comandos Excel (para cada variable explicativa):

• Plantear una tabla de cuatro columnas conteniendo el valor absoluto de los residuos y una de
las variables explicativas, asignando a cada observación una constante (X) como en el
siguiente ejemplo:

XV Variable XE Valor absol. error


x1 2056 x1 23.45
x2 1356 x2 35.12
x3 2569 x3 19.14
x4 1923 x4 16.71

215
Econometría Moderna Perturbaciones no esféricas

• ORDENAR: ordenar ascendentemente los valores de la variable explicativa y los valores de


los residuos en términos absolutos, manteniendo sus correspondientes constantes de modo
que pueda ser identificada luego de la ordenación.

XV Variable XE Valor absol. error


x2 1356 x4 16.71
x4 1923 x3 19.14
x1 2056 x1 23.45
x3 2569 x2 35.12

• BUSCAR: determinar la posición que ocupan las constantes correspondientes a cada error en
la nueva ordenación de modo que esta posición pueda ser contrastada con la que ocupa la
constante de la variable explicativa para la misma observación.

XV XE Orden Buscar Di
x2 x4 1 4 3
x4 x3 2 1 1
x1 x1 3 3 0
x3 x2 4 2 2

En el ejemplo anterior la columna Orden se refiere a la posición que ocupan las variables
explicativas luego de la ordenación. Por otro lado la columna Buscar se refiere a la posición que
ocupan en la nueva ordenación los errores correspondientes a la misma observación. Para la
primera fila, el comando de búsqueda sería: Buscar ( x2; matriz XE -Orden; 2 ) = 4.

Por ejemplo, el valor de la variable explicativa para la segunda obsevación ocupa el primer
lugar mientras que el valor del error para esta misma observación ocupa el cuarto. De esta forma
la diferencia en el puesto que ocupan las variables explicativas y los errores correspondientes a
un mismo periodo vendría dado por la columna Di.

!"
Resultados:

Para la variable explicativa CAPITAL


- ∑di2 = 50274
- rx,e = 0.6983
- t-estadístico = 9.66

Para la variable explicativa INGDISP


- ∑di2 = 47810
- rx,e = 0.7131
- t-estadístico = 10.07

Para ambos casos, el valor calculado para el estadístico resulta significativamente mayor al
valor tabular para una distribución T con 98 grados de libertad (n-2) y 95% de confianza. Por
tanto, para ambas variables explicativas, se rechaza la hipótesis nula de homocedasticidad. Tal
como se desprende de todo lo anterior, esta prueba es sólo detectora.

Un programa con la generación y construcción de esta prueba se encuentra en el apéndice de


este capítulo. (Programa 8.1)

iv) Prueba de Goldfeld y Quandt

216
Econometría Moderna Perturbaciones no esféricas

Este test supone que la desviación estándar de la distribución del error (σi) es proporcional al
valor de una de las variables explicativas para cada observación. Asimismo, supone que el error
se distribuye normalmente y no presenta autocorrelación.

Suponiendo que se cuenta con n observaciones, este test plantea ordenar la muestra según
las magnitudes de la variable explicativa y realizar regresiones separadas para las primeras y
últimas m observaciones; las observaciones centrales (n - 2m) son ignoradas. Si se verifica el
supuesto concerniente a la naturaleza de la heterocedasticidad, la varianza del error para las
últimas m observaciones será mayor a la correspondiente a las primeras m observaciones, lo
cual se verá reflejado en la suma residual (SRC) para ambas regresiones. Siendo SRC1 y SRC2
las sumas residuales para las regresiones con las primeras y últimas m observaciones
respectivamente y bajo el supuesto de homocedasticidad y normalidad del término de error, el
coeficiente SRC2/SRC1 se distribuirá F con m-k y m-k grados de libertad, donde k representa el
número de variables explicativas. Como siempre, se contrasta el valor calculado contra el
tabular y si Fcalc es menor que Ftab aceptamos la hipótesis nula de homoscedasticidad.

La potencia del test depende de la elección de m respecto a n ya que el número de


observaciones en cada submuestra determina los grados de libertad de la distribución. En este
sentido, Goldfeld y Quandt sugieren que m debe ser alrededor de 11 cuando la muestra contiene
30 observaciones y 22 cuando la muestra contiene 60 observaciones. Al momento de definir m
se debe considerar también que cada grupo debe contener observaciones relativamente
extremas. En este sentido, si m/n se acerca a 0.5 la diferencia entre las observaciones incluídas
en cada subgrupo será reducida por lo que el test perderá potencia. Como regla práctica, se
deben eliminar un tercio de las observaciones. Esta deben corresponder a las observaciones
ubicadas en el medio de la muestra.

El test de Goldfeld y Quandt también puede ser utilizado bajo el supuesto de que la varianza
del error es inversamente proporcional al valor de alguna variable explicativa para cada
observación. En este caso, el procedimiento es el mismo pero el test estadístico vendría dado
por la relación SRC1/SRC2.

Ejemplo:

!"
Comandos Eviews:

• SORT: ordenar ascendetemente las observaciones de todas las variables incluidas en el


modelo según la variable explicativa elegida.
• IMPORT: importar las observaciones para cada variable según la nueva ordenación.
• SMPL: definir el rango para las subregresiones según el valor elegido de m.

217
Econometría Moderna Perturbaciones no esféricas

!"
Resultados:

Para la variable explicativa CAPITAL

- m = 30
30
- SRC1 = ∑ ( yi − y! i ) 2 = 12307.85
i =1

100
- SRC 2 = ∑ ( yi − y! i ) 2 = 6698694.98
i = 71

- Estadístico = SRC2/SRC1 = 544.26

Para la variable explicativa INGDISP

- m = 30
30
- SRC1 = ∑ ( yi − y! i ) 2 = 12307.85
i =1

100
- SRC 2 = ∑ ( yi − y! i ) 2 = 6698694.98
i = 71

- Estadístico = SRC2/SRC1 = 544.26

Los estadísticos obtenidos para ambas variables resultan similares debido a que las
ordenaciones planteadas según cada una de ellas no mostraron ninguna diferencia significativa.
De esta forma, y para ambos casos, el estadístico calculado resultó mayor al valor tabular para la
distribución F (28,28) de modo que se rechaza la hipótesis nula de homocedasticidad.

Esta prueba nos permite detectar la presencia de heterocedasticidad y la variable que la


causa. Sin embargo, no nos da una idea acerca de la forma aproximada de la relación entre la
varianza y dicha variable. Un paso adicional si se quiere tener una idea más precisa es realizar la
prueba de heterocedasticidad de Glejser.

v) Prueba de Glejser

El test de Glejser nos permite explorar la verdadera estructura de la heterocedasticidad. En


este sentido, este test ya no supone que la variancia del error es proporcional a una de las
variables explicativas sino que se investiga si alguna otra forma funcional es más apropiada,
como por ejemplo:

σ2i = α + βxiγ + εi

donde x es la variable que se supone explica la heteroscedasticidad. Esta puede haberse hallado
previamente por la prueba de Goldfeld y Quandt.

De esta forma, el test propone analizar el comportamiento de los residuos de una regresión
MCO plateando una forma funcional como la anterior. Específicamente, el test plantea la
siguiente ecuación:

218
Econometría Moderna Perturbaciones no esféricas

ei2 = α + βxiγ + εi

para distintos valores del exponente γ y donde εi reúne las características de un ruido blanco. En
este caso, utilizamos el cuadrado de los residuos estimados como una proxi de la varianza del
error. El valor más apropiado para el exponente corresponde a aquel que proporcione la
ecuación con el mejor grado de ajuste y el mayor grado de significancia para el parámetro β. Si
este parámetro no resulta significativamente distinto de cero para la mejor regresión, se acepta
que los errores son homocedásticos.

Ejemplo:

!"
Comandos EViews:

• GENR RESIDABS = ABS(RESID): generar una serie que recoja los valores absolutos de los
residuos estimados.
• GENR CAP05P = CAPITAL^0.5: generar una serie que contenga los valores para la variable
capital elevados a 0.5. Esta operación se repite para cada una de las variables explicativas
según cada uno de los exponentes escogidos.

!"
Resultados:

Para el ejemplo se eligieron los exponentes: ±2, ±1.5, ±1, ±0.5. Los resultados obtenidos se
presentan en el siguiente cuadro.

Variable Prob t-Stad. R-squared Variable Prob t-Stad. R-squared


cap^(0.5) 0.0000 9.596160 0.484445 ing^(0.5) 0.0000 11.13309 0.558451
cap^(-0.5) 0.0000 -7.117220 0.340755 ing^(-0.5) 0.0000 -7.737197 0.379213
cap^(1.0) 0.0000 8.598898 0.430037 ing^(1.0) 0.0000 11.39846 0.570034
cap^(-1.0) 0.0000 -5.186988 0.215403 ing^(-1.0) 0.0000 -5.841092 0.258241
cap^(1.5) 0.0000 7.318144 0.353371 ing^(1.5) 0.0000 10.96881 0.551107
cap^(-1.5) 0.0002 -3.893965 0.133992 ing^(-1.5) 0.0000 -4.440802 0.167521
cap^(2.0) 0.0000 6.239572 0.284318 ing^(2.0) 0.0000 10.28565 0.519124
cap^(-2.0) 0.0026 -3.092719 0.088922 ing^(-2.0) 0.0008 -3.477959 0.109869

Los parámetros asociados a todos los regresores sugeridos resultan significativamente


distintos de cero por lo que rechazamos la hipótesis nula de homocedasticidad.

vi) Prueba de Park

Park utiliza la intuición detrás de la prueba gráfica para plantear una forma funcional que
explique el comportamiento de la varianza del término de error. Específicamente, supone la
existencia de una relación entre la varianza del error y alguna de las variables explicativas. Este
planteamiento es similar al del test de Glejser sólo que la forma funcional sugerida por Park
viene dada por:

σi2 = σ2xiβevi

Esta forma multiplicativa plantea que la varianza del error para cada observación depende de
la varianza bajo el supuesto de homocedasticidad (la cual es constante), una de las variables
explicativas del modelo original y el valor e.

219
Econometría Moderna Perturbaciones no esféricas

Este planteamiento puede, a primera vista, resultar algo complejo, sin embargo, si
analizamos el logaritmo de la ecuación anterior notaremos que ésta no difiere mucho de las
relaciones planteadas en los demás tests.

ln σi2 = lnσ2 + βlnxi + vi

Al igual que en los casos anteriores, se utiliza el cuadrado de los residuos estimados (ei2)
como aproximación de la varianza del error para cada observación. En este sentido, la ecuación
de regresión planteada por Park resulta de la forma:

ln ei2 = α + βlnxi + vi

Respecto al parámetro α, se recuerda que la varianza bajo el supuesto de homocedasticidad


es constante por lo que lnσ2 representa el intercepto.

Si β resulta estadísticamente significativo se concluye que la varianza del error para cada
periodo depende del valor de la variable explicativa, la cual no es constante a lo largo a lo largo
del tiempo. En este sentido, si se logra explicar el logaritmo del cuadrado del residuo en
términos del logaritmo de alguna de las variables explicativas se puede afirmar que el término
del error presenta un comportamiento heterocedástico.

Harvey (1976) propone una prueba similar que consiste en una generalización de la prueba
de Park. Específicamente, Harvey propuso una relación multiplicativa de la forma:

σ i2 = e z ′iα

donde z’tα = α1 + α2z2t + ... + αpzpt

El test platea estimar por MCO la relación:

ln e2t = α1 + α2z2t + ... + αpzpt + εt

y definir el estadístico:

αˆ *' D −1αˆ *
≈ X 2
( p −1 ) (8.28)
4 . 935

donde D representa la matriz de covarianzas asintótica del vector (α2 + ... + αp) que resulta de
excluir la primera fila y columna de (z’z)-1. El vector α! * es el vector de coeficientes
excluyendo el término independiente (α1). El valor obtenido para este estadístico se compara
contra el valor tabular de un distribución chi-cuadrado con p-1 grados de libertad.

Ejemplo:

!"
Comandos Eviews:

• GENR RESID2 = RESID^2: generar una serie que recoja los cuadrados de los residuos
estimados.
• GENR LNRESID2 = LOG(RESID2): generar una serie que contengan los logaritmos de los
residuos estimados al cuadrado. Esta operación se repite para cada una de las variables
explicativas.

220
Econometría Moderna Perturbaciones no esféricas

!"
Resultados:

Para la variable CAPITAL

LS // Dependent Variable is LNRESID2


Sample: 1896 1995
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C -5.714970 1.929723 -2.961549 0.0038


LNCAPITAL 1.577852 0.206352 7.646399 0.0000

R-squared 0.373672 Mean dependent var 8.916337


Adjusted R-squared 0.367280 S.D. dependent var 3.140146
S.E. of regression 2.497787 Akaike info criterion 1.850608
Sum squared resid 611.4163 Schwarz criterion 1.902711
Log likelihood -232.4242 F-statistic 58.46742
Durbin-Watson stat 0.715509 Prob(F-statistic) 0.000000

Para la variable INGDISP:

LS // Dependent Variable is LNRESID2


Sample: 1896 1995
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C -5.648694 1.716655 -3.290523 0.0014


LNINGDISP 1.740910 0.203194 8.567735 0.0000

R-squared 0.428258 Mean dependent var 8.916337


Adjusted R-squared 0.422424 S.D. dependent var 3.140146
S.E. of regression 2.386461 Akaike info criterion 1.759420
Sum squared resid 558.1292 Schwarz criterion 1.811524
Log likelihood -227.8649 F-statistic 73.40608
Durbin-Watson stat 0.780325 Prob(F-statistic) 0.000000

Para ambos casos se verifica la significancia estadística del parámetro asociado al logaritmo
de la variable explicativa. A partir de esto se concluye que los errores presentan un
comportamiento heterocedástico.

vii) Prueba de White

La prueba de White en un contraste general que no precisa la estructura de la


heterocedasticidad. En este sentido, el test plantea un regresión entre el cuadrado de los residuos
estimados sobre una constante, los regresores del modelo original, sus cuadrados y sus
productos cruzados de segundo orden. Por ejemplo, si el modelo original contiene tres variables
explicativas, los regresores del test de White serían x1, x2, x3, x12, x22, x32, x1x2, x2x3, y x1x3.
Formalmente, la prueba implica estimar la siguiente regresión auxiliar.:

ε2 = α + β 1ξ1 + β 2ξ2 + β 3ξ3 +β4ξ12 +β5ξ22 + β 6ξ32 + β 7ξ1ξ2 + β 8ξ2ξ3 + β 9ξ1ξ3 + ε

221
Econometría Moderna Perturbaciones no esféricas

Al aumentar el tamaño muestral, el producto TR2 (donde T es el número de observaciones de


la muestra y R2 el coeficiente de bondad de ajuste de la regresión auxiliar) se distribuye como
una chi-cuadrado con p-1 grados de libertad, donde p es el número de parámetros de la
regresión auxiliar (la regresión planteada para el cuadrado de los residuos). Si ninguna de las
variables sugeridas en la regresión auxiliar explica adecuadamente a e2 cabe esperar que el valor
del R2 tienda a cero. En este caso, el valor calculado TR2 resultará bastante reducido por lo que
será muy probable que se acepte la hipótesis nula de homocedasticidad (X2calc < X2tab).

Ejemplo:

!"
Comandos EViews:

VIEW/RESIDUAL TEST/WHITE HETEROSKEDASTICITY(cross terms)

!"
Resultados:

White Heteroskedasticity Test:

F-statistic 25.15290 Probability 0.000000


Obs*R-squared 57.22694 Probability 0.000000

Test Equation:
LS // Dependent Variable is RESID^2
Sample: 1896 1995
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C -34357.41 30111.69 -1.140999 0.2568


CAPITAL 59.83741 15.12959 3.954992 0.0001
CAPITAL^2 -0.000236 0.000223 -1.054001 0.2946
CAPITAL*INGDISP -0.002449 0.001200 -2.040704 0.0441
INGDISP 130.3478 33.85792 -3.849847 0.0002
INGDISP^2 0.007841 0.002267 3.458243 0.0008

R-squared 0.572269 Mean dependent var 100416.0


Adjusted R-squared 0.549518 S.D. dependent var 202765.5
S.E. of regression 136092.1 Akaike info criterion 23.70030
Sum squared resid 1.74E+12 Schwarz criterion 23.85661
Log likelihood -1320.909 F-statistic 25.15290
Durbin-Watson stat 1.810082 Prob(F-statistic) 0.000000

La probabilidad asociada al estadístico (0.0000) indica el rechazo de la hipótesis nula de


homocedasticidad. Específicamente, se verifica que el cuadrado de los residuos puede
explicarse en términos de las variables CAPITAL, CAPITAL*INGDIS, INGDISP e
INGDISP^2 por lo que se concluye que los errores muestran un comportamiento
heterocedástico.

Debe mencionarse que esta prueba puede interpretarse como una prueba de mala especificación
dado que si se detecta la presencia de heterocedasticidad y uno de los regresores resulta muy
significativo en la regresión auxiliar podría interpretarse como que dicha variable puede estar
faltando en la regresión de la media condicional. Por ello es deseable incluir tal variable en
dicha ecuación a fin de corroborar que su significación estadística. Debe mencionarse que
cuando nos referimos a variables omitidas nos referimos a los cuadrados como a los productos
cruzados.

222
Econometría Moderna Perturbaciones no esféricas

viii) Prueba de Breusch y Pagan

Partiendo del supuesto de que la varianza del error no es constante para cada observación,
resulta factible encontrar un vector de variables zt que explique el comportamiento de la
varianza.

σt2 = f (zt’α) = f (α0 + α1z1t + α2z2t + ... +αpzpt)

Si definimos esta forma funcional, el test consiste en verificar la hipótesis nula:

H0: α1 = α2 = ... =απ (8.29)

Nótese que si todos los coeficientes de la combinación lineal zt’α, excepto el término
independiente α0 fuesen cero, entonces el término de error sería homocedástico ya que
σt2=f(α0), el cual es una constante. Asimismo, cabe resaltar que f puede representar cualquier
función de modo que el test de Breusch y Pagan no depende de la forma funcional.

Ahora, suponiendo que:

et 2
σ! 2 = ∑ n

calculamos la suma de cuadrados de regresión (o suma explicada, SE) de la regresión de et2


sobre z1, z2, ... ,zp y definimos la función λ de la forma:

SE
λ= (8.30)
2σ! 4

la cual se distribuye como una chi-cuadrado con p grados de libertad.

La intuición de este test es similar a la del test de White. Para éste último definimos la
función TR2 la cual se distribuye chi-cuadrado con p-1 grados de libertad. Trabajando de
manera análoga podemos obtener el estadístico TR2 para el caso de Breusch y Pagan donde el
coeficiente de bondad de ajuste, al igual que en el test de White, está referido a la regresión
auxiliar (en este caso la regresión de et2 contra z1, z2, ..., zp). Para determinar la relación entre el
estadístico TR2 y el test de Breusch y Pagan nótese que:

TR2 = Suma de cuadrados de regresión / Var(et2)3


= SE / Var(et2)

Ahora, bajo la hipótesis nula de homocedasticidad, el cociente ut2/σ2 se distribuye chi-


cuadrado con 1 grado de libertad. Por tanto, Var (ut2/σ2) =2 dado que la varianza de una chi-
cuadrado es igual a dos veces los grados de libertad.

Por tanto: Var (ut2) = 2σ4. Para muestras grandes, podemos generalizar Var(et2)=Var(ut2) y
σ! 4 = σ 4 . En conclusión, el estadístico propuesto por Breusch y Pagan vendría dado por:

3 Recordemos que R2 =(Suma explicada / Suma total) = (SE / ST). Para el caso específico del test de Breusch y

Pagan, SE / ST =
∑ ( e! t 2 − e t 2 ) 2 , donde el denominador vendría a ser T(Var (et2)).
∑ (et 2 − e t 2 ) 2
223
Econometría Moderna Perturbaciones no esféricas

SE SE
λ= = = TR 2
2σ! 4 2
Var (et )

Al igual que para el caso del test de White, en la medida en que las variables del vector zt no
expliquen adecuadamente al estimador de la varianza del error (et2), el coeficiente de bondad de
ajuste se aproximará a cero y será más probable que se acepte la hipótesis nula de
homocedasticidad.

Ejemplo:

!"
Comandos EViews:

• GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos.
• Estimar una regresión de los residuos al cuadrado sobre las variables explicativas del modelo
original.
• FIT: generar una serie que contenga los valores estimados para el cuadrado de los residuos a
partir de los coeficientes de la regresión anterior.

!"
Resultados:

LS // Dependent Variable is RESID2


Date: 05/31/97 Time: 23:10
Sample: 1896 1995
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C -41424.48 21929.95 -1.888946 0.0619


CAPITAL -6.101892 2.103838 -2.900362 0.0046
INGDISP 34.10861 6.220116 5.483596 0.0000

R-squared 0.455998 Mean dependent var 100416.0


Adjusted R-squared 0.444782 S.D. dependent var 202765.5
S.E. of regression 151086.6 Akaike info criterion 23.88076
Sum squared resid 2.21E+12 Schwarz criterion 23.95891
Log likelihood -1332.932 F-statistic 40.65416
Durbin-Watson stat 1.440405 Prob(F-statistic) 0.000000

100
- SE = ∑ (e!i 2 − ei 2 ) 2
= 1.856E+12
i =1

100
ei 2
- σ2 = ∑ n
= 100415.975
i =1

SE
-λ= = 92.0346717
2σ 4

El valor calculado para el estadístico resulta superior al valor tabular de un distribución con
(p = 2) grados de libertad y 95% de confianza (5.991). Por tanto, se concluye que se rechaza la
hipótesis nula de homocedasticidad.

224
Econometría Moderna Perturbaciones no esféricas

8.4.4 Corrección de la Heterocedasticidad

Si a través de las pruebas mencionadas anteriormente detectamos la presencia de la


heterocedasticidad el siguiente paso es corregir el problema con el fin de obtener estimadores
que presenten las propiedades adecuadas. Como sabemos el estimador que nos permite obtener
estimados con las propiedades adecuadas es el de mínimos cuadrados generalizados. Sin
embargo, dicho estimador es teórico. Por tanto, es necesario trabajar en el campo práctico en
donde tenemos que reemplazar nuestra matriz Σ por su estimado, Σ̂ . Esto nos llevará al
estimador de mínimos cuadrados generalizados factibles.

Las pruebas detalladas en la sección anterior si caen dentro del grupo de las pruebas que
hemos denominado correctoras nos sugerirán la forma de la varianza y por tanto podremos
construir nuestra matriz Σ̂ y procederemos a realizar la estimación por mínimos cuadrados
ponderados factibles lo que se logrará al ponderar cada observación de la variable dependiente y
las respectivas variables independientes por la varianza relevante. Este es el procedimiento
general. Sin embargo, es pertinente revisar métodos de corrección específicos diseñados para
casos particulares.

i) Datos agregados

Se supone un modelo que pretende explicar el consumo de las familias a partir de su renta.

ci j = α0 + α1yi j + εi j

donde:
ci j = consumo de la familia j en el momento i
yi j = ingreso de la familia j en el momento i
εi j = ruido blanco

Sin embargo, si sólo se dispone de datos agregados el modelo a estimar sería de la forma:

Ci Yi
= β 0 + β1 + ui
Pi Pi

donde:

Pi
C i = ∑ ci j
j =1

Pi
Yi = ∑ yi j
j =1

Tomando sumatorias al modelo original y dividiendo entre la población se tiene:

Pi Pi

∑ ci j Piα 0 + α 1Yi + ∑ ε i
j

Ci j =1 j =1
= =
Pi Pi Pi

225
Econometría Moderna Perturbaciones no esféricas

Pi

∑ε
j
i
Ci Y j =1
= α 0 + α1 i +
Pi Pi Pi

Comparando este resultado con el modelo agregado se tiene que:

α0 = β0
α1 = β1
Pi

∑ε
j
i
j =1
ui=
Pi

Ahora, desarrollando la varianza del término de error (ui) se tiene:

Pi
∑ Var (ε i j )
1
Var (ui ) =
Pi 2 j =1
Pi
∑σ 2
1
=
Pi 2 j =1
1
= 2
Pi σ 2
Pi
σ2
=
Pi

Lo anterior demuestra que la varianza del error del modelo agregado depende de la
población en el momento i presentando, por tanto, un comportamiento heterocedástico. Cabe
resaltar, sin embargo, que la presencia de heterocedasticidad no se debe a alguna peculiaridad en
la conducta de las familias sino al hecho de haber trabajado con datos agregados.

Tal como se indicó anteriormente, la corrección del problema de heterocedasticidad se basa


en determinar la estructura de la matriz ∑. Para este caso particular, la varianza del error viene
dada por:

1 
 P1 
 1 
Var (U ) = σ 2  P2 
 ... 
 1 
 Pn 

donde la matriz cuya diagonal principal contiene la inversa de la población para cada periodo es
precisamente la matriz ∑. Por tanto, y tal como se propone en la corrección por MCG, el
modelo debe ser premultiplicado por la matriz V-1 donde VV’ = ∑. Específicamente:

V-1 C = V-1 Yβ + V-1 U

226
Econometría Moderna Perturbaciones no esféricas

donde:

 1 
 P1 
 1 
V = P2 
 
 ... 
 1 
 Pn 

Ahora, el error para el periodo i (u*i) vendría dado por:

Pi
Pi ∑ ε i
j

j =1
u *i =
Pi

por lo que su varianza sería:

Pi
Pi
2 ∑
Var (u *i ) = Var (ε i j )
P i j =1
Pi
Pi
=
Pi 2
∑σ 2
j =1
2
Pi
= σ2 =σ2
Pi 2

Ejemplo:

Consideremos el siguiente modelo:

Cai = β 0 + β 1Yai + β 2Kai + ui

donde:

Ci
Ca i =
Pi
Y
Ya i = i
Pi
K
Ka i = i
Pi
P1 = 11, P2 = 12,...., P100 = 110

Debido a que se ha trabajado con información agregada, es de esperarse que el término de


error presente heterocedasticidad. Si suponemos que el modelo micro es de la forma:

ci j = α0 + α1yi j + εi j

227
Econometría Moderna Perturbaciones no esféricas

donde:
ci j = consumo de la familia j en el momento i
yi j = ingreso de la familia j en el momento i
εi j = ruido blanco con varianza constante (σ2)

la varianza del término de error del modelo agregado vendría dado por:

σ2
Var (u i ) =
Pi

Según la metodología considerada anteriormente, la corrección consistiría en ponderar cada


observación por la raíz de la población para cada periodo.

Los resultados de la regresión planteada anteriormente son:

LS // Dependent Variable is CA
Sample: 1 100
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C 0.193721 0.015199 12.74539 0.0000


YA 0.553360 0.103087 5.367877 0.0000
KA 0.352750 0.095943 3.676679 0.0004

R-squared 0.348472 Mean dependent var 0.189985


Adjusted R-squared 0.335038 S.D. dependent var 0.185834
S.E. of regression 0.151539 Akaike info criterion -3.744287
Sum squared resid 2.227506 Schwarz criterion -3.666132
Log likelihood 48.32052 F-statistic 25.94039
Durbin-Watson stat 1.935025 Prob(F-statistic) 0.000000

Utilizando el cuadrado de los residuos de la regresión anterior como un estimador de la


varianza del error notaremos que ésta depende de la población y es, por tanto, variable en el
tiempo.

!"Comandos EViews:
• GENR VAR1=RESID^2

LS // Dependent Variable is VAR1


Sample: 1 100
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C 0.048494 0.006536 7.419264 0.0000


POB -0.000433 9.75E-05 -4.444519 0.0000

R-squared 0.167755 Mean dependent var 0.022275


Adjusted R-squared 0.159262 S.D. dependent var 0.030697
S.E. of regression 0.028146 Akaike info criterion -7.120877
Sum squared resid 0.077637 Schwarz criterion -7.068773
Log likelihood 216.1500 F-statistic 19.75375
Durbin-Watson stat 1.984617 Prob(F-statistic) 0.000023

228
Econometría Moderna Perturbaciones no esféricas

Tal como se indicó anteriormente, la estrategia para corregir el problema de


heterocedasticidad en este caso consiste en multiplicar cada observación por la raíz de la
población o, lo que es lo mismo, estimar nuevamente el modelo por MCG.

!"Comandos EViews:
• QUICK - ESTIMATE EQUATION - OPTIONS - WEIGHTED LS/TSLS
• Weight = POB1^(1/2)

LS // Dependent Variable is CA
Weighting series: POB^(1/2)
Sample: 1 100
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C 0.190451 0.012998 14.65236 0.0000


YA 0.641209 0.103368 6.203181 0.0000
KA 0.389417 0.095255 4.088150 0.0001

Weighted Statistics

R-squared 0.428929 Mean dependent var 0.193874


Adjusted R-squared 0.417154 S.D. dependent var 0.174896
S.E. of regression 0.133523 Akaike info criterion -3.997418
Sum squared resid 1.729361 Schwarz criterion -3.919263
Log likelihood 60.97705 F-statistic 36.42814
Durbin-Watson stat 1.819386 Prob(F-statistic) 0.000000

Unweighted Statistics

R-squared 0.341124 Mean dependent var 0.189985


Adjusted R-squared 0.327539 S.D. dependent var 0.185834
S.E. of regression 0.152391 Sum squared resid 2.252628
Durbin-Watson stat 1.883187

El modelo presentado anteriormente correponde a la estimación por Mínimos Cuadrados


Generalizados de la regresión original. En este caso, la varianza del término de error ya no
depende de la población y la perturbación es, por tanto, homocedástica.

!"Comandos EViews:
• GENR RESP=RESID*POB^(1/2)4
• GENR VAR2=RESP^2

LS // Dependent Variable is VAR2


Sample: 1 100
Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C 0.902110 0.251767 3.583118 0.0005


POB 0.001241 0.003756 0.330357 0.7418

R-squared 0.001112 Mean dependent var 0.977176


Adjusted R-squared -0.009080 S.D. dependent var 1.079272

4
Los residuos guardados automáticamente en la serie RESID luego de la estimación por MCG no están ponderados,
por lo que resulta necesario realizar la ponderación respectiva a través de este comando.

229
Econometría Moderna Perturbaciones no esféricas

S.E. of regression 1.084161 Akaike info criterion 0.181410


Sum squared resid 115.1897 Schwarz criterion 0.233514
Log likelihood -148.9644 F-statistic 0.109136
Durbin-Watson stat 2.241412 Prob(F-statistic) 0.741836

ii) Conductas diferenciadas

El problema asociado a la presencia de conductas diferenciadas ocurre cuando las respuestas


de los agentes difieren a lo largo de la muestra. Frente a esto, la muestra puede dividirse en
grupos, cada uno de los cuales contiene un término de error diferente, en el sentido de
pertenecer a una distribución distinta para cada grupo. Es lógico suponer que, para cada grupo,
el término de error reúne las características de un ruido blanco, sin embargo, si se considera el
total de la muestra en conjunto se encontrará que el término de error no presenta una varianza
constante ya que los errores para cada submuestra pertenece a una distribución distinta.

Este problema se presenta usualmente al trabajar con modelos del tipo de corte transversal.
Supongamos que se quiere analizar la relación existente entre el consumo y el ingreso para
distintas regiones del país. Evidentemente, frente a distintos niveles de ingreso las respuestas de
los agentes (los niveles de consumo) serán distintos. Sin embargo, puede darse el caso que para
niveles similares de ingreso nos encontremos con distintos niveles de consumo, en otras
palabras, las respuestas de los agentes serán distintas debido a la presencia de conductas
heterogéneas entre una región y otra. En este caso, es precisamente la perturbación la que
recoge el efecto de las conductas diferenciadas y es por tanto válido suponer que para cada
submuestra el término de error pertenezca a una distribución particular. Para ilustrar mejor este
caso, supongamos que se pretende estimar un modelo de corte transversal de la forma:

ci = α0 + α1yi + ui

donde:
ci = consumo de la región i
yi = ingreso de la región i
∀i = 1,2...n

Ahora, suponga que la muestra puede dividirse en dos submuestras de la forma:

ci1 = α0 + α1yi1 + ui1


∀i = 1,2, ... ,m

cj2 = α0 + α1yj2 + uj2


∀j = (m+1), ... ,n

donde:

Var(ui1) = σ21
Var(uj2) = σ22

De esta forma, y si se considera la totalidad de la muestra, la varianza del término de error


no es constante ya que depende de la submuestra y por tanto de la respuesta de los agentes.
Formalmente:

U  σ 2 1 I 1 φ 
Var (U ) = Var  1  =   =W
U 2   φ σ 2 I2 
2

230
Econometría Moderna Perturbaciones no esféricas

La matriz W resulta proporcional a la matriz ∑ considerada anteriormente y por ello puede


ser utilizada para el cálculo del estimador MCG:

β*MCG = (X’ W-1 X)-1 X’ W-1 Y (8.31)

Para esto, y tal como fue descrito para el caso de datos agregados, es necesario
premultiplicar el modelo por la matriz A-1, donde W=AA’. Sin embargo, para poder realizar esta
corrección es necesario conocer los valores de σ21 y σ22. Al respecto, el estimador de mínimos
cuadrados de la varianza del término de error puede ser utilizado para el cálculo de la matriz W.

Para el ejemplo presentado líneas arriba, la estrategia consiste en estimar el modelo por
MCO para cada submuestra donde el estimador de la varianza del término de error para cada
grupo vendría dado por:

e1 ' e1
= σ! 2 1
m− k

e 2 ' e2
= σ! 2 2
(n − m) − k

donde k representa el número da variables explicativas, en este caso 1.

Ahora, es factible estimar la estructura de la matriz W:

σ! 2 1 I 1 φ 
W! =  
 φ σ! 2 I 2 
2

y de esta forma se puede proceder con la corrección a través de Mínimos Cuadrados


Generalizados.

La estrategia sugerida anteriormente presenta, sin embargo, una dificultad: la elección de las
submuestras a ser analizadas. Para el caso planteado líneas arriba convendría dividir la muestra
en grupos que reúnan características demográficas similares. Por ejemplo, cabe suponer que la
conducta de los agentes en zonas urbanas difiere de la conducta en zonas rurales. Usualmente, la
propensión marginal a ahorrar en zonas urbanas tiende a ser mayor debido, en parte, a un mayor
desarrollo del sistema financiero, por lo que una alternativa al problema de la elección de las