Econometria Casas PDF

CAPITULO 1
EL MODELO DE REGRESIN LINEAL
1.1. EL ANLISIS DE REGRESIN
1.1.1 Interpretacin
El ingls Francis Galton1 (1822 - 1911) fue el primero en introducir el trmino regresin.
Cuando estudiaba la relacin entre las estaturas de los hijos y los padres observ que la estatura
de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo,
la estatura promedio de los hijos cuyos padres tenan una estatura dada, tenda a moverse o
converger hacia el promedio de la poblacin. As, determin una regresin de la estatura de los
hijos hacia el promedio o, en trminos de Galton, una regresin hacia la mediocridad.
La Ley de Regresin Universal de Galton fue confirmada, aos despus, por Karl Pearson,
quien realiz un estudio similar utilizando ms de mil observaciones. Con el estudio de Pearson
se confirm que la estatura promedio de los hijos de un grupo de padres altos era menor que la
estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor
que la de sus padres. As, se observa que los hijos de estatura alta o baja, regresan en forma
similar hacia la estatura promedio de la poblacin.
En este sentido, la regresin de una variable aleatoria Y sobre otra variable X fue entendida
como la media de Y condicional en X, a travs de una relacin funcional entre X e Y. El
estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el
criterio de estimacin de Mnimos Cuadrados Ordinarios (MCO), que ser estudiado en el
siguiente captulo, y las observaciones muestrales de X e Y.
1
Francis Galton, Family Likeness in Stature, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
Econometra Moderna El Modelo de Regresin Lineal
Una interpretacin ms moderna de regresin indica que la misma es cualquier aproximacin

de la distribucin de probabilidad de Y condicionada a los valores de las observaciones de X,
siendo Y una funcin de X. En otras palabras, el anlisis de regresin estudia la relacin
existente entre una variable endgena o dependiente (Y) y una o ms variables exgenas o
independientes (X), con el objeto de estimar la media o valor promedio poblacional de la
primera en trminos de los valores conocidos o fijos de las ltimas. Ahora, resulta ms clara la
relacin entre el estudio de Galton y la definicin moderna del trmino regresin.
A menudo se confunden los trminos regresin y correlacin, los cuales estn estrechamente
ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el anlisis de
correlacin pretende medir el grado de asociacin lineal entre dos variables a travs del
coeficiente de correlacin2. Por ejemplo, se puede estar interesado en conocer la correlacin
entre la cuenta de capitales y la tasa de inters, entre los trminos de intercambio y la balanza
comercial, entre la tasa de encaje y crditos del sistema bancario, etc. En cambio, cuando se
analiza una regresin se trata de estimar o de predecir el valor promedio de una variable
(llamada explicada, dependiente o endgena) utilizando valores fijos3 de las variables
explicativas (tambin llamadas independientes o exgenas) . Utilizando el ejemplo anterior,
puede ser que se desee predecir el saldo de la cuenta de capitales teniendo informacin muestral
de la tasa de inters o que se desee predecir el monto total de crditos conociendo la tasa de
encaje bancaria. As, y conociendo la relacin existente entre estas variables a travs de un
anlisis de regresin, ser posible predecir valores de la variable dependiente utilizando
realizaciones de las independientes.
1.1.2 Cmo se conecta el anlisis econmico con el anlisis de regresin?
El anlisis econmico toma en consideracin diversas variables en conjunto. La relacin

entre las tasas de inflacin y el desempleo, la relacin intertemporal entre las tasas de inters y
el consumo o la relacin entre ste y los precios de los bienes relacionados de un bien, son
algunos de los tantos ejemplos que se encuentran en el anlisis emprico en economa. Como
ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual
que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa
que existe una relacin negativa entre las dos variables y, para contrastar el modelo, se
necesitar utilizar simultneamente datos de ambas variables.
Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe

por nociones bsicas de estadstica que la funcin de probabilidad conjunta se puede plantear de
la siguiente forma:
f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)
2
El coeficiente de correlacin entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
de dichas variables. Formalmente: = Cov (Y , X )
( x )( y )
3
Se debe resaltar que las variables explicativas pueden ser de naturaleza estocstica, pero por simplicidad para el
anlisis de regresin se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deber imponerse al momento de querer obtener estimados de los verdaderos
parmetros. El problema asociado a la presencia de regresores (variables exgenas) estocsticos, ser abordado en
otro captulo.
4
Se puede expresar matemticamente de la siguiente manera: 3(un u+1) = (Q+1 Q f ) , donde un y Qf indican que el
producto est en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o ms variables y se
utilizan en el estudio de las relaciones existentes entre stas.
10
Siendo la primera la funcin de probabilidad condicional y la segunda la marginal. En el

anlisis economtrico, y tal como se indic anteriormente, se busca estimar la distribucin
condicional mientras que la marginal no se utilizar, por el momento.
De esta manera, si se tiene la siguiente funcin conjunta: C = f (r, Yd, w, Yp), sta nos
indica que el consumo es una funcin de la tasa de inters, el ingreso disponible, el salario y el
ingreso permanente. La funcin anterior expresa nicamente una relacin matemtica, sin
embargo, y tal como se indic en la introduccin del libro, uno de los objetivos de la
econometra es formular un modelo economtrico a partir de un modelo econmico, para luego
proceder a la estimacin y comprobacin del mismo a partir de los datos muestrales. En
consecuencia, se debe transformar la funcin anterior en un modelo economtrico, por ejemplo
consideremos el siguiente modelo de regresin lineal6:
C = 0 + 1 r + 2 Yd + 3 w + 4 Yp + (1.2)
donde u es el componente estocstico o aleatorio, que recoge los efectos de variables no

incluidas en el modelo que no afectan de manera sistemtica a la variable endgena o explicada
(el consumo). Se supone que u es una variable aleatoria y tiene una distribucin de probabilidad
conocida que ser materia de estudio en un captulo posterior. El otro miembro de la ecuacin
indica la relacin exacta entre la variable explicada (C) y las dems variables llamadas
explicativas, es decir, es el componente determinstico (o predecible) del modelo. Los son
conocidos como parmetros y recogen los efectos ocasionados por las variaciones de las
variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En trminos matemticos7,
cada parmetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la
variable independiente.
El modelo economtrico especificado en la expresin (1.2), tiene como objetivo estimar el

valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un
conjunto de datos muestrales. Por tanto, una regresin de C sobre las dems variables se
interpreta como el valor esperado de la distribucin de probabilidad de C dado los valores de las
variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este captulo, una
regresin puede interpretarse como la media condicional de Y dado X. Formalmente:
E (C /r, Yd, w, Yp ) = f (Xi) (1.3)
Un punto importante que debe notarse es que la estructura de la relacin entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximacin
muy gruesa de la realidad porque de hecho muchos eventos o fenmenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresin lineal puede pensarse
como una aproximacin lineal de Taylor de un problema no lineal.
1.1.3 Definiciones Bsicas
Una vez que hemos entendido el concepto de regresin como la modelacin de la media
condicional de una distribucin de probabilidades es deseable realizar algunas definiciones
bsicas que vamos a utilizar a lo largo del libro.
El modelo de regresin lo podemos plantear de manera general de la siguiente forma:
6
Este modelo ser estudiado en el Captulo III.
7
Formalmente: Y = es decir, cada parmetro representa la derivada parcial de la variable dependiente con
i
X i
respecto a cada variable explicativa.
11
y t = 1 + 2 x 2t + 3 x3t + ............. + k x kt + t
La variable Y que es aquella que condicionamos a los valores que adopte las dems variables
(X) recibe indistintamente le nombre de variable explicada, endgena o dependiente. Las
variables a la derecha del modelo reciben el nombre de variables explicativas, exgenas o
independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:
La parte sistemtica o determinstica que viene representada por :
1 + 2 x 2t + 3 x3t + ............. + k x kt
Esta es la parte que es sugerida por el investigador y establece una relacin sistemtica
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresin, la parte sistemtica representa lo que en
promedio se dar cuando los valores de las X estn dados. Esta ser la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carcter de
media condicional, la prediccin ser aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.
La parte aleatoria o estocstica que viene representada por el trmino de error ( ).

Dado que la economa busca estudiar el comportamiento econmico de las personas no
podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de
los agentes econmicos. Las personas, empresas o el Estado se desenvuelven en un
contexto estocstico debido a que existen muchos factores no controlables como los
estados de la naturaleza, movimientos bruscos en el mercado, factores polticos o los
descubrimientos de nuevos productos y tecnologas que pueden afectar de manera
inesperada cualquier relacin que queramos estimar. Estos factores pueden ser
importantes en un momento determinado pero no afectan de manera permanente a la
variable dependiente. Un ejemplo de ello puede ser la presencia del fenmeno del nio.
Como sabemos, este fenmeno aparece de manera inesperada y no se sabe cada qu
tiempo afecta al Per. As, en un determinado ao podramos tener que todas las
variables que afectan la producto de manera sistemtica (incluidas en la parte explicada
de la regresin) tengan un determinado valor. Si utilizamos nuestra relacin estimada
podramos obtener algn resultado esperado, pero si se produce el fenmeno del nio,
nos podramos alejar considerablemente del valor que el modelo nos arroja como el ms
probable.
Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realizacin de trabajos empricos. Los datos pueden clasificarse de la siguiente manera:
Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa ste a lo largo del tiempo. Un ejmplo
podra ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.
Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varan
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Per tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de
12
vida de las personas a travs de la medicin de ingresos y acceso a servicios bsicos

como la salud, educacin, nutricin. Etc.
Datos Longitudinales: Esta tercera categora es una combinacin de las dos anteriores.
Podramos pensar en encuestas o mediciones que se hacen a distintos individuos en
diferentes perodos de tiempo. Esto implica construir un panel de datos cuya realizacin
es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos
para realizar la recoleccin de la informacin a lo largo del tiempo. En el Per son
pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construccin de estos paneles dado que proveen
muy buena informacin acerca de cambios en los patrones de consumo e ingresos de las
personas.
Una vez realizada esta definicin de conceptos bsicos es de suma utilidad iniciar el estudio
de los mtodos y formas que se encuentran disponibles para la obtencin de los parmetros de
los modelos que pretendamos estimar.
1.1.4 Cmo obtener los parmetros?
Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los
valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los
parmetros verdaderos (los s) son desconocidos. Por ello, debemos desarrollar una estrategia
que nos permita realizar una estimacin adecuada de los mismos. En este punto es conveniente
tener claro el concepto de estimacin. Un estimador se define como cualquier frmula o funcin
de los datos que permite obtener estimaciones de los parmetros desconocidos. As, se deduce
que una estimacin es el valor numrico que resulta de la aplicacin de esta funcin a un
conjunto de datos muestrales especficos.8
Segn los expuesto, antes de proceder a explicar el proceso de estimacin debemos hacer
ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones
tericas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo
terico. El modelo con el cual trabajaremos en la prctica implicar que se reemplazar los
parmetros desconocidos por los estimadores correspondientes. Como estos no son los
verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que
veremos ms adelante, los errores tampoco sern los verdaderos sino aproximaciones. Lo ideal
es que exista cierta conexin entre el modelo terico y el emprico. Esto lo podemos ilustrar con
las siguientes expresiones:
Y = X + u Y = X + e (1.4)
modelo modelo
terico emprico
En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al nmero de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X ser nxk. es
un vector columna que contiene a los k parmetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean tericos o empricos) ser de nx1 y .Como se puede
apreciar, en el modelo emprico se ha reemplazado al parmetro verdadero y desconocido ( )
8
Esto implica que para otra muestra (la cual puede variar debido al mtodo de muestreo) puedo obtener distintos
estimados de los parmetros a pesar de que el estimador (funcin donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.
13
por su estimador ( ). De igual manera ocurre con los errores tericos ( ) y los errores
empricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parmetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parmetros quedan
determinados los errores empricos. Por ello, el nfasis estar centrado en la estimacin de los
parmetros.
La estimacin de los parmetros se deriva de un problema de prediccin condicional. En

dicho problema se observa la realizacin de un vector aleatorio X y se desea predecir la
realizacin de una variable aleatoria Y.
En este punto debemos introducir el concepto de funcin de prdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo ms posible al verdadero valor de Y. As, el planteamiento de una
funcin de prdida tiene como objetivo lograr que el modelo sujeto a estimacin se parezca lo
ms posible a lo observado en la realidad. En consecuencia, el mejor predictor ser aqul que
minimice la prdida esperada de una funcin de prdida especfica. Dicho predictor resuelve un
problema de minimizacin de la siguiente forma:
Min E [L (Y - P) / X] (1.5)
P
Observado Estimado
Siendo la funcin de prdida L, P denota un predictor de Y y E (L (Y P) / X ) es la prdida

esperada, condicional en X, cuando P es usado para predecir Y. Esta funcin debe satisfacer la
siguiente condicin:
0<u<v
0=L(0)L(u) L(v) (1.6)
0 = L(0) L(-u ) L(-v ) (1.7)
Evidentemente, la idea es que la funcin de prdida sea lo ms pequea posible, donde u y v

son los valores para el error de prediccin (Y P). Si la funcin de prdida es fija, el valor del
mejor predictor depende slo de la distribucin de probabilidad de Y condicional en X. En
otras palabras, la estructura de la funcin es elegida por el investigador y lo que vara es el error
de prediccin para cada observacin muestral de X e Y. En consecuencia, el valor del mejor
predictor o estimador depender slo de la distribucin de probabilidad mencionada. En este
sentido, y recordando que la regresin es el valor esperado de la distribucin condicional de Y
dado X, deducimos que el mejor predictor se obtiene mediante una regresin. Algo que no debe
perderse de vista es que la proximidad entre el valor predicho y el valor verdadero depender de
la eleccin del estimador. Por ello, deber elegirse aquel estimador que haga mnima la
diferencia dada una funcin de prdida.
En la prctica, los mejores predictores son los que se estudian ms detalladamente en el

anlisis de regresin. Ellos describen brevemente la manera cmo vara Y ante cambios en los
regresores (X). Sin embargo, existen distintas funciones de prdida interesantes y, a su vez,
muchas maneras de interpretar formalmente la posicin de una variable aleatoria. A
continuacin se presentan algunas funciones de prdida conocidas y los distintos predictores
que se derivan de ellas.
i) Prdida cuadrtica: La funcin de prdida cuadrtica es:
14
L (u) u2 (1.8)
En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se

obtiene mediante el mtodo de estimacin de Mnimos Cuadrados Ordinarios, como veremos en
el siguiente captulo.
ii) Prdida absoluta: Cuya funcin de prdida es la siguiente:
L (u) u (1.9)
Si tomamos esta funcin de prdida, el mejor predictor es la mediana de Y condicional en X.
iii) Prdida discreta: Dada una constante positiva , la funcin de prdida discreta sera:
L( * , )
L ( u ) 0 si u < (1.10)
L ( u ) 1 si u (1.11)
En este caso, el mejor predictor es el punto medio del intervalo de longitud 2 que tiene la
ms alta probabilidad de contener a Y. En la medida en que se aproxime a cero, el mejor
predictor se aproximar a la moda de Y condicional en X.
En general, la media, la mediana y la moda de la regresin de Y en X difieren entre s. La

media como regresin puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresin aumente con X mientras la otra decrezca, o viceversa .
En el problema de prediccin descrito, la funcin de prdida escogida determina la regresin

sujeta a anlisis. Dicha funcin debe reflejar las prdidas asociadas al error de prediccin, en
otras palabras, debe reflejar cun cerca estn las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada funcin de prdida
aunque dicha necesidad disminuye slo si uno cuenta con alguna informacin acerca de la
distribucin, lo que implica que distintos predictores se comporten similarmente.
1.2 Mtodos de estimacin de los parmetros
Cuando se efecta una regresin se puede seleccionar el mtodo de estimacin ms

adecuado, dependiendo de la informacin previa a la que el investigador tiene acceso. Por
ejemplo, si no se cuenta con informacin acerca de la forma de la regresin o no es de inters la
estimacin de un forma particular y slo se quiere haceruna aproximacin general de la funcin
de densidad, se puede realizar una estimacin no paramtrica, concepto que est fuera del
alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresin
paramtrica existen distintos mtodos de estimacin que se pueden entre los cuales se puede n
mencionar los siguientes: El mtodo de Mnimos Cuadrados Ordinarios, el de Momentos
Muestrales o el de Mxima Verosimilitud, los cuales se definirn a continuacin y
9
El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) Nonparametric Econometrics Cambridge
University Press.
15
posteriormente se discutirn en detalle. Esos mtodos son los ms utilizados y responden a

diferentes criterios con sus respectivas funciones de prdida pero debe tenerse en cuenta que son
arbitrarios. Su utilizacin generalizada obedece a que cumplen con una serie de propiedades
deseables que facilitan su aplicacin.
i) Mnimos Cuadrados Ordinarios (MCO)
El mtodo de Mnimos Cuadrados es uno de los ms usados, eficaces y conocidos del

anlisis de regresin debido al contenido de las propiedades estadsticas que posee. El principio
sobre el cual descansa esta metodologa consiste en hacer mnimos la norma del vector de
errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la
siguiente forma:
n
Min e = (y
i =1
2
i i x i ) 2 (1.12)
La minimizacin de los errores al cuadrado presenta una ventaja con respecto a la

minimizacin de la suma de errores sin elevar al cuadrado dado que sta puede verse afectada
por los signos de los errores. As, podemos tener errores positivos muy grandes y errores
negativos muy grandes que se compensan por lo que la suma podra ser cero pero ello no
implicara que la regresin estimada sera buena dado que los errores tendran una magnitud
considerable.
ii) Mtodo de Momentos
El objetivo de este mtodo consiste en aproximar lo ms posible los momentos muestrales a

los poblacionales. Recordemos que un momento es un estadstico que resume algunas
caractersticas de una distribucin de probabilidad, tal como un valor esperado o una desviacin
estndar. Las ecuaciones a partir de las cuales se determinan los parmetros se obtienen al
reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la funcin de prdida
est fijada en trminos de la distancia entre los momentos poblacionales y los muestrales la
eleccin de los parmetros ser aquella que minimice esta distancia. Este mtodo ha sido
generalizado por Hansen y Singleton (1982) en donde podemos utilizar ms de un momento
para la estimacin de cada parmetro de un modelo.
iii) Mxima Verosimilitud
Este mtodo consiste en maximizar la probabilidad de que una muestra dada pertenezca a
determinada distribucin. Para ello se plantea como supuesto que la variable Y tiene una
distribucin de probabilidad y se desea lograr que dicho supuesto inicial sea lo ms verosmil
posible, si slo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que
hacen mxima la probabilidad de que la muestra pertenezca a la distribucin supuesta.
1.3 Significado de la lnea de regresin
Cuando se define la regresin como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geomtricamente este concepto a travs de
una lnea o curva de regresin.
De este modo, una curva de regresin llamada poblacional, es aquella que muestra el lugar
geomtrico de las medias condicionales o esperanzas de la variable endgena para los valores
fijos de la(s) variable(s) exgena(s). Esto se puede apreciar en la siguiente figura:
10
Debe tenerse en cuenta que la minimizacin de la norma de un vector implica la minizacin de la raz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.
16
Figura 1.1
Lnea de regresin poblacional
La figura muestra cmo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la lnea o curva de regresin pasa por las medias
condicionales de la variable Y, y denota alguna funcin de la variable dependiente X. As, se
define formalmente la regresin como:
E(Y/X ) = f (Xi) (1.13)
y, en el modelo de regresin lineal simple (donde slo se incluye una variable explicativa) se
puede tener la siguiente funcin lineal de X:
E( Y/X ) = 0 + 1Xi (1.14)
Los parmetros o coeficientes de regresin son los de la ecuacin anterior. Asimismo,

0 es el llamado intercepto y 1 es el coeficiente de la pendiente.
En el anlisis de regresin lo que se busca es estimar los parmetros desconocidos teniendo

como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor
de X no necesariamente le corresponde un valor de Y que se encuentre sobre la lnea de
regresin. En otras palabras, el valor de una variable explicada para una observacin en
particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar
la desviacin o perturbacin de un valor de Y alrededor de su media o esperado de la siguiente
forma:
i = Yi E (Y / X i ) (1.15)
Despejando la ecuacin, queda:
17
Yi = E(Y / X i ) + i (1.16)
y reemplazando la ecuacin (1.14) en (1.16) resulta:
Yi = 0 + 1 X i + i i=1,2, ... , n (1.17)
Como se mencion en la seccin anterior, i es llamado perturbacin estocstica o

estructural e introduce el elemento aleatorio a la ecuacin de regresin, pudiendo tomar valores
positivos o negativos para cada observacin muestral.
Cabe mencionar que en la mayora de casos, no es posible disponer de todas las

observaciones de la poblacin, dado que en la prctica solamente se cuenta con una muestra de
valores de Y que corresponden a los valores fijos de X. Con dicha informacin muestral se
deber estimar la funcin de regresin anterior, de modo que cuando se reemplacen los valores
estimados para 0 y 1 se hallar la siguiente ecuacin, tambin llamada funcin de regresin
muestral:
Yi = 0 + 1 X i (1.18)
La ecuacin muestra las estimaciones de los coeficientes de regresin. Esta funcin es una
aproximacin a la ecuacin de regresin poblacional, por eso se dice, en algunos casos, que Yi
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la lnea de regresin poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la lnea de regresin poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el anlisis de regresin consiste en
disear una regla o mtodo que consiga que dicha aproximacin se acerque lo ms posible a los
verdaderos valores de los parmetros, an cuando nunca se llegue a conocerlos.
El siguiente captulo se ocupar de abordar dicho problema empezando con el anlisis de un

modelo de regresin lineal simple. Sin embargo, es importante advertir que en los procesos
econmicos, por lo general, se precisa de ms de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas ms complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximacin analizando la
especificacin ms sencilla, de modo que luego se podr comprender con menor dificultad el
modelo de regresin lineal mltiple o general, cuyo estudio detallado ser materia del Captulo
3.
2 SUPUESTOS DEL MODELO DE REGRESIN LINEAL
El objetivo de un anlisis de regresin no slo consiste en estimar los coeficientes de

regresin, sino tambin en hacer inferencia acerca de los verdaderos valores de los parmetros
( 0, 1). En otras palabras, se desea saber cun cerca estn los estimadores de sus contrapartes
poblacionales, o cun cerca est el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta
necesario plantear ciertos supuestos sobre el proceso generador de las variables endgenas (Y).
As y debido a que la funcin de regresin poblacional de Y, depende de las variables X y de i,
es necesaria una especificacin de la forma como se generan las variables explicativas y los
errores. En este sentido, los supuestos que se plantean a continuacin resultan crticos para
interpretar en forma vlida los estimadores de una regresin lineal.
18
Antes de proceder con la descripcin de los supuestos, cabe mencionar que el modelo clsico
de regresin lineal se atribuye al matemtico alemn Carl Friedrich Gauss, por quien tambin
recibe el nombre de Modelo de Gauss. Este matemtico plante diez supuestos, vlidos tanto
para el anlisis de regresin simple como para el modelo de regresin lineal mltiple, o de ms
de un regresor.
Primer supuesto: El modelo es estocstico
Esto se debe a la inclusin de un componente aleatorio en el modelo, expresado por el

trmino de error (i). La inclusin del trmino de error se debe a las siguientes razones:
Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrn
preestablecido de preferencias, hbitos de consumo, etc.
Omisin de variables explicativas que deberan incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusin, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a travs de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificacin y medicin de la variable utilidad resulta una tarea bastante difcil debido al
carcter subjetivo de la misma. En este sentido, la falta de informacin muestral conducira
a una mala medicin o a la omisin de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusin.
Errores de medicin en la variable endgena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, adems de que dicha
variable puede no ajustarse a la teora econmica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempea cada variable, es
decir, debe definir adecuadamente las variables exgenas y la endgena.
Agregacin de variables. En muchos casos, la relacin existente entre la variable endgena

y las exgenas es un intento por resumir un conjunto de observaciones individuales en un
agregado econmico. Por ejemplo, el gasto agregado intenta resumir un conjunto de
decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales
son probablemente distintas entre individuos, cualquier intento de relacionar el gasto
agregado con el consumo agregado es una aproximacin. As, la diferencia se le atribuye al
trmino de error.
Como ya se mencion existe una distincin entre el error terico o poblacional (i) y el error
de estimacin o emprico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimacin se define
como la diferencia entre el estimado de la variable dependiente (X ) y la verdadera E (Y/X).
Segundo supuesto: La esperanza matemtica del trmino de error o perturbacin es cero.

Esto se expresa de la siguiente manera:
E(i) = 0 (1.19)
Este supuesto indica que el valor de la media condicional del trmino de error para cualquier
variable explicativa X dada, es idntico a cero. De este modo, este supuesto garantiza que las
19
variables que no estn incluidas en el modelo (y que por tanto estn incorporadas en i), no
trasmiten ningn efecto sistemtico sobre la media condicional de Y dado X. En trminos ms
sencillos, los valores negativos de i se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningn efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemtica son recogidas por el
intercepto del modelo.
Tercer supuesto: La varianza del error es constante (el error es homocedstico).
Formalmente:
Var(i) = 2 i = 1,2,3,...,n (1.20)
Esto implica que el trmino de error tiene igual(homo) dispersin(cedasticidad). Aqu

debemos mencionar que un supuesto implcito en el modelo de regresin lineal es que cada uno
de los errores proviene de una distribucin de probabilidades. El valor que observamos del error
para cada observacin es la realizacin de la variable aleatoria ante la ocurrencia de un
determinado evento. Entonces una forma de entender le presente supuesto es que implica que la
varianza de cada una de las distribuciones de los distintos errores aplicables para cada
observacin es la misma. En otras palabras, y dados los valores de X, la varianza del error no
cambia para distintas observaciones11. El siguiente grfico ilustra los conceptos que hemos
mencionado hasta el momento:
Figura 1.2
11
Evidentemente, cada trmino de error representa la realizacin de un proceso estocstico y lo que se asume a travs
de este supuesto es que las distribuciones de donde son extrados estos errores presentan igual dispersin.
20
Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores estn
fijos lo que se refleja en las lneas discontinuas que parten de los valores x1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
funcin de distribucin de los errores.
Cuando no se verifica este supuesto, se dice que el trmino de perturbacin es

heterocedstico, es decir, posee una dispersin diferente para cada observacin. Formalmente:
Var(i) = i2 i = 1,2,3,..., n (1.21)
El subndice i indica que la varianza del trmino de error no es constante ya que presenta un
valor distinto para cada observacin de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, sern de igual importancia y confianza como indicadores
de la posicin de la lnea de regresin. Se dicen que son confiables cuando poseen menor
dispersin, es decir, se mide la confiabilidad por la cercana con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la lnea de regresin poblacional. Si
analizamos con cuidado la expresin (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posicin de la lnea de regresin poblacional, esto
es, E(Y/X).
Cuarto supuesto: Ausencia de autocorrelacin entre los errores.
Formalmente:
Cov(i, j) = 0 i j (1.22)
Lo anterior implica que no existe autocorrelacin o correlacin serial entre los trminos de
error i y j, dadas las observaciones xi y xj. En este sentido, podemos definir el trmino
autocorrelacin como la correlacin entre miembros de series de observaciones ordenadas en el
tiempo (informacin de series de tiempo) o en el espacio (en informacin de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error t para un
periodo de tiempo t, est correlacionado con los trminos de error t+1, t+2, .. y t-1, etc.
Un ejemplo tpico donde se detecta la presencia de autocorrelacin positiva ocurre bajo el

modelo de expectativas adaptativas. Supongamos que los agentes econmicos realizan su
pronstico de la inflacin futura basados en la inflacin pasada, solamente. Formalmente:
P e +1 = P e + v( P P e ) (1.23)
Esta ecuacin implica que la expectativa de la inflacin de maana es una combinacin

lineal de la expectativa para el perodo actual y el error de prediccin registrado en este periodo.
En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al
prximo a travs del mecanismo descrito en (1.23), el pronstico de la inflacin evidenciar
cierta inercia, es decir, estar autocorrelacionado con el error de prediccin registrado en este
periodo.
En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes

econmicos utilizan eficientemente toda la informacin disponible, ya sea porque conocen y
entienden el modelo que esta utilizando el Estado para hacer poltica econmica o simplemente
conocen al modelo que explica la economa. Por lo tanto, al plantear sus expectativas de
inflacin futura lo hacen sobre la base de expectativas sobre las futuras polticas econmicas.
De lo anterior se puede inferir que los errores no son sistemticos o no presentan correlacin
21
alguna.
Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensin Nx1 o Tx1, si se
habla de informacin muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simtrica y definida positiva, de dimensin
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresin:
Var ( 1 ) Cov( 1 , 2 ) ... Cov( 1 , n )

Cov( 2, 1 ) Var ( 2 ) ...
E ( ' ) = Var ( ) =
... ... ...

Cov( n, 1 ) Cov ( n , 2 ) Var ( n )
En trminos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelacin, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:
Var()=2In (1.24)
Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esfricos.
Quinto supuesto: Las variables explicativas y los errores son ortogonales entre s.
Formalmente:
Cov(xi,i) = 0 (1.25)
Este supuesto implica que los errores y las variables independientes no presentan
correlacin. Como ya hemos mencionado el anlisis de regresin lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinstica y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relacin entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde est definida la variable dependiente en dos
subespacios que son ortogonales entre s12. En otras palabras, cuando se especifica el modelo,
se supone que las variables exgenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).
Parte aleatoria i
Yi = 0 + 1Xi +i
Parte determinstica 0 + 1Xi
Los supuestos 2, 3, 4 y 5, son tambin conocidos como las condiciones de Gauss-Markov.
12
Podemos ampliar el concepto utilizando conceptos de teora de conjuntos. Si tomamos que Y representa un
conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos
subconjuntos disjuntos (es decir, que no presentan interseccin).
22
Estos garantizan que el estimador de mnimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los captulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.
Sexto supuesto: El modelo es lineal en los parmetros.
Se dice que un modelo tiene una especificacin lineal cuando la variable endgena Y, o
alguna transformacin monotnica de la misma, se puede expresar como una funcin lineal de
X o de alguna transformacin de ella. Al respecto, consideremos las siguientes relaciones:
Y = + X + (1.26)
Y = 0 + 1 X + 2 X2 + 3 X3 + (1.27)
Y = 0 + 21 X1+ 2 X2 + (1.28)
La ecuacin (1.26) muestra una relacin lineal simple, mientras que la (1.27) es un modelo
lineal en parmetros, ms no en las variables. Por otro lado, la ecuacin (1.28) no es lineal en
parmetros, ni tampoco puede reducirse a una funcin que exprese una relacin lineal.
Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El anlisis de este modelo
implica la estimacin de los parmetros y , sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deber ser transformado de la siguiente manera:
Q = P e (1.29)
LnQ = ln + lnP + (1.30)
La linealiadad en los parmetros es relevante para el anlisis de regresin, por consiguiente, de

ahora en adelante cuando se diga que una regresin es lineal se referir a una regresin que es
lineal en los parmetros. Sin que esto necesariamente implique que tambin lo sea en las
variables explicativas (X).
Sptimo supuesto: Los parmetros son constantes entre observaciones.
Conocido tambin como el supuesto de estabilidad temporal, ste implica que los
coeficientes del modelo de regresin lineal son constantes en el tiempo. Igualmente, se supone
que el modelo es idntico para todas las observaciones de la muestra. De hecho, este supuesto
resulta esencial no slo si se pretende modelar la estructura que gobierna el comportamiento de
la variable dependiente sobre la base de las independientes, sino principalmente si se busca que
el modelo realice predicciones confiables. As, si la estructura que modela la variable
dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que
esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la
misma para predecir, este procedimiento es conocido como extrapolacin.
Octavo supuesto: Causalidad unidireccional.
El anlisis de regresin supone la existencia de una relacin causal desde las variables
independientes (X) hacia la variable dependiente (Y).
Cabe mencionar que desde un punto de vista meramente estadstico, el modelo de regresin
no necesariamente tiene una connotacin de causalidad. Es decir, de la misma manera como se
23
puede estimar una regresin de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresin de modo inverso.
En cambio, al plantear un modelo economtrico se debe tener cuidado al especificar las

variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). As, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que slo exista una direccin en la relacin de causalidad. A manera de
ejemplo, recordemos que la teora cuantitativa del dinero afirma que el volumen de
transacciones en una economa es igual a la cantidad de dinero que rota en la misma.
Formalmente:
P.Q=M.V (1.31)
donde:
P= precio
Q= producto
M= dinero
V= velocidad de circulacin constante.
En la ecuacin anterior existe una relacin causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economa. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endgena), mientras que M es
fija o determinstica (exgena).
Sin duda, en trminos estadsticos podramos estimar una relacin de este tipo, esto es, una
regresin de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificacin no
tendra ningn sustento terico. En este sentido, el investigador debe decidir a priori cul es la
especificacin que va a utilizar sobre la base de la teora que busca verificar y una vez decidida,
se supone una nica direccin causal
Noveno supuesto: Las variables explicativas son linealmente independientes.
Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en trminos de una combinacin lineal exacta de las dems. Si alguna de las
variables explicativas fuera una combinacin lineal de otra significara que la primera no aporta
nada adicional al modelo o que los efectos individuales que sta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cul ser abordado con detalle en el Captulo (9)
Dcimo supuesto: Las variables independientes son fijas o determinsticas (no aleatorias)
Si revisamos con cuidado el anlisis hasta ahora expuesto, notaremos que este supuesto ha
estado implcito desde el inicio del captulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exgenas no
deben cambiar.
Cuando se trabaja con datos de series temporales, es comn la aparicin de valores

retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
econmicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresin como variables explicativas, se dice que son predeterminadas o en trminos ms
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso especfico se analizar en un captulo posterior.
3. A MODO DE RESUMEN
24
En este captulo hemos revisado los conceptos bsicos que estn detrs del anlisis de regresin
as como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y ser interesante analizar cules son los efectos de la relajacin
de los mismos sobre los distintos estimadores que estudiaremos ms adelante. Habiendo
establecido el lenguaje comn que utilizaremos a partir de ahora es importante iniciar la
exploracin de los distintos caminos con los que contamos para a obtencin de los parmetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mnimos
cuadrados ordinarios que es uno de los ms analizados y el mejor cuando trabajamos con
modelos lineales.
25
CAPITULO 2
EL METODO DE ESTIMACIN DE MNIMOS CUADRADOS
ORDINARIOS:
MODELO DE REGRESIN BIVARIADO
2.1. INTRODUCCIN
Una vez revisados los conceptos bsicos en el captulo 1 estamos listos para iniciar nuestro
camino con el fin de entender la forma ms utilizada de estimar los parmetros de un modelo
lineal: El estimador de mnimos cuadrados ordinarios. Como se mencion en la seccin 1.1.4 el
mtodo de Mnimos Cuadrados Ordinarios (MCO) presupone una minimizacin de la suma de
los errores elevados al cuadrado, para de ese modo estimar los parmetros de la regresin.
Recordemos que para obtener los parmetros partimos de un problema de prediccin
condicional donde el mejor predictor de Y condicional en X es una prediccin que minimiza la
prdida esperada con respecto de una funcin de prdida especfica. Esta funcin depende de
criterios arbitrarios, algunos de los cuales han sido descritos en la seccin (1.1.3):
En este captulo, iniciaremos nuestro estudio sobre la estimacin de los parmetros tomando
en cuenta el modelo de regresin bivariado, modelo de regresin simple o modelo lineal
simple. Este modelo puede ser planteado de la siguiente manera:
Yi = 0 + 1 X i + i (2.1)
En este caso, observamos que la variable dependiente slo es explicada por una variable
independiente aparte de la inclusin del intercepto. Debe hacerse una aclaracin en este caso
porque muchos lectores pensarn que el intercepto podra ser considerado como una variable
explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto
promedio de aquellas variables no incluidas en el modelo. Su inclusin no implica que exista
Econometra Moderna MCO: El Modelo de Regresin Bivariado
una relacin sistemtica entre las variaciones de una variable independiente y la dependiente por
lo que su inclusin no es importante como variable explicativa sino para guardar cierta
consistencia de los resultados.
El modelo presentado en la expresin anterior es un modelo terico. Para poder iniciar el

proceso de estimacin de los parmetros desconocidos debemos plantear nuestro modelo
emprico, el cual toma la siguiente forma:
Yi = 0 + 1 X i + ei (2.2)
En este caso, estamos reemplazando los parmetros desconocidos por sus estimadores y el
trmino de error es reemplazado por el error emprico (e). En este caso la primera parte de la
expresin, expresada por:
Yi = 0 + 1 X i (2.3)
ser la parte predicha (o explicada) por el modelo. Esto representar nuestro estimado de la
media condicional de la distribucin de Y.
2.2. MTODO DE ESTIMACIN DE MNIMOS CUADRADOS PARA UN MODELO DE

REGRESIN LINEAL SIMPLE
Como ya se mencion, en este modelo la variable endgena slo se explica mediante una
variable exgena fija o no aleatoria. El criterio de mnimos cuadrados ordinarios implica
resolver el siguiente problema de minimizacin:
n
Min e
i =1
2
i
Con respecto a 0 y 1 , siendo :

e i = (Yi 0 1 X i ) (2.4)
As, planteamos el problema de minimizacin de la forma:
Min (Yi 0 1 X i ) 2 (2.5)

,
0 1
si derivamos con respecto a los parmetros, obtenemos las siguientes ecuaciones de primer
orden:
( ei2 )
= 2 (Yi 0 1 X i ) = 2 ei (2.6)
0
(e 2
i )
= 2 (Y 1 X )X i = 2 e X
i i (2.7)

i i
0
1
Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes

frmulas:
28
Yi = 0 + 1 X i (2.8)
X i Yi = 0 X i + 1 X i
2
(2.9)
Estas ecuaciones son llamadas ecuaciones normales de la lnea de regresin. Ms adelante

veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores
mnimocuadrticos. Como vemos es un sistema de ecuaciones donde el nmero de incgnitas es
igual al nmero de ecuaciones. Si el sistema est exactamente identificado, entonces existe una
solucin nica.
Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo
utilizando para ello el mtodo de Kramer. Si escribimos el sistema en forma matricial podemos
expresarlo de la siguiente manera:

n X i
0
=
Y i
Xi X i
2
1 XY i
(2.10)
Aplicando el mtodo de solucin descrito, obtenemos las siguientes soluciones:
Yi Xi
0 =
X i Yi Xi
2
=
(
Yi X i X i X i Yi
2
)
n Xi
2
(
n X i2 ( X i )2 ) (2.11)
Xi Xi
n Yi
Xi X i Yi (n X i Yi X i Yi )
1 = =
n Xi
2
(
n X i2 ( X i )2 )
Xi Xi
Si se trabaja con el denominador y numerador de 1 , y los dividimos entre n, podemos

llegar a las expresiones siguientes, las cuales resultan mucho ms comprensibles en trminos
estadsticos:
Xi
2 ( X i )2
= X i2
(nX ) 2
(2.12)
n n
= X i2 nX 2
= ( X i X )2 (2.13)
29
X i Yi (1 / n) X i Yi = X i Yi nXY
= X i Yi nXY + nXY nXY
= X i Yi X i Y + XY XYi (2.14)
Ntese que la ltima ecuacin puede simplificarse como:

.
(
Yi Y (X i X ) ) (2.15)
Reemplazando las ecuaciones (2.13)y (2.15) en la expresin (2.11) se tiene:
1 =
( =
)
Yi Y (X i X ) Cov( X , Y )
(2.16)
(X i X )
2 Var ( X )
La ltima ecuacin muestra que el estimador de Mnimos Cuadrados se puede expresar en

funcin de los datos muestrales. Donde Y y X expresan las medias muestrales de la variable
endgena y exgena, respectivamente. Para simplificar podemos definir las siguientes variables:
x i = (X i X
y i = (Y i Y )
Esta notacin se utilizar para representar las desviaciones con respecto a los valores medios
de X e Y, y tambin para estimar el modelo en desviaciones en un captulo posterior. Esta
representacin resulta una herramienta interesante para demostrar algunas propiedades del
estimador de MCO.
Por otro lado, el intercepto de la funcin de regresin muestral ( 0 ) puede representarse

utilizando la primera ecuacin normal y dividiendo sta entre el tamao muestral (n):
0 = Y 1 X (2.17)
Con esto se demuestra una propiedad importante del estimador mnimo cuadrtico: si el
modelo tiene un intercepto, la lnea de regresin pasa por los valores medios de Y y X.
Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los
estimadores MCO como una funcin de estadsticos muestrales, sin necesidad de resolver las
ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( 1 ), para luego
reemplazar dicho valor en la ecuacin (2.17). Para ilustrar este mtodo de estimacin
consideremos el siguiente ejemplo:
Ejemplo
El gerente de ventas de una tienda de electrodomsticos desea conocer la relacin existente

entre el nmero de artefactos vendidos y el nmero de representantes de ventas, para luego
30
hacer algunas predicciones acerca de las ventas del prximo ao. Para tal fin el gerente observa
las ventas efectuadas en diez das diferentes (ver la Tabla 2.1) Como se anot en la seccin
(1.1.2) se debe plantear un modelo de regresin lineal y a su vez especificar el papel que
desempea cada una de las variables en funcin al estudio que se desea realizar. Por lo tanto, en
este caso se define la variable explicativa (X) como el nmero de representantes de ventas y la
variable explicada (Y) como el nmero de artefactos vendidos.
Tabla 2.1
Xi Yi X i Yi X2 Yi ei = Yi Yi
DAS
1 1 3 3 1 7 -4
2 1 6 6 1 7 -1
3 1 10 10 1 7 3
4 2 5 10 4 8 -3
5 2 10 20 4 8 2
6 2 12 24 4 8 4
7 3 5 15 9 9 -4
8 3 10 30 9 9 1
9 3 10 30 9 9 1
10 2 9 18 4 8 1
Totales 20 80 166 46 80 0
Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones

normales halladas anteriormente, se tiene:
80 = 10 0 + 20 1
166 = 20 0 + 46 1
Si se despeja de la primera ecuacin el intercepto y se reemplaza dicho valor en la segunda

se obtienen los siguientes estimadores MCO:
0 = 6
1 = 1
Evidentemente, si utilizamos las ecuaciones obtenidas a travs del mtodo de Kramer,

tambin se deben obtener los mismos resultados. La comprobacin queda para el lector.
Se puede utilizar el ejemplo anterior para hallar la funcin de regresin muestral, es decir la
regresin de Y con respecto a X. Formalmente:
Yi = 6 + X i
Si se sustituyen las observaciones muestrales de X en la ecuacin anterior, obtenemos la

sexta columna de la Tabla 2.1 (Yi ) . Estos valores representan las estimaciones de la variable
dependiente obtenidas a travs de los parmetros calculados por el mtodo MCO. Comparando
estos valores con aquellos observados para la variable dependiente hallamos los errores
correspondientes a cada observacin de la muestra. Debido a que el modelo incluye un
intercepto o trmino constante, se verifica que la suma de errores estimados es cero.
31
Hasta aqu el lector ya debe estar apto para estimar una regresin bajo el mtodo de Mnimos
Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresin, parmetros, lnea
de regresin, estimadores, estimacin, errores estocsticos. En la siguiente seccin, se detallarn
las propiedades del estimador mnimo cuadrtico, las que como se ver, resultan de suma
importancia para el anlisis de regresin.
Algo importante que debe recalcarse es que todo estimador es una funcin de los datos y
como stos pueden cambiar en cada muestra tenemos que sern variables aleatorias. Alguien
podra decir que si las X estn fijas siempre tendremos la misma muestra pero pensando de
dicha forma se dejara de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de
errores. Estos errores no son fijos y si tomamos una nueva muestra podran variar lo que
implicara un nuevo valor de Y para cada realizacin de la muestra.
Si reemplazamos en nuestro estimador una muestra determinada (valores observados de

variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de
la funcin de los datos (estimador) cuando utilizamos una muestra en particular. Es importante
hacer esta distincin porque las propiedades que se analizarn ms adelante se referirn a la
variable aleatoria llamada estimador.
2.3. PROPIEDADES DEL ESTIMADOR MCO
Bsicamente son dos la propiedades muestrales que nos interesan analizar del estimador
MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el
centro de la distribucin del estimador es igual al parmetro verdadero mientras que la segunda
nos asegura que nuestro estimador ser el de varianza mnima lo que nos dar una mayor
seguridad porque el grado de imprecisin inherente ser menor. Estas dos propiedades son
aquellas que denominaremos de muestras pequeas.
2.3.1 Insesgamiento del estimador MCO.
Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma:
( )
E E ( ) = 0
Esto quiere decir que el centro de la distribucin del estimador de mnimos cuadrados
ordinarios coincide con el verdadero valor del parmetro. Si se cumple esta propiedad podemos
usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que
obtengamos provendr de una distribucin cuya media es el verdadero valor del parmetro por
lo que el estimado ser equivalente, en trminos estadsticos al verdadero parmetro1.
Para verificar esta propiedad, recordemos la expresin del estimador MCO:
! 1 =
(Yi Y )( X i X ) = Cov( X ;Y ) = xi yi
( Xi X )2 Var ( X )
xi 2 (2.28)
Trabajando con el numerador:
1
Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero
parmetro. De hecho podramos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces
este nuevo estimado tambin podremos utilizarlo e interpretarlo como equivalente, en trminos estadsticos, al
verdadero parmetro.
32
( X i X )(Yi Y ) = ( X i X )Yi Y ( X i X )
y dado que ya conocemos que ( X i X ) = 0 , podemos reexpresar el numerador de la
ecuacin (2.28), de la forma2 :
xi yi = xi Yi (2.29)
Ahora, y por propiedades matemticas de las sumatorias, se puede expresar la ecuacin

(2.28) como:
x
1 = i y i
x 2
i
= k i yi (2.30)
Siendo:
xi
ki = (2.31)
xi 2
As, se dice que el estimador MCO es lineal, ya que es una funcin lineal de la variable
endgena (Y). Ntese que en la ecuacin (2.30), ! 1 es una combinacin lineal ponderada de Y,
donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden
interpretar como constantes.
Digresin:
Propiedades de ki :
i. Las ki son no estocsticas, debido a que las X tampoco lo son.

xi = 0
=
xi
ii. ki =

xi 2 xi 2
Dado que xi representa la desviacin de dicha variable respecto a su media, el numerador es
siempre cero. Adems, se sabe que la suma de las desviaciones al cuadrado, para cualquier
muestra dada, es un valor conocido y diferente de cero.
xi 2 = 1
iii. ki 2
=
( xi 2 ) xi
2 2
iv. ki xi =
xi 2
=1
( xi 2 )
2
Ntese que nicamente el trmino Y ( X i X ) puede ser igualado a cero.
33
Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la

eficiencia del estimador MCO, como se ver ms adelante.
Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo
de regresin lineal afirma que las observaciones de X son fijas, es decir, no varan si se utiliza
otra muestra de igual tamao. En cambio, no se debe olvidar que las observaciones de Y s
seran diferentes de repetir el proceso de muestreo, debido a que incluye un componente
aleatorio i cuyas realizaciones variaran al cambiar de muestra. Estos conceptos se utilizarn
repetidamente en la demostracin de las propiedades.
Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer
lugar, sustituyamos en (2.29) la ecuacin del modelo terico de regresin (1.17) para luego, y
con la ayuda de las propiedades enunciadas en la digresin, demostrar la insesgabilidad de los
estimadores
Resulta fcil comprobar que en la ecuacin (2.30) resulta indiferente multiplicar las
ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . As tenemos que:
! 1 = ki Yi = ki (0 +1 X i + i )
= k i 0 + k i 1 X i + ki i
= 0 k i + 1 k i X i + k i i (2.31)
= 0 (0) +1 (1) + k i i
En la ecuacin (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado

que un estimador insesgado es aqul cuya esperanza matemtica es idntica al verdadero valor
del parmetro que se desea estimar, se tomar esperanzas a la ecuacin anterior.
E (! 1 ) = E (1 ) + E ( k i i ) = 1 + k i E ( i )
= 1 + ki (0)
E(! 1 ) = 1 (2.33)
Por consiguiente, se comprueba que ! 1 es un estimador insesgado de 1 . Ahora y para

verificar el insesgamiento del estimador del intercepto ( 0 ), dividamos la ecuacin (1.17) entre
el tamao muestral (n) para calcular la esperanza de la expresion resultante:
Y = 0 + 1 X + (2.34)
E (Y ) = 0 + E (1 X ) + E ( ) = 0 +1 X (2.35)
Reemplazando las expresiones (2.33) y (2.35) en la ecuacin de la lnea de regresin

muestral3(2.17) se obtiene:
3
En adelante, de no indicar lo contrario, nos referiremos a la lnea de regresin muestral o estimada, esto es, X i .
34
! 0 = Y ! 1 X
E (! 0 ) = E (Y ) E (! 1 X )
E (! 0 ) = ( 0 +1 X ) E (! 1 ) X
= 0 +1 X 1 X
E(! 0 ) = 0 (2.36)
De esta manera queda comprobado que los estimadores mnimo cuadrticos de los
verdaderos parmetros, 0 y 1 , son insesgados.
2.3.2. Varianzas y covarianzas de los estimadores de MCO
Ntese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria
de los mismos proviene de la variable endgena Y, la cul es estocstica debido a la inclusin
del trmino de error en el modelo. Por consiguiente, los estimadores ! son una variable
aleatoria que provienen de una distribucin de probabilidad cuya esperanza matemtica es el
verdadero valor del parmetro lo que implica que es el valor con la mayor probabilidad de
ocurrencia. Adicionalmente a lo anterior, es preciso disponer tambin de medidas de dispersin
de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero
valor del parmetro que se pretende estimar . De ese modo, y para efecto de contrastar si los
regresores cumplen con ciertas condiciones tericas mediante el anlisis de inferencia
estadstica, se hallar la expresin analtica de la varianza de cada uno de los estimadores ! y
una medida de dependencia entre ellos, es decir la covarianza. As, y partiendo de la expresin
! (2.32) tenemos:
1
! 1 = 1 + ki i
! 1 1 = ki i (2.37)
Ahora, recordemos que la varianza puede expresarse en los siguientes trminos:
[ ]
2
Var (! 1 ) = E ! 1 E (! 1 ) (2.38)
y dado que el estimador MCO es insesgado, tenemos que:
[ ]
2
Var ( ! 1 ) = E ! 1 1 (2.39)
Sustituyendo la expresin (2.37) en (2.39), queda:
[ k ]
2
Var (! 1 ) = E i i
= E ( k1 1 + k 2 2 +...+ k n n ) 2
35
= E ( k12 12 + k 22 22 +...+ k n2 2n + 2 k1k 2 1 2 +...+2 k n 1 k n n 1 n )

(2.40)
La expresin anterior puede simplificarse si consideramos los supuestos de

homocedasticidad y no autocorrelacin. As tenemos que:
E ( k i2 i2 ) = k i2 E ( i2 )
= 2 k i2
E ( k i k j i j ) = k i k j E ( i j ) = 0
y, reemplazando las ecuaciones precedentes, se obtiene:
xi2

1
Var (! 1 ) = 2 ki2 = 2
= 2 (2.41)
( xi2 ) ( Xi X )2
2
Ntese en la expresin anterior que la varianza de ! 1 depende directamente de la varianza

del trmino de error y mantiene una relacin indirecta con las observaciones de la muestra
tomada. En tal sentido, y dada 2 , cuanto mayor sea la variabilidad de los valores de X,
menor ser la varianza del estimador y de este modo la estimacin de 1 ser ms precisa. Por
otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de mayor ser la del
estimador. Por lo tanto, para garantizar una mayor precisin en la estimacin debemos buscar
que las variables explicativas presenten mucha variabilidad.
Por otro lado, para hallar la varianza del estimador del intercepto ( ! 0 ) debemos partir de la
ecuacin de la lnea de regresin (2.18) y reemplazar la especificacin para la media de la
variable endgena (2.34) para obtener:
! 0 = ( 0 +1 X + ) ! 1 X
! 0 = 0 (! 1 1 ) X + (2.42)
Ahora, y dado que:
! 1 1 = ki i
la ecuacin (2.42) se puede escribir como:
(
! 0 = 0 k i i X + )
(
(! 0 0 ) = k i i X + ) (2.43)
Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la

pendiente:
36
[ ] (( ) )
2 2
Var (! 0 ) = E ! 0 0 = E ki i X +
( )
Var (! 0 ) = E ki i X 2 + ( ) 2 2 X ki i ( )
2
(2.44)

Dado que el valor esperado afecta nicamente a las variables aleatorias, la expresin
anterior, puede representarse como:
2X
Var (! 0 ) = X 2 E ( k12 12 +...+ k n2 n2 ) + E ( ) 2 E ( k1 12 +...+ k n 2n + k1 1 2 +...+ k n n 1 n )
n
Por la demostracin de la varianza de (! 1 ) , sabemos que:
1
E (k12 12 +...+ k n2 2n ) = 2
( X i X) 2
y adems, por las propiedades de ki y por el supuesto de no autocorrelacin entre los errores, se
tiene que:
E (k1 12 +...+ k n 2n + k1 1 2 +.....+ k n n 1 n ) = 2 ki + ki E (i j ) = 2 (0) + (0) = 0

Ahora, y a partir del tercer y cuarto supuesto del modelo de regresin lineal sabemos que:
1 1 2
E ( ) 2 = E ( 12 + 22 +...+ n2 + 1 2 +...+ n1 n ) = n( 2 ) =
n2 n2 n
Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a:
1 2 1 1
2 2
Var( ! 0 ) = X 2 2 + = X + (2.45)
( X i X )2 n
( X i X )2 n
Conociendo la especificacin para la varianza de cada uno de los estimadores involucrados,

pasemos ahora a analizar su covarianza. Como sabemos, la definicin de covarianza viene dada
por:
([ ][
Cov (! 0 , ! 1 ) = E ! 0 E (! 0 ) ! 1 E (! 1 ) ]) (2.46)
dada la propiedad de insegabilidad, la ecuacin anterior puede escribirse como:
([ ][
Cov (! 0 , ! 1 ) = E ! 0 ( 0 ) ! 1 (1 ) ]) (2.47)
Ahora, recurdese que :
37
! 0 = Y ! 1 X
y tomando esperanzas:
E ( 0 ) = Y E ( 1 X ) 4 (2.48)
Restando las dos expresiones anteriores tenemos:
! 0 0 = (! 1 1 ) X (2.49)
y sustituyendo la ltima expresin en (2.47), resulta:
[
Cov (! 0 , ! 1 ) = E X (! 1 1 ) 2 ]
= XE(! 1 1 ) 2 (2.50)
Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los

estimadores MCO vendra dado por:
Cov (! 0 , ! 1 ) = XVar (! 1 )
1
= X 2 2
(2.51)
(Xi X )
Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores

MCO, se tiene:
2 2
Var (! 1 ) = =
xi2 ( Xi X )2
X2 1
Var (! 0 ) = 2 +

( X i X ) 2 n
2
Cov (! 0 , ! 1 ) = X
( Xi X )2
Ntese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales
excepto por el elemento ( 2 ). Por ello, es preciso estimar mediante el mtodo de Mnimos
Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordar, la naturaleza
aleatoria de la variable endgena proviene del trmino de error, por lo que la varianza de Y
resulta igual a la varianza de .
Y = 0 +1 X + , donde = 0 dado que i = 0 . En este caso, la presencia de un trmino

4
Recurdese que
independiente resulta tambin indispensable. Recurdese que el componente aleatorio de un modelo de regresin
lineal es ortogonal al componente determinstico y, en este sentido, se verifica que: 0 i = 0 . As, E (Y ) = Y .
38
2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov
El clculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple
es indispensable para conocer el grado de dispersin que presenta nuestro estimador. Sin
embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberamos tener
alguna certeza que dicha varianza es la menor posible5. Eso es lo que analiza el Teorema de
Gauss-Markov.
El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el

mtodo de Mnimos Cuadrados Ordinarios resultan los mejores estimadores lineales e
insesgados (MELI) pues poseen la mnima varianza entre todas las clases de estimadores
lineales e insesgados.
Para verificar esta propiedad, recordemos que el estimador MCO ! 1 puede escribirse como:
! 1 = ki Yi = ki (0 +1 X i + i )
Ahora, y con el objetivo de demostrar que este estimador es el de mnima varianza,
definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos
a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO
tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e
insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma:
vi Yi
~
1 = (2.55)
De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan
las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo
estimador cumple con la propiedad de insesgamiento:
~
E (1 ) = E ( vi Yi ) = vi E (Yi )
= vi E ( 0 +1 X i + i )
= vi + 1 vi X i
0
As, para que el nuevo estimador sea insesgado se debe cumplir que:
vi = 0 (2.56)
vi X i = 1 (2.57)
Ntese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas
anteriormente. Ahora, reemplazando la ecuacin (2.55) en la frmula de la varianza del
estimador, se tiene:
~
( viYi )
Var ( 1 ) = Var
= ( vi2VarYi )
5
En resumen lo que se busca es determinar si el estimador MCO es eficiente.
39
Como se recordar la varianza de la variable endgena es igual a la del error ( 2 ) de modo

que la expresin anterior queda como:
v
~
Var ( 1 ) = 2 2
i (2.58)
Con el fin de escribir la expresin anterior en trminos ms conocidos, hagamos el siguiente
artificio:
2

v xi xi
= 2
i
+

x x
2 2
i i
2

v + 2 2
v + 2
xi xi xi

1
= 2

i
x x x x
2 i 2 2 2
i i i i
2

v xi + 2 2 v xi xi
+ 2

1
= 2
i i
x x x x
2 2 2 2
i i i i
El segundo trmino de la expresin anterior es igual a cero, por lo siguiente:

xi 2 v i xi xi 2
v
vi
xi xi xi
= =
i
xi 2 xi 2 xi 2
( ) xi 2 2
x i 2 ( x i 2 ) 2
1 1
= =0
xi xi 2 2
~
Este resultado se obtiene debido a que el estimador 1 es insesgado y por tanto se cumplen
~
las condiciones (2.56) y (2.57). Resumiendo, la varianza de 1 se expresa como:
2

v xi + 2

~ 1
Var ( 1 ) = 2
i
x i
2
x i
2

Si analizamos la expresin anterior, notaremos que el segundo sumando es constante e igual

a la varianza de ! 1 (obtenida en la seccin anterior). De este modo, la varianza mnima se
obtendr reduciendo al mximo el primer trmino de dicha expresin. Esto se logra definiendo:
xi
vi = = ki
xi 2
~
La expresin anterior nos indica que la varianza de 1 es mayor a la de ! 1 , ya que la nica
forma de obtener un estimador de mnima varianza es utilizando las ponderaciones ki. As, el
estimador MCO posee la mnima varianza entre todos los dems estimadores lineales e
40
insesgados existentes. Esta propiedad tambin puede verificarse para 0 utilizando un

procedimiento similar.
Un grfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un

supuesto til para este fin ser que tanto el estimador MCO ( ! 1 ), como el estimador alternativo
~
( 1 ) poseen una distribucin conocida que para este caso ser un distribucin normal.
Figura 2.1
En la figura 2.1, las distribuciones muestrales de ambos estimadores estn superpuestas con
el fin de escoger el mejor predictor o estimador. Ambas distribuciones estn centradas en el
verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador ser
aquel que posea mayor probabilidad de acercarse a 1 , lo que se cumple cuando la distribucin
de probabilidad del estimador est menos dispersa alrededor del valor de su media, es decir
cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el
estimador obtenido por el mtodo MCO (aquel cuya distribucin se presenta con una lnea
continua) es el mejor estimador lineal insesgado ya que posee la mnima varianza, y as su
distribucin presenta una mayor probabilidad asociada a su valor medio.
Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es
necesario que se cumplan del segundo al quinto supuesto de los mencionados en el captulo 16.
Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de
dichos supuestos falla, ya no es vlido el teorema por lo que el estimador MCO ya no ser el de
mnima varianza y deber buscarse la forma de transformar los datos o incluir ciertas
condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro
estimador MCO.
2.4 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MCO
1. La lnea de regresin muestral a travs del estimador MCO atraviesa los puntos que
representan las medias muestrales de X e Y.
Grficamente:
6
Estos en esencia nos dicen que la esperanza matemtica de los errores es igual a cero, que no existe ni
autocorrelacin ni heterocedasticidad y que los regresores fijos no estn correlacionados con el trmino de error.
41
Figura 2.2
Esta propiedad se obtiene a partir de dividir la lnea de regresin entre el nmero de

observaciones (n):
Y = 0 + 1 X (2.18)
el trmino de error desaparece debido a que el promedio de los mismos es cero y por tanto
su sumatoria tambin lo ser.
2. En promedio, el valor estimado de la variable endgena es igual a la media del valor

observado de dicha variable.
Este resultado se puede comprobar fcilmente, partiendo de la ecuacin de la funcin de

regresin muestral y haciendo algunas operaciones algebraicas, tal como se detalla a
continuacin:
Yi = 0 + 1 X i (2.19)
Si se reemplaza la ecuacin (2.18) en (2.19), se tiene:
Yi = Y 1 X + 1 X i
Yi = Y 1 ( X i X ) (2.20)
Tomando sumatorias a la ecuacin (2.20), se obtiene:
Yi = nY 1 ( X i X ) (2.21)
Se puede comprobar fcilmente que la suma de las desviaciones de una variable, (llmese
dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de
modo que:
(X i X ) = 0 (2.22)
42
As podemos reexpresar la ecuacin (2.21) de la forma:
Yi = nY (2.23)
y, dividiendo entre el tamao muestral:
Y = Y (2.24)
El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es

decir que, en promedio, las estimaciones de la variable endgena (realizadas sobre la base de
datos muestrales), representan a sus contrapartes poblacionales.
3. La media de los errores estimados es nula.
Recurdese que el proceso de minimizacin que nos permiti estimar los coeficientes de
regresin gener dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la
representacin de esta propiedad7:
(Yi 0 1 X i ) = 0
ei = 0
Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que:
ei = (Yi 0 1 X i )
ei = Yi Yi
ei
= Y Y = 0 (2.25)
n
debido a la igualdad propuesta en (2.24)8.
4. El error estimado no est correlacionado con el valor estimado o predicho de la variable

endgena.
Lo anterior, garantiza que el mtodo de MCO cumple con el supuesto de ortogonalidad entre
la parte explicada del modelo de regesin lineal simple y la parte no explicada. Formalmente:
7
De hecho, la presencia de un intercepto o trmino independiente resulta crucial para la validez de esta propiedad, tal
como se verificar posteriormente. Ntese, adems, que la comprobacin de esta propiedad est basada en la
ecuacin normal del intercepto.
8
En este caso la presencia de un trmino independiente tambin resulta indispensable ya que, de otra forma, no sera
posible realizar la sustitucin propuesta en (2.20).
43
Y!i ei = 0 (2.26)
Para demostrar esta propiedad basta reemplazar la funcin de la lnea de regresin muestral
(1.18) en la expresin anterior:
( 0 + 1 X i ) ei = 0 ei + 1X i ei
= 0 ei + 1 X i ei = 0 (2.27)
Ntese que en (2.27) los coeficientes de regresin (el intercepto y la pendiente) estn
multiplicados por la primera y segunda ecuacin normal, respectivamente. Como resultado del
proceso de minimizacin se tiene que dichas ecuaciones son idnticas a cero, por lo que queda
demostrado que la parte predicha o estimada del modelo no guarda relacin alguna con la parte
no explicada o estocstica.
2.5 ESTIMACIN MCO DE 2
Hasta el momento hemos estimado nicamente los parmetros del modelo propuesto pero
an nos queda la estimacin de una ltima magnitud: la varianza del error. Ntese que hasta el
momento cuando obtuvimos la varianza de los estimadores el trmino 2 sta qued expresado
en trminos tericos. Para poder estimar la varianza de los parmetros y la propia varianza de la
variable dependiente necesitamos un estimador de esta magnitud.
Una de las formas ms utilizadas para la estimacin de la varianza del error parte del modelo
terico y de su representacin en promedios muestrales:
Yi = 0 +1 X i + i
Y = 0 + 1 X +
a partir de las cuales obtenemos:
Yi Y =1 ( X i X ) + ( i )
y i = 1 xi + i (2.52)
Recurdese que el residuo o error estimado puede expresarse como:

e = Y ! ! X
i i 0 1 i
= Yi (Y ! 1 X i ) ! 1 X i = (Yi Y ) ! 1 ( X i X i )
ei = yi ! 1 xi
De este modo, reemplazando (2.52) en la ltima ecuacin se obtiene:
ei = ( 1 1 ) xi + i
As, elevando al cuadrado y sumando a ambos lados, resulta:
44
ei2 = (! 1 1 ) 2 xi2 2(! 1 1 ) xi ( i ) + ( i ) 2

y, tomando valores esperados se tiene:
E( ei2 ) = E (! 1 1 ) 2 xi2 E[2(! 1 1 ) xi ( i )] + E[ ( i ) 2 ]

(2.53)
Analizando la expresin anterior, el primer sumando se reduce a 2 , por ser un componente

de la varianza del estimador de 1 . Mientras que el segundo sumando se obtiene mediante el
procedimiento siguiente:
n n
[
E (! 1 1 ) ]
xi ( i ) = E

k j j

x i ( i )

j =1 j =1
[ ]
Ntese que, E j ( i ) = 0 , excepto cuando (i = j ). De esta manera, el trmino anterior
resulta:
xi2
k i xi E [ i ( i )] = 2 = 2
xi2
Por ltimo, trabajando con el tercer sumando se tiene:
( i ) 2 = ( i2 2 i + 2 )
( i )
2
( i ) i2 n ( i )
2 2 1 2
= i2 + =
n n
y tomando esperanzas:
E [ ( i ]
) 2 = n 2 2 = (n 1) 2
De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que:
E ( e ) = 2
i
2
2 2 + (n 1) 2 = ( n 2) 2 (2.54)
Por consiguiente, y dado que el estimador MCO de 2 debe cumplir con la propiedad de
insesgamiento, se tiene que:

ei2
E (! 2 ) = E = 1 E
n2 n2

( e ) = n 1 2 (n 2) =
2
i
2 2
Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple
viene dado por la siguiente expresin:
45
e
i =1
2
i
2 = (2.55)
N 2
2.6 MEDIDAS DE BONDAD DE AJUSTE
Por lo revisado hasta el momento, sabemos que el criterio de Mnimos Cuadrados Ordinarios
garantiza que la lnea de regresin obtenida es la que proporciona la menor suma de cuadrados
de residuos de todas las que se podran obtener si se trazan a travs de los valores observados de
X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las
observaciones caen sobre la lnea de regresin, mientras que en otros pueden no obtenerse tan
buenos resultados. As, se hace necesario considerar la bondad de ajuste de la lnea de regresin
dado el conjunto de observaciones. En otras palabras, se desea verificar qu tan bueno es el
ajuste de la lnea de regresin a los datos, o cun cerca estn las predicciones del modelo con
respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una
estructura que gobierna el comportamiento de la variable dependiente. As, la bondad de ajuste
nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable
endgena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina
coeficiente de determinacin, conocido tambin como r- cuadrado (r2 o R2 en el caso de una
regresin lineal simple o en el de una regresin mltiple, respectivamente).
2.6.1. Cmo se calcula el coeficiente de determinacin?
Para el clculo del r2 se debe partir del modelo de regresin emprico, el cul puede
escribirse de dos formas:
Yi = ! 0 + ! 1 X i + ei
Yi = Y!i + ei
Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuacin

la expresin de la lnea de regresin, del modo siguiente:
(Yi Y ) = ! 1 ( X i X ) + ei
yi = y! i + ei
En la expresin anterior, resulta indiferente escribir ei o (ei e ) , pues recurdese que e = 0

por la primera ecuacin normal. Luego, elevando dicha expresin al cuadrado y tomando
sumatorias, se tiene:
yi2 = y!i2 + ei2 + 2 y!i ei

Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuacin
anterior es igual a cero, de modo que:
yi2 = y!i2 + ei2 (2.59)
46
Podemos expresar la ecuacin anterior de modo tal que resulte ms conocida en trminos
estadsticos9:
(Yi Y ) 2 = (Y!i Y ) 2 + ei2 (2.60)
Cada una de las expresiones anteriores estn relacionadas con sus respectivas varianzas.
Segn ello, podemos descomponer la varianza de la variable endgena en dos partes: una
explicada por el modelo a travs de la regresin lineal estimada y otra que el modelo no es
capaz de explicar debido a su naturaleza estocstica. Pasemos ahora a definir los componentes
de la expresin (2.59):
yi2 , suma total de cuadrados de la variable explicada(STC)

y!i2 , suma explicada de cudrados (SEC)
ei2 , suma residual de cuadrados (SRC)
Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento
de la variable endgena, nuestra medida de bondad de ajuste (r2 ) vendra dada por el cociente
entre la SEC (variacin de Y explicada por el modelo) y la STC (variacin registrada para la
variable explicada):
r2 =
2
Var(Yi ) y i
= =
( 2 2
y i e i
=1
) 2
ei
(2.61)
Var(Yi ) y 2 yi
2 2
yi
i
Algunas expresiones tambin tiles para calcular el r2 obtenidas mediante reemplazos de

algunas ecuaciones precedentes son las siguientes:
2
r =
xi2 = ! 2 xi2 = ! 2 Var ( X )
! 12
yi2 yi
1 2 1
Var (Y )
( xi yi )
2
2
r =
xi2 yi2
As, el coeficiente de determinacin se interpreta como la proporcin de la variacin total de
Y que la regresin es capaz de explicar. En otras palabras, el r2 mide la efectividad que poseen
las variables independientes X para explicar la variacin que la variable dependiente
experimenta a lo largo de la muestra. Por lo tanto, cuando r2 es muy cercano a 1 se dice que el
modelo de regresin es capaz de explicar un alto porcentaje de las variaciones que registra la
variable explicada. Por lo tanto, el ajuste de la lnea de regresin obtenida por MCO es bastante
bueno, en el sentido que los valores estimados de Y son casi idnticos a los observados y que
los residuos son muy pequeos.
Existen algunos casos en los que el coeficiente de determinacin no es una medida confiable,
por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el nmero de observaciones es
9
Una condicin necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se
podr afirmar que e = 0 ya que no habra una ecuacin normal asociada a este trmino.
47
reducido, quiz algn residuo alto puede hacer que el r2 sea insignificante y por tanto se
concluya que la regresin es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando
las observaciones de X e Y provienen de muestras de series temporales con tendencia similar.
En tal situacin, sucede que el coeficiente de determinacin es cercano a uno, pues las
variaciones que experimenta la variable dependiente son muy similares a las de la variable
independiente, y en consecuencia: yi2
y!i2 . Basta con eliminar la tendencia para que el
resultado sea diferente, obtenindose un coeficiente de determinacin menor. En este caso, la
regresin recibe el nombre de esprea o ficticia, pues el modelo estimado en realidad no recoge
la existencia de una relacin de la variable dependiente y los regresores. Esto ocurre cuando las
series de tiempo involucradas presentan ciertas caractersticas que distorsionan la distribucin
del error sobre la base de la cual se construyen las pruebas de inferencia.
La descomposicin de la variacin de Y, sobre la base de la cual se construye el r2, puede

ilustrarse de la siguiente manera:
Figura 2.3
La variacin de la variable endgena es la suma de dos componentes
La figura 2.3 ilustra lo que hemos derivado de manera matemtica. La lnea continua sobre el
eje horizontal refleja el valor promedio de la variable dependiente Y. El trmino Yi refleja una
observacin de la misma variable. La distancia vertical entre este punto y la lnea del promedio
nos muestra la desviacin total de Yi con respecto a su media (lo que equivale a la suma total de
cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical
la podemos descomponer en dos partes. La primera de ellas est relacionada con el segmento
que parte de la lnea de regresin estimada y va hasta la lnea del promedio (Yi Y ) . Esta es la
desviacin explicada por la regresin. El segmento restante representa aquella parte que no es
explicada por la regresin y por tanto se relaciona con el residuo ( Yi Yi ).
48
2.6.2 Propiedades del coeficiente de determinacin
1. Es un nmero no negativo. Para demostrarlo basta recordar que ste simboliza el cociente
entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no
se especifique un intercepto en el modelo, el r2 podra resultar negativo y por tanto no
debera tomarse en consideracin10. Por ello, es preciso hallar el coeficiente de
determinacin ajustado o corregido, el cul se estudiar en el siguiente captulo.
2. Puede tomar valores entre cero y uno, (0 r 2 1) Qu pasara si r 2 fuese cero? No

existira ninguna relacin entre la variable endgena y la explicativa y, por tanto, el
estimador de la pendiente de la variable explicativa ( ! 1 ) sera igual a cero y se obtendra
una la lnea de regresin horizontal al eje X.
3. No tiene unidades de medida. Recurdese que es una proporcin, siendo, por tanto, un
nmero puro.
2.7 A MODO DE CONCLUSIN:
En este captulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo
considera slo una variable explicativa aparte del intercepto. El estimador MCO cumple con una
serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el
mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrn la menor
incertidumbre asociados a ellos.
Dentro del largo camino que an nos queda por recorrer en la exploracin de las aplicaciones
del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la
lgica a partir del cual se deriva el estimador. Hasta aqu la herramienta ms utilizada han sido
las sumatorias. Sin embargo, un enfoque ms completo se basa principalmente en el anlisis
matricial que es el que empezaremos a utilizar en los captulos siguientes. Para ello se
recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores
as como la interpretacin de las distintas operaciones con los mismos.
10
Recurdese que slo s se incluye un intercepto se cumple que STC = SEC + SRC.
49
CAPITULO 3
EL METODO DE ESTIMACIN DE MNIMOS CUADRADOS
ORIDINARIOS:
MODELO LINEAL GENERAL
3.1. INTRODUCCIN
En la investigacin aplicada buscamos darle contenido emprico a las relaciones que nos
sugiere la teora y la intuicin. En muchos casos lo que buscamos es determinar cules son las
principales variables que explican a otra variable a la cual le hemos dado el nombre de variable
dependiente. En el Captulo precedente se ha limitado el anlisis de regresin al estudio de las
relaciones existentes entre una variable endgena o explicada (Y) y una variable exgena o
explicativa (X). Para tal fin, realizamos la estimacin de los parmetros desconocidos del
modelo de regresin bivariado y posteriormente demostramos sus propiedades por lo que
concluimos que el estimador MCO es MELI. En el presente Captulo, Vamos a generalizar el
anlisis previo incluyendo ms de una variable explicativa (aparte del intercepto) utilizaremos el
mismo criterio de minimizacin (MCO) y presentaremos el modelo de regresin lineal de k
variables (Y y X1, X2,..., Xk) en notacin matricial. Este modelo es conocido como el modelo de
regresin lineal general, pues en l se generaliza el modelo de regresin bivariado estudiado en
el Captulo 2.
Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se
estudiarn a continuacin debe recordar algunos conceptos de lgebra matricial. En este modelo
la funcin de regresin poblacional, definida en el Captulo 1, est compuesta por la variable
endgena (Y) y k variables exgenas (X). Formalmente:
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i i = 1,2,......n (3.1)
La ecuacin (3.1) indica que el vector Y observado es la suma del vector de errores ( ) y de
una combinacin lineal de las columnas de X. Ntese que ahora se tienen k pendientes
Econometra Moderna MCO: El Modelo Lineal General
( 1 ,..... k ) y i el trmino de error correspondiente a la i-sima observacin. Por otro lado, la

inclusin de un intercepto en el modelo hace que X1 represente un vector de unos, si
reemplazamos ste en la expresin (3.1) se obtiene el siguiente conjunto de ecuaciones:
Y1 = 1 + 2 X 21 + 3 X 31 + ... + k X k1 + 1
Y2 = 1 + 2 X 22 + 3 X 32 + ... + k X k 2 + 2
..........................................................................
Yn = 1 + 2 X 2 n + 3 X 3n + ... + k X kn + n
En trminos matriciales:
Y1 1 X 2 ,1 ... X k,1 1 1
Y 1 ... ... ...
2 = . 2 + .
. 1 ... ... ... . .

Yn 1 X 2 ,n ... X k ,n k n
(nx1) (nxk) (kx1) (nx1)
y en forma compacta: Y = X + (3.2)
3.2. LA ESTIMACIN MCO PARA EL MODELO DE REGRESIN LINEAL GENERAL
Con el fin de estimar los coeficientes del modelo de regresin y el intercepto, debemos re-
escribir la ecuacin (3.1) de modo que para la observacin i tendramos un valor observado de
Y y un valor estimado de la forma:
Yi = 1 + 2 X 2i + ... + k X ki
Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el

valor observado de la variable endgena resulta un residuo o trmino de error (e):
ei = Yi

1
X ..
2 2i
X
k kt
y, repitiendo este proceso para todas las observaciones muestrales se obtiene:
Y = 1 + 2 X 2 + ... + k X k + e = X + e (3.3)
En la ecuacin anterior, es un vector de coeficientes de k elementos, e es otro vector de

residuos de n elementos y X representa la matriz de variables explicativas de orden (nxk).
Como se mencion en la introduccin del presente captulo, utilizaremos el criterio del

mtodo de estimacin MCO para obtener los estimadores: minimizar la suma de cuadrados de
los residuos (SRC = ei2 ). Se denota matricialmente como ee :
e1
e
ee = [e1 e2 ..... en ]. 2 = e12 + e22 + ... + en2 = ei2
.

e n
52
Por la ecuacin (3.3), se tiene que:
ee = ( Y - X )' ( Y - X )
De esta manera, el problema de minimizacin a resolver es el siguiente:
Min ( Y - X )' ( Y - X )

( Y - X )' ( Y - X ) = Y'Y - Y'X - ' X'Y + ' X'X

= Y'Y - 2 'X'Y + 'X'X
en la expresin anterior Y'X y ' X'Y son escalares y por tanto son iguales(uno es el
transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la
suma de residuos al cuadrado define una funcin del vector de coeficientes . De modo que:
e e = f (
)
donde los elementos del vector son las variables de la ecuacin, por lo que se debe minimizar
la misma con respecto a . Para tal fin, es preciso hacer una digresin acerca del lgebra
matricial utilizada para obtener los resultados que a continuacin se detallan:
Min (Y'Y - 2 'X'Y + 'X'X)

e' e = Y ' Y 2
' X' Y +
' X ' X

e' e
= 2 X ' Y + 2 X ' X
=0

X ' Y = X ' X
(3.4)
Digresin:
!
Se define f (b ) como una funcin de k elementos distintos de bi entonces debemos calcular k
derivadas parciales de dicha funcin con respecto a cada bi. En este sentido, se obtiene el vector
gradiente (primeras derivadas parciales) como definicin general en formas lineales:
!
f (b )
!
! f (b ) b1
f (b ) ! = "! (3.5)
b f (b )

bn
53
Ahora definamos una funcin lineal, donde a es un vector de k elementos constantes

cualesquiera.
!
f ( b ) = ab
!
f ( b ) = a1b1+ a2 b2+.......+ak bk
y, utilizando la expresin(3.5) se obtiene:
a1

(a b) (b a ) a 2
= = =a
b b ..

a k
Ntese la similitud entre la expresin anterior y el problema de minimizacin definido en

(3.4). As, obtenemos las siguientes expresiones:
(X ' ) ( ' X)
= =X

Asimismo, podemos definir la siguiente forma cuadrtica en b, donde A es una matriz

simtrica de orden (kxk):
g (b) = b' Ab
A11 A12 # A1k b1

A A22 # A2 k b2
[b1 b2 ... bk ] 12
" " $ " "

A1k A2k # Akk bk
b' Ab = b12 A11 + 2b1b2 A12 + # + 2b1bk A1k

+ b22 A22 + ## + 2b2 bk A2k
"
bk2 Akk
Derivando parcialmente la expresin anterior, obtenemos lo siguiente:
g
b1 2b1A11 + 2b 2 A12 + # + 2b k A1k
2 b A + 2b A + # + 2 b A
g (b) g
= b 2 = 1 12 2 22 k 2k
b "
"
g 2b1A1k + 2b 2 A 2k + # + 2b k A kk
b k
54
A11 A12 # A1k

" b1
$ "
= 2 " = 2 Ab
" $ "
b
A1k A2k # Akk k
Por lo anterior, notemos que:
(b' Ab) ( ' X ' X )

= = 2(X ' X )
b
Ahora regresemos a la expresin (3.4). Esta representa la simbolizacin compacta de las k

ecuaciones normales del modelo. Ntese que estas ecuaciones pueden reexpresarse en trminos
de sumatorias, de forma similar al Captulo anterior:
n
+
1
X + ... +
2 2i
X = Y
k ki i
X + X 2 + ... +
X X =X Y
1 2i 2 2i k 2i ki 2i i
...............................................................................................................................

X + X2 =X Y
X X + ... +
1 ki 2 ki 2i k ki ki i
o en trminos matriciales,
n X 2i ... X ki 1
1 1 1 1 Y1
X
2i X 2i
2
... X 2i X ki 2 X 21 X 22 ... X 2n Y2
. = .
... ... ... ... ... ... ... ... ... ..
2
X ki X ki X 2i ... X ki k X k1 X k2 ... X kn Yn
( X X ) = ( X ' Y )
En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la
expresin anterior por ( X ' X )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el
estimador es una funcin de los datos, para ello basta con reemplazarlos en la siguiente
expresin:
= ( X ' X )1 X ' Y
(3.6)
Ntese que en este modelo tambin se verifica que las variables explicativas y el trmino de
error son ortogonales entre s (Cov (X, ) = 0). Para tal fin debemos reordenar la expresin
compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del lgebra
matricial:
X ' (Y X ) = 0
1
En los casos en que la matriz (X ' X ) no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,
esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Seccin (1.2).
55
X 1e 0
X e
2 0
X 'e = = =0 (3.7)
.. ..

X k e 0
X ' e = X ' (Y X ) = X ' Y X ' X ( X ' X ) 1 XY = X ' Y X ' Y = 0
Observamos que el primer elemento de la matriz anterior resulta:
n
ei = 0
i =1
e =0
por lo que, los residuos de la regresin estimada por MCO tienen media igual a cero, siempre
que el investigador incluya un trmino independiente en el modelo2. Por otro lado, los dems
elementos de la matriz muestran que, al igual que en el modelo de regresin lineal simple, el
supuesto de ortogonalidad entre los errores y las variables independientes se cumple.
3.3. UNA ILUSTRACIN
Para ilustrar este mtodo matricial vase el ejemplo (2.1), donde se obtienen los
estimadores de un modelo bivariado por el mtodo MCO. As, obtenemos el modelo de
regresin lineal simple en trminos matriciales:
Y = X + e
Y1 1 X 21 e1
Y 1 X e
2 = 22 1
+
2
.. ..
.. 2 ..

Yn 1 X 2 n e n
y, por el resultado obtenido en (3.4)
( X X ). = ( X Y )
n n
n X 2i Yi
i =1
1 = i =1
nX n
2 n

i X 2i X 2i Yi
2
2i
=1 i =1 t =1
Ahora, veamos la Tabla (2.1) y reemplacemos en la expresin matricial anterior los valores
correspondientes. As, las matrices que resultan de la aplicacin de este procedimiento son las
siguientes:
2
Ntese que la presencia de un trmino independiente en el modelo implica que la primera fila de X es un vector de
unos.
56
10 20 80
(XX) = (XY) =
20 46 166
luego la inversa de la matriz (XX) resulta.
0,76666666 - 0,33333333
(XX)-1 =
- 0,33333333 0,16666666
Si aplicamos la frmula del estimador MCO en trminos matriciales (3.6), obtenemos:
0,76666666 - 0,33333333 80 6
= 1 = =
2 - 0,33333333 0,16666666 166 1

los cuales son los mismos obtenidos en el captulo anterior. Este resultado ilustra el hecho de
que el estimador presentado en esta captulo (y que ser el ms utilizado a lo largo del libro) es
una generalizacin del estimador bivariado (que usualmente se trabaja en trminos de
sumatorias).
3.4. PROPIEDADES DE UN BUEN ESTIMADOR
Todo estimador debe cumplir con ciertas condiciones que nos den cierta seguridad acerca de
su idoneidad. Si un estimador cumple con estas condiciones podr utilizarse con relativa
seguridad de que los resultados obtenidos son equivalentes en trminos estadsticos a los
verdaderos parmetros que siempre sern desconocidos.
Esta propiedades pueden agruparse en dos categoras: i) propiedades exactas (o de muestras

pequeas) y ii) propiedades aproximadas (o de muestras grandes o asintticas).
Las primeras de ellas se refieren a resultados sobre los cuales existe certeza y que pueden
analizarse incluso en un contexto de muestras pequeas. El segundo grupo se refiere a
resultados que no se pueden comprobar en muestras pequeas y que deben analizarse como
aproximaciones. La nica forma de lograr hacer este anlisis es realizando el ejercicio de ir
aumentando el tamao de muestra y observar como se va comportando el estimador3. Las
principales propiedades se pueden resumir de la siguiente forma:
3.4.1 Propiedades de Muestras Pequeas:
Primera propiedad: Insesgamiento
Recurdese que en el Captulo 2 estudiamos esta propiedad y demostramos que el estimador

MCO para un modelo de regresin con dos variables era insesgado. De esta manera, definimos
formalmente un estimador insesgado:
E ( ) =
3
De all que reciban el nombre de propiedades asintticas. Estas propiedades sern analizadas en profundidad en el
captulo X, dedicado a esta tpico.
57
En promedio, el estimador resulta igual al parmetro desconocido si se repite el experimento

de muestreo varias veces. Grficamente:
Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor
del parmetro, sino que proviene de una distribucin cuya media es igual a dicho valor ( ).
Segunda propiedad: Eficiencia
El estimador debe tener la menor varianza posible con el fin de lograr mayor precisin en sus
aproximaciones. Por lo tanto, un estimador eficiente es aqul que cumple con la primera
propiedad y adems es el que posee la mnima varianza entre todos los dems estimadores
insesgados posibles. As, y como se demostr en la ilustracin del teorema de Gauss-Markov, el
estimador MCO cumple con esta propiedad. Grficamente: (Figura 2.3):
3.4.2 Muestras Grandes: (Propiedades Asintticas)
Primera propiedad: Consistencia
Un parmetro es consistente si se cumple que:
P lim =
n
58
Esta propiedad indica que conforme aumente el tamao de la muestra la media de la

distribucin del estimador se aproximar ms al verdadero valor del parmetro. Es decir, si se
cumple esta propiedad resulta la media de tal distribucin.
Cabe destacar que esta propiedad es de suma importancia pues si un estimador resulta
sesgado utilizando un tamao muestral reducido, el investigador puede eliminar dicho sesgo
aumentando el nmero de observaciones de la muestra. Por lo tanto, para garantizar que el
estimador MCO sea insesgado se debe utilizar muestras grandes (n 60) .
Segunda propiedad: Insesgamiento asinttico
La idea detrs de esta propiedad es analizar si el sesgo tiende a desaparecer en la medida que
el tamao muestral tiende a infinito. Tiene cierta relacin con la propiedad anterior pero no son
equivalentes. En este caso se analiza el comportamiento del sesgo, mientras que en la
consistencia se analiza el punto hacia el cual converge la distribucin del estimador.
Tercera propiedad: Eficiencia Asinttica
Este propiedad est referida al comportamiento de la varianza de la distribucin asinttica

del estimador. La distribucin asinttica es aquella hacia la cual converge la distribucin del
estimador a medida que crece el tamao muestral. La idea es analizar si la varianza de esta
distribucin es menor que cualquier otra proveniente de estimadores alternativos.
3.5. PROPIEDADES DEL ESTIMADOR MCO
1. Insesgamiento
Recordemos que para determinar el insesgamiento debemos reemplazar el modelo

verdadero dentro de la frmula de nuestro estimador:
= ( X ' X ) 1 X 'Y
= ( X X ) 1 X ' ( X + )
= ( X ' X ) 1 X ' X + ( X ' X ) 1 X '
= + ( X ' X ) 1 X ' (3.8)
Tomando esperanzas a la expresin precedente, obtenemos:
E ( ) = + ( X ' X ) 1 X ' E ()
E () = (3.9)
De esta manera se verifica que el estimador MCO, para el modelo de regresin general, es
insesgado. Un resultado fundamental para la comprobacin de esta propiedad es que las X son
fijas o que no estn correlacionadas con el error. La ortogonalidad entre los regresores y el
trminos de error es necesaria para comprobar el insesgamiento.
2. Matriz varianza-covarianza (Eficiencia)
59
Var ( ) = E[( E ( ))( E ( ))' ]

= E[( )( )' ]
Ahora, por la ecuacin (3.8) se obtiene:
Var ( ) = E[( X ' X ) 1 X ' ' X ( X ' X ) 1 ]

= ( X ' X ) 1 X ' E (' ) X ( X ' X ) 1
Recordemos que por el segundo y tercer supuesto del modelo de regresin lineal4
verificamos que: E (' ) = 2 I n . Por consiguiente, la expresin anterior resulta:
Var ( ) = ( X ' X ) 1 X ' 2 I n X ( X ' X ) 1

Var ( ) = 2 ( X ' X ) 1 (3.10)
Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el
estimador de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que
cuando el investigador dispone de varias muestras el mtodo de estimacin de MCO arroja
estimadores que en promedio son idnticos a los verdaderos valores de los parmetros
desconocidos. Sin embargo, en la mayora de los casos cuando corremos una regresin
solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia
entre el estimador y su valor esperado poblacional, es decir tenemos una aproximacin de la
misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras
palabras, de la matriz de varianzas y covarianzas del estimador MCO.
Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende
de la varianza del error. Esto es, si la distribucin poblacional del error presenta una alta
dispersin, la varianza del estimador se comportar de igual forma (existe una relacin directa
entre los dos). Por otro lado, el anlisis del segundo componente es un poco ms complicado,
dado que los elementos de la matriz (XX) estn relacionados directamente con las varianzas y
covarianzas muestrales de las X5. Si analizamos las implicancias de la relacin matemtica
notaremos que a mayor dispersin de las variables independientes, la matriz (XX) es mayor6 y
por tanto su inversa es menor, de modo que la varianza del coeficiente de regresin ser menor.
Es decir, a mayor varianza de las X ganamos precisin en las estimaciones del modelo. Esta
ltima idea la podemos entender de manera utilizando un grfico. En l, ilustraremos el caso de
una regresin bivariada, en el eje de las abcisas tenemos los valores de la variable independiente
y en el eje de las ordenadas, los valores de la variable dependiente:
4
Vase la seccin (1.2) del primer captulo
5
Tomemos en cuenta la frmula de la varianza muestral de una variable:
Var ( x) =
(x i x)2
=
x 2
i 2x x i + nx 2
n 1 n 1
Como vemos, si el primer trmino del desarrollo de la sumatoria es mayor, la varianza de la variable x ser mayor.
Ese trmino es precisamente uno de los trminos de la diagonal principal de la matriz XX. De igual manera ocurre
con los elementos fuera de esta diagonal principal que sern los elementos correspondientes de la covarianzas
muestrales de las variables explicativas incluidas en el modelo.
6
Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la
sumatoria de las variables elevadas al cuadrado tendern a ser mayores, como estos son los elementos de la diagonal
principal, sabemos que a mayor la traza de una matriz cuadrada, mayor ser su magnitud.
60
Figura 3.1
La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la
lnea de regresin que muestra dicha caracterstica es LR1. Basta introducir una nueva
observacin (a) para que la lnea de regresin presente un cambio brusco de pendiente (LR2),
por lo que los estimadores MCO pierden precisin en la medida que son muy sensibles.
Figura 3.2
El grfico anterior muestra como a mayor variabilidad de las X es ms fcil identificar la

lnea de regresin. Ahora se verifica que al incluir otra observacin en el modelo la pendiente de
la lnea de regresin no se ve afectada o de lo contrario vara ligeramente. Por lo tanto, se
concluye que la variabilidad en los datos (X) es indispensable para que las predicciones del
modelo estimado sean confiables y por ende los estimadores presenten mayor precisin.
De todo lo discutido hasta el momento, vemos que dos elementos para evaluar la calidad de
un estimador son el sesgo y la varianza. Sin embargo, se pueden presentar casos en donde la
varianza de un estimador sesgado es menor que la de un estimador insesgado. En este caso cul
estimador debemos escoger? La respuesta a esta pregunta encontr una solucin en el
planteamiento de un criterio que nos permita evaluar un estimador tomando en cuenta el sesgo
y la varianza. Este criterio recibe el nombre de Error Cuadrtico Medio (ECM)que se define
como la esperanza matemtica de la diferencia entre el valor estimado del parmetro y su valor
verdadero:
ECM () = E ( ) = Varianza() + ( Sesgo())2
61
Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrtico
medio ser idntico a su varianza, por tanto se deber comparar dicha medida de dispersin con
el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicacin de este criterio es
general y puede aplicarse a cualquier par o ms de estimadores.
Hasta aqu hemos hablado de cmo estimar la varianza y la interpretacin de la misma. Sin
embargo, la estimacin de la varianza es un paso previo a la comprobacin de que sta es la
mnima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el captulo anterior el
teorema de Gauss-Markov en su forma matricial.
Teorema de Gauss-Markov
Aqu extenderemos los resultados encontrados en el captulo 2 a todo un vector de

coeficientes . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una
funcin lineal de la variable endgena (Y). Demostracin:
~ ~ ~
Sea = A Y donde A es una matriz de orden (kxT)
Definimos otra matriz A (kxT) a la diferencia:
~
A = A ( X X ) 1 X '
Segn lo anterior:
~
= [ A + ( X ' X ) 1 X ][ X + ]
~
= AX + + [ A + ( X X ) 1 X ' ] (3.11)
y tomando esperanzas a ambos lados de la ecuacin, obtenemos como resultado:

~
E ( ) = AX + (3.12)
~
De modo que ser insesgado s y solo s suponemos que AX=0. De esta manera, resulta
til reexpresar la ecuacin (3.11) para el clculo de la varianza del estimador:
~
= + [ A + ( X X ) 1 X ' ] (3.13)
Ahora reemplacemos la expresin anterior en la definicin de la matriz de covarianzas del

estimador, as obtenemos:
~ ~ ~
Var ( ) = E[( )( )' ]
= E[[ A + ( X ' X ) 1 X ' ]'[ A'+ X ( X ' X ) 1 ]]
~
Var ( ) = AA' 2 + ( X ' X ) 1 2 + ( X ' X ) 1 X ' A' 2 + AX ( X ' X ) 1 2
= AA' 2 + ( X ' X ) 1 2
matriz varianza del

definida positiva estimador MCO
62
La expresin anterior indica que la matriz de covarianzas del estimador alternativo es igual a
la del estimador MCO ms una matriz definida positiva. En este sentido, se verifica que la
varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor
que la varianza del estimador MCO.
3.6 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MATRICIAL DE MNIMOS CUADRADOS

ORDINARIOS
1.El vector de residuos de Mnimos Cuadrados es una transformacin lineal del vector de
errores del modelo terico. Recordemos que:
e = Y X
= [ I n X ( X ' X ) 1 X ' ]Y
= [ I n X ( X ' X ) 1 X ' ][ X + ] (3.14)
= M x [ X + ]
e = M x = M xY
Este resultado se entender si tomamos en cuenta las propiedades que indicaremos ms

abajo. Definimos la matriz Mx = [ I n X ( X ' X ) 1 X ' ] 7 como la matriz de proyeccin ortogonal
de la variable dependiente en el espacio definido por los errores. Esta matriz cumple con las
siguientes propiedades:
i.) Simtrica e idempotente8:
M x M x = [ I n X ( X ' X ) 1 X ' ] [ I n X ( X ' X ) 1 X ' ]

1 1 1 1
= I n X ( X ' X ) X ' X ( X ' X ) X ' I n + X ( X ' X ) X ' X ( X ' X ) X '
= I n X ( X ' X ) 1 X '
= Mx
ii) Ortogonal a la matriz X
M x X = [ I n X ( X ' X ) 1 X ' ] X
= X X ( X ' X ) 1 X ' X = 0
Si utilizamos esta ltima propiedad obtenemos el resultado presentado en (3.14).
2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en

trminos de los errores tericos del modelo.
Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es

que la suma residual de cuadrados puede expresarse en trminos del verdadero vector de
errores. As, obtenemos:
7
En realidad, la matriz de proyeccin ortogonal Mx est asociada a otra matriz Px. Esto se explicar detalladamente
en la seccin (3.9).
8
Una matriz simtrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente
es aquella que al ser multiplicada por s misma da como resultado la misma matriz.
63
SRC = e' e = Y ' M x Y

= ( X + )'[ I n X ( X ' X ) 1 X ' ]( X + )
= ' X '[ I n X ( X ' X ) 1 X ' ] X + '[ I n X ( X ' X ) 1 X ' ] + ' X '[ I X ( X ' X ) 1 X ' ]
+ ' [ I n X ( X ' X ) 1 X ' ] X
SRC = e' e = ' M x ' M x = ' M x

SRC = e' e = Y ' M x Y = ' M x
3. Otra forma de expresar la Suma de Cuadrados de los Residuos Mnimo-Cuadrticos.
Recordemos que:
SRC - Suma de Residuos al Cuadrado:
e' e = (Y ' ' X ' )(Y X )

= Y ' Y Y ' X ' X ' Y + ' X ' X
= Y ' Y 2 ' X ' Y + ' X ' X
= Y ' Y 2 ' X ' Y + ' X ' X ( X ' X ) 1 X ' Y
= Y ' Y 2 ' X ' Y + ' X ' Y
e' e = Y ' Y ' X ' Y (3.15)
4. Se verifica que en trminos probabilsticos la esperanza del error estimado es igual a

cero.(Vase el segundo supuesto del modelo de regresin lineal- Cap 1)
E (e) = E (Y ) E ( X )
= X X
E ( e) = 0
3.7. MEDIDAS DE BONDAD DE AJUSTE
Recordemos que el propsito del anlisis de regresin es explicar el comportamiento de la

variable dependiente (Y). Al disponer de una muestra dada, sabemos que el comportamiento de
Y es aleatorio, es decir puede tomar un valor relativamente bajo para algunas observaciones y
relativamente alto para otras. Dichas variaciones de la variable pueden aproximarse con la
varianza muestral de Y (Var(Y)), Por ello, es importante cuantificar su magnitud.
Para el modelo de regresin lineal simple procuramos explicar la conducta de la variable

dependiente, escogiendo adecuadamente la variable explicativa(X), a travs de la regresin.
Despus de ajustar la regresin somos capaces de separar el valor de Yi para cada observacin
en sus dos componentes: Yi y ei . Es decir:
Yi = Yi + ei (3.16)
64
De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho (Yi ) y
su valor observado. As, por la ecuacin (3.16) podemos descomponer la varianza de Y de la
siguiente forma9:
Var (Yi ) = Var (Yi ) + Var (ei )
La expresin anterior muestra que es factible descomponer la varianza de la variable

endgena en un componente explicado por el modelo de regresin lineal, en el sentido descrito
anteriormente, y en otro no explicado relacionado a la presencia del residuo.
Recurdese que la bondad de ajuste del modelo nos permite conocer el grado en que la
estructura que gobierna el comportamiento de la variable dependiente, recoge el
comportamiento de tal variable. O en otros trminos, mide cun bien explicado est el
comportamiento de la variable endgena por nuestro modelo.
En consecuencia, definimos formalmente al coeficiente de determinacin:
Var(Yi )
R2 = (3.17)
Var(Yi )
y muestra la proporcin de la varianza explicada por la regresin lineal. Asimismo, podemos

definir formalmente al R2 en trminos de las sumas de cuadrados definidas en la seccin (2.4).
As, resulta:
STC = SEC +SRC
Y Y nY 2 = Y Y nY 2 + e e
Y Y nY 2 SEC
R2 = = (3.18)
Y Y nY 2 STC
donde la suma explicada de cuadrados(SEC) se define por:
Y Y nY 2 = X X nY 2
= X X (X X )1 X Y nY 2
SEC = X Y nY 2
Debe mencionarse que esta suma explicada de cuadrados est medida alrededor de la media
de la variable dependiente. El trmino nY 2 precisamente resta la media de la variable
dependiente10. Este clculo se puede hacer si es que el modelo contiene un intercepto.
Asimismo, podemos expresar el coeficiente de determinacin en trminos de la suma

residual de cuadrados:
9
Recurdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:
Y e = X e = 0 .
(y y) = y y
2
10 i
2
i 2y i + ny 2
Recordemos que
=y 2
i 2 yny ny 2 = yy ny 2
65
SRC ee
R2 = 1 = 1 (3.19)
STC Y Y nY 2
y por el resultado obtenido en (3.15), se tiene:
Y' Y ' X' Y

R 2 =1
Y Y nY 2
Algo que debe discutirse a estas alturas es que el R2 estar acotado entre 0 y 1 si es que slo
se incluye un intercepto en el modelo. Esto se concluye porque la inclusin del intercepto
asegura a travs de las ecuaciones normales- que la media de los errores mnimos cuadrticos
(ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados
en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto
asegura que existe ortogonalidad entre las variables explicativas y el trmino de error mnimo
cuadrtico. De no incluir intercepto por construccin- nada asegura que la parte explicada y la
parte no explicada sean ortogonales entre s, por lo que la suma de total de cuadrados podra
incluir un tercer trmino que puede ser negativo o positivo. De ser negativo y mayor que y, el
R2 podra ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no est
acotado por abajo. El valor mximo de 1 se seguir manteniendo.
Debido a que el coeficiente de determinacin mide la bondad de ajuste de los valores

estimados a la lnea de regresin, puede ser utilizado para comparar el grado del poder
explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los
siguientes casos:
i) En los casos en que el investigador disponga de un modelo que incluya intercepto y otro
que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer
modelo podra resultar negativo, especficamente se haya en el siguiente
intervalo [ ,1] como ya se mencion. En este caso los R2 no son comparables.
ii) Cuando dos modelos estn especificados con igual nmero de variables explicativas y
tratan de explicar la misma variable endgena pero no incluyen intercepto. Es factible
utilizar al R2 como una medida de comparacin, de esta manera se eligir aqul que
tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.
iii) El R2 tambin es de mucha utilidad cuando comparamos dos modelos anidados, se

denominan as aquellos modelos cuya estructura consta de una variable endgena y
variables exgenas comunes. Pero, uno de ellos est especificado con un menor nmero
de variables explicativas. En tal sentido, debemos hallar el R2 del modelo que omite
algunas variables para luego incluir una por una las restantes. Con este procedimiento se
verificar que el modelo ampliado disminuir su suma residual conforme se incluya
otra variable, por lo tanto el R2 mejora considerablemente.
iv) Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos
modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una
medida que tenga mucho sentido comparar, dado que cada R2 mide la explicacin de la
varianza dela variable endgena que en este caso no son las mismas.
Una conclusin lgica que se infiere de lo anterior es que el R2 es una funcin creciente del
nmero de variables explicativas utilizados en el modelo. Es decir, una variable adicional
aumenta la proporcin en que el modelo explica el comportamiento de la variable endgena. Por
ello, es importante que el investigador incluya todos los regresores necesarios para explicar con
mayor precisin a Y.
66
Algo que se deriva de lo discutido en el prrafo anterior es que una forma de elevar cada vez
ms el R2 es incluir nuevas variables. La inclusin de una nueva variable, en el peor de los
casos, no modifica el R2 pero en la mayora de las veces logra aumentarlo11. Sin embargo, si
bien el beneficio de incluir una variable ms est en la elevacin del R2, tiene un costo. Este
viene dado por la prdida de grados de libertad. Recordemos que por la inclusin de una
variable ms, aumenta en igual cantidad el nmero de ecuaciones normales y por lo tanto existe
un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un
valor de tal forma que se cumpla la ecuacin normal. Esto le quita libertad al modelo para captar
la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusin de una
variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que
tome en cuenta estas dos consideraciones, de tal forma de contar con una medida ms confiable.
Este indicador es el estadstico conocido como R2 ajustado o corregido. Formalmente:
SRC /( n k ) (n 1)
R 2 = 1 = 1 (1 R 2 ) (3.20)
STC /( n 1) (n k )
La interpretacin de este R2 alternativo es similar al anterior pues cumple con las mismas
propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero,
le aade el ajuste por los grados de libertad que se pierden por la inclusin de una variable
(n 1)
adicional en el modelo. De modo que, la fraccin: aumenta cuando el nmero de
(n k )
variables explicativas (k) se incrementa, mientras que el trmino (1-R2) disminuye. En
consecuencia, se dice que esta nueva medida de bondad de ajuste es relativamente neutral a la
introduccin de variables adicionales.
Un punto importante como resumen de esta seccin es presentar de manera sinttica las
magnitudes involucradas en el clculo de las medidas de bondad de ajuste. Como sabemos, cada
uno de los componentes de la suma total de cuadrados tendr asociados ciertos grados de
libertad, los cuales sern utilizados ms adelante. La formulacin matricial de la
descomposicin de la varianza (tabla ANOVA) para el modelo lineal general es la siguiente:
Fuente de Suma de Grados de

variacin cuadrados libertad
Total de la 2 n-1
regresin YY nY
Debido a la 2 k-1
regresin X X n Y
Debido a los Y' Y ' X' Y n-k

residuos
La prdida de un grado de libertad para la STC proviene del hecho de que para el clculo de
ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo.
Los grados de libertad son k-1 porque el espacio en donde estn definidos los parmetros es k-
dimensional y se pierde un grado de libertad por el clculo de la media de la variable
dependiente que sabemos es la misma que la media de la variable dependiente estimada a travs
del modelo. Por ltimo, los grados de libertad de la suma residual es la diferencia entre los dos
grados de libertas ya mencionados.
11
Recordemos que la suma explicada de cuadrados est relacionada a la siguiente magnitud:
X X que es una forma cuadrtica. Al incluir una variable ms esta magnitud aumentar o a lo ms no disminuir
debido a que si el efecto de la variable es cero no se modificar esta expresin.
67
3.8 MODELO PARTICIONADO
Cuando los paquetes estadsticos utilizados no eran tan potentes como los de ahora o no
existan, los clculos se complicaban cuando se introducan un nmero alto de variables. Ello
llev a buscar formas de abreviar los clculos. De all surgi lo que ahora se denomina el
modelo particionado. Si bien actualmente los programas estadsticos permiten hacer
estimaciones con gran nmero de observaciones y variables explicativas, este anlisis
permanece relevante dado que permite ilustrar la interpretacin de los parmetros de un modelo.
Podemos plantear entonces nuestro modelo lineal general de la forma tradicional:
Y = X + e
En este caso introduciremos un cambio. Este cambio implica particionar la matriz X en dos
submatrices:
X = [X1 X2]
De modo que, las ecuaciones normales del modelo resultan:
X 1 X 1 X 1 X 2 1 X 1Y
X X =
2 1 X 2 X 2 2 X 2 Y
Digresin:
Cabe sealar que para hallar la inversa de una matriz particionada se tiene dos
procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz
original. As, para la estimacin de los parmetros del modelo debemos calcular la matriz
inversa de (XX). Se pueden dar dos casos:
i) Se define la matriz particionada P, de orden kxk:
P P12
P = 11
P21 P22
donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr,
rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de
orden kxk:
F F12
F = 11
F21 F22
Si bien los elementos de sta matriz no son idnticos a los de la matriz P-1, s guardan una
relacin importante con los elementos de la matriz P:
1 1
F11 = (P11 P12 P22 P21 ) 1 F12 = P11 P21F22
68
1 1
F22 = (P22 P21P11 P12 ) 1 F12 = P22 P21F11
ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la
matriz inversa de (XX) es igual al de una matriz cualquiera de orden (2x2).
Dada la digresin anterior, trabajemos con las ecuaciones normales del modelo y hallemos
los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:
X 1 X 1 1 + X 1 X 2 2 = X 1Y (3.21)
Despejando 1 , obtenemos la siguiente expresin:
1 = ( X 1 X 1 )1 X 1Y ( X 1 X 1 )1 X 1 X 2 2
Factorizando llegamos a:
1 = ( X 1 X 1 )1 X 1 (Y X 2 2 ) (3.22)
Del segundo conjunto de ecuaciones normales tenemos:
(X 2 X 1 ) 1 + X 2 X 2 2 = X 2 Y (3.23)
reemplazando (3.22) en (3.23):
[ ]
X 2 X1 (X1 X1 )1 X1 (Y X 2 2 ) + X 2 X 2 2 = X 2 Y
X 2 X 1 (X 1 X 1 )1 X 1Y X 2 X 1 (X 1 X 1 )1 X 1 X 2 2 + X 2 X 2 2 = X 2 Y
[ ] [
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y ] (3.24)
La expresin entre corchetes es similar a la matriz Mx definida anteriormente, salvo que en

lugar de X encontramos a una parte de ella que es X1. Recordemos que ella fue definida como
la matriz de proyeccin ortogonal de la variable explicada en el espacio definido por los
errores12. Si recordamos los resultados de la seccin 3.6, especficamente los resultados
contenidos en (3.14), veremos que si aplicamos la matriz Mx al vector de observaciones de la
variable dependiente Y, obtenemos el vector de errores mnimos cuadrticos. Intuitivamente
ello significa que los errores son los valores resultantes cuando limpiamos o filtramos la
variable dependiente de todo efecto que tienen sobre ella las variables independientes. Las
propiedades de M1 son similares a las de la matriz Mx. Manipulando la expresin (3.24)
obtenemos:
X 2 M 1 X 2 2 = X 2 M 1Y
Aplicando las propiedades de M1, llegamos a:
12
La razn del nombre quedara ms clara en la seccin 3.10.
69
( M 1 X 2 )' ( M 1 X 2 ) 2 = ( M 1 X 2 )' ( M 1Y )
2 = ( X 2 M 1 X 2 ) 1 ( X 2 M 1Y ) (3.25)
La expresin precedente, muestra que los efectos que tienen las variables explicativas
incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,
2 mide slo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente
sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parmetro slo
mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la
multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el
modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.
3.9 EL MODELO LINEAL EN FORMA DE DESVIACIONES CON RESPECTO A LA MEDIA
Recordemos que en el Captulo 2 uno de los resultados que estudiamos fue que el modelo de
regresin de dos variables poda ser expresado en forma de desviaciones. Este enfoque mostraba
que los parmetros podan ser estimados en dos pasos: el primero consiste en calcular la
pendiente de X ( 1 ) y el segundo es reemplazar dicho valor en la ecuacin de la lnea de
regresin muestral para hallar el intercepto. Un procedimiento similar puede aplicarse al
modelo lineal general. Partamos de un modelo especificado incluyendo un trmino
independiente o intercepto:
Yi = 1 + 2 X 2i + ... + k X ki + e (3.26)
Recordemos que podemos expresar al modelo en trminos de los valores medios de las
variables:
Y = 1 + 2 X 2 + ... + k X k (3.27)
ahora, restando (3.27) de (3.26) obtenemos:
(Yi Y ) = 2 (X 2i X 2 ) + ... + k (X ki X k ) + ei (3.28)
Ntese que, esta expresin muestra una reparametrizacin del modelo. En sta no se incluye
un intercepto, cada variable est expresada en diferencias con respecto a su promedio muestral y
tanto las pendientes como los residuos son iguales a los del modelo original.
Consideremos al modelo en su forma matricial y planteemos una particin de nuestra matriz

X de tal forma que X1 slo incluya la columna de unos que corresponden al intercepto y X2
contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de
la siguiente forma:
Y = X + e
donde X y representan matrices particionadas de la forma:
X = [1n ;X 2 ] (3.29)
70

= 1 (3.30)
2
Ntese que, en la ecuacin (3.29) X2 es una matriz de orden nx(k-1) y est formada por las
columnas de observaciones de las variables exgenas del modelo, exceptuando el intercepto.
Por otro lado, la expresin (3.30) muestra que el vector tiene como elementos al intercepto
( 1 ) y al resto de coeficientes estimados (desde 2 hasta k ). De esta manera, el nuevo
modelo particionado resulta:
Y = X 1 1 + X 2 2 + e (3.31)
Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos
utilizar la expresin (3.24):
[ ] [
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y ]
En este caso particular, X1 sera un vector de unos, por lo que la expresin entre corchetes
quedara de la siguiente manera:
[I n (1 / n)(1n1n )] (nxn) (3.32)
Esta matriz ser denotada desde ahora por M0 y tiene la particularidad de transformar los
datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la
expresin anterior y comprobar esta afirmacin.. Si tomamos el vector de observaciones de la
variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:
Y1 Y
Y Y
2
M 0Y = ..

..
Yn Y
La matriz M0 , al igual que las matrices similares a ella, es simtrica e idempotente. Cabe
mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos sern de
mucha utilidad para las estimaciones que desarrollaremos posteriormente:
M 0 (1n ) = 0 n (3.33)
M 0e = e (3.34)
Ntese que la ltima propiedad se cumple porque el valor medio de los errores estimados es
igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.
Ahora, premultipiquemos la expresin (3.31) por la matriz M0 y utilicemos las propiedades

definidas en (3.33) y (3.34). As, obtenemos:
M 0Y = M 0 X 2 2 + e (3.35)
Ntese que este modelo muestra la notacin matricial del modelo definido en (3.27).
71
Premultipicando por X 2 obtenemos13:
X 2 M 0Y = X 2 M 0 X 2 2 (3.36)
Por ltimo, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a
(3.36) como:
(M 0 X 2 )' M 0Y = (M 0 X 2 )' (M 0 X 2 ) 2 (3.37)
Analicemos ahora la expresin anterior. sta se interpreta como un sistema de (k-1)

ecuaciones normales en trminos de desviaciones. As, definimos las siguientes variables:
M 0 X 2 = x2
M 0Y = y
donde, x2 es una matriz de dimensin n x (k-1) que muestra al conjunto de las variables
explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la
variable endgena y es de dimensin (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:
(x2 y ) = (x2 x 2 ) 2 (3.38)
De esta manera, la expresin (3.38) muestra que cuando transformamos las variables del
modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma
forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite
obtener los estimadores de las pendientes y no del intercepto, ste se obtendr premultipicando
el modelo particionado definido en (3.31), por (1/n)1'n :
1 ' 1 '
1n Y = 1n (X + e)
n n
Y = X = 1 + X 2
1

Y = [1 X 2 X 3 ... X k ] 2
..

k
1 = Y 2 X 2 ... k X k (3.39)
Ahora tratemos de expresar tanto la SCT como la SEC en trminos del modelo en
diferencias. Premultipliquemos la ecuacin (3.35) por Y' :
13
Recurdese que X 2 e = 0 por el supuesto de ortogonalidad entre las variables independientes y el error. Vase la
expresin (3.7).
72
Y M 0 Y = Y M 0 X 2 2 + Y e
Y M 0 Y = (X + e)' M 0 X 2 2 + (X + e)' e
Y M 0 Y = X M 0 X 2 2 + X e + e' M 0 X 2 2 + e' e
Y M 0 Y = 2 X 2 M 0 X 2 2 + e' e (3.40)
donde hemos utilizado: M 0 X = M 0 (X1 X 2 )
= (O n M 0 X 2 2 ) = M 0 X 2 2
e M 0 = 0
La ltima expresin se cumple por la condicin de ortogonalidad dada anteriormente. As,

podemos expresar la ecuacin (3.40) como:
STC = Y M 0 Y
SEC = 2 X 2 M 0 X 2 2
SRC = e' e
De esta manera, podemos calcular el coeficiente de determinacin (R2) para este modelo y
notar sus diferencias con el modelo original:
SEC e' e
R2 = =1
STC Y' M 0 Y
X M X X M Y
= 2 2 0 2 2 = 2 2 0 (3.41)
Y' M 0 Y Y' M 0 Y
donde la expresin anterior se cumple por el resultado obtenido en (3.36).
3.10 INTERPRETACIN GEOMTRICA DE MCO
Introduccin
Recordemos que el mtodo de estimacin ms comnmente usado y uno de los ms

estudiados en el anlisis economtrico es el de Mnimos Cuadrados Ordinarios. Cabe distinguir
entre dos variantes de tal mtodo: Mnimos Cuadrados Ordinarios (MCO) y Mnimos
Cuadrados no lineales. Por el Captulo 1 sabemos que, la lnea de regresin MCO tiene como
supuesto la linealidad en todos los parmetros. Mientras que en la segunda variante, y tal como
su nombre lo indica, no se cumple tal supuesto. Para fines de este captulo, slo nos interesa
discutir la estimacin MCO de un modelo lineal, ya que la comprensin de la regresin lineal y
del mtodo MCO como mtodo de estimacin de ella es esencial para entender el resto de
Captulos de este libro.
Ntese que existe una distincin importante entre las propiedades numricas y las
estadsticas de los estimadores obtenidos usando MCO. Las propiedades numricas son aquellas
73
que se mantienen como consecuencia del uso de MCO, sin importar la generacin de los datos.
Recordemos que estas propiedades fueron verificadas por reemplazos y clculos directos14. Por
otro lado, las propiedades estadsticas se mantienen slo bajo ciertos supuestos acerca de la
generacin de los datos15.
A continuacin discutiremos la interpretacin geomtrica de las propiedades numricas de

MCO, pues todas estas propiedades pueden interpretarse en trminos de la geometra
Euclideana.16
La Geometra de Mnimos Cuadrados
Recordemos el modelo de regresin lineal general:
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i
Y = X +
donde, la variable dependiente representa a un vector de dimensin n y donde los regresores

forman una matriz de dimensin (nxk). Cada columna de X que contienen a las observaciones
correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos
en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente
independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos
formalmente como S(X).
Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por
todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X.
Por otro lado, la dimensin de S(X) es igual al rango de la matriz X17 (( X ) = k ) . De esta
manera, asumimos que k es estrictamente menor que n (k < n).
El complemento ortogonal de S(X) en En , el cual es denotado por S(X), esta formado por
todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez
definidos estos conceptos estamos listos para entender la interpretacin geomtrica del
estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable
dependiente, Y, que es de dimensin n en dos sub-espacios que sean ortogonales entre s.
Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte
que sea explicada por las variables independientes y que esta parte explicada sea construida de
tal manera que implique que se extrae toda la informacin contenida en estas variables. Una
forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto
porque la ortogonalidad entre dos espacios implica que no existe relacin alguna entre ellos. En
otras palabras, no existira forma de explicar aquella parte no explicada a partir de informacin
contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta
condicin el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes:
una predecible y una no predecible.
Teniendo en cuenta lo anterior, pensemos en nuestra descomposicin. Uno de los objetivos

es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos
14
Vase las 4 primeras propiedades de la seccin (2.3).
15
Una de las propiedades estadsticas ms importante es el insesgamiento, al verificar esta propiedad suponemos que
la distribucin de los errores es normal.
16
Se define un espacio Euclidiano como aqul que cumple con las propiedades de cerradura interna y cerradura
externa.
17
El rango de una matriz es igual al nmero de columnas linealmente independientes.
74
un grfico que nos permita ilustrar lo que est en juego. Para simplificar el anlisis supongamos
que n=2 y k=1
Figura 3.3
El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos
los espacios ortogonales (cada uno de dimensin 1). Aquel definido por la variable explicativa
es S(X) y est representado por el eje horizontal y su complemento ortogonal est representado
en el eje vertical. Si queremos que la parte explicada sea la mayor posible, grficamente
debemos encontrar el punto en S(X) que est lo ms cerca posible a Y. Existen diversas
opciones para ello. Sin embargo, sabemos que la distancia ms corta estar representada por una
lnea que sea perpendicular a S(X). El punto que representa esta distancia ms corta ser
~
denotado por X . Existen otras alternativas como puntos tiene S(X). Por ejemplo, X
representa a uno de estos puntos, pero se puede apreciar que X implica una distancia menor y
es posible demostrar que la menor distancia es reflejada por este punto. Entonces X puede
interpretarse como la proyeccin ortogonal de la variable dependiente en el espacio definido por
las X (S(X)).
Por otro lado, sabemos que todos los puntos del espacio S(X) son ortogonales a los puntos
de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los
errores (Y X = e) . Dado que X representa al punto donde la lnea que parte de Y es
perpendicular a S(X), en dicho punto el espacio definido por X deber ser perpendicular al otro
espacio que representa a los errores. Formalmente ello implica que deber cumplirse la siguiente
condicin X ' (Y X ) = 0 . Recordemos que esta es la condicin de ortogonalidad de donde se
obtienen los estimadores MCO. Por tanto el vector de parmetros es aquel que descompone
al espacio en el cual est definido la variable dependiente en dos ub-espacios que son
ortogonales entre s.
Otra forma de abordar el problema y obtener un estimador para es el siguiente. Si nosotros

queremos hallar el punto en S(X) que es ms cercano al vector Y, el problema se cifra en la
solucin de una minimizacin (con respecto a la eleccin de ) de la distancia entre Y y S(X).
El punto en S(X) que representa esto es X . La distancia entre estos puntos est dada por el
error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta
distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el
problema de la siguiente manera:
18
Debemos recordar que en el caso que se utiliz como ejemplo anteriormente se supuso que el nmero de
observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parmetro as que slo se
75
Min Y X 2

Min( Y - X ) ( Y - X )

Entonces podemos observar que la minimizacin de la distancia entre Y y S(X) nos lleva al
planteamiento del estimador de mnimos cuadrados ordinarios. De esta manera comprobamos
que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los
cuales se puede descomponer la variable dependiente.
Ahora, reemplacemos el estimador obtenido por el proceso de minimizacin de MCO (3.6)

en el vector de la variable endgena estimada:
Y = X = X ( X ' X ) 1 X ' Y = Px Y (3.42)
La ecuacin anterior define una matriz Px = X ( X ' X ) 1 X ' , de dimensin (nxn), dicha
matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz
de proyeccin ortogonal.
Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal
de S(X), es decir en S(X):
[ ]
Y X = Y X ( X ' X ) 1 X ' Y = I X ( X X ) 1 X Y = M xY (3.43)
La matriz Mx es por tanto la matriz de proyeccin ortogonal de la variable Y en el espacio

definido por los errores del modelo. Recordemos que esta matriz ya ha sido definida y sus
propiedades han sido estudiadas. Ntese, que las matrices definidas lneas arriba son simtricas,
idempotentes y adems cumplen con las siguientes propiedades:
M x + Px = I n (3.44)
Px M x = 0 (3.45)
Por la ecuacin anterior, se verifica que cualquier punto en En, como X o Y es igual a:
X = M x X + Px X
Y = M xY + PxY (3.46)
En funcin a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada
uno de los componentes de las expresiones anteriores como:
M x Y = vector de residuos de la regresin.
PxY = vector de valores estimados de Y.
toma en cuenta un error. Sin embargo el anlisis se puede generalizar para un nmero mayor de observaciones.
Recuerdese que el objetivo del estimador MCO es minimizar la suma de errores elevados al cuadrado que es similar
a la minimizacin de la norma de un vector.
76
Ahora, utilizaremos la interpretacin geomtrica de MCO para establecer algunas

propiedades importantes del modelo de regresin lineal. De esta manera, por la la ecuacion
(3.43) y por la descripcin anterior de PxY y MxY, tenemos que:
( Px Y )' ( M x Y ) = 0 (3.47)
por lo que, se verifica que el residuo es ortogonal al valor estimado de Y. Grficamente,

podemos observar la descomposicin ortogonal de la variable explicada (Y):
S(X)
S(X)
Px Y
M xY
Figura 3.4
Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la
estimacin de MCO. As, podemos reexpresar el problema de minimizacin descrito
anteriormente:
( Y - X ) ( Y - X ) = ( M x Y )' ( M x Y )
= ( M x Y )' ( M x Y )
= Y ' M x M xY = Y ' M xY (3.48)
2
= M xY
Asismismo, la suma explicada de cuadrados (SEC) resulta:
( X )' ( X ) = ( Px Y )' ( Px Y )
2
= Y ' Px Px Y = Y ' Px Y = Px Y (3.49)
La expresiones (3.46) y (3.47) indican que la suma de residuos al cuadrado y la suma

explicada de cuadrados son simplemente la norma de ciertos vectores denominados las
proyecciones de Y (Mx y Px) sobre los subespacios de S(X) y S(X), respectivamente. Esto se
puede mostrar grficamente en la figura (3.4).
Ahora, notemos que la distancia entre Y y PxY es M x Y , la distancia entre el origen y PxY
es PxY , y la distancia entre el origen e Y es Y . As, resulta til aplicar el teorema de
Pitgoras:
2 2 2
Y = PxY + MxY (3.50)
77
Esta expresin muestra que la suma total de cuadrados o STC, de la variable dependiente es
igual a la suma explicada de cuadrados (SEC) ms la suma de residual de cuadrados (SRC).
Recordemos que, el coeficiente de determinacin (R2) lo definimos como:
2 2
SEC SRC PxY MxY
R2 = =1 = =1 (3.51)
STC STC 2 2
Y Y
o en trminos trigonomtricos19:
2 2
PxY MxY
R 2 = cos = =1
2 2
Y Y
Como conclusin de esta seccin podemos decir que nuestro estimador MCO responde a una
necesidad de descomponer en dos conjuntos ortogonales entre s el conjunto en donde est
definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente
as como el coeficiente de determinacin tienen tambin una interpretacin geomtrica. Ser
importante retener estos conceptos porque sern utilizados a lo largo del libro.
3.11 ESTIMACIN MCO DE LA VARIANZA DEL TRMINO DE ERROR
Cuando se estudi la eficiencia del estimador MCO un trmino que forma parte de la
varianza del estimador es 2 la cual es la varianza del trmino de error. Si bien hemos
analizado el impacto que tiene esta expresin en la varianza del estimador hemos estado
hablando siempre del trmino terico y por tanto desconocido. Por tanto, debemos hallar una
forma de estimar esta magnitud a fin de que podamos tambin construir un estimado de la
varianza de los estimadores hallados.
El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que

cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta
el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho
estimador insesgado. Una estrategia utilizada frecuentemente y que aqu vamos a utilizar- es
partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la
esperanza matemtica de esta expresin y veremos que transformacin debemos hacer a la
expresin resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:
[
SRC = ee = M x = I X ( X X ) 1 X ] (3.52)
Es importante expresar la SRC en trminos del error terico porque cuando apliquemos el
operador de esperanza utilizaremos las propiedades del error terico que ya han sido definidas
en el captulo I. Sin embargo, antes de continuar con el anlisis debemos definir algunas
propiedades que sern de mucha utilidad:
19
Recurdese que el coseno de un ngulo de un tringulo rectngulo, en nuestro caso ( ), es igual al cateto opuesto
entre la hipotenusa.
78
1. Si queremos analizar la traza de un producto de matrices, las trazas sern las mismas si
alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo
que se llama la propiedad de las permutaciones cclicas. Formalmente:
Tr(ABC) = Tr(CBA) = Tr(BCA)
2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente:
E[Tr (ABC)] = Tr [ E (ABC)]
Ahora pongamos en accin estas dos propiedades para calcular la esperanza de la SRC:
E ( SRC ) = E [Tr ( M x )] = E [Tr ( M x )] (3.53)
Aqu, en la ltima transformacin hemos hecho uso de la propiedades de las permutaciones

cclicas. Si hacemos el intercambio cambio de esperanza y traza y recordamos que la matriz Mx
contiene elementos fijos por lo que la esperanza se aplica a la expresin del trminos de error,
obtenemos:
[ ]
Tr [E ( M x )] = Tr [M x E ( )] = Tr M x 2 I n = 2Tr [M x ] (3.54)
Estos resultados se obtienen a partir de la segunda propiedad del modelo presentada en el

captulo I que supone que el error no presenta autocorrelacin ni heterocedasticidad. Como la
varianza del error es una constante puede salir fuera de la traza. Ahora lo que nos queda analizar
es la traza de Mx:
[ ] [
Tr [M x ] = Tr I n X ( X X ) 1 X = Tr [I n ] Tr X ( X X ) 1 X ]
Tr [I n ] = n (3.55)
[ ] [ ]
Tr X ( X X ) X = Tr ( X X ) X X = Tr [I k ] = k
1 1
Para estos resultados hemos hecho uso nuevamente de la propiedad de permutaciones

cclicas y del hecho de que la traza de una matriz identidad de orden n es igual a n y la traza de
una matriz identidad de orden k es igual a k. Combinando todos los resultados obtenemos lo
siguiente:
E ( SRC ) = 2 (n k ) (3.56)
Si queremos obtener un estimador de la varianza que sea insesgado, la transformacin obvia

que tendramos que hacer a la expresin anterior es dividirla por (n-k). Por lo tanto el estimador
MCO de la varianza del error que se deriva de toda nuestra exposicin sera el siguiente:
ee
2 = (3.57)
nk
Queda para el lector la comprobacin de que este estimador es insesgado. La mayor parte de
los pasos a realizar ya se han hecho as que no deber haber mucha dificultad en comprobar este
resultado. Algo que debemos notar es que para la obtencin de este estimador no se ha utilizado
ningn criterio de optimizacin como puede ser la minimizacin de la suma de errores al
20
Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal
de esta matriz, siempre y cuando sta sea cuadrada.
79
cuadrado o la maximizacin de la probabilidad de ocurrencia de una muestra21 ni nada parecido.

El estimador ha sido construido de manera ad-hoc para cumplir con la propiedad de
insesgamiento. La razn para ello es que, como veremos ms adelante, no existe ningn
estimador insesgado de la varianza del error que se pueda obtener a travs de un criterio que
busque optimizar alguna expresin. Esto no quiere decir que no se pueda utilizar sino que habr
que analizar sus propiedades asintticas como ya fueron definidas anteriormente. El anlisis de
este tipo de propiedades se ver ms adelante en el captulo 10 del presente libro.
En funcin a las resultados obtenidos podemos ahora definir algunas expresiones que sern
de mucha utilidad y que se utilizan bastante en el anlisis que efectan la mayora de paquetes
economtricos. La primera de ellas es el error estndar de la regresin (standard error of
regresin) que no es otra cosa que la raz cuadrada de la varianza estimada del error 8 es decir la
desviacin estndar).
error estndar de la regresin = = 2 (3.58)
Adicionalmente estamos en condicin ahora de presentar la varianza estimada de los

parmetros estimados por MCO:
Var ( ) estimada = 2 ( X X ) 1 (3.59)
Esta expresin es la que se utilizar en todos los clculos a realizarse por los paquetes
estadsticos especializados en la estimacin de modelos economtricos.
3.12 A MANERA DE CONCLUSIN
En este captulo hemos presentado el estimador MCO multivariado para el cual se han
utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades
del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto
porque los resultados aqu presentados que son los fundamentos del estimador MCO y del
modelo lineal general- sern la base para entender la lgica y resultados de otro tipos de
modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalas del modelo
lineal general ms adelante se har uso de las propiedades y resultados presentados aqu. Es
importante entender la intuicin y significado del estimador MCO porque los principios
estudiados hasta aqu marcan la pauta para lo que ser analizado ms adelante.
21
Como veremos ms adelante, este ltimo criterio es el que gua al estimador de mxima verosimilitud.
80
CAPITULO 4
INFERENCIA ESTADSTICA EN EL MODELO
LINEAL GENERAL
4.1. INTRODUCCIN
Hasta el momento hemos estudiado una de las formas ms usadas de realizar la estimacin
de un modelo lineal. El estimador adecuado para dichos casos es el de mnimos cuadrados
ordinarios del cual hemos mostrado todas sus propiedades, as como considerado todas sus
implicancias.
Sin embargo, todo modelo debe estimarse con algn propsito dado que si no fuera as la
modelacin economtrica sera solamente un ejercicio estadstico que carecera de sentido y la
interpretacin de los resultados se limitara a la aplicacin de reglas mecnicas que no dejan
ningn espacio para el raciocinio del investigador.
Lo anterior nos debe llevar a pensar en los propsitos de la investigacin economtrica.

Hasta ahora slo hemos mencionado tangencialmente los propsitos de la modelacin
econmica. Ya es hora de ponernos a pensar con mayor detenimiento la siguiente pregunta
para qu estimamos un modelo? En este captulo intentaremos empezar a dar respuestas en
dicho sentido.
De esta manera, podemos iniciar la discusin de los usos de un modelo estableciendo los
principales propsitos de la modelacin economtrica, los cuales pueden agruparse en tres
categoras:
1. Inferencia: Esto implica verificar si ciertas restricciones que imponen las diferentes
teoras econmicas o nuestra intuicin1 son vlidas o no para la muestra que utilizamos
1
La cual se desarrolla paulatinamente a travs de la observacin y la experiencia acerca de un tema o fenmeno
econmico.
Econometra Moderna Inferencia Estadstica en el Modelo Lineal General
en la estimacin de nuestro modelo. Esto implica en la prctica verificar si dentro del

perodo muestral (en series de tiempo) o al interior de una muestra (si estamos en un
estudio de corte transversal) cierta hiptesis inicial se cumple o no. En este sentido el
anlisis se limita a la muestra que nosotros tenemos. Por ello podemos decir que este tipo
de restricciones verifican la existencia de restricciones en el pasado (si hablamos de
series de tiempo) o para un grupo especfico de individuos (en datos de corte transversal).
Es un anlisis ex-post.
2. Prediccin: Un modelo puede ser utilizado con el propsito de estimar el valor de la

variable dependiente ms all de la muestra. Por ejemplo, si hemos estimado la demanda
de un producto para el perodo 1940-1999 quizs nos interese conocer cul ser el nivel
de la demanda en el ao 2000 y ms all. Ello nos permitir realizar una mejor
planificacin de las acciones a tomar como empresa si es que nuestro principal giro es
producir precisamente dicho producto. De la misma manera, el Estado o los hacedores de
poltica pueden estar interesados en hacer proyecciones macroeconmicas que por
ejemplo se usan para la planificacin de las acciones de poltica econmica a las cuales
se pueden comprometer esta autoridades en la firma de una carta de intencin con el FMI
o en la elaboracin del presupuesto general de la Repblica.
Debe aclararse que el realizar el ejercicio de prediccin implica suponer que las
condiciones subyacentes en la economa en general o en el mercado en particular
permanecern inalterables cuando salgamos fuera de la muestra. Podemos utilizar nuestro
ejemplo anterior para ilustrar esta idea: si la prediccin que queremos realizar
corresponde al ao 2000, lo que vamos a suponer es que nuestro modelo es vlido para
dicho ao, lo que en la prctica implica suponer que las condiciones que prevalecieron
para el periodo muestral considerado en la etapa de estimacin se mantendrn en el
futuro. Entonces el ejercicio de pronstico significa hacer una prediccin suponiendo que
las condiciones estructurales se mantienen constantes.
3. Simulacin de Polticas: Esta categora implica un uso mucho ms atrevido del modelo
que en los dems casos. El ejercicio de simulacin consiste en realizar predicciones
futuras de nuestra variable dependiente permitiendo que los factores estructurales2
varen. As bajo esta categora se podra responder a la pregunta Qu pasara con el
producto bruto interno en el Per si pasamos a un rgimen mucho ms intervencionista
que el actual? Obviamente un cambio en las condiciones estructurales afectar el
comportamiento de los agentes econmicos y, por tanto, la respuesta de stos variar. Si
hacemos un ejercicio de simulacin de polticas debemos tener un elevado grado de
certidumbre con respecto a la idoneidad de nuestro modelo para tal fin. La crtica de
Lucas3 precisamente cuestiona el uso indiscriminado que se le daba a los modelos
macroeconomtricos estimados a fines de la dcada del 60 y principios de los 70 para
este fin.
Cada uno de los usos mencionado implica ciertas condiciones sobre las variables que
intervienen en nuestro modelo que estudiaremos ms adelante. Por ahora nos centraremos en el
primer uso de nuestro modelo que es el de la inferencia. Desarrollaremos las tcnicas y
metodologas existentes para la realizacin de pruebas de inferencia estadstica.
4.2. PRINCIPIOS DE LA INFERENCIA
2
Tambin podemos utilizar la expresin factores subyacentes de la economa o rgimen imperante.
3
Lucas, Robert E. (1977) Econometric Policy Evaluation: A Critique reimpreso en Lucas (1980) Studies in
Business-Cycle Theory, MIT Press.
82
En general, lo que se busca con la inferencia estadstica es obtener un estadstico muestral

que nos permita responder, con cierto grado de certeza, si ciertas restricciones que impone una
teora son respaldadas por los datos de una muestra en particular. En general, las restricciones
que se plantean estn referidas a la poblacin o el proceso generador de datos. Si los datos son
generados por dicha poblacin, a partir de ellos podemos analizar si cumplen o no con las
caractersticas planteadas. Es decir, del anlisis de los datos muestrales intentamos inferir si la
poblacin presenta las caractersticas que nosotros planteamos a partir de nuestras hiptesis.
Entonces podemos decir que nosotros sospechamos que ciertos datos (nuestra muestra) son
consistentes con determinada teora econmica (que impone ciertas restricciones sobre la
poblacin) y para ello necesitamos realizar pruebas a fin de contrastar la hiptesis que se
plantea. En ello se basa el conocimiento cientfico: plantear hiptesis que pueden ser refutadas
empricamente a travs de la experimentacin. Si no hubiera forma de someter a prueba las
diferentes hiptesis estaramos en el terreno de los dogmas y ello est ms relacionado con la
fe4.
Varios ejemplos pueden ilustrar las ideas que estamos esbozando:
En primer lugar podemos pensar en que un investigador est estudiando cules son los
determinantes del consumo y para ello plantea la siguiente ecuacin:
p
C t = 0 + 1Yt + 2 Yt + 3 rt + 4 Wt + t
donde:
Yt = Ingreso Corriente
Ypt = Ingreso Permanente
rt = Tasa de inters real
Wt = Riqueza
Segn el modelo que piensa estimar el investigador se estn incluyendo una serie de factores
que responden a diversas teoras que se han esbozado sobre el consumo. El investigador lo que
busca es identificar para el caso de la muestra que analiza (por ejemplo data peruana de 1940 a
1999) los principales determinantes de la variable econmica mencionada. Sin embargo, cmo
en la prctica puede discernir entre una teora y la otra? Supongamos que piensa preguntar si
las teoras del ingreso permanente y del ciclo de vida son relevantes para el caso peruano. Para
ello necesita plantear alguna hiptesis que se puede comprobar sobre la base del modelo.
Como ya hemos mencionado, es relevante mencionar que una teora implica imponer ciertas
restricciones sobre los datos. Nosotros podemos observar, por ejemplo, que la correlacin entre
la cantidad saldos reales y el producto es positiva. Sin embargo, sabemos que dicha correlacin
no implica ninguna causalidad. Por ello, algn terico plantear ciertas relaciones entre las
variables y propondr dicho esquema como una explicacin convincente de lo que ocurre en la
realidad. Este esquema resumido en ciertas ecuaciones matemticas ser la teora propuesta y
deber comprobarse empricamente su relevancia o no. Las pruebas de hiptesis no nacen de la
nada sino que son inspiradas por alguna teora. El arte de la modelacin est en plantear un
modelo que nos permita verificar en forma de restricciones (expresadas en hiptesis) las
explicaciones que propone alguna teora. En este sentido se ve claramente que la economa gua
a la medicin econmica, de lo contrario sera un mero ejercicio estadstico que carecera de
sentido.
4
De hecho la base de todas las religiones es el dogma en donde lo que predomina es la fe. Los creyentes no piden
pruebas sino que han decidido creer, basado no en pruebas contrastables sino en otros elementos ms espirituales.
83
En funcin de lo expresado en el prrafo anterior, el camino ms utilizado para la

modelacin economtrica consiste en el planteamiento de alguna hiptesis que se quiere
refutar. Este tipo de hiptesis recibe el nombre de hiptesis nula. En el caso de nuestro modelo
la hiptesis nula sera la siguiente:
H o : 2 = 0
H1 : 2 0
En este caso lo que estamos planteando es que el ingreso permanente no es un factor

determinante del consumo para el Per durante el periodo 1940 1999 dado que el parmetro
que lo multiplica es igual a cero. Por tanto, lo que vamos a poder comprobar a travs de la
inferencia es la validez de esta restriccin, lo cual implicara la eliminacin de esta variable de
la ecuacin.
La pregunta ahora es la siguiente cmo vamos a comprobar esta hiptesis? Para ello
necesitamos aclarar un poco ms qu implica la hiptesis planteada. En todo ejercicio de
inferencia estadstica debemos tomar en cuenta cierta distribucin de probabilidad conocida
para identificar si, en trminos de esta distribucin, la probabilidad de que se cumpla la
hiptesis nula es alta o no. Por tanto, debemos hacer ciertos supuestos de cmo se distribuyen
las variables consideradas. Entonces la hiptesis nula o planteada implica preguntar si el valor
del parmetro estimado proviene de una funcin de distribucin probabilstica centrada en el
valor que se plantea en la hiptesis nula.
El grfico que se presenta a continuacin nos da una idea de la metodologa de

comprobacin de una hiptesis. El planteamiento de la Ho mencionada arriba implica plantear
una funcin de distribucin de probabilidad cuya media sera cero. Ello implica que si
pudiramos repetir el proceso de estimacin con diferentes muestras aleatorias generadas a
partir de la misma distribucin el promedio de los parmetros estimados para cada muestra es
cero. De ninguna manera implica necesariamente que cada estimado sea igual a cero. Por lo
tanto, se va a buscar comprobar a travs de la prueba de hiptesis si la diferencia observada
entre el estimado y la media supuesta de la distribucin (Ho) se debe a factores meramente
aleatorios o a factores estructurales. Si el caso fuera el primero de los mencionados entonces no
se puede rechazar la hiptesis nula5. Si fuera el segundo caso, no podramos aceptar la Ho6.
Sin embargo, Cmo en la prctica respondemos la pregunta formulada o, en trminos ms

precisos, qu criterio utilizamos para decir que no rechazamos o aceptamos una hiptesis nula?
5
Lo que comnmente mencionamos como aceptar la hiptesis.
6
Esto lo conocemos tambin como rechazo de la hiptesis nula o planteada.
84
Aqu es donde cobra importancia el supuesto que hacemos con respecto a la funcin de
distribucin vlida. En trminos del grfico que presentamos, podemos esperar que una
diferencia aceptable entre el valor estimado y el valor que se plantea en la hiptesis nula sea de
2 desviaciones estndar. De hecho en muchas funciones de distribucin en el rango 2 se
encuentra el 95% de las observaciones7. Si la diferencia fuera mayor a dicha cifra entonces
diramos que la probabilidad de que se cumpla la nula es muy baja y por tanto no podramos
aceptar la Ho.
A estas alturas deben preguntarse por qu se habla de no poder rechazar o aceptar las
hiptesis en vez de afirmar tajantemente si acepto o rechazo. Esto se debe a que la conclusin a
la que llegamos no es una afirmacin sobre la cual se tenga certeza absoluta. Es un criterio
arbitrario el que se ha usado para establecer el lmite entre dos zonas (una llamada de
aceptacin y otra de rechazo). Pero Qu pasa si en verdad el parmetro proviene de una
distribucin centrada en el valor que plantea la hiptesis nula pero la diferencia grande se debe
a la presencia de un shock o factor aleatorio muy fuerte? La respuesta es que seguramente se
rechazara (siguiendo el criterio establecido) la hiptesis nula pero en verdad sera cierta.
Este tipo de problema que surge con la inferencia recibe el nombre de Error Tipo I. Esto es,
la probabilidad de que rechacemos una hiptesis que es cierta. En la metodologa convencional,
el usuario escoge el nivel de Error Tipo I que ms le acomode. El nivel que suele escogerse
generalmente es de un 5%. Esto es lo que se llama el nivel de significacin estadstica (o el ).
En cada prueba tambin se verifica la existencia de un Error Tipo II. Este error mide la
probabilidad que se acepte una hiptesis que es falsa8. Como vemos, la presencia de estos dos
tipos de errores indican que al aplicar la prueba no tenemos la absoluta certeza de nuestras
conclusiones sino que lo que buscamos es tratar de obtener un resultado con la mayor
probabilidad de que sea cierto. Una buena prueba es aquella que tiene el mayor poder, donde
poder se define como la probabilidad de rechazar correctamente una hiptesis falsa (en
trminos de probabilidades, la mayor proporcin 1 - ). Por ello, una prueba ms poderosa ser
aquella que para el mismo nivel de significacin estadstica tiene el mayor poder.
Generalmente, cuando se propone una prueba, su uso se justifica en la medida que sea ms
poderosa que otras.
Estos conceptos pueden ser esquematizados en el siguiente cuadro:
Situacin real de Decisin utilizando la informacin muestral

la poblacin Acepto Ho Rechazo Ho
Ho cierta No hay error Error Tipo I

Prob()= 1- Prob(Error Tipo I) =
Ho falsa Error Tipo II No hay error

Prob(Error Tipo II) = Prob()=1-
Si todo lo anterior suena un poco complicado, el ejemplo del sistema judicial puede
ayudarnos. En todo juicio se parte de una premisa. Esta consiste en suponer que el acusado es
inocente y el trabajo del fiscal es demostrar a travs de la presentacin de pruebas contundentes
7
En otros trminos ello implica que debajo de ese rango se concentra el 95% del rea por debajo de la curva de
distribucin.
8
Esta probabilidad tiene como smbolo la letra generalmente.
85
que la premisa de la cual se parte es falsa. La premisa de la que se habla sera la hiptesis nula
o planteada. El juicio en s sera todo el proceso de la realizacin de la prueba.
Si el fiscal no logra presentar pruebas suficientes usualmente se dice que el acusado no es

culpable, no se afirma que sea inocente. Ello porque si las pruebas no fueron suficientes para
demostrar su culpabilidad no quiere decir que la persona sea inocente. En la prctica se tiene
muchos asesinos que no pueden ser sentenciados porque no se comprob su culpabilidad.
Los problemas con este tipo de sistema es que algunos acusados pueden ser declarados
culpables cuando son inocentes (Error Tipo I) y otros pueden ser declarados inocentes cuando
en verdad son culpables (Error Tipo II). En todo caso, de la discusin anterior se desprende que
el sistema judicial est diseado para que se minimice la probabilidad que un inocente sea
declarado culpable. Como sabemos esto se mide por la probabilidad del Error Tipo I. Entonces
debe quedar claro que el lo escoge la sociedad y vendra a representar la valla que debe
superar el fiscal para comprobar que el acusado es culpable. De la misma manera, al realizar
una prueba el usuario escoge el nivel de significancia con lo que est decidiendo cul debe ser
el grado de evidencia en contra que debe presentarse a fin de no aceptar la hiptesis de la cual
se parte.
Una cuestin adicional que debe notarse es que la no aceptacin de la hiptesis nula o
planteada no significa que se est aceptando lo contrario. Lo nico que se puede discutir es la
relevancia de la hiptesis planteada o nula. Por ello, las pruebas deben interpretarse como qu
tan relevante es la restriccin que se est planteando en la hiptesis nula dada la evidencia que
se maneja, la cual est representada por la muestra (los datos) que se utiliza.
Por otro lado, si cierta restriccin planteada por alguna teora no es aceptada no quiere decir
que la teora est errada. Lo nico que se podra afirmar es que para la muestra que nosotros se
tiene los datos no son consistentes con dicha teora. Para rechazar una teora tenemos que
acumular mucha evidencia en contra. Ello implica realizar el ejercicio estadstico de la
estimacin de un modelo para distintas muestras, por ejemplo en otros periodos y para otros
pases.
Si se acumulara mucha evidencia en contra, recin se podra empezar a sospechar de la

idoneidad de la teora planteada y, por tanto, surgira la necesidad de la proposicin de una
teora alternativa la cual luego debera ser contrastada empricamente con los datos de distintos
pases y/o muestras. De esta manera va avanzando el proceso de conocimiento econmico.
4.3. LA METODOLOGA DE LAS PRUEBAS DE HIPTESIS
Como ya hemos mencionado, para realizar la inferencia estadstica se debe partir de suponer
una funcin de distribucin probabilstica conocida. En este caso supondremos que los errores
se distribuyen de la siguiente manera:
e ~ N (0, 2 ) (4.1)
Esta expresin debe leerse como e se distribuye como una normal con media 0 y varianza
2 9. Dado que los errores se distribuyen de esta manera, ello implica que la variable
dependiente tambin sigue una distribucin normal. Se deja como ejercicio determinar qu tipo
de media y varianza tendr esta distribucin.
9
Debe notarse que slo se est describiendo a la funcin por sus dos primeros momentos. En el caso de una
distribucin normal slo es necesario ello dado que presenta ciertas propiedades dadas para los momentos superiores.
86
Como sabemos, nuestro estimador es: = (X X) 1 X Y . Esta expresin implica que existe
una relacin entre el estimador y la variable dependiente. Como ya se ha visto en secciones
anteriores, el estimador es una funcin de los datos y, en especial, es una funcin lineal de la
variable dependiente. Por tanto, podemos concluir que nuestro estimador es tambin una
variable aleatoria.
Un elemento que puede ayudar a aclarar el punto que est detrs de la conclusin anterior
es el siguiente: la muestra que tenemos es aleatoria. La variable dependiente es la suma de dos
componentes: el componente determinstico que est representado por la combinacin lineal de
las variables independientes (las cuales consideramos fijas) ms un trmino de error que es
aleatorio. Lo anterior implica que los valores que tome la variable dependiente estarn en
funcin de los valores que tomen los errores. Si se tomara otra muestra, los valores de las X
seguiran siendo los mismos (por ello el supuesto de que las X son fijas) pero los valores de los
errores podran cambiar (dado que son variables aleatorias) dando como resultado valores de la
variable dependiente ligeramente distintos a los de la primera muestra. El suponer que la media
de los errores es cero implica de cierto modo que los nuevos valores muestrales no sern muy
distintos de los de otra muestra. Por tanto, si los valores de Y pueden variar ligeramente en
muestras distintas, el estimado obtenido a partir de cada muestra ser distinto a los de otras
muestras.
As, si la muestra es aleatoria, ello implica que para cada muestra (que ser ligeramente
distinta a otras), tendremos un estimado distinto. Por ello se dice que el estimador es una
variable aleatoria dado que para cada valor de muestra especfico tendremos un valor distinto
del parmetro. Al plantear una hiptesis nula lo que estamos diciendo es que si se repitiera el
proceso de estimacin con distintas muestras un gran nmero de veces, el promedio de los
estimados sera igual al valor planteado en la hiptesis. Esto nos indica, de hecho, que el
estimado obtenido en una muestra particular no tiene que ser igual al valor planteado en la
hiptesis que se quiere analizar en un sentido estricto sino en un sentido probabilstico.
En vista de lo explicado anteriormente podemos decir que nuestro estimador de MCO se

distribuir de la siguiente forma:
(
~ N k , 2 ( X X ) 1 ) (4.2)
El resultado anterior se deriva del supuesto inicial de los errores. Adems, se ha demostrado
que el parmetro es insesgado y se ha hallado la varianza del mismo.
Por otro lado, ya hemos comprobado que el trmino de error estimado es una transformacin
lineal del error terico o poblacional segn la siguiente expresin:
!
[ ]
e = Y - X = I n X (X X ) 1 X = M (4.3)
Donde M es una matriz simtrica e idempotente conocida como la matriz de proyeccin

ortogonal de la variable dependiente sobre el espacio donde estn definidos los errores y que
fue ya presentada en el Captulo 3. Los elementos descritos hasta el momento sern tiles para
construir la expresin que permita evaluar empricamente las diversas hiptesis planteadas.
Lo que queremos analizar es cun lejos est nuestro estimado del valor que proponemos
como cierto en nuestra hiptesis nula. Como ya se ha mencionado, si la diferencia es pequea
podremos interpretar nuestros resultados como que el valor estimado proviene de una
distribucin que est centrada en el valor propuesto en la hiptesis planteada. Si la diferencia es
87
grande se tendr algn grado de certeza (no absoluta) de que dicho valor proviene de una
distribucin distinta.
Por tanto, la expresin a analizar ser la siguiente:
( ) (4.4)
en este caso estar representado por el valor propuesto en la hiptesis nula. Esta expresin no
pierde sus propiedades si es que se multiplica por la matriz X que contiene las observaciones de
nuestras variables independientes:
X( )
Ahora se ver la conveniencia de plantear en estos trminos la diferencia que se quiere

analizar.
Se sabe que:
X ( ) = (Y M) X = M = P
(4.5)
P = X (X X ) 1 X
P es la matriz de proyeccin ortogonal de la variable dependiente en el espacio definido por

las variables independientes que ya fue presentada en el Captulo 3. Como se sabe es una matriz
simtrica e idempotente de dimensin N x N.
La conveniencia de plantear de esta forma la expresin a analizar radica en las siguientes

propiedades que se presenta a continuacin:
En una matriz simtrica e idempotente, su rango es igual a su traza:
En este caso:
[ ] [ ]
Rango (P) = Tr (P) = Tr X (X X ) 1 X = Tr (X X ) 1 X X = Tr (I k ) = k (4.6)
Por otro lado, ya comprobamos en el Captulo 3 que la traza de M es igual a (n-k)
Si x ~ N(0, 2x I n ) entonces:
x Ax
~ 2 ( m) (4.7)
2x
lo cual quiere decir que la expresin definida en esta expresin se distribuye como una variable
chi-cuadrado con m grados de libertad. Donde m es el rango de la matriz A si es que esta es
simtrica e idempotente.
Si se toma en cuenta estas propiedades, se podr plantear la siguiente expresin:
1 1
( )X X ( ) = P (4.8)
2 2
88
esta expresin se distribuir como una chi cuadrado con k grados de libertad. Ello se desprende
del hecho que cumple con los requisitos planteados en las propiedades mencionadas
anteriormente.
Adicionalmente se define la siguiente expresin:
2 1 1
(n k ) = e e = M (4.9)
2 2 2
la cual tambin cumple con las condiciones establecidas anteriormente, por lo que se distribuye
segn una chi-cuadrado con n-k grados de libertad.
La razn por la cual se define estas dos expresiones es que si se utiliza la primera de ellas
para realizar la inferencia estadstica afrontamos un problema: todas las expresiones son
conocidas a excepcin de 2 . Para eliminar dicha dificultad se debe buscar una forma de
eliminar esta expresin. Aqu es donde se encuentra la utilidad de la segunda expresin
definida. Ntese que si se divide la primera por la segunda, se elimina 2 y se obtiene una
expresin en funcin de puras magnitudes conocidas.
Como se sabe, la divisin de dos variables chi-cuadrado divididas cada una por sus grados
de libertad da una variable que se distribuye como una F de Fisher. Sin embargo, para poder
estar seguros que la expresin resultante se distribuye como una F primero se debe demostrar
que ambas expresiones son independientes entre s.
Para tal fin planteamos la siguiente proposicin:
PROPOSICIN 4.1: Los estimadores MCO de y 2 son independientes entre s.

Para realizar la demostracin de esta proposicin se debe mencionar la siguiente propiedad:
Supongamos que:
x ~ N (0, 2 I n )
x Ax es una forma cuadrtica en la que A es una matriz cuadrada simtrica e idempotente de

orden n.
Lx es un vector de m elementos, siendo cada elemento una combinacin lineal de las x. L es

de orden m x n y no necesita ser ni cuadrada ni simtrica.
Si las covarianzas entre las variables de Ax y Lx son cero, esto supondr que:
E{Axx L } = 2 AL = 0 (4.10)
o de forma equivalente LA = 0
Utilizando esta propiedad se debe buscar equivalentes en trminos de las expresiones

planteadas anteriormente de tal forma que se pueda aplicar la propiedad descrita.
Para tal fin debemos recordar la expresin:
89
( ) = (X X) 1 X
en esta expresin vendra a representar el x y (X X) 1 X sera el equivalente del L.
Por otro lado, se tiene la expresin de los errores mnimos cuadrticos que se sabe son una
transformacin lineal del verdadero trmino de error:
e = M
en este caso M juega el papel de la matriz A. A partir de esta expresin se obtiene la suma de
errores al cuadrado e e = M que es una forma cuadrtica que cumple con las condiciones
requeridas. Entonces para poder aplicar el resultado anterior se debe demostrar que los
equivalentes de A y L son ortogonales entre s (recordar LA = 0). Utilizando los trminos
definidos anteriormente, planteamos la siguiente expresin, la cual ser igual a cero:
(X X ) 1 X M = 0 (4.11)
Esto se desprende del hecho que X y la matriz de proyeccin ortogonal M son ortogonales
entre s. El resultado presentado indica que ambas expresiones son independientes entre s. Si
se analiza las expresiones, vemos que ( ) incluye el estimador mnimo cuadrtico de los
parmetros y en la expresin e e , dicha magnitud se utiliza para la estimacin de la varianza de
los errores. Por lo tanto los estimadores MCO de y 2 son independientes entre s. LQQD.
Una vez demostrada la independencia entre ambas expresiones se puede construir el

estadstico F de la siguiente forma:
( ) X X ( )
P ( ) X X ( )
k = 2 k k
= ~ F(k, n-k) (4.12)
M (n k ) 2 e e
nk (n k )
2 (n k )
Como se ve en la ltima expresin se han eliminado aquellos elementos desconocidos y se

plantea todo en trminos de magnitudes conocidas o que se pueden obtener a partir del proceso
de estimacin. Los grados de libertad son k para el numerador y n-k para el denominador.
Con este procedimiento se puede ilustrar cul era la motivacin de la creacin de la prueba
F. Usualmente las pruebas originales estaban basadas en la distribucin normal y su
transformacin chi-cuadrado. Sin embargo, estas pruebas incluyen magnitudes desconocidas.
La bsqueda de expresiones que estuvieran en funcin de magnitudes estimables a partir de la
muestra con que se cuenta llev al planteamiento de distribuciones como la F de Fisher y la t de
Student, las cuales se derivan de una distribucin normal tal como sabemos.
Una forma ms compacta de las magnitudes anteriores viene dada por la siguiente
expresin:
[
( ) 2 (X X ) 1 ]
1
( ) / k ~ F(k, n-k) (4.13)
90
donde lo que se ha hecho es incluir la varianza estimada del error dentro del corchete. Esta
expresin contiene toda la intuicin que se necesita para entender lo que est detrs de un
ejercicio de inferencia estadstica. Como vemos, la expresin ( ) mide la diferencia
existente entre el estimado de mnimos cuadrados ordinarios y el valor que se plantea en la
hiptesis nula. Esta diferencia en trminos absolutos no indica mucho dado que debe ser
evaluada en trminos de la varianza del parmetro que es justamente la expresin que est entre
corchetes. As, si la diferencia es pequea en trminos de la varianza quiere decir que en
trminos relativos podemos pensar que los estimados provienen de una distribucin que est
centrada en el valor que se propone en la hiptesis nula o planteada. Por el contrario si la
diferencia relativa es considerable se puede concluir (nunca con certeza absoluta) que los
parmetros obtenidos provienen de una distribucin diferente.
Es importante sealar aqu el papel que juega la varianza de los errores o el grado de
dispersin de las X. Ya en los captulos precedentes se mencion el rol que desempean ambos
en la varianza de los parmetros. As, si la varianza calculada de los estimados es elevada, ello
implica que el grado de precisin de los mismos es bajo. Ello llevar a que cualquier diferencia
absoluta del numerador sea pequea en trminos relativos si la varianza es elevada.
Un ejemplo puede ayudar a entender el punto. Si se plantea una demanda de dinero segn el
enfoque de Cambridge y se supone que la relacin es lineal, se puede llegar a la siguiente
expresin:
ln m = 1 + 2 ln Y + 3 ln r + e (4.14)
supongamos que existen dos investigadores que utilizan distintas muestras para estimar esta
demanda para el Per y los estimados que obtienen cada uno son los siguientes:
Investigador A Investigador B
1 0.44 0.67
2 0.96 -0.15
3 -0.34 0.65
Por otro lado, tenemos que la matriz de varianzas y covarianzas de los estimadores en cada
caso tienen los siguientes componentes:
35 45 36 65 56 76
(X X ) 1A = 45 65 57 (X X ) 1B = 56 84 65
36 57 64 76 65 72
2 = 2.5 2 = 3.6
A B
Ntese que segn estos datos, la varianza de la elasticidad del ingreso en ambos casos es
162.5 (65x2.5) y 302.4 (84x3.6) la cual es muy alta si se considera los valores calculados en
cada caso (0.96 y 0.15 respectivamente). Si se plantea la siguiente hiptesis:
1 0
Ho: 2 = 0
3 0
91
H1: al menos uno es distinto de cero
y se realiza el clculo correspondiente se ver que no se puede rechazar la hiptesis nula (el
clculo se deja al lector) en ninguno de los dos casos. Por otro lado si se plantea la siguiente
hiptesis:
1 0.5
Ho: 2 = 1
3 0.5
H1: al menos una de las anteriores no se cumple
La cual tiene un planteamiento ms realista se ver que tampoco se puede rechazar esta
hiptesis en ninguno de los dos casos. As, cada investigador podr comprobar que sus
resultados estn correctos. Sin embargo, los resultados indicaran que casi cualquier valor
planteado no podra ser rechazado lo cual no da mucha seguridad con respecto al ejercicio de
inferencia. La raz del problema radica en la amplia varianza de los resultados en cada caso.
Dado el tamao de esta vemos que casi cualquier valor plausible segn distintas teoras no
podra ser rechazado. De esta manera, los resultados son pobres y no conduciran a ninguna
conclusin con respecto a las distintas teoras alternativas que se estaran verificando. Por ello
es importante obtener estimadores eficientes a fin de poder realizar buenos ejercicios de
inferencia estadstica. Con una varianza muy grande el ejercicio carece de utilidad.
A manera de resumen se puede decir que la expresin (4.13) ser la que marque la pauta
para todas las pruebas que se plantearn ms adelante. La discusin anterior solamente ha
intentado aclarar la intuicin detrs de la realizacin de un ejercicio de inferencia estadstica.
Los pasos para realizar una prueba son los siguientes:
1. La estimacin del modelo lineal a travs del algoritmo de mnimos cuadrados ordinarios
nos provee de estimados relativos a la muestra con que contamos. Estos estimados
reemplazan a en la expresin planteada.
2. El ser reemplazado por los valores supuestos como ciertos que se establecen al plantear
la hiptesis nula.
3. (X X) 1 se reemplaza por su equivalente muestral.
4. 2 se obtiene a partir de la estimacin del modelo tomando los errores, elevndolos al

cuadrado, sumndolos y dividindolos entre (n-k).
5. El valor calculado se compara contra el valor F de tabla con k grados de libertad en el

numerado y n-k en el denominador.
Los criterios que se seguirn para analizar los resultados son los siguientes:
Si Fcalc < Ftabla (k, n-k) no se puede rechazar Ho

Si Fcalc > Ftabla (k, n-k) no se puede aceptar Ho
92
El nivel de significacin estadstica (el ) lo escoge el usuario, aunque lo usual es escoger

un nivel de 5% ( = 0.05). Se recuerda que esta es la probabilidad de error tipo I que se est
dispuestos a aceptar.
Debe quedar claro que si la restriccin que se est analizando no puede ser rechazada ello
quiere decir que debe ser incorporada al modelo.
4.4. PRUEBAS ESPECFICAS DE INFERENCIA ESTADSTICA
Luego de analizar los principios que estn detrs de la realizacin de un ejercicio de

inferencia estadstica es muy til revisar el planteamiento de las pruebas ms utilizadas en el
anlisis emprico cotidiano. Cada una de ellas tiene caractersticas y objetivos distintos y se
debe estar atentos a la idoneidad de cada una de ellas ante situaciones particulares.
4.4.1 Prueba de hiptesis para un slo parmetro
Esta es la prueba ms utilizada en el anlisis economtrico emprico. Implica el anlisis de

alguna restriccin planteada para un slo parmetro. La hiptesis planteada se puede establecer
de la siguiente manera:
Ho : i = i0
H1 : i i0
donde i0 es una constante.
El primer paso para poder hallar una expresin que permita analizar esta hiptesis es
conocer la funcin de distribucin de la variable aleatoria a analizar. En este caso, la variable
aleatoria es el estimador del parmetro individual i.
Nosotros sabemos que:
~ N k (, 2 (X X) 1 ) (4.15)
lo cual muestra la distribucin con respecto al estimador de todo el vector de parmetros. Sin
embargo, interesa conocer la distribucin del estimador del parmetro i. Esta se puede obtener
fcilmente a partir de (4.15):
i ~ N ( i , 2 a ii )
Si todo el vector se distribuye segn una distribucin normal es de esperarse que cada uno
de sus elementos tambin lo haga. La media ser el verdadero valor dado que sabemos que el
estimador MCO es insesgado. a ii es el elemento i-simo de (X X ) 1 el cual corresponde a la
varianza del estimador de i .
Si se quiere construir una expresin que sea comparable con una distribucin conocida lo
mejor en este caso ser estandarizar las observaciones (esto es, restarle la media y dividirla
entre su desviacin estndar):
93
( i i0 )
~ N(0,1) (4.16)
a ii
Esta expresin se distribuye como una normal estandarizada (lo que implica que tiene una
media de cero y una varianza igual a uno). Debe notarse que la media que se est restando es
justamente el valor propuesto en la hiptesis nula lo que refleja el supuesto que se realiza en
todo ejercicio de inferencia: se parte suponiendo que la hiptesis nula es cierta y sobre la base
de ello se construye el estadstico a utilizar.
Como en el caso de nuestra prueba general, surge el problema que es desconocido y por
lo tanto, no se puede realizar el ejercicio de inferencia estadstica con la informacin muestral
de la cual disponemos. La solucin a esta dificultad pasa por intentar eliminar este trmino
desconocido a travs de una transformacin que permita obtener una expresin la cual tenga
una distribucin conocida.
Esto lo podemos lograr dividiendo la expresin anterior por la expresin que ya hemos
utilizado anteriormente para obtener la prueba F:
(n k ) 2
2
Como sabemos esta expresin se distribuye como una chi-cuadrado con (n-k) grados de
libertad. La ventaja de esta magnitud reside como en el caso general- en que la divisin de una
distribucin normal estndar entre la raz de una chi-cuadrado dividida por sus grados de
libertad es una distribucin t de student:
i i0
a ii i i0
= ~ t (n k ) (4.17)
(n k ) 2 a ii
2 (n k )
La nueva expresin obtenida est en trminos de magnitudes observables. Si se analiza en

detalle en el numerador se tendr la diferencia entre el valor estimado y el valor que se supone
es la media de la distribucin. En el denominador se tiene la desviacin estndar estimada del
estimador. Nuevamente se cumple el principio de que el anlisis de la diferencia que se
presenta en el numerador debe hacerse en trminos de la dispersin del mismo.
Esta prueba es una de las ms utilizadas por todos los paquetes economtricos. La hiptesis
que se quiere analizar es que los distintos parmetros son iguales a cero ( i0 = 0 ). Con ello se
estara comprobando si los parmetros de cada una de las variables independientes son en
trminos probabilsticos iguales a cero. De no poderse rechazar estas hiptesis la conclusin es
que aquellas variables asociadas a cada uno de los parmetros deberan eliminarse del modelo.
4.4.2 Prueba para Restricciones Generales (R r )
Las pruebas que se han analizado hasta el momento implican restricciones relativamente
sencillas. En la mayora de los casos, las hiptesis se han referido a ciertos valores para cada
94
uno de los parmetros a estimar. Sin embargo, las restricciones que puede imponer la teora
econmica pueden ser en la prctica ms complicadas que las consideradas hasta ahora.
Un ejemplo de ello se puede observar en la formulacin de una funcin de demanda para

cualquier producto. Como sabemos, la teora econmica plantea que la cantidad demandada de
un bien est en funcin de tres argumentos: el precio relativo (Px) del bien en cuestin, el
ingreso (I) y el precio de los bienes relacionados (Py). Dados los valores de estos tres
argumentos, el consumidor decide qu cantidad consumir de dicho bien. En trminos
estadsticos podemos plantear el siguiente modelo:
LnX d = 1 + 2 LnPx + 3 LnI + 4 LnPy + e (4.18)
La ventaja de plantear el modelo en trminos del logaritmo de las variables10 es que nos
permite calcular directamente las elasticidades de la demanda y hace el supuesto de que stas
son constantes.
Como sabemos para que una demanda sea consistente con los principios de la teora del
consumidor debe cumplir con una serie de propiedades. La homogeneidad de grado cero es una
de ellas. Como deben recordar, esta propiedad implica que si los precios y el ingreso cambian
en la misma proporcin, no habr ningn cambio en la eleccin que realice el consumidor.
En trminos de nuestro modelo esta restriccin se puede plantear de la siguiente manera:
2 + 3 + 4 = 0
Lo cual en trminos tericos ello implica que la suma de las elasticidades debe ser igual a
cero.
Segn lo que sabemos hasta el momento no es posible plantear una prueba que nos permita
verificar este tipo de restricciones.
Para tal efecto, se realizar un planteamiento general que permita la suficiente flexibilidad
como para verificar cualquier restriccin que implique una combinacin lineal de los
parmetros estimados.
Supongamos que para nuestro modelo (4.18), se plantean las siguientes hiptesis nulas:
H 0 : 2 + 3 + 4 = 0
2 = 4
3 = 1
H1 : Al menos una no se cumple
Estas tres hiptesis pueden plantearse por alguna teora en particular. La primera restriccin
indica la propiedad de homogeneidad de grado cero ya mencionada. La segunda indica que la
elasticidad precio y la cruzada son iguales. Como sabemos, la elasticidad precio es casi siempre
negativa, si la elasticidad cruzada tiene el mismo valor y signo, entonces el bien relacionado
ser un complementario. Por ltimo, la tercera restriccin indica que el valor de la elasticidad
ingreso es igual a la demanda autnoma. Suponemos que la teora que est detrs de esta
demanda es la misma por lo que la validez de la misma implica que las tres restricciones se
10
En trminos de la jerga economtrica este modelo se conoce como un modelo doble logartmico
95
cumplen a la vez. El rechazo de cualquiera de ellas implica que la teora no sera vlida en el
contexto de nuestra muestra.
En trminos matriciales estas restricciones se pueden plantear de la siguiente forma:
1
0 1 1 1 0
0 1 0 1 2 = 0

1 0 1 0 3 0
4
R = r
La primera matriz, R, es la que resume las restricciones planteadas. Ntese que el nmero de
filas de R corresponde al nmero de restricciones. El vector corresponde a todos los
parmetros estimados. Por ltimo el vector r resume las constantes a las que son iguales las
restricciones. En este caso particular los tres valores son iguales a cero pero pueden ser
distintos a estos valores en funcin a las restricciones que se plantean.
Una vez descrita la forma general en que se puede plantear restricciones que impliquen
combinaciones lineales de los parmetros se debe plantear ciertas condiciones que aseguren que
la prueba pueda realizarse correctamente. Estos son los supuestos:
Las matrices R y r son conocidas. Es obvio que si se desea plantear alguna restriccin
debemos saber cules son estas. Por otro lado, conocer los valores de estas matrices permite
construir el test sin el problema de tener trminos desconocidos que obligan a transformaciones
adicionales.
El nmero de restricciones lineales (q) es menor o igual al nmero de parmetros del modelo
(k). Esta especificacin est relacionada con la identificacin de un sistema de ecuaciones.
El rango de la matriz R debe ser igual a q. Ello implica que las restricciones lineales sern
linealmente independientes. Esto previene el hecho de estar comprobando dos veces la misma
hiptesis.
Para la construccin del test estadstico se parte suponiendo que la distribucin del
estimador es normal:
(
~ N , 2 (X X) 1 )
Si R tiene rango q entonces:
(
R ~ N q R, 2 R (X X ) 1 R )
entonces:
R ( ) ~ N q (0, 2 R (X X ) 1 R )
Si suponemos que la hiptesis nula es cierta (como es el caso en la construccin de

cualquier estadstico que nos permita verificar cierta hiptesis): R = r . De cumplirse esta
condicin el estadstico quedara convertido en:
96
R r ~ N q (0, 2 R ( X X ) 1 R )
Ahora, dado que la distribucin est centrada en cero, si realizamos la siguiente operacin:
[
(R r ) 2 R (X X ) 1 R ]
1
(R r ) ~ (2q ) (4.19)
Se obtiene una distribucin chi-cuadrado con q grados de libertad dado que el rango del
elemento entre corchetes es igual a q, lo cual quiere decir que se suman q veces distribuciones
normales elevadas al cuadrado.
Sin embargo, como se sabe el problema con esta expresin es que no se conoce 2 por lo
que se debe eliminar este trmino. Para tal fin se utiliza lo que a estas alturas ya debe ser un
procedimiento estndar, es decir, se divide por (4.9). Si la intencin es obtener una distribucin
conocida la candidata ideal es una F:
[
(R r ) 2 R (X X) 1 R ]1
( R r )
q
~ F(q, n-k)
e e
(n k ) 2
Esta expresin permite eliminar la varianza terica del modelo. Por otro lado, dado que
ee /(n k ) es el estimador de la varianza, se puede rescribir la anterior expresin como:
[
(R r ) 2 R (X X ) 1 R ]
1
(R r ) / q ~ F(q, n-k) (4.20)
Esta expresin tiene toda la intuicin que se requiere. En trminos matriciales en el

numerador tenemos la diferencia elevada al cuadrado entre la restriccin planteada r- y la
aplicacin de las mismas a los estimadores de los parmetros no restringidos. Esta diferencia se
evala en trminos de la varianza relevante. Para cumplir con la condicin que se distribuya
como una F se divide entre el nmero de restricciones impuestas.
Como en todas las pruebas anteriores si el Fcalc < Ftab no se puede rechazar la Ho . Por otro
lado, si Fcalc > Ftab no se puede rechazar la Ho.
Utilicemos un ejemplo que pueda ilustrar lo que se ha planteado. Vamos a corroborar las
hiptesis presentadas como introduccin a esta prueba. Se ha procedido a estimar un modelo y
se han obtenido los siguientes resultados:
LnQ d = 2.097 0.785 ln Px + 0.739LnI 0.350LnPy

(0.151) (0.045) (0.048) (0.049)
(13.86) (17.32) (15.12) (7.04)
Los valores que estn entre parntesis son las desviaciones estndar y los estadsticos t
calculados para las hiptesis nulas que los parmetros son cero.
Por otro lado, se tiene la siguiente informacin:
97
200.00 333.22 312.96 317.20

333.22 914.91 496.10 508.87
XX=

312.96 496.10 797.87 501.20

317.20 508.87 501.20 799.89
0.0312 0.0053 0.0054 0.0056

0.0053 0.0028 0.0002 0.0001
( X X ) 1 =
0.0054 0.0002 0.0032 0.00003

0.0056 0.0001 0.00003 0.0033
2 = 0.8556
con esta informacin y aquella que ya se conoce (R y r) y se puede construir la siguiente

expresin:
0.0101 0.0003 0.0198

R (X X ) 1 R = 0.0003 0.0058 0.00002
0.0198 0.00002 0.0453
a partir de esto, el estadstico F es 36.20, lo cual es mayor al valor de tablas con 3 grados de
libertad en el numerador y 196 en el denominador (2.6). Por lo tanto no se puede aceptar la
hiptesis nula. La conclusin del ejercicio es que con un 95% de confianza los resultados de la
muestra no son consistentes con las restricciones que impone la teora del consumidor. Esto no
invalida la teora necesariamente sino que simplemente nos quiere decir que la teora no se
aplica a estos datos.
4.4.3 Prueba de hiptesis para un coeficiente del modelo
Esta prueba ya se ha desarrollado en el contexto de una distribucin t. Sin embargo, para

demostrar la generalidad de la prueba F para restricciones que implican combinaciones lineales
de los parmetros, se ver esta prueba como un caso particular.
Si en el caso que sirve de ejemplo planteamos la siguiente hiptesis:
H o : 3 = 0.5
H 1 : 3 0.5
Esta restriccin se podr escribir siguiendo el esquema general ya planteado, de la siguiente

forma:
1

[0 0 1 0] 2 = 0.5
3

4
R = r
98
Si se siguen los pasos detallados para la prueba general, un paso adicional es construir la
expresin R (X X) 1 R . Se debe notar que realizar esta operacin implica que se est
extrayendo el 0.0032 (elemento 3,3 de la matriz cuadrada o a33). Si esto se multiplica por la
varianza estimada del error, se obtendra la varianza estimada de 3 . Entonces la prueba
quedar reducida en este caso a la siguiente expresin:
(R r ) 2
~ F(1, n k ) (4.21)
Var ( 3 )
dado que Var ( 3 ) = 2 a 33 . Para los datos de nuestro ejemplo se obtiene lo siguiente:
(R r ) 2 (0.739 0.5) 2 0.057

= = = 21.11
Var( 3 )
0.8556 * 0.0032 0.0027
Este valor calculado es mayor al valor de tablas que es cercano a 2. Por lo tanto la
conclusin en este caso es que no se puede aceptar la hiptesis de que la elasticidad ingreso de
la demanda es igual a 0.5.
Algo que debe notarse es la similitud entre (4.21) y la expresin (4.17): la primera es el
cuadrado de la segunda. As la prueba que se ha discutido anteriormente acerca de la relevancia
de un solo estimador se puede derivar de nuestro planteamiento general. Algo que se debe
recordar de estadstica bsica es la siguiente propiedad:
F(1, n k ) = (t (n k ) )2
lo cual implica que un estadstico t que se eleva al cuadrado se distribuye como una F con 1
grado de libertad en el numerador y n-k grados de libertad en el denominador.
4.4.4 Prueba de Hiptesis referente a aquellos parmetros del modelo distintos del
intercepto
Si la hiptesis nula establece que todo el subvector de pendientes de un modelo ( 2 ) es

igual a un vector de constantes, se puede especificar la hiptesis de la siguiente manera:
H 0 : 2 = 02
H1 : 2 02
En este caso tenemos k-1 restricciones dado que no se incluye el intercepto. Por lo tanto, la
matriz de restricciones queda de la siguiente manera:
0 1 0 . . 0
0 0 1 . . 0

R = . . . . . .

. . . . . 0
0 0 0 0 0 1
99
Esta matriz tiene k-1 filas (recordar que las filas vienen dadas por el nmero de
restricciones) y k columnas. Ntese que la primera fila es de puros ceros lo que indica que no
estamos tomando en cuenta el intercepto. La matriz identidad de orden k-1 que acompaa al
vector de ceros nos indica que se est planteando una restriccin por cada parmetro
independientemente de los dems. Esto quiere decir que cada restriccin considerada toma en
cuenta a un solo parmetro y no a una combinacin lineal de los mismos. Nuestro vector r sera
igual a los valores planteados en la expresin ( 02 ).
Dado que slo se est refiriendo a restricciones sobre las pendientes se puede particionar la
matriz de variables independientes de la siguiente forma:
X = [1 , X 2 ]
en esta particin el 1 corresponde a un vector n-dimensional compuesto de escalares iguales

a 1. X 2 corresponde a las variables asociadas a las k-1 pendientes, por tanto tiene k-1
columnas. Siguiendo con la exposicin la matriz XX queda de la siguiente manera:
n 1X 2
X X =
X 2 1 X 2 X 2
Si se quiere hallar la expresin R (X X) 1 R esta equivale a hallar la inversa de la porcin

inferior derecha de (4.21). Ello porque aplicar R y R implica eliminar la primera fila y
columna de la inversa de X X . Recordando las expresiones de inversa de matrices
particionadas vistas en el Captulo 3 se obtendr que la inversa del trmino inferior derecho es
igual a:
1
(X 2 X 2 X 21 1X 2 ) 1 = (X 2 M 0 X 2 ) 1
n
1
donde M 0 = I n 1n1n . Esta matriz es la presentada en el Captulo 3 y lo que hace es
n
transformar las variables del modelo a desviaciones. Dados los anteriores resultados el
estadstico quedara de la siguiente forma:
( 2 02 )( X2 M 0 X 2 )( 2 02 ) /(k 1)
~ F(k-1, n-k) (4.22)
ee /(n k )
Si el vector 02 fuera cero, entonces la prueba se convierte en la prueba de significacin

estadstica global del modelo. Entonces el estadstico quedara transformado de la siguiente
forma:
2 (X 2 M 0 X 2 ) 2 /(k 1)
~ F(k-1, n-k)
ee /(n k )
La significacin estadstica conjunta del modelo tiene el significado que de no poderse

rechazar la hiptesis nula entonces ello implica que debera imponerse la restriccin de que
todas las pendientes son iguales a cero. Ello significa que el modelo estadstico relevante para
el ejemplo sera el siguiente:
100
LnQ d = 1 +
Lo cual muestra que ninguna relacin se puede establecer entre la variable dependiente y las
variables que se crean la explicaban. Si se realiza la estimacin, se obtendr como resultado
que la constante sera igual a la media de la variable independiente (queda como ejercicio al
lector), lo cual es una identidad, dado que el modelo dir que cada observacin de la variable
dependiente es igual a su media ms un trmino de error, algo que no agrega mayor
informacin.
Esta prueba es reportada en todos los programas estadsticos bajo el nombre de estadstico F
(F-Statistic). Debemos notar que la expresin 2 (X 2 M 0 X 2 ) 2 es igual a la suma explicada de
cuadrados que se deriv para el caso del modelo lineal general cuando inclua intercepto. Por
otro lado, ee es la suma de residuos al cuadrado. Si existe intercepto, se sabe que la suma de
las dos expresiones es igual a la suma total de cuadrados; por lo tanto, se puede realizar la
siguiente transformacin:
2 (X 2 M 0 X 2 ) 2 /(k 1) SEC /(k 1) R 2 /(k 1)

= = (4.23)
ee /(n k ) SRC /( n k ) (1 R 2 ) /( n k )
La ltima expresin se obtiene al multiplicar y dividir la expresin por la suma total de

cuadrados (STC). Debe entenderse que esta interpretacin es vlida cuando el modelo incluye
un intercepto. Esta prueba tambin recibe el nombre de prueba de significacin estadstica del
R 2 . Verifiquemos esta hiptesis para el modelo que se ha planteado y estimado:

0.785 359.71 25.347 19.624 0.785
25.347 308.13 4.841 0.739 / 3
2 (X 2 M 0 X 2 ) 2 0.739
0.350 19.624 296.81 0.350
=
k 1 4.841
= 172
ee 1.145
nk
el valor de tablas ( = 0.05) es 2.6 por lo que no se puede aceptar la hiptesis nula. La
conclusin es que el modelo es estadsticamente significativo con un 95% de confianza. Este
resultado da la tranquilidad de poder seguir adelante con el anlisis de la estimacin.
4.4.5 Prueba de hiptesis para un subvector de parmetros
Se puede estar interesados en realizar un ejercicio de inferencia estadstica para un

subconjunto de parmetros que no necesariamente comprende a todas las pendientes ni a un
solo parmetro. Aqu suponemos que interesa la prueba acerca de d parmetros donde
1 < d < k 1.
En este caso la prueba de hiptesis se puede plantear de la siguiente manera:
H 0 : 2 = 02
H1 : 2 02
101
donde en este caso 02 corresponde a un vector de orden d. Se va a suponer por conveniencia

que los parmetros que se quieren analizar son los ltimos d parmetros. En el caso de este
ejemplo vamos a verificar hiptesis referentes slo a la elasticidad ingreso y la elasticidad
cruzada por lo que el d sera igual a 2.
El planteamiento general de esta hiptesis implica la construccin de la siguiente matriz R:
0 . 0 1 0 . . 0
. . . 0 1 . . 0

R = [O k d , I d ] = . . . . . . . .

. . . . . . 1 0
0 . 0 0 . . . 1
Como se aprecia, las primeras k-d columnas de la matriz estn llenas de cero indicando que
no se quiere analizar los primeros k-d parmetros. A continuacin tenemos una matriz identidad
de orden d indicando que se analizarn cada uno de los d ltimos parmetros.
Dado este orden, se puede escribir el modelo general como uno particionado de la siguiente
forma:
Y = X11 + X 2 2 +
donde X1 es una matriz con k-d columnas, X 2 es de d columnas. Los vectores 1 y 2 son
particiones que conforman el vector original . En este caso la expresin R es igual a 2 .
Por otro lado:
X X X1 X 2
X X = 1 1
X 2 X1 X 2 X 2
Por tanto R (X X) 1 R ser la inversa del elemento inferior derecho de nuestra matriz X X ,
es decir, la premultiplicacin por R y la postmultiplicacin por R eliminan las primeras k-d
columnas y las k-d primeras filas.
Recordando la frmula de la inversa de una matriz particionada, se obtiene que la inversa de

la expresin que nos interesa ser:
( X 2 X 2 X 2 X 1 ( X 1 X 1 ) 1 X 1 X 2 ) 1 = ( X 2 M 1 X 2 ) 1
donde M1 = I n X1 (X1 X1 ) 1 X1 es la matriz de proyeccin ortogonal sobre el espacio

definido por la variables que conforman la matriz X1 . Entonces el estadstico F para este caso
ser igual a:
( 2 02 ) (X 2 M1X 2 )( 2 02 ) / d
~ F(d, n-k) (4.24)
e e /( n k )
En el caso en que 02 = O d se reemplaza en la expresin anterior a 02 por un vector de

ceros de orden d.
102
Para el ejemplo se puede estar interesados en verificar la siguiente hiptesis conjunta:
H o : 3 = 0.800
4 = 0.35
H1 : al menos una no se cumple
Con los datos que se tiene, el valor calculado del estadstico F sera:

( 2 02 )(X 2 M1X 2 )( 2 02 ) 0.739 0.8 306.3 3.45 0.739 0.8
0.35 + 0.35 3.45 295.7 0.35 + 0.35
d = = 0.65
ee 1.145
nk
Si se compara este valor con el valor de tabla que es de 3.00 se ver que no se puede
rechazar la hiptesis nula y por tanto se podr imponer estas restricciones en el modelo.
4.4.6 Pruebas de Hiptesis Mediante la Utilizacin de Sumas Residuales
Dada la existencia de programas economtricos que facilitan algunos clculos, se puede

plantear la prueba general que se ha planteado para R r bajo otra perspectiva tomando en
cuenta la intuicin que est detrs de cada modelo y su relacin con las sumas residuales.
Como se sabe cualquier ejercicio de inferencia estadstica implica preguntar si cierta

restriccin puede ser impuesta en un modelo. Hasta ahora se ha construido un estadstico sobre
la base del supuesto de que la hiptesis nula o planteada es cierta y se ha visto si nuestros datos
avalan o no estas restricciones.
Sin embargo, podra existir otro camino que considere el siguiente ejercicio: estimar el
modelo inicial y compararlo con otro modelo en donde se hayan impuesto las restricciones que
se plantean en la hiptesis nula. As, se llamar al primero el modelo sin restringir y al segundo
el modelo restringido. Las magnitudes que se utilizarn para comparar ambos modelos sern
las sumas de residuos al cuadrado.
La intuicin detrs del ejercicio es que si no se imponen restricciones, la suma de residuos al

cuadrado alcanzar un mnimo global que es justamente lo que hace el estimador de mnimos
cuadrados ordinarios. Por otro lado la suma de residuos al cuadrado del modelo restringido
alcanzar un mnimo que est limitado justamente por las restricciones que se plantean. Si la
restriccin es avalada por los datos, ambas magnitudes debern ser similares por lo que su
diferencia ser pequea. En el lmite podran ser iguales. Sin embargo, si la restriccin no es
vlida, la diferencia de las sumas de residuos al cuadrado ser muy grande por lo que
estadsticamente no se podr aceptar la hiptesis propuesta.
Sobre la base de la intuicin descrita, nuestra prueba F se puede plantear de la siguiente

manera:
(SRR SRS) / q
~ F(q, n-k)
ee /(n k )
103
donde SRR es la suma de residuos al cuadrado del modelo restringido, SRS es la suma de
cuadrados del modelo sin restringir. Las dems expresiones son las usuales.
Como ya se ha mencionado la SRR ser siempre mayor o igual a la SRS, por lo que se
asegura que el numerador sea positivo o cero. Ahora cmo se llega a esta expresin? Para
poder demostrar la similitud entre esta prueba y la prueba general que se ha planteado se
trabajar con el caso especial para 1<d<k-1 que se ha visto lneas arriba. Adems, se trabajar
con el caso en que 02 = 0 d
Si tenemos un modelo particionado estimado de la forma planteada en el acpite anterior, el

primer paso ser multiplicarlo por M1 :
M1Y = M1X1 1 + M1X 2 2 + M1e
Antes de continuar podemos utilizar dos propiedades ya establecidas en captulos anteriores:
1. M1X1 = 0 . La proyeccin ortogonal de un conjunto de variables sobre el espacio

definido por los errores que representan el complemento ortogonal al espacio definido
por las mismas variables es nula. En otras palabras, si se filtra a X1 por s misma, no
quedar ningn porcin de ella sin explicar.
2. [ ]
M1e = I n X1 (X1 X1 ) 1 X1 e = e . Los errores estimados son ortogonales a todas las
variables independientes incluidas en el modelo por lo que X1 e e igual a cero lo que
anula el segundo trmino de la multiplicacin y slo queda la matriz identidad que
multiplica a los errores estimados.
Dados estos resultados nuestra expresin se simplifica a:
M 1Y = M 1 X 2 2 + e
Si se premultiplica esta expresin por su transpuesta se tendr:
Y M1Y = 2 X 2 M1X 2 2 + 22 X 2 M1e + e M1e
el segundo trmino de la derecha se elimina dado que M1e = e y X 2 e = 0 con lo cual la

expresin queda de la siguiente forma:
Y M1Y = 2 X 2 M1X 2 2 + e e (4.25)
Analicemos esta expresin. Y M1Y es la suma de residuos al cuadrado de un modelo

donde se ha regresionado Y slo contra las variables contenidas en X 1 , lo cual quiere decir que
se ha impuesto la restriccin 2 = 0 . Ello significa que es la suma de residuos al cuadrado del
modelo restringido. Por otro lado, e e es la suma de residuos al cuadrado del modelo original
el cual fue estimado sin restricciones. El primero es SRR y el segundo es SRS. Por lo tanto,
nuestra expresin (4.25) se puede expresar de la siguiente manera:
SRR = 2 X 2 M1X 2 2 + SRS

(4.26)
2 X 2 M1X 2 2 = SRR SRS
104
Comparemos este resultado con (4.24). Si en dicha expresin se analiz el caso especial en
que se verifica la hiptesis que los d parmetros de inters son iguales a cero, dicha expresin
es igual a (4.26). entonces (4.24) quedara transformado en
(SRR SRS) / d
(4.27)
ee /(n k )
donde el nico cambio es que q ha sido reemplazada por d. Esta demostracin se est haciendo
para un caso particular de la prueba F para restricciones lineales y se ha mostrado la
equivalencia de las dos estrategias planteadas para la realizacin de la prueba. Sin embargo,
puede comprobarse que el resultado se aplica para todos los casos de la prueba F.
En resumen, existen dos estrategias para la realizacin de la prueba F:
1. La primera consiste en trabajar con expresiones como (4.20) en donde se utiliza para la
construccin del Estadstico las matrices R y q, o
2. Se estiman dos modelos: uno restringido y uno no restringido y se comparan las sumas de
residuos al cuadrado de ambos modelos.
El camino que se utilice depender de las preferencias del usuario. Para restricciones
simples quizs sea ms recomendable utilizar la segunda estrategia. El siguiente ejemplo
puede ayudar:
Si se plantea un modelo de la siguiente forma:
Yt = 1 + 2 X 2 t + 3 X 3t + 4 X 4 t + 5 X 5 t + t (4.28)
y si se quiere verificar la hiptesis nula siguiente:
H o : 3 = 3
4 = 2
H1 : al menos una restriccin no se cumple
una estrategia conveniente sera estimar el modelo (4.28), el cual sera el modelo sin restringir.
A travs de la estimacin se obtiene la SRS. Para la estimacin del modelo restringido se tiene
que imponer las restricciones de la siguiente manera:
Yt 3X 3t 2X 4 t = 1 + 2 X 2 t + 5 X 5t + t
en este modelo las restricciones son impuestas y pasan a restar al lado derecho multiplicadas
por sus respectivas variables. A partir de este modelo se halla la SRR y se procede a la
construccin del test.
Sin embargo, se debe notar que esta estrategia es relativamente fcil cuando las hiptesis
son sencillas. Si las restricciones son combinaciones lineales de los parmetros una estrategia
factible es calcular el estadstico F de la primera forma. Cuando queremos trabajar con la
segunda alternativa (comparacin de las sumas de residuos al cuadrado) la estrategia sealada
lneas arriba no es tan sencilla. La estimacin del modelo restringido implica pasos ms
complicados que los reseados en nuestro ejemplo. La forma de resolver esta dificultad es
105
estudiar el estimador de mnimos cuadrados restringidos el cual permitir el clculo de SRR en

situaciones ms complejas.
4.5. ESTIMADOR DE MNIMOS CUADRADOS RESTRINGIDOS
Para la formulacin del estimador MCO se minimizaron la suma de los errores al cuadrado
sin imponer ninguna restriccin. La lgica del estimador de mnimos cuadrados restringidos es
minimizar la suma de errores al cuadrado pero sujeto a una restriccin. Por lo tanto, la funcin
a minimizar quedara de la siguiente manera:
" = (Y X r )(Y X r ) 2 (R r r )
en este caso la funcin objetivo aumentada incluye las restricciones multiplicadas por la
expresin 2 que representa el vector de multiplicadores de Lagrange. El valor 2 que se
incluye se hace simplemente con fines de hacer ms sencillos los clculos en cuyo caso la
interpretacin de los multiplicadores de Lagrange se modifica ligeramente. Se considera la
transpuesta del vector de los multiplicadores de Lagrange debido a que el criterio a minimizar
es un escalar.
Las condiciones de primer orden en este caso seran:
"
= 2 X Y + 2 X X r 2 R = 0
r
"
= 2( R r r ) = 0

A partir de estas condiciones de primer orden se obtienen las siguientes expresiones:
(X X) r X Y R = 0 (i)
R r r = 0 (ii)
Premultiplicamos (i) por R (X X ) 1 :
R r R (X X) 1 X Y R (X X ) 1 R = 0
esta expresin puede reducirse notando lo siguiente:
1. (X X ) 1 X Y es el estimador MCO (sin restringir)

2. Si la restriccin se cumple entonces: R r = r
Utilizando estos resultados obtenemos:
r R = R (X X ) 1 R
[
= R (X X ) 1 R ] 1
( r R )
reemplazando en (i) tenemos la siguiente expresin:
106
[
(X X) r X Y R R (X X) 1 R ]
1
(r R ) = 0 k
despejando r de la expresin anterior llegamos al estimador de Mnimos Cuadrados

Restringidos (MCR):
[ 1
]
r = ( X X ) 1 X Y + ( X X ) 1 R R( X X ) 1 R (r R ) (4.29)
Si nos detenemos a analizar esta expresin notaremos que el primer trmino de la derecha es
el estimador MCO al que se le realiza una correccin. La magnitud de la correccin ser una
funcin directa de la expresin (r R ) . Esta expresin nos indica cun cerca est el estimador
no restringido de cumplir con la restriccin. Si la restriccin es correcta esta expresin ser
cercana a cero, por lo que el estimador MCR ser muy parecido (o igual en el lmite) al
estimador MCO. Por el contrario, si el estimador MCO no cumple con las restricciones, ello
implica que la correccin que debe realizarse es grande para obtener el estimador MCR y por
tanto ambos sern diferentes.
Como tarea se deja al lector analizar el insesgamiento del estimador MCR. Como ayuda
puede mencionarse que debemos suponer que la restriccin se cumple para probar el
insesgamiento. Por otro lado, debe sobreentenderse que el estimador MCR cumple con las
restricciones dado que ha sido construido sobre la base de imponer en la minimizacin de los
errores al cuadrado con las restricciones. Esto se puede comprobar de la siguiente manera:
[ 1
]
R r = R + R( X X ) 1 R R( X X ) 1 R (r R ) = R + r R = r
La varianza del estimador MCR corresponde a la siguiente expresin:

[ 1
]
Var ( r ) = 2 (X X) 1 (X X) 1 R R (X X) 1 R R (X X ) 1

(4.30)
A estas alturas del libro, ustedes deben estar familiarizados con el clculo de las varianzas
de diferentes estimadores por lo que queda como tarea la derivacin de esta expresin. Sin
embargo, algo que debe notarse es que la varianza del estimador MCR es menor que la del
estimador MCO. La intuicin de este resultado descansa en la imposicin de las restricciones.
Estas lo que hacen en la prctica es acotar el espacio donde estn definidos los parmetros por
lo que la varianza ser menor. Ojo: esto no quiere decir que el estimador MCR sea ms
eficiente que el estimador MCO. Nosotros hemos comprobado por el teorema de Gauss-Markov
la eficiencia del estimador MCO. En este caso debido al acotamiento del espacio la varianza
resulta menor pero no implica una superioridad del estimador MCR sino que es un resultado
matemtico.
Regresando al modelo de demanda que ha servido de ejemplo en este captulo, se realizar

el ejercicio inicial de las restricciones lineales sobre los parmetros por la va de la
comparacin de las sumas de los residuos al cuadrado. Como se recuerda las hiptesis nulas
son:
H 0 : 2 + 3 + 4 = 0
2 = 4
3 = 1
H1 : Al menos una no se cumple
107
Dados los resultados que ya se conocen los valores restringidos estimados seran:
LnQ d = 1.057 0.528 ln Px + 1.057 LnI 0.528LnPy

(0.036) (0.018) (0.036) (0.018)
(29.34) (29.34) ( 29.34) ( 29.34)
Como se aprecia los estimados cumplen con las tres restricciones planteadas: la suma de los
tres ltimos parmetros es igual a cero, la elasticidad precio y cruzada son iguales y la
constante y la elasticidad ingreso son iguales.
Otro resultado es que las desviaciones estndar son menores que los estimados no
restringidos y los estadsticos t son mayores. Una cosa adicional a notar es que todos los
estadsticos t son iguales en valor absoluto. Ello se debe a que el grado de significacin es de
alguna forma forzado por las restricciones y como los cuatro estimados estn sujetos a
restricciones el grado de significacin estadstica es el mismo.
Sobre la base de los estimados anteriores se procedi a realizar las pruebas mediante la
utilizacin de las sumas residuales. Los resultados se presentan a continuacin:
(SRR SRS) / q (268.32 167.69) / 3

= = 39.208
e e /(n k ) 0.8556
el estadstico F calculado no es igual al obtenido anteriormente (36.2) pero son similares, por
lo que los resultados de ambas pruebas son equivalentes y las conclusiones las mismas: No se
pueden aceptar las restricciones planteada en la hiptesis nula.
TRICOso
T ScSir
Para la realizacin de estimaciones economtricas existen distintos software en el mercado.

Los programas ms utilizados son el Econometric Views, Rats (Regression Analysis of Time
Series), Gauss, PcGive, Shazam, etc. Todos estos programas realizan estimaciones de mnimos
cuadrados ordinarios. El resultado estndar que arrojan estos paquetes es ms o menos es el
siguiente:
Variable dependiente: Ln Qd
Regresores: LnPx LnI, LnPy
Nmero de observaciones: 200
Estimacin por MCO
Variable Estimado Desv. Estndar Estadstico t Prob(est t)
C (constante) 2.0973 0.1512 13.8667 0.0000

LnPx -.07853 0.0453 -17.3273 0.0000
LnI 0.7395 0.0488 15.1276 0.0000
LnPy -0.3505 0.0497 -7.0463 0.0000
R cuadrado 0.7253 Med. de Var Dep 1.3901
R cuadrado aj. 0.7211 Desv. Est. Var. Dep. 1.7517
Error St. Regresin 0.9249 Estadstico F 172.5799
108
Sum Res al Cuadrado 167.6981 Prob(Estadstico F) 0.0000
Como se aprecia, en el encabezado se especifica cul es la variable dependiente, el nmero

de observaciones, las variables explicativas y el mtodo de estimacin. Ms abajo se tienen los
estimados que arroja el programa. La primera columna se refiere a qu parmetro est
estimando. Debe entenderse que el parmetro en cuestin es aquel que acompaa a la variable
que se seala. En la segunda columna se tienen los valores estimados de los parmetros. La
tercera columna muestra la desviacin estimada de los parmetros.
La cuarta columna es la que interesa en esta seccin del libro. En ella se presentan los
valores calculados de los estadsticos t donde la hiptesis nula es que cada uno de los
parmetros es igual a cero. Por ello los valores t calculados para cada parmetro son la divisin
de los respectivos valores de la segunda y tercera columna. Se recuerda que la prueba
individual de significacin estadstica para un parmetro es justamente el valor del parmetro
calculado dividido por la desviacin estndar calculada y ello es lo que se obtiene en la cuarta
columna.
La quinta columna presenta una probabilidad. Esta debe interpretarse como la probabilidad
de que la hiptesis nula sea aceptada con los datos que tenemos. Al escoger el nivel de
significacin estadstica estamos escogiendo el punto de quiebre. Si se escoge el = 5% , ello
quiere decir que si la probabilidad de que la hiptesis nula sea cierta es mayor al 5% no
podemos rechazar la hiptesis nula. Por el mismo razonamiento, si la probabilidad es menor al
5% ello quiere decir que no podemos aceptar la hiptesis nula. En el caso presentado se observa
que las probabilidades son iguales a cero, por lo que la conclusin es que con un nivel de
confianza de 5% los parmetros estimados son diferentes de cero, por lo cual debemos
mantener las variables dentro del modelo.
Usualmente lo que se realiza es una comparacin entre el valor calculado y el valor de tabla.
Si el valor calculado es mayor al valor de tabla no se puede aceptar la hiptesis nula y
viceversa. Lo que hace el programa es realizar la comparacin en trminos de las
probabilidades de la distribucin relevante que en este caso es una distribucin t de Student.
As, como la distribucin t de Student es una distribucin simtrica y con media cero, lo que
hace el programa es calcular el estadstico t y halla la probabilidad de los valores mayores al
valor calculado. Si la probabilidad es menor a 0.05, nos indica que el valor est muy alejado de
la media y por tanto, la diferencia entre el valor calculado y el valor de tabla es alto y no se
podr aceptar la hiptesis nula. Por el contrario, si la probabilidad es mayor a 0.05, ello nos
seala que el valor calculado no est tan alejado de la media y se entender que proviene de
dicha distribucin. Por ello se dice que no se puede rechazar la hiptesis nula. En conclusin, si
la probabilidad es menor a 0.05, nuestro estadstico calculado cae en lo que usualmente se
denomina zona de rechazo y si la probabilidad es mayor a 0.05 se dir que cae en la llamada
zona de aceptacin11
Si regresamos a la tabla presentada notaremos que se reporta un estadstico F. Este

estadstico evala la hiptesis nula de significacin estadstica conjunta de todo el modelo, es
decir la prueba que analiza si todas las pendientes del modelo son iguales a cero. La
probabilidad que se reporta tiene la misma interpretacin antes mencionada, es decir, mide la
probabilidad de que la hiptesis nula sea cierta dado la muestra que utilizamos. Si la
probabilidad es menor a 0.05 quiere decir que no podemos aceptar la hiptesis nula y viceversa.
11
Como ya se ha mencionado al inicio de este captulo esta terminologa no es la ms adecuada, pero es la que se
usa comnmente.
109
Al momento de sacar las conclusiones, algo que debe haber llamado la atencin es que el
punto de corte sea por ejemplo 0.05. Ello significa que solamente cuando la probabilidad es
menor al 5% no se puede aceptar la hiptesis nula. Algunos de ustedes probablemente se
preguntarn por qu el punto de corte es 0.05 y no 0.5 como indicara el sentido comn? La
respuesta est en el significado del . Recordemos que lo que mide esta expresin es la
probabilidad del error tipo I y esto lo escoge el usuario. Escoger 0.05 implica aceptar que existe
un 5% de probabilidad de rechazar una hiptesis verdadera. Recordemos el ejemplo del juicio
que mencionamos al inicio del captulo. Lo que se hace al escoger un 0.05 como punto de
quiebre es exigir que la evidencia en contra de la hiptesis nula sea tan fuerte que la
probabilidad de que sea cierta la nula sea menor al 5%. Slo as nos arriesgaremos a decir que
no podemos aceptar la hiptesis nula a pesar que existe un 5% de probabilidad de que sea
cierta.
Como ya se ha mencionado, el nivel de significacin estadstica lo escoge el usuario. Aqu

se ha mencionado el 5% porque es lo estndar en todos los paquetes pero de hecho uno podra
aumentar o disminuir el segn su criterio. Si alguien se pone ms exigente probablemente
escoger un de 0.01 o alguien menos exigente escoger un nivel de 10%.
4.7. UNA REFLEXIN FINAL
Habiendo hecho una revisin de la forma de realizar un ejercicio de inferencia estadstica se

quiere presentar algunos resultados de una simulacin realizada con el modelo que se ha
utilizado como ejemplo. Esto permitir entender mejor lo que est en juego.
Como ya se ha mencionado lo que se hace al realizar una prueba de hiptesis es analizar si

la diferencia que se observa entre el valor calculado y el valor que se supone verdadero en la
hiptesis planteada o nula se explica por factores meramente aleatorios o se debe a factores
estructurales.
Una hiptesis que se plante a lo largo del captulo era la referida a la homogeneidad de
grado cero de la demanda. Ello implicaba verificar si la suma de las tres elasticidades era igual
cero. El modelo estimado arroj valores de 0.855, 0.817 y 0.359 para las elasticidades precio,
ingreso y cruzada de la demanda respectivamente. La suma de las tres elasticidades estimadas
es de 0.397 para nuestro modelo. La conclusin que obtuvimos era que nuestros datos no
soportaban la implicacin de la homogeneidad de grado cero.
Qu implica en trminos empricos la conclusin que acabamos de mencionar? Un grfico

nos puede ayudar. En l se presenta la distribucin de la suma de las tres elasticidades para
10,000 estimaciones del mismo modelo.
110
cuando se habla de 10,000 estimaciones se est refirindo a que se han generado 10,000
muestras aleatorias y con dichos datos se ha procedido a la estimacin del modelo. Sin
embargo, estas muestras han sido generadas siguiendo un patrn: las elasticidades
verdaderas12 son -0.75, 0.8 y -0.35, por lo que la suma de las tres es igual a -0.3. Si nos
detenemos un momento a observar el grfico se ver que justamente el -0.3 es el centro de la
distribucin. No todos los valores son iguales a -0.3 porque interviene un factor aleatorio que
puede hacer que difieran los resultados de manera no sistemtica. Pero lo que conviene resaltar
es el hecho que la distribucin est centrada en el valor verdadero(-0.3).
Recordando la hiptesis nula, sta se refera al cumplimiento de la homogeneidad de grado

cero o que la suma de las elasticidades es igual a 0. Como se ve el cero est ubicado en el
extremo derecho de la distribucin por lo que est muy alejada del verdadero centro de la
distribucin. Por ello es que la conclusin es que no se puede aceptar la hiptesis nula.
Por otro lado, dados los resultados se sabe que la elasticidad precio estimada es 0.785 y se
desea verificar si este valor es congruente con una distribucin cuya media es igual a 0.75
(que es el valor que se ha supuesto como verdadero cuando hemos generado la muestra). Si se
quiere aplicar una prueba t para ello el valor calculado se halla de la siguiente forma:
(0.785 + .75)
= 0.773
0.0453
12
El trmino verdadero est entre comillas debido a que el modelo fue generado de la siguiente forma:
LnQd= 2 - 0.75lnPx + 0.8LnI - 0.35LnPy + rndn. El ltimo trmino rndn indica que a la anterior expresin se le est
agregando un trmino aleatorio. A su vez, LnPx, LnI y LnPy tambin han sido construidas a travs del generador de
nmeros aleatorios. Con este tipo de procedimiento estamos generando muestras aleatorias pero que responden a un
proceso generador de datos similar.
111
como se sabe los valores crticos para ms de 100 grados de libertad son aproximadamente 2 y
2 respectivamente. La conclusin es que no se puede rechazar la hiptesis nula. Si se observa
el siguiente grfico se ve que la distribucin est centrada en 0.75 (que es el valor con el cual
fueron generados los datos). Un valor de 0.785 si bien no es igual a 0.75 se observa que en
trminos de la distribucin que se presenta cae dentro de la zona de aceptacin.
Sin embargo, debe mencionarse que un valor de 0.95 aparecera como muy lejano, y
seguramente se tendera a no aceptar la hiptesis nula. Pero se observa que todos los valores
reportados en el grfico responden a un modelo verdadero con una elasticidad precio igual a
0.75, pero por factores meramente aleatorios el valor calculado en un modelo especfico (una
muestra en particular) es de 0.95 y en trminos de la distribucin se tendera a no aceptar la
hiptesis nula cuando es verdadera. Esto ilustra el error tipo I en el cual se puede caer y por
ello es que algunos investigadores tienden a ser muy exigentes y elevan el nivel de significacin
de ciertas pruebas. No obstante, como ya se mencion el nivel de significacin estndar es 0.05.
Algo que debe quedar en claro a partir de todo lo discutido en este captulo es que cualquier
ejercicio de inferencia implica cierto grado de incertidumbre. La idea de las pruebas de
hiptesis es someter al juicio de los datos las afirmaciones que se pueden derivar de la teora
(expresadas en forma de restricciones). Sin embargo, nunca podemos estar seguros sino hasta
cierto grado de certeza el cual no ser absoluto.
112
CAPTULO 5
MXIMA VEROSIMILITUD
5.1. UNA APROXIMACIN INTUITIVA
En el modelo lineal clsico, donde el trmino de error satisface todas las condiciones de
Gauss-Markov, el criterio fundamental para la estimacin de los coeficientes consiste en
minimizar la suma de cuadrados del error. Este procedimiento, definido como Mnimos
Cuadrados Ordinarios, garantiza la obtencin de estimadores insesgados y eficientes. Sin
embargo, el criterio de mnimos cuadrados ordinarios es un criterio arbitrario que cumple con
un conjunto de propiedades deseables pero no es nico. En la prctica pueden existir tantos
estimadores como criterios puedan establecer diversas personas. El arte del planteamiento de un
estimador es hacerlo de tal manera que cumpla con la mayora de criterios esperados. Frente a
esto, cabe preguntarse si existe algn otro tipo de algoritmo que tambin nos provea de
estimadores eficientes y es en este punto, precisamente, donde podemos empezar a hablar de la
estimacin por mxima verosimilitud. Este tipo de estimacin, partiendo de una correcta
especificacin y el cumplimiento de ciertas condiciones, garantiza la obtencin de estimadores
asintticamente insesgados, eficientes y consistentes.
El criterio de mxima verosimilitud consiste bsicamente en suponer una distribucin y, a

partir de sta, estimar los parmetros que hagan mxima la probabilidad de que determinada
muestra pertenezca a dicha distribucin. La relacin entre la distribucin supuesta inicialmente
y la muestra con que contamos se da a travs de un modelo estadstico (forma estructural).
Dentro de este modelo se tienen ciertos parmetros que son magnitudes desconocidas. El
principio de mxima verosimilitud consiste en escoger aquellos valores de los parmetros de tal
forma que la muestra se parezca lo ms que se pueda a la distribucin supuesta inicialmente. En
este sentido lo que se busca es hacer lo ms verosmil (creble) posible el supuesto inicial
respecto de la distribucin de probabilidades de la cual se parti. En otras palabras, lo que se
busca es maximizar la probabilidad de ocurrencia de la muestra. Sabemos que la probabilidad
Econometra Moderna Mxima Verosimilitud
se calcula a partir de una funcin de probabilidad especfica por lo que es crucial partir
tomando en cuenta una de ellas.
Para comprender mejor qu implica este principio consideremos el siguiente ejemplo.

Supongamos una variable aleatoria y continua con media desconocida () y una desviacin
estndar unitaria. Supongamos tambin que esta variable se distribuye normalmente y que se
cuenta con dos hiptesis alternativas ( =0 y = 1) y una observacin x1 (en definitiva:
XN(,1)). Segn el principio de mxima verosimilitud, se debe elegir aquella hiptesis que
haga mxima la probabilidad de ocurrencia de x1. Para esto se compara el valor de la funcin de
densidad para x1 bajo ambas hiptesis.
Figura 5.1.
A partir del grfico anterior se aprecia que es la hiptesis =0 la que garantiza el mayor
valor en la funcin de densidad para x1. Generalizando el resultado anterior, consideremos
ahora todos los posibles valores de y elijamos aquel que otorga a x1 el mayor valor en la
funcin de densidad. Definamos la siguiente funcin de densidad de x dado :
1 (1/ 2 )( x )2
f (x / ) = e
2
Se calcula ahora el valor de que maximiza la funcin anterior, dada la observacin x1. Si
nos referimos al grfico la respuesta consiste en igualar =x1, de modo que la distribucin
tenga a x1 como media asignado a este evento la mayor probabilidad. Para comprender este
resultado en trminos matemticos conviene reconocer antes que x1 es un valor dado mientras
que es variable. En este sentido, podemos considerar la funcin de densidad como una
funcin de con x1 como dado. Tomando en cuenta esta salvedad, definamos ahora la nueva
funcin como la funcin de verosimilitud:
1 (1/ 2 )( x1 )2
L ( / x1 ) = e
2
Ntese que el logaritmo de la funcin anterior tambin ser mximo para el mismo valor de
que la funcin original, por lo que resulta conveniente hallar el mximo de la funcin
logL() (funcin log-verosmil) debido a que resulta ms sencillo en trminos matemticos:
114
log L ( ) = log 2 2 (x1 ) 2

1
Ahora, diferenciando con respecto a tenemos:
log L ( )
= x1 = 0

de modo que el estimador de mxima verosimilitud de es igual a x1. La segunda derivada

del resultado anterior es negativa, confirmando que la funcin ha sido maximizada.
El resultado anterior puede generalizarse para ms de una observacin. Por ejemplo,

evaluemos nuevamente este procedimiento considerando dos observaciones distribuidas
independientemente (x1, x2). Tal como antes, el criterio de mxima verosimilitud consiste en
hallar el valor de que maximice el valor de la funcin de densidad conjunta:
1 (1/ 2 )( x1 ) 2 1 (1/ 2 )( x2 ) 2
f (x1 , x 2 / ) = e e
2 2
Tal como se hizo en el caso anterior, esta funcin puede ser reinterpretada como la funcin
de verosimilitud de dados x1 y x2, la cual se maximiza indirectamente a travs de su
logaritmo:
log L ( ) = 2 log 2 2 (x1 ) 2 2 (x 2 ) 2

1 1
De la condicin de primer orden tenemos que:
(x1 - ) + (x2 - ) = 0
por lo que el estimador de mxima verosimilitud de vendra dado por (1/2)(x1 +x2). Resulta
sencillo generalizar este resultado para el caso de n observaciones (x1,x2,...xn), donde el
estimador de mxima verosimilitud vendra dado por la media de la muestra, coincidiendo, por
tanto, con el estimador por mnimos cuadrados ordinarios (la analoga entre el estimador de
mxima verosimilitud y el estimador MCO ser demostrada ms adelante). Para verificar esto,
regresemos al ejemplo de dos observaciones (x1, x2), donde el estimador de mxima
verosimilitud de corresponde a la media de ambas observaciones. Grficamente:
115
De esta manera, se est eligiendo aquel valor de que garantiza la mayor probabilidad de
ocurrencia para x1 y x2 conjuntamente. Si se pretende estimar a travs de MCO, lo que se
busca es minimizar la suma de cuadrados de los errores. Formalmente:
(x1 ! ) 2 + (x 2 ! ) 2 = SE 2
y derivando con respecto a ! :
SE 2
= 2( x1 ! ) 2( x 2 ! ) = 0
!
2! x1 x 2 = 0
! = 2 ( x1 + x 2 )
1
Consideremos ahora otro ejemplo que ayude a un mejor entendimiento de lo que significa e
implica la estimacin por Mxima Verosimilitud. Para esto, supongamos que se pretende
evaluar la calidad de determinado producto a partir de una muestra de diez elementos.
Evidentemente, si se encontraran cuatro productos defectuosos se podra estimar que la
proporcin total de productos que son defectuosos es 0.5. Si se considera este problema desde
la perspectiva de la estimacin por mxima verosimilitud, sin embargo, el enfoque resultara un
tanto distinto. En primer lugar hay que suponer una distribucin de probabilidad que refleje el
problema (en este caso elegimos una distribucin binomial dado que tenemos dos resultados
posibles). Partiendo de esta distribucin, supongamos que se extrae una muestra aleatoria de n
productos y que la probabilidad de que uno de stos sea defectuoso viene dado por . As, si
dentro de la muestra se encuentran D productos defectuosos, la probabilidad (P) de hallar D
productos defectuosos en la muestra vendra dada por:
D (1 ) n D
n!
P=
D !(n D)!
En el ejemplo planteado anteriormente tenamos que n = 10 y D = 4. Tomando como dados

estos valores, si se fijan arbitrariamente los valores de entre 0.1 y 0.9 (es decir, tanteando),
los resultados seran los que arroja la siguiente tabla:
116
probabilidad
0.1 0.01116026
0.2 0.08808038
0.3 0.20012095
0.4 0.25082266
0.5 0.20507813
0.6 0.11147674
0.7 0.03675691
0.8 0.00550502
0.9 0.00013778
Como se puede apreciar, cuando = 0.1 se tiene que P = 0.01116, de modo similar, fijando
= 0.2 se tiene que P = 0.0880. Si continuamos con este proceso descubriremos que el valor
de que maximiza P es 0.4, el cual arroja un PMAX =0.2508. En otras palabras, el valor de
que maximiza la probabilidad de ocurrencia de la muestra observada (D = 4 para n = 10) es, por
tanto, = 0.4. Esta corresponde a la estimacin de mxima verosimilitud del valor poblacional
de . Este proceso de tanteo se pude complicar mucho ms si tomamos en cuenta funciones de
probabilidad mucho ms complejas. Sin embargo, en la prctica esta es la forma en que se
obtienen la mayora de estimados de mxima verosimilitud. El proceso de bsqueda se
complica mucho ms y para ello se utilizan algoritmos de bsqueda especializados.
Un mtodo alternativo que puede ser utilizado cuando se trabajan problemas relativamente
sencillos es el mtodo analtico. Esto implica obtener una solucin algebraica al problema de
hallar el estimador de mxima verosimilitud en funcin de los datos muestrales. Dado que el
principio de mxima verosimilitud implica hacer que la muestra se parezca lo ms que se pueda
a la poblacin ello implica que hallemos el valor de que maximice la funcin de probabilidad
planteada lneas arriba. En trminos matemticos, ello implica derivar la funcin de
probabilidad con respecto a e igualar esta derivada a cero :
P n! n!
= D ! D 1 (1 ! ) n D (n D) ! D (1 ! ) n D 1 = 0
!
D !(n D)! D !(n D)!
D! D 1 (1 ! ) n D = (n D) ! D (1 ! ) n D 1
D! 1 = (n D)(1 ! ) 1
D
! =
n
donde ! es precisamente el estimador de mxima verosimilitud, en este caso:

= D / n = 4 / 10 = 0.4 que coincide con lo que la intuicin y el mtodo del tanteo nos haban
arrojado.
5.2. PLANTEAMIENTO GENERAL
Ahora que ya tenemos una idea ms concreta de lo que significa el principio de mxima
verosimilitud, estamos en condiciones de generalizar su planteamiento para luego centrarnos en
las propiedades de este tipo de estimadores.
117
Para esto, supongamos una muestra (X1,X2,...Xn) que ha sido extrada de una funcin de
distribucin P(Xi/) donde representa al conjunto de parmetros que determina la funcin de
densidad de X. Supongamos tambin que cada elemento de la muestra se distribuye
independientemente con funcin de distribucin P(Xi/). De esta forma, la funcin de
distribucin conjunta de toda la muestra vendra dada por:
P( X 1, X 2, ... Xn / ) = P ( X 1 / ). P( X 2 / )... P( Xn / )
n
= P ( Xi / )
i =1
Tal como en los ejemplos planteados anteriormente, los valores de la muestra (Xi) son
dados, por lo que el problema se reduce a preguntar cul es el valor de que maximiza la
probabilidad de ocurrencia de los valores observados (Xi). En este sentido tenemos que la
funcin de verosimilitud vendra dada por:
n
L() = P ( X i / )
i =1
Como se puede apreciar la forma de la funcin de verosimilitud y la funcin de probabilidad

son iguales, lo nico que cambia es el enfoque. En la funcin de probabilidad lo que se supone
como dado es el parmetro y de all se generan los datos mientras que en la funcin de
verosimilitud lo que se considera fijo son los datos y debe hallarse el valor de los parmetros
que hacen que la probabilidad de la muestra sea la mayor posible, es decir aquellos valores que
hacen lo ms verosmil posible el hecho de que la muestra haya sido generada por dicha
funcin de probabilidad.
Tal como se indic en el primer ejemplo, resulta ms conveniente trabajar con el logaritmo
de la funcin de verosimilitud el cual se reduce a:
n
log[ L()] = log[ P( X i / )]
i =1
La funcin anterior (que recibe el nombre de funcin log-verosmil) es precisamente aquella

que se busca maximizar en trminos de . Esta transformacin puede realizarse debido a que
las funciones de probabilidad son monotnicas crecientes y por tanto cualquier transformacin
de este tipo no altera los resultados de los puntos de maximizacin.
5.3. EL SCORE EFICIENTE Y LA MATRIZ DE INFORMACIN
Dentro del enfoque de mxima verosimilitud analizado lneas arriba, existen dos matrices
particularmente importantes que es relevante analizar. Estas matrices nos dan informacin
valiosa que es muy importante incorporar en el estudio de los estimadores de mxima
verosimiltitud. La primera de ellas se conoce como el score eficiente y se define como:
log L()
= S () = g ()

Este vector es el gradiente de la funcin de log-verosmil. Contiene tantos elementos como

parmetros a estimar contenga un modelo. Como se desprende de lo discutido anteriormente, el
118
valor de la matriz de score eficiente, evaluada en el estimador de mxima verosimilitud (que

representa precisamente el mximo de la funcin) es cero.
La segunda matriz se conoce como la matriz de informacin y viene dada por la esperanza
del negativo de la segunda derivada de la funcin log-verosmil respecto al parmetro:
2 log L()
E = E [ H ()] = I ()
'
Bajo ciertas condiciones de regularidad (las que se pasan a analizar ms adelante), la

varianza del estimador de mxima verosimilitud viene dada por la inversa de la matriz de
informacin (propiedad que tambin ser verificada ms adelante):
[ ]
1
Var (! MV ) = I (! )
La expresin anterior se deriva del teorema de la Cota Mnima de Cramer-Rao, el cual

establece que si la funcin de densidad de x satisface ciertas condiciones de regularidad, la
varianza de un estimador insesgado del parmetro ser siempre por lo menos igual a {I()}-1,
formalmente:
1
Var (! )
log L()
2
E
2
La relacin que existe entre la matriz de informacin y la varianza se desprende del

siguiente anlisis. Primero debemos recordar que la segunda derivada de una funcin nos da
una idea de la curvatura que tiene una funcin. Si suponemos que las funciones de densidad de
probabilidad que utilizamos son doblemente diferenciables ello implica que podemos
determinar la curvatura de cualquier funcin.
El grfico que presentamos contiene dos funciones log-verosmiles L1 y L2. Ambas tienen
un mismo mximo pro diferente curvatura. La curva L1 es ms abierta que L2 por lo que esta
ltima presenta una mayor curvatura. Del grfico se desprende que en el caso de L2 el
parmetro presenta un menor margen de variabilidad dado que el espacio en el cual puede
moverse es menor que en el caso de L1. Por ello esperaramos que en el caso de L2 el
119
parmetro que se obtenga tenga una menor varianza que en el caso del que se obtenga si
utilizamos L1. Entonces podemos concluir que a mayor curvatura la varianza ser menor y
viceversa. Esto nos da la intuicin de la relacin inversa que existe entre la matriz de
informacin y la varianza de los parmetros. En el caso de la matriz de informacin vemos que
se toma la esperanza del negativo de la matriz de segundas derivadas (el hessiano de la funcn
log-verosmil). Esto se explica porque la matriz de segundas derivadas de una funcin que
presenta un mximo es negativa definida. Como las varianzas no pueden ser negativas se toma
el negativo de la matriz para asegurar que las varianzas sean positivas.
5.4. EL ESTIMADOR MXIMO VEROSMIL DEL VECTOR DE PARMETROS DEL MODELO

LINEAL GENERAL.
El principio de mxima verosimilitud es muy flexible y se puede aplicar tomando en cuenta

varias formas estructurales y distintas funciones de distribucin. En esta seccin
consideraremos el estimador mximo verosmil del modelo lineal general que hemos analizado
en los captulos anteriores. Como recordamos el modelo lineal general puede expresarse de la
siguiente manera:: y = x + u. En el contexto de mxima verosimilitud debemos suponer que la
variable aleatoria relevante sigue una funcin de probabilidad especfica. Por ello vamos a
introducir el supuesto de que el vector u sigue una distribucin normal manteniendo el supuesto
de que su media es igual a cero y su varianza viene dada por la matriz 2uI. Bajo estos
supuestos, la funcin de densidad del vector u sera:
1
1 1 2 u 'u
f ( u) = e 2 u
(2 ) ( u )
n/2 2 n/2
Tal como en el ejemplo anterior, la funcin de densidad anterior puede transformarse en la

funcin de verosimilitud muestral si se expresa u en funcin de x e y. A diferencia del primer
ejemplo, donde se supuso una desviacin estndar unitaria, aqu resulta necesario estimar,
adems de los coeficientes, la varianza del trmino de error:
1
1 1 2 ( y x )'( y x )
2 u
L(, 2
u / y, x ) = e
(2 ) ( u )
n/2 2 n/2
Siguiendo el criterio de mxima verosimilitud, debemos hallar aquellos valores de los

parmetros 2u y que maximicen la funcin planteada anteriormente. Nuevamente, conviene
trabajar con el logaritmo de la funcin de verosimilitud:
n n 1
log L (, 2 u ) = log 2 log 2 u ( y x )' ( y x )
2 2 2 2 u
la cual se deriva respecto a ambos parmetros:
log L 1
= 2 [2x' ( y x )] =
2 u
2 x' ( y x ) =
(x' x ) = x' y
! = (x' x ) 1 x' y
120
log L n 1
= 2 + ( y x )' ( y x ) = 0
u
2
2 u 2 4 u
( y x )' ( y x ) = ( 2 u )n
( y x! )' ( y x! ) u!' u!
! 2 u = =
n n
De esta forma, se verifica que, bajo los supuestos de normalidad del trmino de error y
forma lineal del modelo, el estimador de mxima verosimilitud de coincide con el estimador
MCO. El estimador de la varianza del trmino de error, sin embargo, difiere del obtenido a
travs de MCO, siendo ahora sesgado:
n k !2 nk 2
E (! 2 MV ) = E MICO = u
n n
Sin embargo, y tal como se verifica en la expresin anterior, el sesgo del estimador de
mxima verosimilitud tiende a cero al aumentar el tamao muestral y se aproxima, por tanto, al
estimador MCO.
Analicemos ahora la matriz de informacin y la varianza de los estimadores de mxima

verosimilitud del modelo lineal general. Se sabe que las matrices de score para ambos
parmetros son:
log L 1
= 2 [2 x '( y x)]
2 u
log L n 1
= 2 + 4 ( y x)' ( y x)
u
2
2 u 2 u
Diferenciando nuevamente con respecto a cada parmetro resulta que:
2 log L 1
= 2 x' x
' u
2 log L n 1
= 6 ( y x)' ( y x)
( ) 2 u u
2 4
2u
2 log L 1
= 4 ( x ' y x ' x )
u 2
2 u
Ahora, tomando la esperanza y cambiando el signo se tiene:
121
2 log L 1
E = 2 x' x
' u
2
log L n 1
E = 4 + 6 E (u' u)

( ) 2 u u
2
2u

n n
= 4 + 6 2u
2 u u
n
=
2 4 u
2 log L 1
E 2
= E[ x '( x + u) x ' x]
u 2 u
4
1
= ( x ' x x ' x )
2 4 u
=0
Considerando los resultados anteriores, la inversa de la matriz de informacin (que

representa la varianza de los estimadores de mxima verosimilitud) vendra dada por:
1
u ( x ' x ) 0
2
1
I 2 = 2 4 u
u 0
n
Tal como lo indica el resultado anterior, los resultados obtenidos a travs de la estimacin
por mxima verosimilitud son similares a los obtenidos a travs de MCO. Ya se sabe que la
varianza del estimador MCO es igual 2u(xx)-1, sin embargo, para verificar el segundo
resultado es necesario realizar un desarrollo adicional. Considerando que el estimador MCO de
la varianza del trmino de error viene dado por:
u!' u!
! 2 u =
nk
y que:
u!' u!
2 ( n k )
2u
se tiene:
2u 2
! 2 u (nk )
nk
Sabemos tambin que la varianza de una distribucin chi-cuadrado es igual a dos veces sus
grados de libertad, por lo tanto:
122
4u
Var (! 2 u ) = 2( n k )
(n k ) 2
2 4 u
=
(n k )
Comparando este resultado con el obtenido a travs de la inversa de la matriz de

informacin, se observa que el sesgo hallado en la seccin anterior aparece nuevamente al
momento de calcular la varianza del estimador de mxima verosimilitud de 2u, el cual, tal
como se indic anteriormente, disminuye conforme aumenta el tamao muestral.
5.5. PROPIEDADES DEL ESTIMADOR DE MXIMA VEROSIMILITUD (OPCIONAL)
Habiendo revisado los principales resultados referidos al estimador de mxima

verosimilitud, es conveniente para el lector interesado estudiar en profundidad algunas de las
propiedades del estimador a fin de tener una idea ms cabal de las implicaciones de su
utilizacin. Esta seccin requiere el uso de tcnicas y conceptos un poco ms elaborados por lo
que su lectura es opcional para el alumno de pregrado.
Una de las ventajas de la estimacin por mxima verosimilitud es que resulta bastante
atractiva debido principalmente a lo general de su planteamiento y a sus propiedades
asintticas. Si suponemos que se cumplen las condiciones de regularidad (las que sern
enumeradas ms adelante) podemos verificar las siguientes propiedades asintticas:
P1. Consistencia: Plim(! MV ) =

P2. Normalidad asinttica: !
d
[
N , { I ()}
1
]
P3. Eficiencia asinttica
P4. Invarianza: el estimador de mxima verosimilitud de = c() es c(! ) .
Estas propiedades tornan atractivo este tipo de estimadores especialmente para el anlisis
de muestras grandes. Con el fin de explorar ms a fondo las propiedades enunciadas
anteriormente, resulta necesario considerar algunas caractersticas de la funcin de densidad
P(Xi,) (L(Xi ) si lo consideramos desde la perspectiva de mxima verosimilitud, ambas sern
utilizadas indistintamente). Para la definicin de dichas caracterticas se requiere el
cumplimiento de ciertas condiciones conocidas como las condiciones de regularidad:
R1. Las primeras tres derivadas de logL(Xi,) con respecto a son finitas para casi todo X y .
Esto garantiza la posibilidad de realizar aproximaciones a travs de series de Taylor y la
existencia de una varianza finita para logL.
R2. Es posible obtener la esperanza de la primera y segunda derivada de logL(Xi,).
3 LogL( X i , )
R3. Para todos los valores de , es menor a una funcin con esperanza
j k l
finita. Esta condicin permite truncar la serie de Taylor.
A partir de estas condiciones se pueden derivar las siguientes caractersticas:
123
LogL( X i , ) 2 LogL( X i , )
C1. LogL( X i , ), S ( ) = , Hi = , son todas muestras

aleatorias de variables aleatorias. Es decir el score eficiente y el hessiano de la funcin
log-verosmil son muestras de variables aleatorias.
C2. E(S()i) = 0
C3. Var(S()i) = -E(Hi)
Pasemos ahora a verificar las caractersticas enunciadas anteriormente. Para esto

supongamos un rango para Xi: L() Xi U(). L(.) representa el valor mnimo que puede
tomar X y U(.) el valor mximo. Consideremos la estimacin por mxima verosimilitud de
para una distribucin continua y uniforme con rango (0,) donde el integral x dx indica la
integracin mltiple sobre todos los elementos de Xi, formalmente:
U ( )
L() P( X / )dx = 1
Diferenciando con respecto a se tiene:
U ( )
L( ) P( X / )dx U ( ) P ( X / ) U ( ) L ( )

= L( )
dx + P(U ( ) / )

P( L( ) / )

=0
Para poder intercambiar los operadores de integracin y diferenciacin es necesario que los
dos ltimos elementos sean iguales a cero. Para esto, una condicin suficiente es que el rango
de la variable observada (Xi) no dependa de los parmetros lo que implica que:
L( ) = U ( ) = 0. Segn lo anterior, y considerando la segunda condicin de

regularidad (R2) tenemos que:

P( X , )dx P ( X , )

=
dx
log P( X , )
=
P( X , ) dx
log P( X , )
= E

=0
con lo que se verifica la segunda caracterstica.
Dado que podemos intercambiar los operadores diferenciemos nuevamente para obtener:
2 log P( X , ) log P ( X , ) P( X , )

'
P( x, ) +
'
dx = 0
124
Considerando que:
P ( X , ) log P( X , )
= P( X , )
' '
y que la integral de una suma es la suma de los integrales se tiene que:
2 log P( X , ) log P ( X , ) log P( X , )

'
P( X , )dx =

'
P( X , )dx = 0

La primera parte de la expresin anterior corresponde al esperado la matriz de segundas

derivadas, mientras que la segunda parte al esperado del cuadrado del vector de primeras
derivadas. Sin embargo, y debido a que la esperanza de este vector es igual a cero (C2), la
segunda parte de la expresin representa en realidad la varianza del vector de primeras
derivadas. Tomando en cuenta lo anterior, se puede demostrar la tercera caracterstica:
log P( X , ) log P( X , ) log P( X , ) 2 log P ( X , )

E = Var = E
' '
Ahora que ya se conoce como derivar las caractersticas de la funcin de distribucin, y

teniendo stas en mente, es posible verificar las propiedades asintticas del estimador de
mxima verosimilitud. Como ya se sabe, la funcin log-verosmil viene dada por:
n
log[ L()] = log[ P( X i / )]
i =1
por tanto1:
log L n

=g= gi
i =1
log L
2 n
= H = Hi
' i =1
A partir de C2, se concluye que:
log L
E = E[g ] = 0

n n
i =1
i =1

Ahora, considerando que E[ gg '] = E gi g i ' = E ( Hi ) = E[ H ] se tiene que:
1
Debe notarse que en este resultado se llamar g al score eficiente.
125
log L 2 log L
Var = Var ( g ) = E = E( H)
'
Debido a que la demostracin de la consistencia asinttica del estimador de mxima

verosimilitud requiere de operaciones matemticas an ms complicadas2, se parte del supuesto
de que Plim( ! ) = 3. Evidentemente, el gradiente de la funcin log-verosmil (el score
eficiente) evaluado en el estimador de mxima verosimilitud es igual a cero [g(! ) = 0] .
Expandiendo este conjunto de ecuaciones en una serie de Taylor de segundo orden alrededor de
los verdaderos parmetros tenemos:
1
[
g ( ! ) = g ( ) + H ( )( ! ) + T ( *, ! , ) = 0
2 ]
El tercer trmino de la ecuacin anterior es una funcin vectorial que incluye la tercera
derivada de logL evaluada en * (que se encuentra entre ! y ) y cuyos trminos cruzados
vienen dados por: ( ! j j )( ! l l ) . Replanteando la expresin anterior y multiplicndola
por n tenemos:
n ( ! ) = [ H ( )]
1
[ ]
ng ( )
1
2
n [H ( )]
1
[T (*, ! , )]
La tercera condicin de regularidad (R3) asegura que la tercera derivada converge a una
constante finita, adems, debido a que Plim( ! ) = 0 , los trminos cruzados en esta parte de
la expansin convergen a cero. En definitiva, y para muestras lo suficientemente grandes, el
[
lado derecho de la ecuacin anterior ya no involucra a T( *, ! , ) (recordemos que la ]
tercera condicin de regularidad permite truncar la serie de Taylor). Por tanto, la expresin
anterior se reduce a:
(
n !
)
d
[ H ()]
1
[ ng () ]
Ahora, dividiendo H() y g() entre n tenemos:
( ) [ ] [ ng ]
1
n !
H ()
d 1
n
2
Para una demostracin formal de esta propiedad puede consultarse Cramr,H.
Mathematical Methods of Statistics, Princeton University Press,1948.
3
Debe mencionarse que el plim de un variable aleatoria se refiere al lmite en probabilidad definido como:
Lim P( x u > ) = 0
n
es decir que la diferencia entre cualquier variable aleatoria (x) y su media (u) tiende a ser muy pequea a medida que
el tamao de la muestra tiende a crecer. No implica que la esperanza en el lmite sea igual al verdadero parmetro.
Esto se ver en ms detalle en el captulo 10.
126
donde g representa la media de una muestra aleatoria (recordemos la primera caracterstica,

C1) de modo que es posible aplicar el Teorema del Lmite Central de Lindberg-Levy4 (para esto
se debe tomar en cuenta que la varianza limitante de [ ng ] es E[H()] ):
ng ()
d
N {0, E [ H ()]}
Tomando en cuenta que plim [ 1

n ]
H () = E [ H ()] y que sta es una matriz constante la
expresin anterior puede ser replanteada de la forma:
[ ] [ { E[H ()]}{ E[H ()]} 1 ]

1
N 0, { E [ H ()]}
1
H ( ) ng ()

1 d
n
y, por lo tanto:
(
n !
d
)
N 0,{ E [ H ()]}[1
]
lo que da la distribucin asinttica del estimador de mxima verosimilitud:
!
d
[
N , {I ()}
1
]
Queda pendiente an verificar la cuarta propiedad referida a la invarianza del estimador de
mxima verosimilitud. Esta propiedad, sin embargo, es un resultado matemtico del mtodo
utilizado en la estimacin por mxima verosimilitud y no representa un resultado estadstico en
si. Especficamente, este resultado puede resultar de gran utilidad para el investigador ya que,
por ejemplo, si la funcin de verosimilitud contiene un parmetro de la forma 1/j, usualmente
resulta til trabajar con una reparametrizacin del modelo en trminos de j = 1/ j. Para ilustrar
esta propiedad consideremos la estimacin por mxima verosimilitud de la media y varianza de
una muestra obtenida de una distribucin normal. La funcin log-verosmil en este caso vendra
dada por:
n n 1 n ( x )
log L( , 2 ) = log(2 ) log 2 i 2
2 2 2 i =1
de modo que la maximizacin respecto a cada parmetro sera:
4
Segn el Teorema del Lmite Central de Lindberg-Levy, si x1,...xn es una muestra aleatoria de una distribucin con
media finita (vector ) y una matriz de covarianzas finita y definida positiva (Q) se tiene que:
n ( xn )
d
N (0, Q)
donde
1 n
xn = xi
n i =1
127
log L 1 n

= 2

( xi ) = 0
i =1
log L n 1 n
2
= 2 + 4
2 2
( xi ) 2 = 0
i =1
A partir de las ecuaciones anteriores, los estimadores de mxima verosimilitud de la media y

varianza seran5:
1 n
! = xi = x
n i =1
1 n
! 2 =
n i =1
( xi x ) 2
Ahora, tomando en cuenta la propiedad de invarianza, reparametricemos la funcin en

1
trminos del parmetro de precisin 2 = . De esta forma, la funcin log-verosmil vendra
2
dada por:
n n 1 n
log L( , 2 ) = log(2 ) + log 2 2 ( xi ) 2
2 2 2 i =1
Resulta fcil verificar que el estimador de mxima verosimilitud de sigue siendo x , sin
embargo la ecuacin log-verosmil de 2 sera, en este caso:
log L( , 2 ) 1 n n
2
= 2 ( xi ) = 0

2
2 i =1
por lo que la solucin vendra dada por:
n 1
! 2 = =
n ! 2
( xi ! ) 2
i =1
Tal como se verifica en la expresin anterior, el estimador de mxima verosimilitud de

1 1
2 = es 2 , con lo que se verifica la propiedad de invarianza.
2
!
5.6. INFERENCIA EN EL CONTEXTO DE MXIMA VEROSIMILITUD. TESTS ASINTTICOS
As como en el contexto del estimador de mnimos cuadrados ordinarios revisamos las

diferentes pruebas de hiptesis que nos servan para verificar las distintas restricciones que
plantea la teora o la intuicin es deseable presentar el marco dentro del cual se pueden realizar
5
Para obtener los estimadores se debe multiplicar la primera expresin por 2 e insertar este resultado en la segunda
expresin.
128
pruebas de inferencia dentro del contexto de mxima verosimilitud. Veremos que los principios
que guan la inferencia en este contexto son aproximaciones y por ello no se realizan tests
exactos sino asintticos. Por tanto, se utilizan distribuciones aproximadas siendo la ms
utilizada la chi cuadrado. Veremos tambin cmo pruebas ya estudiadas son derivaciones o
casos especiales de las pruebas que aqu revisaremos.
Bajo el esquema de mxima verosimilitud son tres las pruebas que estudiaremos: la prueba
de Wald, la prueba de los multiplicadores de Lagrange y la prueba del ratio de verosimilitud.
Los tres procedimientos son asintticamente equivalentes. Sin embargo, existe una diferencia
fundamental entre ellos. La prueba de Wald evala nicamente una estimacin irrestricta del
modelo, la prueba de Lagrange utiliza una estimacin restringida y, finalmente, la prueba del
ratio de verosimilitud utiliza tanto la estimacin restringida como la irrestricta. En la prctica,
por tanto, la eleccin de determinada prueba depende de cual estimacin resulta ms fcil de
computar.
Pasemos ahora a formalizar el planteamiento de estos estimados. Supongamos que el

estimador sin restringir (irrestricto) del vector de parmetros es ! y queremos probar la
restriccin generalizada H0:f() = 0 contra la alterna H1:f() 0. La funcin f() debe ser
diferenciable de tal forma que permita la estimacin de todos los parmetros restringidos.
5.6.1 La prueba de ratio de verosimilitud
La prueba del ratio de verosimilitud (RV) es la ms antigua de los tres procedimientos que
analizaremos en esta seccin y tuvo su origen en los trabajos de Neyman y Pearson (1928). Se
basa en la comparacin del valor de la funcin de verosimilitud evaluada en el estimado sin
[ ]
restringir (! ) y en el estimado restringido r / f () = 0 . Segn esto, resulta claro que:
L( ) r
RV = <1
L(! )
dado que por definicin L(! ) > L(! r ) 6. Se necesita ahora expresar el ratio anterior en una forma
que tenga una distribucin asinttica bien definida, lo que puede lograrse expandiendo logL()
en una serie de Taylor alrededor del estimado sin restringir. Teniendo en mente las condiciones
de regularidad enunciadas en la seccin previa es factible expresar el logaritmo de la funcin de
verosimilitud de la forma:
2 log L() !
[ ] log L() 1 !
log[ L()] = log L(! ) + (! )

+
2

( )'
'
( )

Evidentemente, evaluada en !
6
Esto queda claro si tomamos en cuenta que una maximizacin sin restricciones nos permite alcanzar un mximo que
siempre ser mayor o igual que una maximizacin con restricciones. En el mejor de los casos lo que tenemos es que
los valores maximizados sern iguales si es que la restriccin pasa por el punto de maximizacin global de la funcin.
129
log L()
= S () = 0

2 log L() p
I ()
'
por lo que la expansin de Taylor vendra dada por:
1
log L() = log L(! ) + (! )' I (! )(! )
2
Aplicando logaritmos al ratio de verosimilitud tenemos que:
[
2 log( RV ) = 2 log L(! ) log L( r ) ]
Combinando los resultados anteriores y reemplazando el parmetro desconocido de la
expansin de Taylor por r tenemos que:
2 log( RV ) = (! r )' I (! )(! r )
Ya se conoce que bajo ciertas condiciones de regularidad el estimador de mxima

verosimilitud converge asintticamente a:
( )
n !
d
[
N 0, I () 1 ]
por lo tanto, (! )' I ()(! ) se distribuye 2(m), donde m es el nmero de restricciones.
Teniendo esto en mente y tomando en cuenta la ltima expresin derivada para el logaritmo del
ratio de verosimilitud podemos construir el estadstico de la forma:
[ ]
RVT = 2 log L(! ) log L( r ) 2 (m)
La expresin anterior es la forma usual de la prueba del ratio de verosimilitud, el cual

simplemente implica que el doble de la diferencia entre la funcin log-verosmil evaluada en el
parmetro sin restringir y restringido se distribuye chi-cuadrado con m grados de libertad. Si el
estadstico RVT resulta mayor al valor crtico se rechaza la hiptesis nula y por tanto la
restriccin. Si analizamos la expresin, tenemos que en primer lugar va el valor de la funcin
log-verosmil evaluada en el parmetro sin restringir el cual ser mayor o igual al valor de la
funcin log-verosmil evaluada en el parmetro restringido. Esto asegura que la expresin es no
negativa lo que va acorde con los valores de la funcin chi-cuadrado que sabemos son no
negativos.
5.6.2 Cmo se contruyen estos tests? Una aproximacin intuitiva
Para ilustrar la relacin entre los tres tests sugeridos lneas arriba Cuthbertson,Hall y Taylor
(1992) plantean el siguiente ejemplo. Supongamos que se prentende contrastar la siguiente
hiptesis acerca del parmetro escalar : H0: = 0 contra H1: 0. Tal como se discuti
130
anteriormente, el test RV estima el valor de la funcin log-verosmil evaluada tanto bajo H0

como H1 y calcula la distancia (1/2)RV (ver grfico).
La distancia (1/2)RV depende tanto de la distancia ( ! 0 ) como de la curvatura

2 log L
(pendiente) de la funcin log-verosmil que definiremos como R ( ! ) = evaluada en
2
= ! . Para una distancia dada ( ) , mientras mayor sea la curvatura o pendiente de la
0
funcin log-verosmil, mayor ser la distancia (1/2)RV. Resulta sencillo verificar lo anterior si
nos remitimos al grfico. Evidentemente, la funcin L1 presenta una mayor pendiente y resulta
comprobar que dada la distancia ( ! ) en el eje de las abcisas, la distancia
0
L( ! ) L1 ( 0 ) resulta mayor que la distancia L( ! ) L2 ( 0 ) . En este sentido, la precisin

del estimador de mxima verosimilitud ! es mayor para la funcin de verosimilitud L que 1
para la funcin L2, de modo que con la primera funcin se tendera a rechazar la hiptesis
= 0 ms fcilmente que con la funcin L2. Si la curvatura de la funcin es grande entonces
la variabilidad de alrededor de su estimado de mxima verosimilitud ! ser pequea como
ya vimos en secciones anteriores.
5.6.3 La prueba de Wald
Con la intuicin detrs de la derivacin del test RV en mente, pasemos ahora a analizar el
test de Wald, el cual utiliza nicamente la estimacin irrestricta. Este test estima la distancia
(1/2)RV desde el punto X, midiendo la distancia ( ! ) y calculando la posicin de P (o P
0 1 2
en el caso de L2) usando la curvatura R( ! ) evaluada en el punto mximo X. En este sentido,

podemos definir el estadstico del test de Wald para H0: = 0 de la siguiente forma:
W = ( ! 0 ) 2 R ( ! )
131
Sin embargo, este estadstico utiliza la curvatura promedio de la funcin medida a travs de
la matriz de informacin, la cual, como se sabe, sera la inversa de la varianza del estimador.
W = ( ! 0 ) 2 I ( ! )
Se puede ahora generalizar la expresin anterior para un grupo (f) de restricciones no

lineales (f() = 0) sobre k parmetros (f < k) y el estadstico de Wald (1943) vendra dado por:
[ ]{
W = g ( ) ' F ( I ( )) 1 F '} 1
g ( )
Donde F representa la matriz de orden (f x k) de las derivadas parciales g( ) evaluadas
en ! . Valores elevados de W son generados por grandes desviaciones de f ( ! ) de cero, y estas

desviaciones estn ponderadas por la curvatura promedio de la funcin log-verosmil. En este
sentido, ante valores elevados de W resulta factible que se rechace la hiptesis nula. El
estadstico de Wald se distribuye chi-cuadrado con m grados de libertad, donde m es el nmero
de restricciones en el vector f. A manera de ejemplo, consideremos ahora el caso especial
donde se pretende contrastar la restriccin ! = 0 en una restriccin lineal. En este caso f() =
- 0, y es evidente que F sera la matriz identidad. Para este caso especial, el estadstico del test
de Wald vendra dado por:
W = ! ( I (! )) 1 !
! 2
= 2 (1)
Var () !
Dado que la inversa de la matriz de informacin es precisamente la varianza del estimador

de mxima verosimilitud, el test de Wald, en este caso, sera simplemente el cuadrado del test t
de significancia para una restriccin sobre un slo parmetro de una regresin lineal.
Un ejemplo adicional que nos permite entender esta prueba y todas las expresiones que
aparecen en l es el siguiente: Supongamos que nuevamente estamos estimando una demanda
de un bien y tenemos la siguiente funcin a estimar:
LnX d = 1 + 2 LnPx + 3 LnPy + 4 LnY +
A partir de este modelo se plantean las siguientes restricciones:
Ho : 2 + 3 + 4 = 0
2 1 + 4 = 3
H 1 : al menos una no se cumple
En la hiptesis planteada tenemos dos restricciones. La primera de ellas se refiere a la

homogeneidad de grado cero y la segunda puede haber sido planteada para el investigador para
el caso especfico que se est analizando. Si bien estamos empleando un modelo lineal similar
al utilizado en el contexto de mnimos cuadrados ordinarios, ste puede ser muy til para
ilustrar la prueba de Wald. En primer lugar, podemos decir que la funcin g ( ) =0 implicara
igualar ambas restricciones a cero. Ello implica pasar el 3 a la izquierda en el caso de la
segunda restriccin. As las restricciones quedaran de la siguiente forma:
132
+ 3 + 4 = 0
g ( ) : 2
2 1 + 4 3 = 0
Dado esto calculemos la derivada de la funcin g con respecto al vector de parmetros .

Realizando esto obtenemos:
g ( ) 0 1 1 1
=
2 0 0 1
Notemos que esta derivada tiene una forma equivalente a la matriz R que utilizamos en el
contexto de la prueba F analizada en el captulo 4.
Ahora sabemos que por construccin los parmetros restringidos estn construidos para
cumplir con las restricciones. Entonces la pregunta que se hace la prueba de Wald es si los
parmetros sin restringir cumplen con la restriccin. El hecho de igualar a cero las restricciones
nos permite analizar una distribucin con media cero. Si remplazamos los parmetros estimados
sin restringir dentro de g el valor obtenido es distinto de cero salvo que las restricciones estn
perfectamente planteadas. La idea es analizar si esa diferencia de cero es significativa o no.
Tomando en cuenta esto, y si los resultados obtenidos de la estimacin sin restringir son los
siguientes:
LnX d = 1.04 0.75 LnPx + 0.70 LnPy + 0.51Lny
Aqu se han tomado con dos decimales los resultados obtenidos de la siguiente estimacin:
Variable Coeficiente Error Estadstico Prob.

Estndar t
C 1.049972 0.173306 6.058474 0.0000
X1 -0.755151 0.108545 -6.957035 0.0000
X2 0.705307 0.057244 12.32100 0.0000
X3 0.514416 0.022911 22.45280 0.0000
La matriz de varianzas y covarianzas de los parmetros obtenida por la matriz de

informacin sera:
C X1 X2 X3
C 0.030035 -0.010378 -0.005635 -0.001917
X1 -0.010378 0.011782 0.000416 -1.81E-05
X2 -0.005635 0.000416 0.003277 -5.39E-05
X3 -0.001917 -1.81E-05 -5.39E-05 0.000525
Remplazando los parmetros sin restringir dentro de la matriz g, obtenemos el siguiente

vector:
0.464572
2.614359
Con estos valores y haciendo los reemplazos correspondientes en la siguiente expresin,
[ ]{ }
W = g ( ) ' F ( I ( )) 1 F '
1
g ( )
133
obtenemos el siguiente valor para el valor W = 378.88, lo cual comparado con el valor de la
tabla chi-cuadrado con dos grados de libertad y al 95 por ciento de confianza nos arroja la
conclusin de que no podemos aceptar la hiptesis planteada. Por tanto las restricciones
planteadas en la hiptesis nula no pueden imponerse en el modelo.
5.6.4 La prueba de los multiplicadores de Lagrange
La prueba del multiplicador de Lagrange (LM), sugerido por Aitchison y Silvey (1938), tal
como se indic anteriormente, est basado nicamente en la estimacin restringida del modelo.
Esta prueba tambin es conocida como la del score eficiente dado que se basa en la distribucin
asinttica de funcin del score.
1
S () N (0, I ())
n
Intuitivamente hablando, la pregunta que se hace esta prueba es dado que el score evaluado
en el estimado sin restringir es igual a cero (dado que la condicin para hallar el estimador de
mxima verosimilitud es igualar el score a cero), si remplazamos el estimado restringido dentro
el score ste es igual a cero? Obviamente casi siempre ser distinto de cero y lo que se
evaluar es si la diferencia del cero es grande o pequea. En otras palabras lo que queremos
analizar es si la diferencia del cero se debe a factores aleatorios o a factores estructurales.
Debemos recordar que dado que la muestra es aleatoria, tanto el score como la matriz de
informacin y la funcin log-verosmil tambin sern variables aleatorias.
Formalmente hablando y tomando en cuanta el grfico anterior, el test LM calculara la

distancia (1/2)LR2 usando P2 como punto de partida. La funcin de verosimilitud (en este caso
L2) es primero evaluada en la restriccin = 0, esto es, el en el punto P2. El segundo paso
consistira en estimar el punto X basndonos en la curvatura de L2 en P2. Se sabe que la
estimacin irrestricta ! debera satisfacer la ecuacin S (! ) =
log L
= 0
, donde S
representa la funcin del score. En el punto = 0 la funcin del score, evidentemente, no es

igual a cero y, por tanto, [S( 0 ) ] da una medida de la diferencia entre 0 y ! . Sin embargo,
2
lo anterior no garantiza que dos funciones de verosimilitud no den el mismo valor para
[S( 0 )]2 , pero siempre una de las dos tendr un valor de 0 ms cercano al mximo. En este
sentido resulta conveniente ponderar [S( 0 ) ] por la curvatura de la funcin de verosimilitud.
2
Para un valor dado de L( 0), cuanto mayor sea la curvatura ms cercano estar el estimado
restringido a ! . En el grfico anterior resulta sencillo comprobar esto comparando los puntos
P2 y P3, donde este ltimo corresponde a la funcin con mayor curvatura (L1) y 0 est
claramente ms cerca a ! . En este sentido, en el test LM ponderamos el cuadrado de la
funcin del escore evaluada en el estimado restringido por la inversa de la curvatura
[I ( 0 )]1 para obtener:
LM = [S ( 0 )] [ I ( 0 )]
2 1
La versin generalizada del estadstico sera de la forma:
134
LM = [S ( 0 )] [ I ( 0 )] [S ( 0 )] 2 (m)
' 1
donde m es, nuevamente, el nmero de restricciones.
Resulta sencillo verificar que si se cumple exactamente la restriccin (esto es que r = ! )

entonces S ( r ) = 0 . Por tanto, la distancia entre S ( r ) y cero indica la fuerza del efecto de la
restriccin en el valor de mxima verosimilitud.
5.6.5 La relacin entre las tres pruebas.
La relacin entre los tres procedimientos descritos en esta seccin depende del grado en
que la segunda derivada sea capaz de proporcionar el valor de la funcin de verosimilitud en los
estimados restringidos y sin restringir. Si se busca contrastar una restriccin lineal, tal como la
que planteamos en el ejemplo previo, y la funcin de verosimilitud es cuadrtica, entonces la
segunda derivada proporciona un estimado perfecto de la forma global de la funcin. En este
caso, los tres estadsticos proporcionaran el mismo valor numrico (W = RV = LM). Sin
embargo, cuando la segunda derivada no es conocida la igualdad desaparece y se verifica que
W > RV > LM (Berndt y Savin (1977)).
Analicemos ahora un ejemplo adicional que ayude a entender la analoga e intuicin detrs
de los tres tests planteados. Consideremos nuevamente la estimacin por mxima verosimilitud
del parmetro y el contraste de la hiptesis H0:f() = 0.
Considerando el grfico anterior, si la restriccin f() = 0 es vlida su imposicin no debe

ocasionar una reduccin considerable en el valor de la funcin de verosimilitud y, por tanto, el
test de RV se basa en la distancia L(! ) L ( r ) . Por otro lado, si la restriccin es vlida,
f (! ) debera ser cercano a cero (ya que el estimador de mxima verosimilitud es consistente),
en este sentido, el test de Wald se basa en f (! ) evaluando su distancia de cero. Finalmente, si
la restriccin es vlida el estimador restringido debera ser cercano al valor que maximiza la
135
funcin de verosimilitud por lo que el test Lagrange (LM) se basa en evaluar la pendiente de la
funcin (score) en el estimador restringido.
5.6.6 Cmo se realiza la estimacin en la prctica.
En la primera parte de este captulo se us un ejemplo y se habl que una de las formas de
realizar la estimacin era a travs de un proceso de tanteo. Este procedimiento es el que ms se
utiliza en la prctica. No siempre es posible obtener un estimador de forma analtica porque la
forma de las funciones de probabilidad conforme se utilizan formas funcionales ms complejas
y distribuciones multivariadas los clculos analticos no son de fcil resolucin y se requiere de
mtodos numricos de aproximacin para obtener los estimados de mxima verosimilitud.
Estos mtodos reciben en general el nombre de algoritmos de optimizacin. En general, son
pasos ordenados a seguir que se repiten hasta lograr satisfacer ciertos criterios.
Uno de los enfoques que ms se utiliza es el de la resolucin de problemas lineales-

cuadrticos. Se considera a un problema de optimizacin con estructura lineal cuadrtica,
cuando la funcin objetivo es a lo ms de grado dos en los parmetros a estimar, las posibles
restricciones del problema son todas funciones lineales de los parmetros. La estimacin
analtica de este tipo de funciones es bastante sencilla. Este caso se presenta en las estimaciones
economtricas del modelo lineal general por mnimos cuadrados ordinarios, puesto que al ser el
modelo original un tipo de modelo lineal en los parmetros; la funcin a minimizar: sumatoria
de errores al cuadrado, representar una funcin cuadrtica (los parmetros a estimar estarn
elevados a lo ms al exponente 2). Sin embargo no ocurre algo similar en las estimaciones
economtricas por mxima verosimilitud, en las que la funcin a maximizar: funcin de
verosimilitud, adopta regularmente formas bastante complejas.
En este ltimo tipo de estimacin economtrica (aplicando el mtodo de mxima

verosimilitud), la obtencin analtica de los parmetros se hace imposible en determinadas
funciones, en cambio, no ocurre algo similar en estimaciones por mnimos cuadrados, en ellas,
aplicando las condiciones de optimizacin sealadas posteriormente, se puede llegar fcilmente
a los parmetros deseados.
Ante la dificultad que se presenta en la obtencin analtica de los parmetros estimados

usando las condiciones de optimizacin, se hace necesario utilizar una serie de procedimientos
numricos, denominados algoritmos, los cuales sern expuestos a continuacin.
Generalmente los problemas de optimizacin no lineal son resueltos por tcnicas iterativas.
Al tener una estimacin, una nueva estimacin es lograda por una regla dada, esta ltima
constituye un mejoramiento de la inicial. Si este procedimiento tiene xito, la estimacin final
satisfar todas las propiedades requeridas de la estimacin inicial. Las reglas de estos
procedimientos iterativos proveen las bases de la optimizacin no lineal particular.
Existe un rango amplio de algoritmos posibles. Ellos difieren en el empleo de las derivadas
parciales de la funcin; as, algunos requieren segundas derivadas, otros nicamente primeras
derivadas, y otros ms no las emplean. Los algoritmos basados en las primeras derivadas
ofrecen la opcin de calcular numricamente los parmetros.
La eleccin de un determinado algoritmo se encuentra directamente relacionado con el tipo

de funcin a maximizar o minimizar. Estos mtodos son muy eficientes y evitan muchas de las
dificultades presentes en la estimacin no lineal, evidentemente esto no implica que todos los
problemas de optimizacin no lineal queden resueltos. Algunas de las rutinas estn sujetas a
136
problemas de ejecucin quedando los resultados expuestos a malas interpretaciones, se hace

necesario tener mucho cuidado en el manejo de dichos resultados.
Existen varios tipos de algoritmos de optimizacin que estn en funcin del problema a
resolver y de la complejidad de la funcin a optimizar. Entre los ms utilizados estn los de
descenso rpido (steepest descent), Newton-Raphson y el algoritmo del scoring. En verdad
existen muchas variedades de los mismos que estn diseados para resolver problemas de la
presencia de varios mximos o mnimos y otros problemas que pueden aparecer en la prctica.
Para ilustrar la lgica de estos algoritmos utilizaremos el algoritmo del scoring. Este se define
segn la siguiente frmula:
n = n 1 + [I (n 1 )] S (n 1 )
1
Segn esta expresin vemos que el vector de parmetros a estimar (denotado por en la
frmula) es actualizado por una expresin que depende de la matriz de informacin y del score
de la funcin log-verosmil. Expliquemos en detalle la lgica que est detrs de esta expresin.
1. En primer lugar debemos partir de un valor inicial del valor del parmetro. Este
puede ser provedo por el usuario o por otro mtodo de estimacin. En modelos
sencillos se puede empezar con valores calculados por ejemplo por el mtodo de
mnimos cuadrados ordinarios.
2. Una vez que se tiene estos valores se calcula el valor del vector de score y la matriz
de informacin. Como sabemos el score debe ser cero en el estimador de mxima
verosimilitud. Partiendo de un valor inicial arbitrario es muy difcil que el score sea
cero. Sin embargo, pensemos en la informacin que nos brinda el score. Si su valor
es positivo quiere decir que estamos a la izquierda del valor mximo y por tanto
debemos avanzar hacia la derecha de la funcin. El valor positivo del score
precisamente nos indica en cunto debemos avanzar hacia la derecha. Ahora bien,
esta informacin es an incompleta para ver cmo el salto a la derecha en el valor
del parmetro se transforma en un aumento del valor de la funcin log-verosmil.
Este pedazo de informacin faltante nos es brindada, en el caso de este algoritmo
de optimizacin, por la matriz de informacin que es una medida de la curvatura de
la funcin log-verosmil. As vemos que de la multiplicacin de estas magnitudes
nos indican el grado de correccin que debe hacerse sobre el estimado inicial.
3. Una vez que se obtiene el nuevo valor se vuelve a realizar la operacin anterior. Si
el score sigue siendo distinto de cero se proceder a realizar una nueva correccin
del estimado. A cada repeticin del proceso se le denomina una iteracin. El
algoritmo seguir operando tantas veces como sea necesario.
4. Como se mencion en el paso 3, el algoritmo se repite tantas veces como sea
necesario. Para decidir si se sigue realizando las iteraciones se compara el estimado
obtenido en cada iteracin con el obtenido en la iteracin inmediata anterior. La
decisin de continuar est relacionada a lo que se denomina criterio de
convergencia. Este es provedo por el usuario, aunque la mayora de programas
utiliza el valor de 0.001 para decidir si el proceso se detiene o no. Esto quiere decir
que si la diferencia de cada uno de los estimados con el obtenido en la anterior
iteracin es mayor a este valor, el proceso contina. Si es menor, el proceso se
detiene y el ltimo estimado es el que se reporta como el estimado de mxima
verosimilitud. Obviamente podra hacerse ms pequeo el criterio de convergencia
pero ello implicara un costo en tiempo dado que sera necesario realizar ms
iteraciones. Como se puede ver, este mtodo es una buena aproximacin para
obtener el mximo de una funcin.
137
Los diferentes algoritmos difieren en la expresin que utilizan para multiplicar al score. Este
nos indica la direccin hacia la cual debe moverse el valor del estimado. La ponderacin que se
le d a ese cambio vendr dado por el la magnitud por la que se multiplique. En el caso del
algoritmo descrito lo que se utiliza es la matriz de informacin que nos da una medida de la
curvatura de la funcin log-verosmil. La eleccin de otras magnitudes estar supeditada a
criterios como la velocidad de convergencia y la forma y dificultad de la funcin a maximizar.
Un grfico nos puede ayudar a entender los pasos a seguir. En l se est representando la
funcin log-verosmil. El eje horizontal contiene los valores posibles del parmetro. Por
simplicidad estamos suponiendo que slo estimamos un parmetro. El eje vertical mide los
valores de la funcin log-verosmil.
En el grfico se puede apreciar que iniciamos el proceso con un valor inicial 0 y se calcula el
score que estara representado por la lnea tangente a la funcin log-verosmil. Si el score es
mayor a cero como nos indica la pendiente de la lnea tangente ello implica que debemos
movernos hacia la derecha tal como nos seala la lnea a la derecha de 0 . El proceso se repite
hasta que se llegue al valor del parmetro que maximice la funcin log-verosmil, max .
5.6.7 A manera de conclusin.
En este captulo hemos revisado el planteamiento, estimacin y propiedades del estimador

de mxima verosimilitud. Entre los principales resultados encontrados podemos mencionar que
este estimador parte del supuesto que la poblacin se distribuye segn una funcin de
probabilidad especfica y lo que se busca es, dada una muestra de datos, escoger el valor de los
parmetros que haga que la probabilidad de ocurrencia de la muestra sea la mxima posible. De
esta manera lo que se busca es que el supuesto inicial sea lo ms creble o verosmil posible. La
literatura acerca de este estimador es extensa y de hecho podra elaborarse todo un texto acerca
de las aplicaciones y propiedades del mismo. Sin embargo, ello escapa de los alcances de un
libro de texto de pregrado como el actual. No obstante lo anterior, tener una idea general de las
propiedades y principios detrs de este estimador es importante debido al uso cada vez ms
generalizado del mismo. La velocidad con la que se va avanzando en la rapidez de las
computadoras han hecho mucho ms factible realizar la estimacin por este mtodo adems que
muchos nuevos estimadores estn basados en este principio.
138
CAPITULO 6
QUIEBRE ESTRUCTURAL
6.1. DEFINICIN DEL PROBLEMA
El procedimiento normal al estimar una regresin bajo los supuestos del modelo lineal general
(MLG), conduce a la obtencin de coeficientes que representan estimados de los parmetros
poblacionales de la regresin. Al estimar una ecuacin de regresin mltiple y utilizarla para
predecir observaciones futuras que no pertenecen al espacio muestral que dio origen al coeficiente
estimado, se supone que los parmetros1 son constantes durante todo el periodo de estimacin y de
prediccin2. Por lo general se supone que las distintas realizaciones o submuestras que conforman
el espacio muestral total, son generadas por una misma estructura econmica. Sin embargo,
cuando se tiene sospecha o evidencia de la existencia de una variacin estructural del sistema
econmico subyacente en algn momento del periodo muestral, se aplican las pruebas de cambio
(o quiebre) estructural. De este modo, se verifica si dicha variacin es lo suficientemente
importante como para generar cambios en los coeficientes del modelo.
Tomando en cuenta lo anterior, se puede definir como cambio estructural a la variacin atpica del
conjunto de observaciones, generada por una innovacin o alteracin en la estructura econmica
bsica sobre la cual se sustenta la serie. Como se entiende, el concepto de cambio estructural est
ntimamente ligado a la nocin de estabilidad de parmetros ya que si se produce un quiebre, los
parmetros no sern constantes para todo el periodo muestral. En trminos ms prcticos, el cambio
estructural se genera en aquel perodo donde se detecta un quiebre pronunciado dentro de la
evolucin de la serie.
1
Ntese que son los parmetros los que se asumen como constantes bajo el supuesto de estabilidad y que los estimadores
de dichos parmetros, sometidos a las pruebas de estabilidad debern comportarse siguiendo este patrn.
2
Se supone estabilidad intertemporal de parmetros (parmetros constantes dentro del perodo de estimacin y dentro del
de prediccin).
Econometra Moderna
Como se ver en las siguientes lneas, el cambio puede darse ser en el intercepto, en una o varias de
las pendientes del modelo o en ambos y la solucin para cada caso ser particular (para ello
definiremos las llamadas variables dicotmicas, binarias o dummies en intercepto o en pendiente).
Las pruebas de deteccin, por otro lado, s son aplicables de manera general puesto que para
evaluar la existencia de inestabilidad de parmetros, en cualquiera de los tres casos, basta que
exista una distorsin relevante (ya sea en intercepto, pendiente o en ambas) en la evolucin del
sistema, mercado o economa que se materializa en cambios en el modelo estimado. Todo ello
implicara que la hiptesis de inexistencia de quiebre se rechace.
Tomando en cuenta los conceptos antes mencionados, resulta claro que la intuicin del quiebre
estructural tiene ms sentido en series de tiempo que en modelos de corte transversal. Es ms
coherente imaginar que la serie de observaciones de la variable que introduce el quiebre lo
experimenta a partir de una fecha a consecuencia del cambio estructural, que imaginar que entre
distintas observaciones de un conjunto de datos de corte transversal se produzca una variacin
fuerte como consecuencia de un fenmeno semejante (cambio estructural). En todo caso, resulta
prudente no descartar la posibilidad de evaluar la presencia de un cambio estructural en un modelo
que contiene datos de corte transversal, ya que de hecho los resultados de estos modelos pueden
indicar inestabilidad de parmetros. De hecho si uno agrupa las observaciones de corte transversal
en orden ascendente o descendente tomando en cuenta una variable explicativa y encuentra que
existe un quiebre estructural en un parmetro podra estar identificando la presencia de un valor de
la variable independiente que altera la relacin de comportamiento con la variable dependiente.
Esto podra considerarse como un umbral a partir del cual la relacin cambia.
En el caso de los modelos de series de tiempo, existe un patrn predeterminado de ordenamiento: la

sucesin temporal, no interesa si los valores de las variables explicativas aumenten o disminuyan,
por el contrario, la existencia de ciclos enriquecer el modelo puesto que si a pesar de ellos el
coeficiente de determinacin es alto, la regresin ser representativa. Sin embargo, en los modelos
de corte transversal, el criterio de ordenamiento de las observaciones depende del investigador y
ese ordenamiento de hecho influye en los resultados de los tests de cambio estructural puesto que el
momento (en este caso, la observacin) en que se produce, y en ltima instancia, la presencia
de quiebre depender del criterio de orden que se emple. Es por esto que el presente captulo se
centrar nicamente en analizar el concepto de quiebre estructural desde la perspectiva de la
modelacin de series de tiempo. Tal como se indic lneas arriba, existen dos tipos de quiebre
estructural bien definidos y un tercero que nace de la combinacin de los dos primeros.
Especficamente:
i) Quiebre en Intercepto: En este caso, los efectos sistemticos que afectan a la variable
dependiente y que el modelo no recoge, han sufrido un cambio (quiebre estructural)
haciendo que el intercepto vare. Esto implica que ha habido un cambio en el nivel autnomo
manteniendo los efectos marginales (medidos por las pendientes).
ii) Quiebre en Pendiente: A diferencia del caso anterior, las consecuencias del cambio
estructural que no son recogidos por el modelo afectan a los efectos marginales (coeficientes
de regresin). Es decir, los regresores afectarn en mayor o menor proporcin (dependiendo
si los coeficientes de regresin aumenten o disminuyan respectivamente) a la variable
explicada a partir de la fecha de quiebre. Por ejemplo, en el caso de un modelo bivariado, la
submuestra anterior al perodo de quiebre dar origen a una recta de regresin estimada con
Captulo 6: Quiebre Estructural
una pendiente distinta a la generada con las observaciones de la submuestra posterior a la

fecha de quiebre.
iii) Quiebre en Intercepto y en Pendiente: Si el cambio estructural conduce a observaciones

que generan una recta de regresin estimada con distinta pendiente e intercepto a partir del
perodo de quiebre. Es una combinacin de los dos casos anteriores.
Tal como se puede notar, el rechazo de la hiptesis planteada de estabilidad de parmetros no slo
depende de la existencia de quiebre. Tambin se puede rechazar tal hiptesis cuando el modelo no
est bien especificado y tal deficiencia conduce a que los efectos sistemticos que no son recogidos
por el modelo afecten al intercepto o a las pendientes cuando se consideran diferentes submuestras.
(a) Quiebre en Intercepto (b) Quiebre en Pendiente
(c) Quiebre en Intercepto y Pendiente
Figura 6.1
Los ejemplos clsicos que se emplean para explicar el proceso de quiebre estructural con modelos
que incluyen series econmicas son las etapas de transicin entre pocas de guerra y de paz, de
auge y depresin, de desastres naturales, de procesos hiperinflacionarios, y otros fenmenos que
afecten significativamente a las variables empleadas en el modelo de regresin que se evala.
Econometra Moderna
EJEMPLO 6.1
Como caso ilustrativo se plantea un modelo bivariado en el cual se analiza en qu proporcin el

PBI peruano es explicado por las exportaciones. La presencia de quiebre estructural en intercepto
y en pendiente es notoria. Observe el grfico de la izquierda en la Figura 6.1. La recta de
regresin estimada no recoge los efectos sistemticos que afectan al PBI en 1987 y que implican
una cambio en los regresores que afectan a las variables que explican al producto. Al realizar la
prueba de estabilidad, se detecta la existencia de parmetros inestables. Tras correr la regresin
para la submuestra anterior y posterior al quiebre, se obtienen estimados discrepantes y que
reflejan el problema de cambio estructural. El rechazo de la hiptesis de estabilidad puede deberse
ya sea a que la especificacin del modelo no es lo suficientemente rica como para capturar la
distorsin (y de hecho casi ocurre, puesto que para explicar al PBI por el mtodo del gasto es
prudente incorporar otras variables explicativas como el consumo, gasto fiscal, etc.), o ya sea que
en 1987 la coyuntura econmica del pas haya experimentado fuertes fluctuaciones y cambios
estructurales que se reflejan en la inestabilidad de los coeficientes del modelo. As pues, el
periodo de inestabilidad econmica y psima administracin pblica que experiment el Per
durante la gestin de Alan Garca representa el escenario en el que ocurre este cambio estructural.
La crisis del gobierno de Alan Garca a partir de 1987, en donde los niveles de inflacin y
recesin de la produccin, as como el empeoramiento de la distribucin funcional del ingreso,
han registrado cifras nunca antes vistas en la historia econmica peruana, explican el cambio
estructural detectado en este ejemplo. Las estrategias usuales de modelos con crecimiento hacia
afuera va promocin de exportaciones, en particular manufactureras, y el alejamiento de
modelos con crecimiento hacia adentro va un proceso de sustitucin de importaciones que
expande la sustitucin hacia industrias productoras de bienes intermedios y de capitales puede ser
una justificacin a la mayor importancia que empiezan a tomar las exportaciones como
determinantes del producto. La instauracin de organismos como PROMPEX es un claro
indicador del inters del Gobierno por impulsar el desarrollo del sector exportador. Esto explica el
porqu la pendiente de la segunda regresin es ms empinada, es decir el coeficiente que
acompaa a esta explicativa incrementa el efecto marginal que sta tiene sobre la dependiente.
60000 60000 60000
40000 40000 40000

PBI
PBI
PBI
20000 20000 20000
0 0 0
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
X X X
1896-1995 1896-1987 1988-1995
Figura 6.2
LS // Dependent Variable is PBI

Sample: 1896 1995
Included observations: 100
Variable Coefficient Std. Error t-Statistic Prob.
C -3535.998 1013.423 -3.489164 0.0007
X 7.563716 0.509200 14.85412 0.0000
R-squared 0.692448 Mean dependent var 7417.541
Adjusted R-squared 0.689309 S.D. dependent var 12471.67
S.E. of regression 6951.661 Akaike info criterion 17.71327
Sum squared resid 4.74E+09 Schwarz criterion 17.76537
Log likelihood -1025.557 F-statistic 220.6449
Durbin-Watson stat 0.155067 Prob(F-statistic) 0.000000

Sample: 1896 1987
C -2015.186 509.7807 -3.953045 0.0002
X 5.184631 0.288336 17.98120 0.0000

Sample: 1988 1995
C -43990.55 20725.24 -2.122559 0.0780
X 23.18801 5.627127 4.120756 0.0062
Econometra Moderna
EJEMPLO 6.2
Otro ejemplo ilustrativo es el que a continuacin se explica. Analice la evolucin de la variacin

mensual del ndice de precios al consumidor para el Per entre 1979 y 2000.
Inflacin en el Per
1979-2000
180%
160%
140%
120%
100%
80%
60%
40%
20%
0%
-20%
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
Figura 6.3
Como se puede observar en el grfico, la inflacin en el Per experiment durante las dos
ltimas dcadas de los noventas 3 etapas notoriamente demarcadas. La primera de ellas, entre
1979 y 1988, muestra un perodo relativamente estable con una inflacin mensual promedio de
5.41 por ciento. Entre 1988 y 1990, con el gobierno de Alan Garca, se inicia un perodo de
crisis, que en nuestros trminos representa un fuerte shock exgeno. Al respecto, el
financiamiento del dficit fiscal y los crditos a las empresas pblicas y el Banco Agrario fueron
las causas ms importantes del crecimiento desmesurado de la base monetaria, lo que signific
una inflacin mensual promedio de 29.48.
A partir de los noventas, la situacin estabilizarse y se llega a recobrar la disciplina monetaria

perdida durante los aos precedentes, y que en su momento llev a cometer vicios de
intervencin estatal en la actividad econmica. A partir de 1992, el Banco Central de Reserva
cuenta con su propia ley orgnica que le permite resguardar su autonoma, y de esta manera,
evita los excesos que el gobierno pueda cometer con la poltica fiscal.
El presente modelo se construye a partir de inflacin mensual (inf), la cual se pretende explicar
mediante el cambio mensual de M1 (cm1). La figura 6.4 muestra cmo durante los 3 perodos
demarcados, la recta de regresin cambia de pendiente.
Ene 1979 - Mar 1988 Abr 1988 - Oct 1990 Nov 1990 - Dic 2000
0.25 2.0 0.25
0.20 0.20
1.5
0.15
0.15
1.0 0.10
INF
INF
INF
0.10
0.05
0.5
0.05
0.00
0.00 0.0 -0.05

-0.1 0.0 0.1 0.2 0.3 0.0 0.2 0.4 0.6 0.8 1.0 -0.2 -0.1 0.0 0.1 0.2 0.3
CM1 CM1 CM1
Figura 6.4
Dependent Variable: INF

Method: Least Squares
Sample(adjusted): 1979:02 1988:03
Included observations: 110 after adjusting endpoints
C 0.054921 0.003693 14.87256 0.0000
CM1 0.027756 0.044191 0.628103 0.5313
Adjusted R-squared -0.005586 S.D. dependent var 0.027567
S.E. of regresin 0.027644 Akaike info criterion -4.320778
Sum squared resid 0.082535 Schwarz criterion -4.271678
Log likelihood 239.6428 F-statistic 0.394513

Sample: 1988:04 1990:10
C 8.81E-05 0.081107 0.001086 0.9991
CM1 1.218745 0.269230 4.526778 0.0001
S.E. of regression 0.222627 Akaike info criterion -0.104293
Econometra Moderna

Date: 08/28/01 Time: 15:08
Sample(adjusted): 1990:11 2000:11
C 0.016192 0.002910 5.564291 0.0000
CM1 0.165640 0.048541 3.412385 0.0009
Tal como se observa en el primer cuadro de regresin, los resultados indican que la recta de
regresin estimada no explica con un grado de ajuste alto a la variable dependiente. Si se divide
el espacio muestral en dos subconjuntos diferenciados por el momento de quiebre, se logra
entender porqu la estimacin global (empleando todos los elementos de la muestra) no era
robusta. Para cada subespacio muestral, los coeficientes de regresin cambian drsticamente.
Tras realizar sendas regresiones, el coeficiente de determinacin se ve incrementado
notablemente comparado con el caso de la regresin global. Todas estas precisiones dan un claro
indicio de la existencia de inestabilidad de parmetros o de cambio estructural.
Ahora que ya se tiene una idea general de la naturaleza y origen del problema del cambio
estructural, se pasarn a tratar los mtodos de deteccin de esta anomala.
6.2. CMO DETECTAR UN CAMBIO ESTRUCTURAL
6.2.1 Test de Chow3
Una de las aplicaciones ms comunes del test F es la evaluacin de la existencia de cambio

estructural. El test de Chow o prueba de estabilidad mediante el anlisis de varianza, compara las
sumas de errores al cuadrado (o suma de cuadrados residual) de modelos restrictos e irrestrictos
para analizar la existencia de cambio estructural.
Suponga que se evala la estabilidad de un modelo multivariado de k+1 regresores:
Y = + 1 x1 + 2 x 2 + ... + k x k
3
Gregory C. Chow 1960. Test of Equality between Sets of Coefficients in Two Linear Regressions Econometrica. Vol.
28, no. 3, pp 591 - 605. Esta prueba, si bien es conocida como test de Chow, fue discutida ocho aos antes por C.R.Rao
en Advanced Statistical Methods in Biometric Research, Nueva York: Wiley, 1952 y por Kullback y H.M.Rosenblatt
en On the Analysis of Multiple Regression in k Categories, Biometrika, 1957, pp. 67-83.
El primer paso para realizar el test consiste en tomar dos subconjuntos independientes del total
de la muestra y correr una regresin con las mismas variables explicativas del modelo original.
Cada subconjunto consta de n1 y n2 observaciones respectivamente. As se obtiene:
Yt = 1 + 11x1t + 12x2t + ... + 1kxkt + t = 1,2,,n1
Yt = 2 + 21x1t + 22x2t + ... + 2kxkt + t = n1+1, , N
En forma matricial:
y1 X 1 1 1
y = X +
2 2 2 2
El segundo paso es construir la hiptesis sobre la cual se realizar la prueba estadstica. Como
es obvio, lo que se har es analizar el comportamiento de los coeficientes de regresin de ambos
modelos, y la hiptesis planteada implica la igualdad de dichos coeficientes para asegurar la
estabilidad de los parmetros de regresin y por ende la ausencia de quiebre. Formalmente:
1 2 1 2

11 21 11 21
H0 : 12 = 22 H1 : 12 22

M M M M
1k 2 k 1k 2 k
Matricialmente:
R = q donde R = [I: -I] y q=0
Es importante resaltar que la igualdad de coeficientes debe cumplirse para todos ellos a la vez,
si al menos uno de ellos fuese diferente, entonces se aceptar la hiptesis alternativa.
Como tercer paso se construye el estadstico F tomando en cuenta la suma de cuadrados residual
de cada uno de los dos subconjuntos y la suma de cuadrados residual de la combinacin de
ambos:
( er2 eu2 )
F= k F( k , n1 + n2 2 k ) (6.1)
eu2
(n1 + n2 2k )
donde :
e 2
u = e 2
1 + e 2
2
Econometra Moderna
EJEMPLO 6.3
El procedimiento para evaluar el test consiste en examinar el valor del estadstico F que arroja el
programa y contrastarlo con el de tabla. Si el valor es menor al de tabla, se acepta la hiptesis de
estabilidad de los coeficientes, caso contrario se acepta la existencia de quiebre estructural. Sin
embargo, al momento de realizar este test, es necesario introducir como insumo la fecha en que
se presume se produce el quiebre. Esto es una desventaja puesto que si el nmero de
observaciones es alto, la fecha de quiebre puede pertenecer a un subconjunto bastante amplio de
esta muestra y realizar el test para cada perodo resultara engorroso. Se sabe, sin embargo, que
el quiebre se producir en el perodo en el que el F tome el valor ms alto.
Este programa genera series (Y y X1) de 500 observaciones. El modelo autogenerado contiene
una variable dependiente definida como Y = 0.5 + 0.3X1. Asimismo, se crea una serie y1 que
contiene un cambio estructural en intercepto y en pendiente y sobre la cual se evaluar el
quiebre estructural, tenga en cuenta el cambio radical en el intercepto introducido a partir del
periodo 281 (el intercepto pasa de 0.5 a 20) y en la pendiente (de 0.3 a 0.7). Note que el
programa subdivide la muestra total en dos submuestras e introduce la distorsin en el segundo
intervalo (280 - 500), por lo tanto, el quiebre se producir en el periodo 280. La ecuacin EQ
contiene al modelo libre de quiebre, por lo tanto el estimado obtenido tras ejecutar dicha
regresin ser el que se espera obtener tras eliminar el quiebre de la variable exgena. La
ecuacin EQD contiene el modelo que ha subsanado el quiebre pues introduce las dummies en
intercepto y en pendiente. Si analiza esta regresin y compara los resultados con los obtenidos
para el modelo normal (sin quiebre), notar que los valores son semejantes:
Modelo Real
LS // Dependent Variable is Y
Sample: 1 500
C 0.500000 7.65E-17 6.54E+15 0.0000

X1 0.300000 7.65E-18 3.92E+16 0.0000

S.E. of regression 1.71E-15 Sum squared resid 1.46E-27
F-statistic 1.54E+33 Durbin-Watson stat 1.831856
Prob(F-statistic) 0.000000
Modelo con Quiebre

LS // Dependent Variable is Y1
Sample: 1 500
C 8.984574 0.541397 16.59518 0.0000

X1 0.892797 0.054148 16.48806 0.0000

Sum squared resid 72954.66 Schwarz criterion 5.007844
Modelo con Dummies

LS // Dependent Variable is Y1
Sample: 1 500
C 0.499156 0.063505 7.860112 0.0000

X1 0.292692 0.006328 46.25504 0.0000
D1*X1 1.412031 0.009560 147.7077 0.0000
D2 19.48763 0.095484 204.0929 0.0000

Observe cmo en el modelo con variables dummies, tanto el intercepto como la pendiente se
acercan a los valores reales de los parmetros. En las ltimas secciones del captulo se describe
detalladamente el lgebra matricial de este procedimiento.
Si se deseara evaluar la presencia de quiebre para otras series, lo nico que se debe hacer es
modificar el programa en los comandos que hacen referencia a series autogeneradas, por
ejemplo en lugar de trabajar con la series Y y X1 se abre el archivo de trabajo que contiene la
informacin y se cargan las series a la ventana de programacin. As mismo, se deber arreglar
el tamao de muestra que fue predeterminado en 500 observaciones para el ejemplo. Note que la
separacin en submuestras para generar el quiebre ya no ser til en este caso para generarlo,
pero s para curarlo. En este sentido, una vez ejecutado el programa y conocida la fecha de
quiebre, se sabe a partir de qu periodo hacer que las dummies funcionen.
Econometra Moderna
e 2
r = suma de cuadrados residual para todo el conjunto de datos (modelo restringido) . Esto
se conoce como suma de cuadrados residual restringida y a travs de ella se impone la
restriccin de igualdad de parmetros.
e 2
1 = suma de cuadrados residual para el primer subconjunto de datos.
e 2
2 = suma de cuadrados residual para el segundo subconjunto de datos.
En seguida se realiza el test y se compara el F estadstico hallado en el paso anterior con el F

tabular con k y (n1 +n2 -2k) grados de libertad. Si el estadstico resulta ser menor al tabular
entonces se acepta la hiptesis de estabilidad, caso contrario la consolidacin de datos no tiene
sentido, es decir, agrupar los subconjuntos para correr una regresin conjunta sera intil puesto
que los coeficientes difieren para cada submuestra.
En muchos casos, esta evaluacin se realiza para comprobar si al ampliar el tamao de muestra, las
nuevas observaciones suponen un cambio significativo con respecto al resto de la muestra. En estos
casos, el tamao del segundo subconjunto (n2) puede ser muy pequeo y ello hara imposible
estimar el segundo de los modelos por falta de grados de libertad (n2-k) sera negativo puesto que n2
es muy pequeo). En el caso extremo en que n2 = k, e 2
2 = 0 y por lo tanto, el estadstico quedara
de la forma:
( er2 e12 )
F= k (6.2)
e 2
1
(n1 k )
Esta expresin es vlida para el caso en el que n2 < k como se ver en el test predictivo.
6.2.2 Test Predictivo para estabilidad4
Esta prueba es til cuando el tamao de muestra del segundo subconjunto es menor al nmero de
regresores ms uno (si k no incluye el intercepto), ya que bajo estas condiciones no es posible
realizar la regresin del segundo modelo (con n2 observaciones) y consecuentemente no se puede
obtener la suma de cuadrados residuales necesaria para realizar el test de la seccin anterior. Como
su nombre lo indica, la prueba inicia con la regresin del primer subconjunto de observaciones (de
n1 elementos) para luego realizar, y sobre la base de estos resultados, predicciones para las n2
observaciones del segundo subconjunto.
Una vez realizada la prediccin, se prueba la hiptesis de que los errores de prediccin tienen
media cero en cuyo caso se rechazara la presencia de un quiebre estructural. Dado que se espera
que los errores de prediccin tendrn un valor esperado nulo, se entiende que los valores predichos
para el segundo subgrupo se aproximarn en promedio a los reales, en cuyo caso, los estimadores
4
Gregory C. Chow 1960. Test of Equality between Sets of Coefficients in Two Linear Regressions Econometrica. Vol.
28, no. 3, pp 591 - 605.
empleados para aproximar a la variable dependientes sern vlidos y estables durante todo el
periodo cubierto por la muestra total. En este sentido, el estadstico a evaluar ser el siguiente:
( e r2 e12 )
( n2 )
F= F n ,n k (6.3)
( 2 1 )
e12
(n1 k )
Como se observa, el estadstico se construye con n2 y n1-k grados de libertad puesto que el
numerador est incluyendo de manera indirecta la suma de cuadrados residual del modelo predicho.
As mismo, y dado que el denominador slo incluye a la primera submuestra, los grados de libertad
se reducen al tamao de la primera submuestra menos el nmero de parmetros del modelo.
En este caso, es posible revertir el orden de las submuestras, es decir, es lcito intercambiar el
primer y segundo perodo para ver si la estabilidad de parmetros se mantiene con la prediccin de
las observaciones de los elementos del primer subconjunto y no del segundo.
Sin embargo, bajo condiciones normales, si el nmero de elementos de la segunda submuestra es

mayor al nmero de regresores (incluyendo al intercepto), es decir, si se cuenta con suficientes
grados de libertad, es preferible el anlisis de varianza pues resulta una prueba ms potente para
descartar la existencia de quiebre estructural.
Tal como se vio anteriormente, el Test de Chow realiza un anlisis basado en la descomposicin
del espacio muestral en dos realizaciones o submuestras. Un supuesto esencial en la ejecucin de
este test es que la varianza para cada subconjunto es idntica puesto que de no ser as, se violara
uno de los supuestos del MLG ya que se aceptara la existencia de heterocedasticidad. Puesto que
se evalan dos subconjuntos independientes y diferentes que conforman el espacio muestral total,
el supuesto de homocedasticidad implica que las regresiones de dichos subconjuntos tiene un
trmino de error que se distribuye con una varianza idntica para cada submuestra.
Figura 6.4
Econometra Moderna
Segn estudios realizados por Schmidt y Sickles5 (1977), Ohtani y Toyoda (1985) y Toyoda y
Ohtani (1986), bajo estas circunstancias se podra sobrestimar el nivel de significancia de las
pruebas estadsticas tratadas en los dos puntos anteriores. Esto implica aceptar un t estadstico
como mayor que un t tabular cuando en realidad es menor . Esto se entiende claramente
recurriendo a la grfica de una distribucin de probabilidades con zonas limitadas por los niveles
de confianza.
Una vez que se haya constatado que las varianzas difieren considerablemente para cada una de las
submuestras (de un modo semejante al sugerido en el test de Goldfeld y Quandt) y teniendo en
cuenta que el test de Wald es aplicable slo para muestras grandes, se realiza la prueba de
estabilidad de los parmetros.
Suponga que 1 y 2 son dos estimadores distribuidos normalmente basados en muestras

independientes (esto se asemeja a los pasos iniciales que se siguen en la ejecucin del test de
Chow) y con matrices de covarianzas V1 y V2. Bajo la hiptesis nula de que los dos estimadores
tienen el mismo valor esperado (igual al parmetro, lo cual implica la estabilidad del mismo para
las dos muestras), se concluye que:
(1 2) N (0, V1 + V2)
En seguida se construye el estadstico de Wald con el cual se realizar la prueba:
W = (1 2) (V1 + V2)-1(1 2) 2 con k +1 grados de libertad (6.4)
Es de utilidad la aplicacin de este estadstico puesto que considera restricciones y varianzas

estimadas. En este caso, la restriccin que se impone es la igualdad de los coeficientes en ambas
regresiones. Como se sabe, el test de Wald evala las restricciones, si stas se cumplen, las
estimaciones hechas por las ecuaciones de regresin restringidas e irrestrictas no deberan discrepar
en gran magnitud, es decir, en el caso de estabilidad, los coeficientes deberan ser estables y por lo
tanto se rechazara la presencia de quiebre estructural.
Si el valor del estadstico es muy elevado, se rechazar la hiptesis nula de estabilidad.
Esta evaluacin es vlida slo para muestras grandes puesto que el estadstico de Wald requiere
como dato previo la matriz de covarianza para las perturbaciones de las regresiones ejecutadas para
cada submuestra, es decir, demanda como insumo a V1 + V2. Dado que en la prctica slo se cuenta
con los estimadores de tales parmetros resulta conveniente trabajar con muestras grandes ya que
en estos casos los resultados no se distorsionan significativamente si se emplean los estimadores en
lugar de V1 + V2.
Para muestras pequeas y moderadas, el test de Wald presenta alta probabilidad de arrojar
resultados con error tipo I, es decir, el frecuente rechazo de la hiptesis planteada de estabilidad
cuando en realidad sta es verdadera. Una forma de evitar el error es emplear valores crticos
mayores a los normales (recordemos que para rechazar la hiptesis nula el valor estadstico debe
ser mayor al valor tabular de modo que si el valor tabular o crtico aumenta, la probabilidad de
rechazar la hiptesis planteada se reduce).
5
P. Schmidt y R. Sickles 1977. Some further evidence on the use of the Chow test under heteroskedasticity,
Econometrica, Vol. 45, No.5, pp. 1293 - 1298.
EJEMPLO 6.5
Al hacer el anlisis de las perturbaciones, se detecta heterocedasticidad:
White Heteroskedasticity Test:
F-statistic 103.9318 Probability 0.000000

Obs*R-squared 147.4495 Probability 0.000000
Test Equation:
LS // Dependent Variable is RESID^2
Sample: 1 500

C 16996.56 899.4082 18.89749 0.0000
X1Q -0.535115 1.336643 -0.400343 0.6891
X1Q^2 -0.000522 0.000240 -2.175656 0.0301

Se sabe que existe un quiebre estructural en el periodo 280 (pues el programa as lo determina),
pero que tambin existe heterocedasticidad en el modelo, entonces, la divisin de las
submuestras se har justo en el perodo 280 y se aplicar el Test de Wald.
Tras correr las dos regresiones (una para las 279 observaciones y otra para las restantes), se
obtienen los estimadores (1 , 2) y las varianzas estimadas de tales estimadores. As pues:
1 = 0.498078 2 = 0.079632
V1 = 2.21204147308e-06 V2 = 1.63880104589e-08
De donde se obtiene un estadstico W = 78574.2142 que por ser demasiado alto indica que la
restriccin de igualdad de estimadores no se cumple, lo cual lleva a rechazar la estabilidad de
coeficientes.
6.2.3 Test alternativos de residuos recursivos para evaluar la estabilidad
Los tests que se presentan a continuacin estn basados en el empleo de residuos recursivos y
fueron propuestos por Brown, Durbin y Evans(1975). La estructura de estas pruebas sigue una
lgica similar al test predictivo para estabilidad pero no llegan a ser tan potentes como el test de
Chow original. Sin embargo, tienen la ventaja de no requerir la fecha en que se produce el quiebre
como insumo necesario para evaluar las hiptesis.
Econometra Moderna
Suponga que el espacio muestral total consta de n observaciones. El residuo recursivo de la

ensima observacin se define como el error de prediccin de la variable explicada hallado
empleando el estimador MCO obtenido a partir de las t-1 observaciones anteriores. Formalmente:
et = y t xt ' t 1 MCO
Lo que interesa es calcular el residuo recursivo normalizado. Para ello es necesario conocer la
varianza del residuo recursivo (et ), que est definida por la siguiente ecuacin:
Var (et ) = 2 [1 xt ' ( X t 1 ' X t 1 ) 1 xt ]
Note que se emplea minsculas para nombrar a las variables que involucran slo observaciones del
perodo t y maysculas para las mismas variables pero que incluyen las t-1 observaciones
anteriores.
Una vez obtenida la varianza se construye el residuo recursivo normalizado:
et
wt = N (0, 2 ) (6.5)
1
1 + xt ' ( X t ' X t ) xt
Bajo la hiptesis planteada de estabilidad de parmetros, wt se distribuye como una Normal con
media cero y varianza constante e independiente de ws s t.
Brown Durbin y Evans sugieren dos pruebas basadas en el residuo recursivo normalizado, stas
son:
i) Test CUSUM (Cumulate Sum of Residuals)
Como su nombre lo indica, esta prueba se basa en la suma acumulada de los residuos normalizados.
El estadstico que se emplea es el estadstico CUSUM o Wt:
t
wr
Wt =
r = k +1
2
(6.6)
donde:
T T
(w r w)2 w r
=
2 r = k +1
y w= r = k +1
T k 1 T k
Si los valores del residuo recursivo normalizado cambian en el tiempo de manera sistemtica, se
tomar como evidencia de inestabilidad en el modelo. Bajo la hiptesis nula de estabilidad, Wt
tiene media cero y una varianza aproximadamente igual al nmero de residuos acumulados (ya que
cada trmino tiene varianza igual a uno y adems son independientes). La evaluacin se realiza
graficando el estadstico CUSUM a lo largo del tiempo. Si esta grfica permanece dentro de las
bandas de confianza (definidas por dos rectas que conectan los puntos [k, (T-k)1/2] y [T, 3(T-
k)1/2] donde representa diversos valores de significancia6) entonces los coeficientes son estables
en el tiempo, pero si la grfica traspasa las bandas, se rechaza la hiptesis planteada y se reconoce
la existencia de un cambio estructural en el modelo para el perodo muestral.
Cabe destacar que la prueba se realiza trazando la grfica alrededor del eje de abscisas, es decir, se
espera que el estadstico CUSUM flucte alrededor del valor nulo. Si eso ocurre, la lnea
permanecer dentro de las bandas de confianza y se aceptar la estabilidad de parmetros, en otras
palabras, se acepta que la suma de residuos recursivos tiene esperanza nula.
60
40
20
-20
-40
-60
20 40 60 80 100 120 140 160 180 200
CUSUM 5% Significance
Figura 6.5
ii) Test CUSUM2 (Cumulate Sum of Square Residuals)
En este test alternativo se emplea el estadstico CUSUM2 o St que hace referencia a la suma
acumulada de los residuos normalizados al cuadrado. Formalmente:
w
r =k
2
r
St = T
(6.7)
w
r =k
2
r
Dado que los residuos recursivos se distribuyen independientemente, tanto el numerador como el
denominador son sumas de variables que se distribuyen como una Chi-cuadrado, cada una con un
grado de libertad. Por lo tanto el valor esperado de este estadstico E[St] es aproximadamente igual
a (t - k)/(T- k). La prueba se realiza graficando los valores de E[St] para cada momento en el
tiempo. Si esta grfica sobrepasa los lmites impuestos por el intervalo de confianza E[S] c07
entonces se rechaza la hiptesis nula y se acepta la presencia de quiebre.
6
Los valores de que se encuentran en el paper de Brown et al. son = 0.948 al 95% de confianza y = 1.1143 al
99%.
7
c0 depende de T-k y del nivel de significancia deseado.
Econometra Moderna
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
20 40 60 80 100 120 140 160 180 200
CUSUM of Squares 5% Significance
Figura 6.6
Es preciso sealar adems que ambas pruebas (CUSUM y CUSUM2) dan indicios de la fecha de
quiebre. Dado que son pruebas grficas, la exactitud de la fecha de quiebre no es una de sus
ventajas, sin embargo aproxima con un margen de error aceptable tal perodo. Por ejemplo,
siguiendo el caso de la inflacin en el Pru, se sabe que existen dos quiebres: el primero de ellos se
da en Marzo de 1988 y el segundo se da en octubre de 1990. Teniendo esto en cuenta, al realizar las
pruebas de residuos recursivos CUSUM y CUSUM2, se obtienen los siguientes resultados:
60 1.2
1.0
40
0.8
20
0.6
0
0.4
-20
0.2
-40 0.0
-60 -0.2
50 100 150 200 250 50 100 150 200 250
CUSUM 5% Significance CUSUM of Squares 5% Significance
Figura 6.7
Finalmente, cabe sealar que existe una ventaja del test CUSUM2 sobre el test CUSUM
convencional puesto que al elevar al cuadrado los errores se elimina la distorsin que pueden
incluir los signos de los errores. El test CUSUM normal slo agrega los errores de prediccin que
se van obteniendo al ir ampliando la muestra en una observacin, pero estos errores pueden tener
signos contrarios y cancelar su efecto, distorsionando el resultado de la prueba. El test CUSUM2 no
es afectado por este problema ya que al elevar al cuadrado los errores, se elimina el efecto del
signo, sin embargo, la intuicin del estadstico no es tan pura como en el caso convencional ya que
no se espera que sea nulo en promedio sino se busca que el valor esperado sea igual a (t - k)/(T - k).
iii) Test t de Harvey y Collier:
Existe un test propuesto por Harvey y Collier (1977) relacionado al uso de residuos recursivos para
evaluar la estabilidad y que se basa en la media muestral de tales residuos.
Bajo la hiptesis nula de estabilidad, la media muestral de los residuos recursivos ( w ) se

distribuye normalmente con media cero y varianza 2/(T - k). En este test, se evala la hiptesis de
que la media de wt es cero a travs de la construccin de un estadstico t que se compara con un
valor tabular con T - k - 1 grados de libertad:
( T k )w
t= tT - k -1 (6.8)
s
donde:
r =T 2
2
(w
r = k +1
r w)
s =
T k 1
iv) Test de Prediccin de una Etapa:
Como se puede inferir de la definicin, cada residuo recursivo es el error de una prediccin de una
etapa (es decir la discrepancia entre el valor estimado de la isima observacin predicho con las i -
1 observaciones anteriores). Tal error puede ser comparado con su desviacin estndar bajo la
hiptesis nula con el propsito de evaluar si el valor de la variable dependiente en el periodo t ha
provenido del modelo estimado empleando todas las observaciones hasta ese punto.
En la figura 6.8, se traza los residuos recursivos y los errores estndares en la parte superior, y en la
parte inferior, se muestran los valores de las probabilidades para aquellos puntos muestrales en los
cuales la hiptesis de estabilidad de coeficientes se rechazara a niveles de 0, 5, 10 y 15% de riesgo.
Tal como se ve, en el periodo 280 existe una acumulacin de puntos bien marcada y con niveles de
confianza muy altos (casi 0% de riesgo).
500
-500
-1000
0.00
-1500
0.05
0.10
0.15
50 100 150 200 250 300 350 400 450 500
One-Step Probability Recursive Residuals
Figura 6.8
Econometra Moderna
v) Test de Prediccin de N Etapas:
Este test grfico, arroja los resultados que se obtendran si se ejecutase el Programa 6.2. El test
explota los clculos recursivos para armar una secuencia de tests de Chow predictivos. En contraste
a la versin convencional del Test de Chow Predictivo, ste no requiere como insumo la fecha en
que se cree se genera el quiebre pues automticamente calcula todos los casos posibles empezando
con el tamao de muestra ms pequeo posible para estimar la ecuacin de prediccin e ir
introduciendo una observacin adicional cada vez. El grfico muestra en la parte superior los
residuos recursivos y las probabilidades de rechazo de estabilidad en la parte inferior con 0, 5, 10 y
15% de riesgo.
En este caso, el quiebre se detecta en el periodo 280, con lo cual se puede concluir
consistentemente y sin contradiccin con ninguna de las pruebas anteriores que el cambio
estructural existe y se da en el periodo 280.
500
-500
-1000
0.00
-1500
0.05
0.10
0.15
50 100 150 200 250 300 350 400 450 500
N-Step Probability Recursive Residuals
Figura 6.9
vi) Estimaciones de Coeficientes Recursivos:
6 1.5
1.0
5
0.5
4 0.0
-0.5
3
-1.0
2 -1.5
20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
Recursive C(1) Estimates 2 S .E . Recursive C(2) Estimates 2 S .E .
Figura 6.10
Esta prueba grfica permite trazar la evolucin de cualquier coeficiente a medida que la muestra
empleada para regresionar se ampla cada vez ms. El grfico muestra la evolucin del coeficiente
seleccionado para todas las posibles ecuaciones estimadas recursivamente. Si tal grfico muestra
variaciones significativas a medida que se va adicionando mayor cantidad de observaciones para
estimar las ecuaciones, entonces se tiene un argumento fuerte que indica la presencia de quiebre
estructural.
6.3. ALGUNAS CRTICAS A LOS TESTS DE CAMBIO ESTRUCTURAL
En general, los diversos tests alternativos propuestos para evaluar la estabilidad de los coeficientes
son menos potentes que el Test de Chow de anlisis de varianza. Sin embargo, ste tambin tiene
debilidades y no es aplicable en cualquier espacio muestral, a continuacin se citan tres crticas
referidas a estas pruebas:
1. A.L. Wilson8 afirma que si bien el test predictivo de estabilidad propuesto por Chow es
sugerido slo para el caso en el que el tamao de muestra del segundo subconjunto es menor
que el nmero de regresores (es decir, cuando no existen suficientes grados de libertad para
correr la regresin del segundo modelo)9, debera ser considerado tambin en el caso en el que
el tamao de muestra de tal subconjunto sea mayor al nmero de regresores. Esto debido a que
la prueba predictiva tiene propiedades deseables de potencia cuando existen algunos errores
desconocidos de especificacin.
2. Rea10 establece que no es posible considerar la prueba predictiva de Chow para evaluar
estabilidad en el caso de insuficiencia de grados de libertad. Afirma que lo nico que
demuestra este test es que el error de prediccin tiene media cero, es decir que las predicciones
son insesgadas. Si no existe cambio estructural, el error de prediccin tendr una media de
cero. Pero si el error de prediccin tiene media cero, no necesariamente se aceptar la
existencia de estabilidad de parmetros en el caso en que n2 < (k+1). En otras palabras, el error
de prediccin podr tener una media cero aun si los coeficientes son inestables si, por ejemplo,
los regresores tienen un comportamiento atpico. Rea concluye que no es posible afirmar a
partir de los resultados de los tests de Chow que los parmetros son estables, slo se puede
afirmar que no lo son. Es decir, no considera al test de Chow como una prueba de estabilidad
sino como una de insesgamiento en la prediccin. Rea considera que todo lo dicho es vlido
slo en el caso de la prueba predictiva aplicada cuando n2 < k+1, es decir si n1 y n2 son mayores
que k + 1, las dos pruebas de prediccin aplicadas sobre cada submuestra son de estabilidad.
3. Como se mencion anteriormente, surge un problema al realizar los tests de estabilidad cuando
existe heterocedasticidad. Si las varianzas del error de ambas muestras son distintas, entonces
las pruebas predictivas y de anlisis de varianza arrojan resultados imprecisos en el sentido de
que se subestiman los valores tabulares de los estadsticos y se tiende a caer en un error de tipo
I. Ante esta situacin se emplea el test de Wald explicado en la seccin II parte iii.
8
A.L.Wilson When is the Chow Test UMP? The American Statistician,Vol.32, No.2, mayo 1978, pp. 66-68.
9
Ver seccin II parte ii.
10
J.D.Rea Indeterminacy of the Chow Test when the number of observations is insufficient Econometrica, vol. 46, No.
1, enero 1978, pg. 229.
Econometra Moderna
6.4. CMO SE CORRIGE UN CAMBIO ESTRUCTURAL
Tal como se hizo referencia en la parte introductoria del captulo, existen dos razones por las cuales
se puede aceptar la existencia de quiebre estructural en un modelo. Una de ellas radica en la
deficiente especificacin del modelo, de modo que ste no captura ciertos shocks o fluctuaciones
que s seran incorporados de presentar una especificacin ms rica. Tales fluctuaciones pueden ser
aceptadas como cambios estructurales que generan modelos estimados con coeficientes inestables.
La segunda razn consiste en la presencia de un cambio sistemtico que afecta a la variable
dependiente y que no es recogido por el modelo correctamente especificado.
Para corregir el problema de cambio estructural surgen por lo tanto dos posibles soluciones:
6.4.1 Reespecificacin del Modelo
Si no se posee la certeza de que el modelo que se est empleando para explicar el comportamiento
de la variable dependiente est bien especificado, es decir, si no presenta una estructura tal que las
variables independientes explican con un grado de ajuste elevado a la variable dependiente a pesar
de los ciclos y fluctuaciones que ella presente, entonces es conveniente tratar de reespecificar el
modelo introduciendo nuevas variables o extrayendo las irrelevantes.
Como se sabe, el primer paso para el desarrollo de una evaluacin economtrica es la

especificacin del modelo. Generalmente, y sobre todo en los modelos estructurales, la
construccin de los modelos est basada sobre intuicin y teora econmica. A pesar de que dichos
modelos tengan un sustento terico slido, la regresin puede arrojar resultados discrepantes. En
esos casos es conveniente revisar la especificacin de la ecuacin de regresin. En este sentido, si
se acepta la hiptesis de cambio estructural dentro de modelos deficientemente especificados, se
estara aceptando la existencia de un problema subsanable con una correcta especificacin, es decir,
se puede introducir una variable relevante que mejore el modelo de manera que el grado de ajuste
de los puntos observados a la recta de regresin sea mayor y a la vez tal improvisacin repercuta en
la capacidad que tienen las variables independientes para explicar los cambios sistemticos que
afecten al modelo.
El anlisis riguroso acerca de error de especificacin, se realiza en el captulo X. No obstante, las

conclusiones relevantes y que deben considerarse son las siguientes:
En el caso de omisin de variables relevantes, existir un sesgo en la estimacin de los

parmetros.
En el caso de introduccin de variables irrelevantes, el estimador no es segado, entonces podra

considerarse razonable una estrategia de introducir una elevada cantidad de variables
explicativas en el modelo de regresin. Sin embargo, tal estrategia conduce a aumentar la
varianza con que se estiman los coeficientes de las variables explicativas verdaderamente
relevantes, sobre las que se perdera en consecuencia, precisin.
Por lo tanto, la introduccin de variables relevantes ser beneficiosa slo si no afecta la precisin
de estimacin de los coeficientes del resto de explicativas. En este sentido, ser provechoso
reespecificar el modelo para que capture el quiebre incorporando tales variables, puesto que si
antes el modelo no explicaba con la suficiente exactitud a la variable explicada y esa era la razn de
la aceptacin de inestabilidad de parmetros, tras incrementar el grado de exactitud con que las
explicativas describen a la endgena, es muy posible que el problema desaparezca. Por otra parte,
otra estrategia para solucionar el problema de quiebre consiste en reducir el nmero de variables
puesto que alguna de ellas puede que origine inestabilidad en alguno de los periodos a la hora de
correr la regresin. Tal como se mencion, si la variable es irrelevante, el modelo ser mejorado,
pero si es relevante, los estimadores quedaran sesgados y se tendra que decidir entre la omisin de
la variable o la inestabilidad de los coeficientes. En este caso es recomendable convivir con el
quiebre puesto que se podra solucionar con introduccin de variables dummies. Adems, la
contribucin marginal de esa variable podra ser muy relevante para explicar el comportamiento
sistemtico de la variable endgena.
6.4.2 Introduccin de Variables Dicotmicas
El procedimiento algebraico para solucionar el problema de series que presentan quiebre depender
si el cambio estructural es en media, tendencia o en ambas. Sin embargo, en todos los casos se har
uso de variables dummy o dicotmicas.
Dado que las variables dicotmicas pueden tomar slo dos valores (1 y 0), se deduce rpidamente
que tomar un valor para el subespacio anterior al quiebre y otro para el posterior. Es decir, adems
de las variables independientes originales del modelo, se incluyen las variables dummy como
explicativas adicionales. Precisamente, la funcin que tendrn ser la de explicar la presencia del
quiebre.
Como se sabe, el test ms potente para detectar la deteccin de la existencia de cambio estructural
es el test de Chow, prueba que requiere como insumo la fecha en que se sospecha se genera el
quiebre. Por lo tanto, una vez hecha la prueba y tras haber rechazado la hiptesis nula de
estabilidad de los coeficientes, se conocer cundo se produce el cambio estructural en las series.
Con esta informacin se podr solucionar el problema incorporando variables dummy.
i) Cambio en Intercepto:
En este caso, el procedimiento para la correccin consiste en introducir una dummy aditiva al
modelo, la que tomar valores nulos para el perodo anterior al quiebre y valores unitarios a partir
de l. Resulta redundante comprobar la significancia estadstica del coeficiente de la dummy ya que
se verific la existencia de quiebre con el test de estabilidad.
Figura 6.11
Econometra Moderna
La intuicin detrs de la incorporacin de una dummy aditiva en el caso de un cambio en media

resulta bastante sencilla. Puesto que la dummy empieza a funcionar a partir del perodo
inmediatamente siguiente al quiebre, lo que har ser explicar la variacin en el intercepto de la
recta de regresin estimada, solucionando de esta manera el problema.
Y = + 1 x1 + 2 x 2 + ... + k x k + modelo original
Y = + 1 x1 + 2 x 2 + ... + k x k + + d modelo con dummy
donde: d=0 t =1,2,...,tquiebre
= 1 t = tquiebre+1, ...., T
reordenando:
Y = ( + d ) + 1 x1 + 2 x 2 + ... + k x k +
1 0 x11 L x k1
1 0 x12 L x k 2

M M M O M

1 0 x1t quiebre L x ktquiebre
Y= +
1 1 x1tquiebre +1 L x ktquiebre +1 1
M
M M M O M

1 1 x1,n 1 L x k , n 1 k

1 1 x1n L x kn
Claramente se observa que la dummy afecta al intercepto a partir del perodo tquiebre +1 puesto que
recin entonces toma valores no nulos. Gracias a la influencia de la variable dummy a partir del
periodo tquiebre, la nueva recta de regresin ya no presenta un cambio en media y por lo tanto, los
coeficientes sern estables, es decir vlidos para explicar el comportamiento de la variable
endgena para todo el intervalo muestral.
ii) Cambio en Pendiente:
En este caso la correccin se realiza introduciendo una variable dummy multiplicativa al modelo
que tomar valores nulos para el perodo anterior al quiebre y valores unitarios a partir de l. Esta
variable afectar directamente al regresor que est ocasionando el quiebre. Si fuesen varias las
variables explicativas que presentan un cambio estructural, se deber incluir una dummy por cada
una de ellas. Cada dummy empezar a funcionar en el perodo inmediatamente siguiente en que
se genera el quiebre dentro de la serie a la cual afecta.
Suponga un modelo bivariado:
Y = + 1x1 + modelo original
Y = + 1x1 + + dx1 modelo con dummy

donde: d=0 t = 1,2,...,tquiebre
=1 t = tquiebre+1, ...., T
reordenando:
Y = + (1 + d)x1 +
1 x11 0
1 x12 0

M M M

y=
1 x1, tquiebre 0 +
1 x1, t +1 x 1, tquiebre +1 1
quiebre

M M M
1 x x 1,n 1
1,n 1

1 x 1n x1n
Note que la tercera columna de la matriz de informacin contiene a los valores de la dummy que
multiplica a la observacin de la exgena correspondiente al periodo, por eso es que no aparecen
valores unitarios una vez producido el quiebre.
Al igual que en el caso de un quiebre en media, se puede esbozar grficamente el efecto de la

variable dummy sobre la serie que presenta el quiebre en tendencia:
Figura 6.12
Para un modelo multivariado, por otro lado, se sigue un procedimiento similar. Se crea una variable
dummy por cada exgena que introduzca quiebre al modelo. Para verificar esto, suponga un
modelo multivariado en el cual las tres primeras explicativas presentan quiebre:
Y = + 1x1 + 2x2 + ... + kxk + modelo original
Y = + 1x1 + 2x2 + ... + kxk + + 1d1x1 + 2d2x2 + 3d3x3 modelo con dummy

Econometra Moderna
=1 t = tquiebre+1, ...., T
y reordenando:
Y = + (1 + 1d1)x1 + (2 + 2d2)x2 + (3 + 3d3)x3 + 4 x4 + ... + kxk +
1 0 0 0 x11 x 21 x31 L x k 1
1 0 0 0 x12 x 22 x31 L x k 2 1

1 M 0 0 2

1 x1,tquiebre 0 0 3
1 x1,t +1 M 0 1
quiebre

1 x 2,t quiebre 0 2
Y=
M +
x 2 ,tquiebre +1 0 M M M O M 3

1 M M
1 M x3,t quiebre M

1 x3,t quiebre +1

1 M
1 x1n x2 n x3 n x1n x2 n x3 n L x kn k
Observe la matriz de informacin. Notar que las dummies empiezan a funcionar en distintos
perodos (segn la fecha en que se produzca el quiebre en cada serie) para cada endgena.
Es importante sealar que, en este caso, la inclusin de una dummy multiplicativa podra generar
multicolinealidad si es que el quiebre ocurre en un perodo muy cercano al inicial. Imagine un
espacio muestral de 500 observaciones. Si una de las exgenas presenta un cambio estructural en el
perodo 6, las 494 observaciones restantes entrarn a constituir la nueva columna (generada a travs
del producto de la dummy con la variable) en la matriz de informacin, y esta ser idntica a la
original para 496 perodos.
iii) Cambio en Intercepto y en Pendiente:
La solucin en este caso es una fusin de las dos secciones anteriores. As, para el caso bivariado,
se tiene lo siguiente:
Y = + 1x1 + modelo original
Y = + 1x1 + + dx1 + 2d2 modelo con dummy
=1 t = tquiebre+1, ...., T
reordenando:
Y = (+ 2 d2) + (1 + d)x1 +
Los efectos de la inclusin de estas variables dummy pueden verificarse, nuevamente, a travs de
un grfico:
Figura 6.13
El lgebra matricial, tanto para el caso bivariado como para el multivariado, es semejante a los
casos anteriores. A continuacin se representa la matriz de informacin para el caso bivariado con
quiebre en media y en tendencia:
1 0 0 x11
1 0 0 x12

M M M M

1 0 0 x1,t quiebre
Y= +
1 1 x1,t quiebre +1 x1,tquiebre +1
2
M M M M
1
1 1 x1, n 1 x1,n 1

1 1 x1n x1n
La segunda columna de la matriz de informacin contiene la dummy que soluciona el quiebre en

media y la tercera la que soluciona el quiebre en tendencia.
CAPITULO 7
PREDICCIN
7.1. INTRODUCCIN
Recurdese que cuando un investigador est interesado en disear un modelo economtrico,

tal que sea satisfactorio o congruente con toda la data que posee, enfrenta, en general, tres
objetivos o propsitos1. El primero consiste en realizar pruebas estadsticas acerca de los
parmetros del modelo, es decir, probar ciertas restricciones utilizando los tests de inferencia
estadstica estudiados en el Captulo 4. El segundo es utilizar el modelo para estimar el valor
futuro de una variable endgena, es decir predecir el valor de Y en un periodo fuera de la
muestra, dado el valor de las exgenas. Finalmente, y tal vez uno de los ms ambiciosos,
consiste en utilizar el modelo para la simulacin de polticas econmicas.
El tema del presente captulo consiste en analizar el segundo objetivo. Especficamente, nos
centraremos, entre otros puntos, en los requisitos que debe cumplir el modelo antes de realizar
una prediccin. Para tal fin, debemos efectuar las pruebas estadsticas, ya conocidas, que
garanticen que el modelo est apto para realizar pronsticos confiables. As, en la parte final del
Captulo, desarrollaremos un ejercicio aplicado utilizando las herramientas del Econometric -
Views para que el lector se familiarice con el tipo de previsiones que realiza un economista o
un alumno que se interese por la Econometra.
De esta manera, se puede intuir cul es la definicin de una prediccin. En trminos de

Pyndick & Rubinfield(1991)2, se define una prediccin como un estimado cuantitativo acerca de
la verosimilitud de eventos futuros basados en informacin pasada y actual. En este sentido, se
pueden hacer pronsticos utilizando distintos modelos economtricos. Algunos de estos se
detallan a continuacin:
1
Ver la introduccin del cuarto captulo.
2
Pyndick Robert S. and Rubinfield Daniel L. (1991), Econometric models and economic forecast. Captulo 8, p. 180.
EE.UU.
Econometra Moderna Prediccin
Modelos estructurales uni-ecuacionales: Son el tipo de modelos que se han trabajado hasta
ahora, por ejemplo el siguiente modelo lineal general:
Y = X +
Sistemas de ecuaciones estructurales: Por ejemplo en el modelo de IS-LM de

Macroeconoma
C = C 0 + bYd
I = I 0 hr
Y =C + I
Modelos de series de tiempo: los modelos de series de tiempo muestran una secuencia de
datos numricos asociados con un instante especfico de tiempo. A manera de ejemplo, se
citarn los ndices diarios de las cotizaciones de las acciones en la Bolsa de Valores de Lima
(BVL). As, se puede construir un modelo autorregresivo (AR) pues se tiene como variables
explicativas a rezagos de la variable endgena, o bien un proceso de medias mviles (MA),
el cual representa un promedio ponderado de los shocks pasados y actuales de una serie.
Como se ver en un captulo posterior3, una serie de este tipo es estacionaria. Esta ltima
caracterstica, garantiza que los estimadores obtenidos por un proceso (MA) sean
confiables.
Yt = 0 + 1Yt 1 + 2Yt 2 + .... + p Yt p + t AR(p)
Yt = 0 + et + 1et 1 + 2 et 2 + .... + q et q MA(q)
Tal como se mencion lneas arriba, antes de realizar la prediccin un modelo debe cumplir
ciertos requisitos para que el pronstico de la variable independiente sea confiable y verosmil.
7.2. REQUISITOS
1) El modelo lineal estimado no presente errores de especificacin. Recordemos que una

ecuacin de regresin presenta una buena especificacin4, cuando tanto su forma funcional
como su funcin de distribucin de probabilidades es correcta y, adems, no existen
variables omitidas ni redundantes que deben ser incluidas o extradas, respectivamente del
modelo. Una de las vas utilizadas que para analizar la presencia de una buena
especificacin es la prueba de Ramsey.
2) Los parmetros deben ser estables. Como estudiamos en el Captulo 6, el anlisis de

posibles cambios estructurales en los parmetros, implica realizar las pruebas grficas de
estabilidad como son Cusum Cuadrado o el test de Chow5.
3) Se corrija la presencia de perturbaciones no esfricas esto es, los problemas poblacionales

en la distribucin de probabilidad del error: heterocedasticidad y autocorrelacin. Con tal
fin, se realizan las pruebas estadsticas para detectar y corregir dichos problemas.
3
Vase el Captulo de Series de tiempo estacionarias.
4
En la seccin 6.4 del Captulo de Cambio Estructural, se mostr los problemas que ocasionan una mala
especificacin.
5
Ver la seccin 2 del Captulo 6.
174
4) Slo debe existir una direccin de causalidad: de las variables independientes hacia la
dependiente. Para determinar si existe este requisito, se puede utilizar el criterio de
Causalidad a lo Granger.
7.3. TIPOS DE PRONSTICOS
i) Prediccin puntual. La ecuacin estimada es la representacin estadstica de la media de la

distribucin condicional de la variable dependiente en las independientes. En funcin a
ello, cuando se habla de una prediccin puntual, se trata de la prediccin de los valores
futuros de la variable endgena ( Yt ) en trminos del valor de la media condicional, por lo
que obtendremos un nico valor o nmero. Un ejemplo sera el anuncio que la inflacin
para el ao prximo ser de 0.5% mensual.
ii) Prediccin por intervalos. Si queremos tener mayor informacin acerca de la distribucin
condicional un elemento importante es conocer la varianza. Esta magnitud nos permite
tener un idea de la dispersin que presenta la variable dependiente. Si tomamos en cuenta
la varianza, sabemos que dentro de un rango que tiene como centro la media, podremos
encontrar un determinado porcentaje de las observaciones6. Un ejemplo de este tipo de
pronstico sera decir que la inflacin estar en valores desde 0.15% hasta 0.36% mensual
para el ao prximo.
7.4. CLASIFICACIN DE PRONSTICOS:
Si introducimos otros aspectos podemos plantear clasificaciones alternativas:
a) Predicciones incondicionales. Este tipo de predicciones se refieren a aquellas que se

realizan si se conocen los valores de las variables independientes del modelo para los
perodos en los cuales se va realizar el ejercicio de prediccin.
b) Predicciones condicionales. En este caso, los valores de las variables independientes para
los perodos en los cuales se va a realizar el ejercicio de prediccin, no se conocen con
certeza y por tanto deben ser estimados.
c) Predicciones exante. Son las predicciones ms all del periodo de estimacin y son
hechas usando variables explicativas que pueden o no ser conocidas con certeza. Ntese que
este tipo de predicciones puede ser condicional o incondicional, dependiendo de la
informacin muestral con la que se cuente.
d) Predicciones ex post. Cuando las observaciones, tanto de la variable dependiente como de

las independientes, son conocidas con certeza. Lo anterior implica que este tipo de
predicciones sea solamente incondicional. Este tipo de pronsticos es utilizado para evaluar
la bondad predictiva de nuestros modelos a partir de los indicadores que se analizarn ms
adelante.
El grfico de la siguiente pgina puede ser til para ilustrar la diferencia entre los dos
ltimos tipos de pronsticos presentados. Si apreciamos el eje horizontal que representa el
tiempo, veremos que el perodo T es aquel que denota la informacin muestral con que
contamos. La t minscula indica la porcin de informacin muestral que utilizamos para estimar
un modelo. La diferencia entre t y T es lo que se llama muestra de validacin y dichas
observaciones se utilizan para realizar la prediccin ex-post. El procedimiento es el siguiente:
6
Por ejemplo, si consideramos una distribucin normal en un intervalo que tiene como centro la media 2
desviaciones estndar generalmente encontraremos el 95% de las observaciones.
175
con el modelo estimado hasta t se realizan predicciones utilizando la informacin de las

observaciones de las variables independientes. Con ello se obtienen los estimados (o
predicciones) de la variable dependiente para ese perodo. Como tenemos la informacin de la
variable dependiente observada se puede realizar la comparacin entre los valores observados y
las predicciones del modelo. La prediccin ex-ante implica utilizar el modelo estimado con la T
observaciones y de all estimar valores de las variables independientes segn distintos modelos
y supuestos y de all se procede a realizar el verdadero ejercicio de prediccin. La idea es que la
prediccin ex post se debe realizar primero para evaluar qu modelo es el que nos permite
realizar la mejor prediccin a travs de las distintas evaluaciones que se hacen. Una vez
seleccionado el mejor modelo se procede a realizar la prediccin ex ante.
Pronstico Pronstico
Ex - post Ex - ante
Tiempo
t T
Ejemplo 7.1
Se tiene el siguiente modelo:
Yt = 0 + 1 K t 3 + 0 Lt 2 + t
donde la produccin (Yt) depende de los valores rezagados del capital (Kt) y del trabajo (Lt).
Por otro lado, se observa que con este modelo se pueden pronosticar los valores futuros de la
produccin para los perodos siguientes que deseemos.
Sin embargo, debemos tener en cuenta que dentro de las predicciones posibles de hacer con
este modelo tendremos una gran variedad. As las predicciones de y t +1 e y t + 2 sern
predicciones ex ante pero incondicionales debido a que los rezagos de K y L son aquellos que
explican el valor actual de y. Hasta el periodo t+2 los valores que explicarn a la variable
dependiente sern k t 1 y Lt que son valores conocidos en el periodo t. Cuando pasemos al
periodo t+3 el valor de K seguir siendo conocido pero el de L tendr que estimarse. Por ello se
podr decir que la prediccin ex ante a partir del periodo t+3 ser condicional.
7.5. EVALUACIN DE UNA PREDICCIN:
Para evaluar una prediccin es preciso contar con un criterio de evaluacin tal que haga que
las predicciones seleccionadas sean confiables. Por tal motivo, es conveniente introducir el
concepto de error de prediccin.
Recurdese que en el primer captulo se defini al error estimado de la regresin como la

discrepancia entre el valor de la variable dependiente y su valor estimado. Ahora se utilizar un
concepto similar para definir al error de prediccin. Es decir, el error de prediccin muestra la
176
diferencia que existe entre el valor futuro pronosticado de la variable endgena y su valor futuro
observado7.
Es conveniente recordar que para evaluar la bondad de un estimador se analizaban las

propiedades de insesgamiento y eficiencia. De esta manera, decamos que el estimador
MCO( ) es MELI porque cumpla con estas propiedades bajo las condiciones de Gauss
Markov. Por consiguiente, se necesita verificar que el error de prediccin posee la menor
varianza porque, de ese modo, se obtendra el mejor pronstico de la variable Yt8. Si es que se
cumple lo anterior, se concluye que la estimacin por MCO provee la mejor prediccin para
todos los estimadores linealmente insesgados.
Tomando en cuenta los conceptos anteriores, es necesario y til conocer el origen del error
de pronstico. Este puede surgir de cuatro fuentes:
a) La naturaleza aleatoria del modelo ( t+1).
b) Los valores estimados de los parmetros son variables aleatorias que pueden fluctuar. Por lo
tanto, puede existir error en la estimacin del vector ( ).
c) Para predicciones condicionales podemos cometer errores en el pronstico de las variables

independientes.
d) Errores de especificacin en la ecuacin de pronstico.
En las siguientes lneas, se analizar cul es la mejor prediccin y las propiedades que
presenta el error de pronstico para diferentes casos.
Primer Caso: Prediccin incondicional
Cuando se hace una prediccin incondicional, a partir de un modelo de regresin, se necesita

conocer el valor de las variables explicativas para todo el periodo de prediccin. Este caso
puede resultar no creble; sin embargo, frecuentemente ocurre porque en muchos modelos de
series temporales, que son utilizados para realizar pronsticos, se incluye una estructura
dinmica. En otras palabras, se utilizan modelos que incluyen variables explicativas rezagadas
las cuales estn predeterminadas para el periodo en que se evala la prediccin. Por otro lado, es
posible realizar este tipo de pronsticos si es que el investigador cuenta con series de tiempo
estacionales o variables demogrficas cuya variacin es lenta y previsible.
Notemos que, es importante construir modelos que pueden utilizarse para generar
predicciones incondicionales. Su importancia radica en que, de ese modo, se elimina una fuente
del error de pronstico cuando se construyen modelos condicionales. A continuacin, se
analizar un modelo de regresin bivariado que cumple con los supuestos de una prediccin
incondicional.
Yt = + X t + t donde t N (0, 2 )
Dado un valor conocido de X t +1 , interesa calcular el mejor predictor para Yt +1 si todos los
parmetros son conocidos con certeza. De esta manera, el mejor pronstico resulta la media
condicional de la regresin:
7
Formalmente: et +1 = (Yt +1 Yt +1 ) .
8
El mejor pronstico sera: Yt + 1 = + X t + 1
177
Yt +1 = E( Yt +1 ) = + X t +1 (7.1)
lo anterior es cierto por que el error de prediccin se define como:
et +1 = Yt +1 Yt +1 = t +1 (7.2)
Ahora, se verificar si este error de prediccin posee las propiedades deseables de todo buen
estimador.
Insesgamiento:
E (et +1 ) = E ( t +1 ) = 0 (7.3)
Varianza :
e2 = E (et +1 ) 2 = E ( t +1 ) 2 = 2 (7.4)
Ntese que, al construir una ecuacin de regresin lineal y al utilizarla para realizar
pronsticos incondicionales, no se asegura que la prediccin obtenida ser igual a la observada
( Yt +1 Yt +1 = 0 ). Lo anterior es atribuido a la presencia del trmino de error del modelo que
hace que el valor de Yt+1 no este sobre la lnea de regresin. De esta manera, solamente
podemos afirmar que el error de prediccin tendr una media igual a cero y una varianza igual a
la de la perturbacin del modelo 2.
Como se dijo anteriormente, se puede realizar una prediccin de la variable endgena

puntual o por intervalos. Para la segunda, es necesario construir un intervalo de confianza y se
puede realizar, a partir de lo anterior, pruebas de inferencia relativas al valor predicho la
variable dependiente. Se recuerda que, al realizar pruebas de inferencia se plantea un conjunto
de restricciones (impuestas por la teora econmica o por el desarrollo de nuestra propia
intuicin), que se desea verificar si tienen validez o no. Como primer paso, se debe partir de una
distribucin de probabilidad conocida y luego estandarizar el error de la prediccin:
Si t N (0, 2 )
El error de prediccin normalizado, resulta:
Yt +1 Yt +1
= N (0,1) (7.5)

As, con una confianza del 95% se obtiene:
Yt +1 Yt +1
Prob ( 0.025 0.025 ) = 0.95 (7.6)

donde el valor predicho de la variable dependiente se encuentra en el siguiente rango:
Yt +1 0.025 Yt +1 Yt +1 + 0.025 (7.7)
De la expresin anterior se deduce que si el modelo predice bien, o en otras palabras, si los
pronsticos son fiables, el verdadero valor se ubicar dentro del intervalo. De modo que, uno de
los motivos por los cuales nos inclinaramos a pensar que el modelo no funciona de manera
adecuada es verificar que el valor de la variable Yt+1 cae fuera de los lmites del intervalo
planteado en (9.7). As, este intervalo sirve para realizar tests acerca de la calidad del
pronstico. Grficamente:
178
Figura 7.1
Las bandas de confianza, para un 95% de confianza, de una
prediccin donde se conocen los valores de los parmetros.
Sin embargo, se debe tener mucho cuidado antes de descartar un modelo economtrico por el
hecho de arrojar una "mala prediccin". El lector se preguntar por qu? la respuesta es simple,
basta recordar que el rechazo9 de una hiptesis nula no implica que la teora subyacente est
errada. Para afirmar lo anterior, se debe realizar muchas pruebas y acumular mucha evidencia en
contra. En el mismo sentido, vale decir que para concluir que un modelo no es satisfactorio y
sus pronsticos no son fiables, el investigador deber efectuar repetidas observaciones y ms de
una prueba estadstica.
Antes de estudiar el siguiente caso, es importante que se puntualicen algunas observaciones.

Las cuales, reforzadas con los conocimientos adquiridos en captulos anteriores, ayudarn a
tener en claro los conceptos descritos en esta seccin.
Observaciones
1) Un R2 alto y un T- estadstico significativo no necesariamente indica que el modelo predice

bien. Lo anterior es consecuencia de un cambio estructural en la economa durante el
periodo de prediccin y que modifica el valor de los parmetros10. As, el modelo no puede
explicar lo que realmente sucede en el sector econmico por que las reglas de juego han
sido cambiadas: un shock de oferta negativo o la discrecionalidad del gobierno cuando
cambia una regla fija. Por ejemplo, el gobierno fija la cantidad de dinero que va emitir
basndose en una regla del k%11 preestablecida y conocida por todos los agentes
econmicos. Un empresario fija sus niveles de produccin de acuerdo con la cantidad
demandada estimada para el prximo periodo. Si es que el gobierno decide financiar su
deuda a travs de seoreaje, generar un incremento en la demanda agregada y un
incentivo para que se active la inflacin. De esta manera, el pronstico realizado por el
investigador no ser fiable y la empresa no podr cubrir la demanda de su producto.
9
Frecuentemente se utiliza este trmino. Pero, en realidad cuando se afirma que una hiptesis nula es rechazada, se
quiere decir que no existe suficiente evidencia estadstica para afirmar que la hiptesis se acepta.
10
Recordemos que en el Captulo 6, sino que podran ocurrir cambios en la economa, no previsibles por los agentes
econmicos, que generen quiebre o variaciones atpicas en los parmetros de la ecuacin de regresin. Asimismo, se
debe recordar que uno de los requisitos y supuesto bsico para realizar una prediccin es que los parmetros sean
estables dentro y fuera de la muestra.
11
Milton Friedman propuso la llamada regla del K%. La cual esta diseada para obligar a las autoridades a escoger
una misma tasa de crecimiento monetario en cada periodo.
179
2) Un R2 bajo y un T- estadstico malo, no necesariamente significa que el modelo realiza

pronsticos inexactos. Esto se debe a que, si existe poca variacin en la variable
dependiente el R2 ser reducido. El resultado anterior, se debe a que las variables
independientes pierden la capacidad de explicar correctamente a la variable endgena. Sin
embargo, dada las caractersticas del modelo, resulta fcil predecir el comportamiento de la
serie.
Segundo Caso: Prediccin incondicional, cuando no se conocen los parmetros
En la mayora de los casos en los que se efecta el tipo de evaluaciones descritas en el

presente captulo, no se pueden conocer con certeza todos los parmetros del modelo ni
tampoco la varianza del error. De esta manera, se retomar el caso anterior pero utilizando este
nuevo supuesto, que se ajusta ms a la realidad.
Partamos de un modelo lineal simple y supongamos que se dispone de series temporales para
X t y Yt (t = 1, 2, 3,.........T). En este caso, no conocemos el modelo verdadero y por ello se
estiman los parmetros mediante las tcnicas mnimo cuadrticas descritas en el Captulo 2 y 3.
De modo que, si al investigador le interesa predecir el valor de Yt+1 asociado al valor de Xt+1 de
la manera ms verosmil posible, por ejemplo si Y es el saldo de la balanza de pagos y X
representa los pagos de la deuda externa, se podra predecir el saldo de la cuenta de capitales si
en el futuro el gobierno decide refinanciar sus deudas. As, el valor futuro de X t puede estar
dentro del recorrido de la muestra o, como es ms frecuente, podramos estar interesados en la
prediccin para un valor de X que est fuera del alcance de la muestra.
Recurdese que es posible realizar dos tipos de tareas predictivas o dos formas distintas de
prediccin. stas son: prediccin por puntos o prediccin por intervalos, de la misma forma que
podemos obtener un estimador para 12 puntual o por intervalos. Sin embargo, en la prctica
una prediccin por puntos no es tan confiable sin un indicador de su precisin, por ello es
necesario estimar el error de la prediccin. Por otro lado, en diversos textos de econometra, la
prediccin puntual es tambin llamada individual, pues interesa en predecir un valor individual
de la regresin (Y) correspondiente a Xt+1.
De esta manera, luego de estimar la ecuacin de regresin por MCO, el siguiente objetivo
consiste en obtener la mejor prediccin de Y correspondiente al valor de Xt+113. Formalmente:
Yt +1 = + X t +1 (7.8)
Adems, el modelo verdadero en el periodo de prediccin (t+1) sera:
Yt +1 = + X t +1 + t +1 (7.9)
notemos que t +1 indica el valor que se obtendra de la distribucin de los errores en el periodo
de prediccin.
Para este caso, definimos el error de prediccin de la siguiente manera:
et +1 = Yt +1 Yt +1
12
Este parmetro es el que se incluye en la regresin de Y sobre X, del modelo terico ( Y = X + ).
13
Recordemos que en el segundo captulo vimos que el mejor estimador resulta la media de la regresin.
180
= ( ) + ( )X t +1 t +1 (7.10)
Ahora, se verifican sus propiedades:
i) Insesgamiento:
E (et +1 ) = E [( ) + ( ) X t +1 t +1 ] = 0 (7.11)
Este resultado se obtiene debido a que los estimadores MCO ( , ) son insesgados y la
variable X es conocida para el periodo de prediccin (t+1).
ii) Varianza:
1 ( X t +1 X ) 2
e2t +1 = 2 1 + + (7.12)
T ( X t +1 X )
2
Para la demostracin de este resultado, se han utilizado las expresiones de las varianzas de
los parmetros estimados en el modelo bivariado analizados en el captulo 2.
[
Var (et +1 ) = Var ( ) + ( ) X t +1 t +1 ]
= Var ( ) + X t2+1Var ( ) + 2Cov( , ) X t +1 + Var ( t +1 ) (7.13)
donde:
2 2
Var ( 1 ) = =
2
(X t X )
2
xt
X2 1
Var ( ) = 2 +
(X X )2 T
t
2
Cov( , ) = X
(Xt X )
2
Reemplazando estos valores tenemos:
X2 1 X t2+1 (2 X ) X t +1
Var (et +1 ) = 2 + + + 1
(X X ) 2 T (Xt X ) 2
(X t X )
2
t
1 (X t +1 X )
2
2f = 2 1 + + (7.14)
T (X X )2
t
Ntese que la varianza del error de prediccin presenta tres importantes componentes: la
varianza de la variable X, el tamao de la muestra y la desviacin existente entre X t + 1 y la
181
media de X ( X ). Por otro lado, as como se mencionaron algunas condiciones acerca de los
resultados del caso anterior, es importante sealar lo siguiente:
i) Si el tamao de la muestra (T) es grande, se reduce la varianza, dado que cuando se

dispone de mayor informacin las estimaciones de los parmetros ganan precisin. De
esta manera, los mejores pronsticos de Y sern los correspondientes a aquellos valores
de X en torno a los cuales se disponga de la mayor informacin muestral.
ii) A mayor dispersin de X, la varianza de los estimadores de la ecuacin de regresin

ser menor y por tanto el error de prediccin presentar una menor dispersin.
iii) Si la desviacin de Xt+1 con respecto a su media es reducida, la varianza del error de
prediccin es tambin reducida. Asimismo, se observa que cuando X t +1 = X , la
varianza del error de prediccin alcanza su valor mnimo.
iv) Si el horizonte de prediccin es largo, la varianza tender a incrementarse, bajo el

supuesto que Xt+1 se aleja de X .
Cabe mencionar que, de acuerdo con la expresin (9.10) et +1 es una funcin de variables
que se distribuyen normalmente14, y as presenta la misma distribucin. Adems, si se
conociera el verdadero valor de la varianza del error de prediccin se podran construir
intervalos de confianza similares al descrito en (9.7), utilizando el error normalizado. Es decir:
et +1
N(0,1)
f
En la prctica el supuesto anterior no se da, lo cual implica que se debe estimar 2f . As, se
obtiene:

2f = 2 1 + +
1 (
X t +1 X
2
) (7.15)
T ( X t X )2

Estandarizando el error de prediccin:
Yt +1 Yt +1
T(t-k)
f
Dado que el presente anlisis esta dirigido a un modelo de regresin lineal simple, este error
normalizado se distribuye segn una T de Student con (t-2) grados de libertad. Adems, se
observa que en la expresin anterior, la nica variable desconocida es Yt +1 . De modo que se
puede aproximar su valor utilizando un intervalo de confianza del 95%15. Formalmente:
Yt +1 t 0.025 f Yt +1 Yt +1 + t 0.025 f (7.16)
Si se reemplazan todos los valores de la muestra para X y se obtienen intervalos de confianza

para cada una de las variables, as se genera lo que se conoce como banda de confianza para la
14
Recordemos que los estimadores MCO, ( , ) siguen un proceso estocstico y la distribucin de cada uno se
supone que es la normal.
15
La grfica muestra como para cada valor de X, la distancia entre la recta de regresin y uno de los lmites de
confianza es idntico al doble de la estimacin de la desviacin estandar de la prediccin.
182
funcin de regresin poblacional. Como se sabe, dicha funcin de regresin poblacional

representa, precisamente, la media condicional de Y dados los valores de X. Grficamente:
Figura 7.2
Intervalos de confianza para una prediccin donde

los valores de los parmetros son desconocidos.
Una caracterstica importante de las bandas de confianza que se muestran en el grfico

anterior, es que su amplitud aumenta conforme aumenta el horizonte de prediccin. Sin
embargo, alcanza su menor tamao cuando X t +1 = X . Lo anterior sugiere que la capacidad de
prediccin de la lnea de regresin muestral decrece a medida que X t +1 se aleja
progresivamente de X .
Adems de la prediccin por puntos y por intervalos, analizada en pginas anteriores, se

puede estar interesados en calcular el pronstico de la media condicional de Y para el periodo
(t+1) dado los valores de las variables independientes. Este caso ser ilustrado, a continuacin,
con el siguiente ejemplo.
Ejemplo
Supngase que luego de aplicar el mtodo MCO a un conjunto de observaciones se obtiene

la siguiente funcin de regresin muestral:
Yt +1 = 36.569 + 0.847 X t +1
Sea X t +1 = 75 y se desea predecir el valor medio de Yt+1 dada la informacin acerca de la

variable independiente, E (Yt +1 / X t +1 = 75) . Ahora, se hallar la estimacin puntual de esta
prediccin media ( Y ):
t +1
Yt +1 = 36.569 + 0.847(75) = 100.094
Puesto que se est estimando el verdadero valor de E (Yt +1 / X t +1 ) mediante Yt +1 , es

probable que estos dos valores sean diferentes y as se defina un error en la prediccin. Con la
183
finalidad de evaluar este error, es necesario encontrar la distribucin muestral de Yt +1 . As, de

la funcin de regresin muestral se tiene:
Yt +1 = + X t +1
Ahora, hallemos el valor esperado de la expresin anterior:
E (Yt +1 ) = E ( ) + E ( ) X t +1
= + X t +1
esto se cumple porque los estimadores son insesgados, dado a que han sido obtenidos por el
mtodo MCO. As, se obtiene un estimador insesgado de E (Yt +1 / X t +1 ) :
E (Yt +1 ) = E (Yt +1 / X t +1 ) = + X t +1
Ahora, hallemos la varianza del estimador:
Var (Yt +1 ) = Var ( ) + Var ( ) X t2+1 + 2 cov( , ) X t +1 (7.17)
donde, utilizando las mismas formulas que en el segundo caso16, se tiene el siguiente resultado:
1 (X
t +1 X )
2
Var( Yt +1 ) = f = 2 + (7.18)
T ( X X )2
t
As se demuestra que el estimador del valor futuro de Y se distribuye normalmente, con

media y varianza definidas en pasos anteriores. Ahora, se estandariza el error de prediccin,
para obtener los intervalos de confianza y hacer pruebas de inferencia. Formalmente:
Yt +1 ( + X t +1 )
T (t k )
f
Se puede utilizar un intervalo de confianza del 95%, como en el caso anterior, para
aproximar el valor de E(Yt+1/Xt+1):
[ ]
Prob + X t + 1 t 0.025 f + X t + 1 + X t + 1 + t 0.025 f = 0.95
Ahora, supongamos que en el ejemplo anterior se tienen 20 observaciones, la media muestral

de X es igual a 55 , 2 = 2.38 y la varianza muestral de X t es 16.5. Por tanto, la varianza de
Y sera:
t +1
1 (75 57 )2
Var (Yt +1 ) = 2.38 +
20 330

= 2.4557
16
Notemos que, a diferencia del caso anterior, cuando realizamos una prediccin media, se elimina el componente de
la varianza del error de la regresin de Yt+1. De esta manera, la varianza del error de prediccin, que es lo mismo que
la varianza de la estimacin deYt+1, es ms reducida que el de una prediccin puntual.
184
Por los procedimientos descritos lneas arriba, se puede construir un intervalo de confianza
para la verdadera media de Y dado X t +1 ( E (Yt +1 ) = E (Yt +1 / X t +1 ) = + X t +1 ). Reemplazando
los valores se obtiene:
100.094 2.086(2.4557) + X t + 1 100.094 + 2.086(2.4557)
o, en otros trminos:
94.9714 E (Yt +1 / X t + 1 = 75) 105.21659
La expresin anterior, se debe leer de la siguiente manera: para un valor de Xt+1=75, en 95 de

cada 100 veces los intervalos de confianza incluirn el verdadero valor medio. Del
procedimiento anterior se puede deducir que la mejor estimacin para este valor es la prediccin
puntual: 100.094.
Tercer Caso: Prediccin condicional
En el desarrollo de los casos anteriores se ha mantenido como supuesto que: se conocen de

antemano los valores de las variables explicativas. En lneas precedentes, se ha mencionado que
este supuesto no refleja, en varias ocasiones, lo que verdaderamente ocurre en la prctica. Esto
se explica porque cuando se desea utilizar el modelo para realizar pronsticos ex ante, a veces
es necesario prever valores futuros de las variables explicativas antes de realizar las
predicciones. Para tenerlo ms claro y de un modo ms intuitivo, se dir que la naturaleza
estocstica de los valores estimados para las X originarn predicciones de la variable Y menos
fiables que los obtenidos en el caso de predicciones incondicionales. Una de las importantes
conclusiones que se obtendrn del presente anlisis, es que los intervalos de confianza del 95%
para el error de prediccin son de mayor amplitud cuando tambin se pronostican los valores de
las X. A continuacin, se plantear un caso particular de manera simple pero del que se podr
obtener resultados que enriquecern nuestro anlisis. As, considerando un modelo de regresin
bivariado:
Yt = + X t + t t=1,2,3,...........T
donde t N ( 0 , 2 )
dado que no se conoce con certeza los valores de la variable independiente, se estima su valor
futuro (para el periodo t+1). Como se expresa a continuacin:
X t +1 = X t +1 + t +1 N ( 0 , 2 ) (7.19)
Adems, las variables aleatorias ( t , t ) no presentan correlacin. Es decir el proceso de

error asociado con la prediccin de X t +1 es independiente del proceso de error asociado con
cada una de las Y. A pesar de que es ms probable que las variables X sean estocsticas, un
supuesto restrictivo utilizado en la estimacin por MCO17 y retomado en esta seccin es que las
variables independientes son determinsticas o frecuentemente denominadas exgenas. La
exogeneidad de estas variables se ve reflejada en que no presentan correlacin alguna con el
17
Recordemos que en el primer captulo desarrollamos los supuestos implicados en la estimacin por Mnimos
Cuadrados Ordinarios, y uno de los supuestos bsicos era que las variables independientes no siguen un proceso
estocstico. Asimismo, hicimos notar que este supuesto era muy restrictivo.
185
trmino de error presente en la ecuacin. Por otro lado, el pronstico de la variable dependiente
resulta:
Yt +1 = + X t +1 (7.20)
de esta manera, se define el error de pronstico de la siguiente manera:
et +1 = ( ) + ( X t +1 X t +1 ) t +1 (7.21)
Siguiendo los procedimientos utilizados en pginas anteriores, se probarn las propiedades

de este error:
Insesgamiento18:
[ ]
E (et +1 ) = E ( ) + E ( X t +1 + t +1 ) X t +1 E ( t +1 ) = 0
La varianza del pronstico resulta:
1 ( X t +1 X ) +
2 2
2f = 2 1 + + + 2 2
(7.22)
T (X t X )
2

Un procedimiento similar al de la demostracin de la varianza para el caso anterior se

utilizar a continuacin. Si el lector tiene alguna dificultad con los clculos que se describirn
en las siguientes lneas, se recomienda revisar el Captulo 2.
et +1 = ( ) + ( X t +1 X t +1 ) t +1
[
Var (et +1 ) = Var ( ) + Var ( X t +1 X t +1 ) + 2Cov ( )( X t +1 X t +1 ) ]
+ Var ( t + 1 )
(7.23)
Resulta til, para el desarrollo del segundo y tercer trmino de la expresin anterior,
reemplazar en la expresin anterior la siguiente transformacin:
X t +1 X t +1 = ( X t +1 X t +1 ) + X t +1 ( )
As, el segundo trmino de la expresin (7.23) resulta:
Var ( X t +1 X t +1 ) = Var ( ( X t +1 X t +1 )) + Var ( X t +1 ( )) (7.24)
donde:
Var( ( X t +1 X t +1 )) = E( ( X t +1 X t +1 )) 2 = E( 2 ( X t +1 X t +1 ) 2 )
E 2 ( X t + 1 X t + 1 ) 2 = 2 + Var ( )Var ( t + 1 )

18
Esta propiedad se cumple, puesto que el estimador de no tiene relacin con t+1 .
186
para obtener este resultado, se hace uso de la ecuacin (7.19), de los supuestos acerca de las
perturbaciones estocsticas y de la siguiente relacin: 2 = 2 + Var ( ) . Luego, se reemplaza
la ecuacin (7.24) en la expresin anterior, as se tiene:
Var ( X t +1 X t +1 ) = 2 + Var ( )Var ( t + 1 ) + X t2+1Var ( ) (7.25)

Por otro lado, el tercer trmino de la ecuacin (9.23) se reduce a:
[ ] [ ] [
Cov ( )( X t +1 X t +1 ) = Cov ( ) ( X t +1 X t +1 ) + X t +1Cov ( )( ) ]
= X t+1Cov( , ) (7.26)
Por ltimo, reemplazando las ecuaciones (7.25) , (7.26) en la expresin (7.23) y agrupando
trminos, se obtiene la ecuacin correspondiente a la varianza del error de pronstico para una
prediccin condicional:
Var (et +1 ) = Var ( ) + ( + Var ( )) 2 + X t2+1Var ( ) + 2 X t +1Cov( , ) + 2

[ ]
= Var ( ) + Var ( ) X t2+1 + 2 + 2 X t +1Cov( , ) + 2 + 2 2 (7.27)
Ahora, como en el segundo caso, se utilizar las expresiones correspondientes a las medidas
de dispersin de los estimadores mnimo cuadrticos, desarrolladas en el Captulo 2. De esta
manera, se obtendr la expresin (7.22) comparable con el resultado obtenido en (7.15).
Analicemos comparativamente tales expresiones. As, se observa que en la ecuacin (7.22) se
adicionan dos trminos positivos. En primer lugar, el ltimo componente de tal expresin
indica que dada la estimacin de la variable aleatoria X, se incrementa la dispersin del error de
prediccin, as se comprueba que al introducir supuestos ms realistas (el desconocimiento de
los valores futuros de las variables independientes) al modelo aumenta la posibilidad de cometer
errores en la prediccin. En segundo lugar, para conseguir reducir al mximo la expresin (7.22)
es necesario que el pronstico de Xt+1 se obtenga con una varianza mnima o nula.
Por el analisis anterior, se deduce que los intervalos de confianza del 95% para una
prediccin condicional tendr mayor amplitud que los obtenidos despus de efectuar una
prediccin incondicional. El clculo se complica cuando se quiere obtener los intervalos de
confianza para predicciones condicionales pues se observa que en la expresin (7.21) se
incluyen productos de variables aleatorias que se distribuyen normalmente. As, el pronstico de
la variable dependiente no seguir una distribucin normal como en el caso anterior.
7.6. TEST DE PRONSTICO PARA UNA PREDICCIN EXPOST
Recurdese que, uno de los test alternativos de residuos recursivos para evaluar la estabilidad
de parmetros en un modelo, visto en el Captulo 619, es el test de prediccin de una etapa
("One step forecast test"). El cual se abordar, con mayor detalle, en esta seccin.
As, el estadstico Chi- cuadrado para el anlisis de una etapa es una prueba de la estabilidad
de los parmetros, incluyendo a la varianza del error del modelo de regresin. Lo que hace este
19
Recomendamos revisar la seccin 6.2.4 del presente libro para una mejor comprensin de lo descrito en esta
seccin.
187
test es buscar la estabilidad en el periodo extramuestral comparndolo con el valor registrado

durante el periodo muestral. Acontinuacin se detallar el tratamiento formal:
Test Chi- cuadrado:

T +H et2
2 (H )
2
t =T +1
donde H representa el nmero de periodos a pronosticar, el numerador indica una proxy de la

varianza del error de pronstico durante el periodo de prediccin y el denominador indica dicha
varianza dentro del periodo muestral.
Se sabe que toda prueba estadstica posee una hiptesis nula, la cual est sujeta a rechazo o
aceptacin. La hipotesis nula, para este test, indica que no ocurren cambios estructurales en
ningn parmetro durante la muestra (periodo de estimacin) y el periodo de prediccin ex post.
De modo que, en las siguientes lneas se denotar 1 al parmetro dentro de la muestra y a 2
como el parmetro fuera de ella. Un tratamiento similar tendrn las varianzas, formalmente:
H0 : 1 = 2
2 = 2f
Notse el parecido de esta prueba con el test de Chow, bajo el test de Chow rechazar la
hiptesis de estabilidad implica que el modelo es rechazado para todo el periodo muestral.
Mientras que en este caso, el rechazar la hiptesis nula implica que el modelo no brinda
resultados fiables o exactos para predicciones ex ante. La regla es la siguiente:
2 2(H )
Si
el modelo predice bien, por tanto se puede usar para prediccin ex ante.
2 2(H )
Si
el modelo no predice bien, no se puede usar para prediccin ex ante.
7.7. CRITERIOSPARA COMPARAR LA CAPACIDAD PREDICTIVA DE MODELOS QUE

COMPITEN ENTRE S
Adems del test mencionado lneas arriba, exsiten diversos criterios que nos permiten
evaluar la calidad de una prediccin. Estos criterios son arbitrarios por lo que podran ser
bienvenidos criterios adicionales que sugieran los lectores.. Acontinuacin presentaremos los
ms utilizados en el trabajo aplicado:
188
1) Raz del error cuadrtico promedio (ECM). Este indicador lo que busca es obtener el error
promedio para un horizonte de prediccin. Este se aproxima por la raz cuadrada del
promedio de los errores elevados al cuadrado:
1 T+H 2
RECM= e t
H t =T +1
2) Error absoluto medio. Este indicador busca obtener el error de prediccin promedio a travs
del valor promedio para un horizonte de prediccin dado (de H perodos) de los valores
absolutos de los errores:
T +H
et
t =T +1
EMA=
H
3) Media del valor absoluto del error porcentual. Los dos anteriores indicadores estn
influencados por las unidades en las cuales estn medidas las variables dpendientes de los
distintos modelos que se evalan. Una alternativa propuesta en este indicador es calcular el
promedio de los valores absolutos de los errores de prediccin para un horizonte de
prediccin dado con respecto al valor observado de la variable dependiente en cada periodo:
1 T + H et
EPMA=
H t =T +1 Yt
4) Coeficiente de desigualdad de Theil: (U de Theil), fue propuesto por Theil en el ao 1961 y

es el que ms se utiliza para evaluar predicciones. Esta prueba lo que busca es tratar de
acotar el valor del indicador de bondad de prediccin de tal manera que est en el intervalo
(0,1). Una de las versiones que se utiliza de este indicador es la que se presenta a
cotinuacin:
1 T +H
(Yt Yt )
2
H t =T +1
U=
1 T +H 2 1 T +H 2
Yt + Yt
H t =T +1 H t =T +1
Este indicador muestra, de alguna manera, si la correlacin entre los valores predichos y los
valores observados en una predicin ex-post es alta o baja. Este se puede apreciar en el
numerador de la expresin. Dado esto podemos explorar los siguientes casos :
Si U tiende a cero, el modelo puede ser utilizado para predecir dado que sus pronsticos
sern fiables. La razn de que esto sea cero es que el numerador es cero y ello implica que
los valores predichos son muy parecidos a los valores observados.
Si U tiende a 1, el modelo el modelo no sirve para predecir sus pronsticos no son reales.
Ntese que solamente si Yt Yt = 0 (son ortogonales entre s), el numerador ser muy
parecido al denominador. No son exactamente iguales porque en el denominador tenemos la
suma de las races cuadradas y en el numerador tendramos la raz cuadrada de la suma de
los trminos del denominador.
189
Usualmente, es recomendable descomponer la U de Theil en tres proporciones. Estas nos dan

mayor informacin acerca de las fuentes del error. Y son utilizadas por algunos programas
economtricos o estadsticos. La descompsocin se hace de tal manera que:
Sesgo + Varianza + Covarianza =1
La expresin que se utiliza para descompner la U de Theil proviene del error cuadrtico de
prediccin medio, el cual se puede escribir como:
( y y t ) / H = ( y y ) + ( y y ) 2 + 2 (1 r ) y y
2
t
Donde:
i) Sesgo (Bias proportion): indica la presencia de algn error sistemtico, esto es, si es
que se est sub o sobre prediciendo sistemticamente. Esta proprocin debe ser lo ms
pequea posible, para considerar al pronstico confiable. La expresin que se utiliza
para computar este proporcin es el siguiente:
( y y )2
( y t yt )2 / H
El indicador analiza si es que las medias de los valores predichos y valores observados
son muy distintas. Como sabemos si se realiza una estiamcin el valor promedio de los
valores predichos y los valores observados son iguales. En este caso se toma slo una
parte de la muestra y se generan valores predichos con el modelo estimado con una
proporcin de la muestra. Si los valores de las medias son distintos entonces podremos
considerar que existe sesgo en la prediccin.
ii) Varianza (Variance proportion): indica la habilidad del pronstico para replicar la
variabilidad de la variable real observada. Si esta proporcin es grande significa que el
modelo posee menor capacidad para replicar el comportamiento de la serie. Esto se
computa a partir de la siguiente expresin:
( y y ) 2
( y t yt )2 / H
Esta proporcin analiza si las predicciones tienen una variabilidad similar a las variables
observadas. Se analiza entonces si es que el modelo es capaz de replicar la variabilidad
de las observaciones actuales de la variable.
iii) Covarianza (Covariance proportion): Esta medida analiza la correlacin que existe
entre los valores predichos y los valores observados. Se clacula a partir de la siguiente
expresin:
2(1 r ) y y
( y t yt ) 2 / H
donde r es el coeficiente de correlacin entre los valores predichos y los valores

observados.
190
!"
Comando Eviews
Si se desea utilizar el Econometric Views para predecir una variable, se deben realizar todas
las pruebas referidas en la seccin (X.2) sobre el modelo que explica dicha variable y, despus
de correr esta regresin, se utiliza la opcin Forecast del men del cuadro de regresin. Dentro
de esta opcin, se tienen dos sistemas o mtodos para realizar la prediccin. La conveniencia de
utilizar una u otra depende de si el inters est en realizar una prediccin ex post o ex ante, o si
se utiliza un modelo autorregresivo o no. Estos mtodos son los siguientes:
i) Dinamic: este mtodo utiliza los valores predichos para realizar las predicciones de modelo
de regresin. Hace lo siguiente:
Yt +1 = + Yt
Yt + 2 = + Yt +1
ii) Static: en este caso se utilizan los valores reales de las variables
Yt +1 = 0 + 1Yt
Yt + 2 = 0 + 1Yt +1
Analicemos, con ms detalle, estos dos conceptos. En primer lugar, cuando se dispone de la
informacin necesaria (observaciones para la variable dependiente) se puede utilizar el mtodo
esttico. De modo que, para hacer prediccin ex-post resulta el ms adecuado en trminos de
bondad predictiva porque utiliza los valores reales. Sin embargo, si se desea hacer una
prediccin fuera de la muestra, no podremos utilizar tal mtodo dadas sus caractersticas. En ese
caso se utilizar el sistema dinmico.
Cabe mencionar que, analizar la bondad predictiva del modelo con la opcin static puede
sesgar nuestros resultados si luego utilizamos la opcin dynamic para la prediccin ex ante. A
continuacin, se plantearemos los siguientes ejemplos para profundizar todos los conocimientos
descritos en este Captulo.
7.8. EJEMPLOS APLICATIVOS
Ejemplo
Para aclarar estos conceptos se considera el siguiente ejemplo20 donde se busca demostrar la
capacidad predictiva de un modelo que incluye la variable dependiente: DEPEND, y los
regresores: INDEP1, INDEP2, INDEP3 y DEPEND(-1).
Con este propsito, se debe escoger una adecuada muestra de validacin (para una
prediccin expost) y un conjunto apropiado de estadsticos de eficiencia predictiva. Es decir, se
debe responder a la pregunta: Qu muestra de trabajo (perodo de estimacin), muestra de
validacin y estadsticos utilizara, de tal modo que optimice el atractivo de su modelo en
trminos de bondad predictiva?
20
Primera pregunta del Exmen Parcial del curso nformtica para Economistas de la Universidad del Pacfico.
191
As, el modelo cuya bondad predictiva se desea evaluar es el siguiente:
depend = 0 + 1indep1 + 2 indep 2 + 3indep3 + 4 depend (1) +
Date: 06/14/98 Time: 23:39

Sample: 2 200
C 213.0174 85.88013 2.480404 0.0140

INDEP1 3.442259 0.406753 8.462785 0.0000
INDEP2 1.023553 0.010462 97.83736 0.0000
INDEP3 2.515853 1.402607 1.793698 0.0744
DEPEND(-1) 0.302066 0.009614 31.41787 0.0000

Segn la seccin (7.2), el primer paso para comprobar la bondad predictiva de un modelo
consiste en verificar la no-existencia de algn tipo de problema, as se debe comprobar que:
El error del modelo se distribuye normalmente (Test de normalidad del error - Jarque Bera).
El modelo est bien especificado (Test de Ramsey)
Los parmetros son estables (Test CUSUM cuadrado).
El error del modelo no presenta heterocedasticidad (Test de White)
El error no se encuentra autocorrelacionado (Test de Breusch-Godfrey).
Pruebas estadsticas
Ahora, se probar si nuestro modelo cumple con los requisitos antes descritos. De esta
manera, se empieza con probar la normalidad del error, utilizando el test de normalidad (Jarque-
Bera)
192
20
Series: Residuals
Sample 2 200
Observations 199
15
Mean -2.56E-14
Median -0.504959
Maximum 44.16566
10
Minimum -48.35876
Std. Dev. 16.77665
Skewness 0.074088
5 Kurtosis 2.999243
Jarque-Bera 0.182058
Probability 0.912991
0
-50.0 -37.5 -25.0 -12.5 0.0 12.5 25.0 37.5
Dado que ya se conoce la hiptesis nula de este tipo de test, slamente se dir que la
probabiliadad asociada al estadstico indica que la hiptesis nula de normalidad del error es no
rechazada (aceptada en el argot comn). Luego se prueba la especificacin del modelo, con el
test RESETde Ramsey. As, despus de correr la regresin en el Econometrics Views y de
realizar la prueba correspondiente, se obtiene los siguientes resultados, en resumen:
Ramsey RESET Test:

Log likelihood ratio 2.508764 Probability 0.473709
Test Equation
LS// Dependent Variable is DEPEND
Sample: 2 200
Included observations:199
Notemos que, la probabilidad asociada al F estadstico del test de Ramsey RESET es igual a
0.49. Por lo que no se puede rechazar la hiptesis nula de que el modelo est bien especificado.
Es decir que todos los regresores cumplen con el objetivo de explicar bien el modelo.
Ahora, se prueba la estabilidad de los coeficientes. Los siguientes test fueron estudiados en
el Captulo (6) del presente libro:
Tests de Estabilidad de Parmetros:
A) Test Cusum cuadrado
B) Test de parmetros recursivos
193
7 1.10
1.2 5
1.05
4
1.00
3
1.0 2
0.95
1
0 0.90
20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
0.8 Recursive C(1) Estimates 2 S.E. Recursive C(2) Estimates 2 S.E.
15 0.34
0.6 10
0.32
0.30
5 0.28
0.26
0.4 0 0.24
0.22
-5
0.20
0.2 -10
20 40 60 80 100 120 140 160 180 200
0.18
20 40 60 80 100 120 140 160 180 200
Recursive C(3) Estimates 2 S.E. Recursive C(4) Estimates 2 S.E.
0.0 1200
800
400
-0.2
20 40 60 80 100 120 140 160 180 200 0
-400
-800
CUSUMof Squares 5% Significance 20 40 60 80 100 120 140 160 180 200
Recursive C(5) Estimates 2 S.E.
El Test de CumsumQ, seala de modo grfico que los parmetros hallados para la muestra
utilizada son estables a lo largo de la misma. Sin embargo, se observa que el valor del test toca
la banda de confianza alrededor del intervalo 115 a 120. Para asegurar de que no existe quiebre
en esos periodos se utiliza un prueba mas potente como es el Test de Chow para los periodos
desde 115 a 120, el resultado de estos tests fue que no se puede aceptar la presencia de quiebre
estructural de los parmetros.
Es necesario recordar que la prueba de estabilidad de parmetros es muy importante al

momento de evaluar la bondad de prediccin de un modelo. Si se tiene que una determinada
muestra presenta muchos quiebres, se tiene que enfrentar la probabilidad que en el futuro los
parmetros tambin cambien de valor por lo que el modelo perdera su capacidad predictiva.

Test Equation:
Sample: 2 200
Por el cuadro anterior se observa que existe evidencia de heterocedasticidad, problema que
comnmente debe ser solucionado antes de realizar una prediccin.
Pero, recurdese la intuicin que est detrs de un error heterocedstico. La

heterocedasticidad hace que 2 deje de ser una constante y por tanto un supuesto bsico de la
regresin por MCO se violara. As, la varianza del error del modelo de regresin sera una
funcin del tiempo. Lo cual deber tomarse en cuenta al momento de calcular la amplitud de los
intervalos de confianza. De esta manera, la heterocedasticidad parece afectar al modo como se
hallan los intervalos de confianza ms no a la prediccin misma, lo cual s sucede con la
autocorrelacin.
194
En consecuencia, para efectos del ejemplo presentado, se decide dejar de lado el problema de
la heterocedasticidad. Pues, como se ha sealado, sta no afectar a la prediccin en s. A
continuacin se probar la autocorrelacin del error.
Breusch-Godfrey Serial Correlation LM Test:

Test Equation:
LS // Dependent Variable is RESID
El Test de Breusch-Godfrey nos seala que no existe suficiente evidencia estadstica para
confirmar la presencia de autocorrelacin del error en el modelo.
La autocorrelacin, a diferencia de la heterocedasticidad, s altera el modo de generar las

predicciones numricas. Por ello, si los resultados hubieran sido desfavorables tendramos que
resolver el problema utilizando los mtodos ya estudiados en el Captulo 8.
Evaluacin de la prediccin
Como primer paso para evaluar la prediccin del modelo se elige una muestra de validacin
al azar, por ejemplo las 5 ltimas observaciones. Al aplicar la opcin forecast static del E-Views
resulta lo siguiente:
Actual: DEPEND Forecast: DEPENDF

Sample: 195 200
Include observations: 6
Root Mean Squared Error 23.32726

Mean Absolute Error 19.21309
Mean Absolute Percentage Error 1.570302
Theil Inequality Coefficient 0.009255
Bias Proportion 0.133292
Variance Proportion 0.034349
Covariance Proportion 0.832359
Como se observa en el cuadro de regresin precedente, el modelo parece adecuado para

predecir, pues el estadstico U propuesto por Theil, es muy cercano a cero.
Por otro lado, el sesgo y la varianza son relativamente pequeos mientras que la covarianza
entre la variable observada y la predicha es grande. En otras palabras, estn altamente
correlacionadas, lo cual es favorable para la prediccin.
El problema planteado consiste en hallar la muestra de validacin con la cual se obtenga la

mejor prueba de la bondad predictiva del modelo. Para tal fin, es recomendable utilizar un
procedimiento esttico dado que ste utiliza los valores observados de la variable dependiente
rezagada que se halla dentro del modelo en lugar de los predichos.
195
Para evaluar las distintas predicciones se decide utilizar el estadstico de la U de Theil y el

Error cuadrtico medio. Pues, como se ha desarrollado en pginas anteriores, el primer
estadstico no enfrenta el problema de unidades de medida, y es el ms confiable de los
estadsticos de prediccin. Luego, para encontrar estos estadsticos en cada muestra de
validacin se elabor el un programa en E-Views que se presenta en el anexo 7.1.
Al correr el programa y observar la tabla TABLA vemos que la mejor U de Theil as como el
menor error cuadrtico medio corresponden a la muestra de validacin desde 164 a 200.
mejor # mejor mejor # mejor

utheil utheil ecm ecm
163.00000 0.0059560 163.00000 15.037422
Donde:
Mejor # utheil = tiempo de la ltima observacin antes del primer momento de la muestra de
validacin con la menor U de Theil.
Mejor utheil = la menor U de Theil de las diferentes muestras de validacin evaluadas.
Mejor # ecm = tiempo de la ltima observacin antes del primer momento de la muestra de
validacin con el menor error cuadrtico medio.
Mejor ecm = el menor error cuadrtico medio de las diferentes muestras de validacin evaluadas.
ANEXO 7.1
'PROGRAMA PARA HALLAR LA MEJOR MUESTRA DE VALIDACIN PTIMA
'==============================================================
'En la primera parte se definen los valores que sern utilizados a lo largo del programa, las primeras
tres variables toman el valor de la ltima observacin a partir de la cual se desea realizar una prediccin
ex post (si son iguales a 155, se tomar pruebas expost a partir de 156, calculando los parmetros hasta
155, luego se har la prueba expost a partir de 157 hasta 200, tomando los parmetros con la muestra
tomada hasta 156 y as sucesivamente).
'El total indica el nmero de observaciones conque se trabaja. Por otro lado el !menutheil ser
utilizado para considerar los u de Theil menores al valor indicado, y el !menecm indicar cul es el
mnimo error cuadrtico medio con el que al final del programa se trabajar.
'!col ser utilizada porque indica el numero total de regresiones que se tendrn.
!q=150
!per=150
!ult=150
!k=!q-1
!total=200
!col=200+1-!q
equation temp
matrix(5,!col) betas=0
!menutheil=1
!menecm=1000
%0
%1
%2
%3
196
'==============================================================
'En esta parte del programa se busca hallar los coeficientes estimados, con los que se "predecir" en la
prediccin expost y se evaluar la bondad de dicha prediccin. Para ello, se comienza corriendo una
regresin de las variables a utilizar con una muestra desde 1 hasta la sealada en !q (donde se parte la
muestra), los coeficientes obtenidos sin guardados en una matriz denominada "betas". Luego, se hallarn
los parmetros de la regresin que usa una muestra desde 1 hasta !q+1 (156 en este caso) y as
sucesivamente hasta utilizar la muestra entera, y guardar todos los parmetros obtenidos en las !col
regresiones dentro de la matriz creada.
while !q<=!total
smpl 1 !q
temp.ls %0 c %1 %2 %3 %0(-1)
!conteo=1
while !conteo<=temp.@ncoef
betas(!conteo,!q-!k)=temp.c(!conteo)
!conteo=!conteo+1
wend
!q=!q+1
wend
'==============================================================
'Luego de obtener los parmetros, estos deben de multiplicarse por las series que contienen a las
variables explicativas. Previamente, en el workfile, se genera la serie deprez=depend(-1) y una serie de
unos denominada const y luego agrupar las variables indep1, indep2, indep3 y deprez, para transformar el
grupo obtenido denominado "explicativas" en una matriz como se muestra en lneas siguientes. Ntese
que, es necesario recortar la muestra pues, de otro modo, no se podr formar la matriz ya que la serie
deprez no tiene observacin para el momento t=1.
'Despus de formar la matriz explicat, se multiplica por los coeficientes que componen la matriz
betas. De este modo, se obtiene los estimados de la variable dependiente utilizando los coeficientes
calculados con la muestra hasta 150, 151, 152, etc. hasta 200. Para trabajar con estas predicciones se
transforma la matriz resultante en un grupo de series.
genr deprez=%0(-1)
genr const=1
group explicativas const %1 %2 %3 deprez
smpl 2 !total
stom(explicativas,explicat)
matrix(199,!col) estimad=explicat*betas
mtos(estimad,estim)
'==============================================================
'Una vez obtenidas las series con los valores predichos (forecast) de la dependiente utilizando distintos
coeficientes, se hallarn los estadsticos que permitirn evaluar la bondad de prediccin. Estos, sern
insertados en una tabla con el fin de facilitar su uso.
table(100,6) tabla
tabla(1,1)="numero"
tabla(1,2)="ecm"
tabla(1,3)="suma1"
tabla(1,4)="suma2"
tabla(1,5)="utheil"
tabla(1,6)="mejor # utheil"
tabla(1,7)="mejor utheil"
tabla(1,8)="mejor # ecm"
tabla(1,9)="mejor ecm"
197
'==============================================================
'Aqu se inicia el look que permitir hallar el error cuadrtico medio y la U de Theil de cada
prediccin, dependiendo del tamao de la muestra utilizada ex post. Los valores sern colocados en una
tabla.
'Para facilitar el trabajo se forma primero un grupo de series, las series error!per que equivale a la serie
de errores de prediccin, esta serie slo toma en cuenta los errores para la muestra ex post, mientras que
en el resto de observaciones no presenta ningn valor (por ello se delimita la muestra).
FOR !n=1 to !col-1
smpl !n+!ult !total

genr error!per=depend-ser!n
genr suma1!per=ser!n
genr suma2!per=depend
'==============================================================
' El siguiente paso consiste en llenar la tabla: En la primera columna, se colocar el nmero de la
ltima observacin utilizada en la regresin que dio origen a los parmetros utilizados para calcular el
error de prediccin. El error cuadrtico medio ser colocado en la segunda columna.
'En la tercera y cuarta columna se irn poniendo otros componentes que son utilizados para calcular la
U de Theil.
smpl 1 !total
genr ec!per=error!per^2
genr ecm!per=(ec!per/(!total-!per))
tabla(!n+1,1)=!per
tabla(!n+1,2)=(@sum(ecm!per))^0.5
genr sum1!per=(suma1!per^2)/(!total-!per)
tabla(!n+1,3)=(@sum(sum1!per))^0.5
genr sum2!per=(suma2!per^2)/(!total-!per)
tabla(!n+1,4)=(@sum(sum2!per))^0.5
'==============================================================
'La U de Theil se colocar en la quinta columna de la tabla.
'Luego, se buscar si sta es menor que la anterior, de ser as, se tomar como valor de la variable
!menutheil. Es decir, se considerar el menor valor de la U de Theil hasta el momento. El programa
ordenar que la mnima U theil sea colocada en la sptima columna, acompaada en la sexta columna por
el numero de observaciones considerado para hallar la prediccin. Algo similar se efecta con el error
cuadrtico medio, donde los valores son colocados en la novena y octava columna respectivamente.
tabla(!n+1,5)=@val(tabla(!n+1,2))/(@val(tabla(!n+1,3))+@val(tabla(!n+1,4)))
!utheil=@val(tabla(!n+1,5))
!ecm=@val(tabla(!n+1,2))
IF !utheil<!menutheil THEN
!menutheil=!utheil
tabla(2,6)=tabla(!n+1,1)
ENDIF
IF !ecm<!menecm THEN
!menecm=!ecm
198
ENDIF
!per=!per+1
NEXT
For !borra=!ult to !total-1

d ec!borra
d ecm!borra
d error!borra
d sum1!borra
d sum2!borra
d suma1!borra
d suma2!borra
next
For !borra=1 to !col

d ser!borra
next
'FIN del PROGRAMA
Este programa, como se ha sealado, hallar los estadsticos de la U de Theil y del Error Cuadrtico
Medio para cada muestra de validacin y los colocar en una tabla llamada TABLA.
Luego, en la misma tabla sealar cul es la muestra de validacin que presentar la mejor U de Theil
(la menor U de Theil) as como el valor que toma sta U de Theil mnima. Por otro lado, hace lo mismo
respecto al error cuadrtico medio, indica cul es su menor valor y a qu muestra de validacin
corresponde.
199
CAPTULO 8
PERTURBACIONES NO ESFRICAS
HETEROCEDASTICIDAD Y AUTOCORRELACIN
8.1. LAS CONDICIONES DE GAUSS - MARKOV
El planteamiento del modelo lineal general asume que el trmino de error o perturbacin
cumple con las cuatro llamadas condiciones de Gauss - Markov. Suponiendo una ecuacin de
regresin de la forma:
y = + x + u (8.1)
estas condiciones (que son parte de los supuestos del modelo lineal general) pueden resumirse
en:
E(ui) = 0 para todo i

Var(ui) = 2 (constante) para todo i
Cov (ui,uj) = 0 para todo i j
Cov (xi, ui) = 0 (lo cual implica que las variables explicativas son no estocsticas)
El segundo y tercer supuestos se pueden resumir en trminos matriciales (para el modelo lineal
general) a travs de la siguiente expresin:
E ( ) = 2 I n (8.2)
Cuando se cumplen estas dos condiciones se dice que los errores son esfricos. La idea que est
detrs de este concepto es que si pensamos en una distribucin multivariada de orden n el centro
de la distribucin estara dada por la media de la misma. A partir de all si nos queremos alejar
de ese centro en cualquier direccin (que corresponde a cada una de las dimensiones del espacio
Econometra Moderna Perturbaciones no esfricas
n-dimensional) la distancia a la que nos alejamos vendr dada por la desviacin estndar de los
errores ( ). Si unimos todos esos puntos el resultado ser una esfera.
En las siguientes pginas se analizarn las consecuencias de no satisfacer el segundo y

tercer supuesto, es decir que la matriz de varianzas y covarianzas de los errores ya no ser
diagonal y que todos los elementos de la diagonal principal sern iguales. La violacin del
segundo supuesto da origen al problema de heterocedasticidad e implica que la varianza del
trmino de error no es constante para cada observacin. Por otro lado, Si los elementos fuera de
la diagonal de la matriz de varianzas y covarianzas de los errores son distintos de cero, se viola
el tercer supuesto y como resultado tendremos el problema de autocorrelacin. Este problema
significa que los trminos de error no son independientes, es decir, el tamao del error para un
periodo determinado afecta el valor del periodo u observacin siguiente. En general,
intentaremos analizar los efectos que tiene sobre el estimador de mnimos cuadrados ordinarios
la siguiente condicin:
E ( ) = 2 donde I n
Debe mencionarse que la presencia de ambos problemas se refiere a las caractersticas de la

distribucin de los errores, la cual es de donde provienen todos los elementos que conforman la
poblacin de los errores. Recordemos que nosotros trabajamos con una muestra de datos que
suponemos provienen de una poblacin con ciertas caractersticas. Estas caractersticas vienen
dadas por la forma de la distribucin. Por tanto, son problemas poblacionales.
En general, a partir de la discusin anterior nos queda la impresin de que estos problemas no
deberan existir porque van a afectar las propiedades del estimador de mnimos cuadrados
ordinarios. De hecho, sabemos desde el captulo 3 que si no se cumplen las condiciones de
Gauss-Markov tendremos un estimador que ya no ser el estimador lineal insesgado ptimo
(ELIO). Sin embargo, debemos recordar que si las caractersticas de los datos son distintas a los
de los supuestos con los cuales se construye un estimador, debemos incorporar estas
caractersticas al momento de realizar la estimacin. Los supuestos de homocedasticidad y
ausencia de autocorrelacin pueden verse como restricciones sobre los datos las cuales debern
ser verificadas a travs de distintas pruebas. Por ello, el planteamiento general es que ambos
problemas pueden estar presentes y el mtodo de estimacin deber incorporarlos de manera
general.
8.2. EL ESTIMADOR DE MNIMOS CUADRADOS ORDINARIOS
Antes de iniciar cualquier planteamiento general que intente incluir los efectos mencionados
lneas arriba conviene analizar cules son los efectos de la estructura de varianzas y covarianzas
de los errores que hemos planteado sobre las propiedades del estimador de mnimos cuadrados
ordinarios. Para esto estudiaremos las propiedades de insesgamiento y eficiencia de este
estimador.
El modelo que utilizaremos para analizar estos efectos ser el lineal general:
Y = X + (8.3)
Sin embargo debemos dejar explcitos los siguientes supuestos con respecto al error.
E ( ) = 0 E ( ) = 2 (8.4)
202
El estimador de mnimos cuadrados ordinarios que busca minimizar la suma de errores al

cuadrado es, como sabemos:
= ( X X ) 1 X Y (8.5)
Para analizar el insesgamiento del estimador reemplazamos el modelo verdadero en la frmula

del estimador:
= ( X X ) 1 X [X + ]
= ( X X ) 1 X X + ( X X ) 1 X
E ( ) = + ( X X ) 1 X E ( )
E ( ) = + 0 =
Como se puede apreciar el estimador MCO sigue siendo insesgado. Esto se deriva del hecho que
para analizar esta propiedad slo se hace uso del primer momento de la distribucin que como
hemos sealado no ha cambiado (la esperanza de los errores es igual a cero).
Analicemos ahora la varianza del estimador. A partir de los resultados obtenidos en torno al
sesgo, podemos plantear lo siguiente:
[ ] [
E ( E ( ) )( E ( ) ) = E ( X X ) 1 X X ( X X ) 1
l
]
1 1
= ( X X ) X E ( ) X ( X X ) (8.6)
= 2 ( X X ) 1 X X ( X X ) 1
La presencia de la matriz evita que se anulen los trminos ( X X ) 1 y X X por lo que

observamos es que la varianza del estimador MCO dada la nueva estructura de varianzas y
covarianzas del error es mayor que cuando los errores son ruidos blancos. Por lo tanto, el
estimador MCO ya no tiene varianza mnima, se ha perdido la propiedad de eficiencia.
Dado lo anterior, es necesario buscar la forma en que se restablezca la propiedad deseada de los
errores para obtener un estimador eficiente. Este estimador ser el de mnimos cuadrados
generalizados.
8.3. EL ESTIMADOR DE MNIMOS CUADRADOS GENERALIZADOS
En el acpite anterior hemos analizado los efectos de la estructura de varianzas y covarianzas

nueva sobre el estimador de mnimos cuadrados ordinarios. La pregunta ahora es podemos
hacer algo para recuperar las condiciones deseadas? La respuesta a esta pregunta es afirmativa.
Lo que buscamos ahora es ver qu transformacin debemos hacer a los datos para convertir a
los errores en ruidos blancos.
Una manera de iniciar todo lo anterior implica premultiplicar el modelo original por una
matriz P de dimensiones n x n, de la forma:
PY = (PX) +PU
Y* = X* + U* (8.7)
Al realizar esta operacin, cada nueva observacin (y*) resulta una combinacin lineal de
todas las observaciones contenidas en el vector original. De un modo similar, cada nueva
203
observacin de la variable xi (xi* donde i = 1,...,k) es ahora una combinacin lineal de todas las
observaciones de la variable xi. La matriz de covarianzas del nuevo trmino de error sera:
Var (U * ) = Var ( PU ) = 2 PP (8.8)
donde la matriz contiene los coeficientes que, multiplicados por 2, garantizan que la varianza
no sea constante en el tiempo (evidentemente, en el caso de una perturbacin homocedstica
sera la matriz identidad).
Partiendo de este nuevo planteamiento para el modelo, el anlisis se centra ahora en construir
una matriz P que garantice que el producto matricial PP sea igual a la matriz identidad, de tal
suerte que la varianza del trmino de error no vare con cada observacin. Para esto,
descompongamos la matriz en el producto de dos matrices cuadradas de tal forma que1: =
VVo, equivalentemente:
V-1 (V-1) = I (8.9)
Lo anterior demuestra que la matriz de transformacin P, que garantiza una matriz de

covarianzas () escalar y por tanto trminos de error homocedsticos, es precisamente la matriz
V-1. En otras palabras, premultiplicando el modelo original por la matriz V-1 de tal forma que
Y* = V-1Y, X* = V-1X y U* = V-1U, la matriz de varianzas y covarianzas del trmino de error
vendra dada por:
Var(U*) = 2V-1 (V-1) = 2I (8.10)
Lo cual implica que cada varianza sera constante para cada observacin y las covarianzas entre
los distintos errores seran nulas.
En este caso, el estimador MCO de los parmetros del modelo recibe el nombre de estimador
de mnimos cuadrados generalizados (MCG) y viene dado por la expresin:
mcg = (X * X * ) X * Y * = (X (V 1 ) V 1 X ) X (V 1 ) V 1Y
1 1
(8.11)
(
= X 1 X )1
X 1Y
Evidentemente, para que la estimacin por mnimos cuadrados generalizados pueda ser
considerada como una posible solucin al problema de heterocedasticidad, los estimadores
deben ser insesgados y ptimos (recordemos que uno de los principales problemas asociados a
la presencia de errores heterocedsticos es la estimacin de parmetros ineficientes). La primera
condicin, referida a la obtencin de estimadores insesgados, puede ser comprobada fcilmente.
mcg = (X * X * ) X * Y * = (X * X * ) X * (X * + U ) = + (X * X * ) X * U
1 1 1
Aplicando el operador de esperanza matemtica:
E ( mcg ) = (8.11)
Este resultado se obtiene a partir de la propiedad que la esperanza de los errores es igual a cero.
1 Para poder realizar esta descomposicin debe ser una matriz simtrica y definida positiva. Esto sera el
equivalente matricial a decir que cualquier nmero positivo tiene una raz cuadrada definida en el conjunto de los
nmeros reales.
204
Para demostrar la optimalidad del estimador MCG debemos primero calcular su varianza:
Var(*MCG) = E{(*MCG - E(*MCG)(*MCG - E(*MCG)}

= E{((X*X*)-1X*U*)((X*X*)-1X*U*)}
= E{(X*X*)-1X*U*U*X*(X*X*)-1 }
= E(U*U*)(X*X*)-1
= 2(X*X*)-1 = 2(X-1X)-1
Al comparar este resultado con la varianza estimador MCO obtenemos la siguiente

formulacin:
Var(*MCG) - Var( MCO) = 2(X-1X)-1 - 2(XX)-1XX(XX)-1

= 2 {(X-1X)-1 - (XX)-1XX(XX)-1} (8.12)
La matriz resultante {(X-1X)-1 - (XX)-1XX(XX)-1} es semidefinida negativa por lo que

la varianza del estimador MCG es menor que la varianza del estimador MCO en presencia de
perturbaciones no esfricas.
Lo anterior se deriva del hecho que la transformacin efectuada restablece las condiciones de
Gauss Markov acerca de la ausencia de heterocedasticidad y de autocorrelacin. Una vez
restablecidas estas condiciones a travs de las transformaciones efectuadas a los datos, el
estimador que se obtiene de aplicar el criterio de mnimos cuadrados ordinarios al modelo con
las variables transformadas contar con las propiedades usuales.
8.4. HETEROCEDASTICIDAD
La segunda condicin de Gauss - Markov implica que la varianza de la perturbacin debe ser
constante para cada observacin. Si este supuesto se verifica para toda la muestra se puede
concluir que los errores son homocedsticos. Antes de desarrollar ms profundamente lo que
implica que este supuesto no se cumpla vale la pena discutir lo que significa que la varianza del
error sea o no constante.
Evidentemente, al momento de estimar una regresin el trmino de error para cada

observacin tiene slo un valor, de modo que resulta interesante preguntarse a qu nos estamos
refiriendo al momento de hablar de su varianza. Especficamente, al referirnos a las propiedades
del trmino de error se est hablando de su comportamiento potencial antes de que la muestra
sea analizada. En este sentido, al suponer un comportamiento homocedstico se est realizando
una conjetura acerca de la dispersin del trmino del error, especficamente, supone que esta
dispersin es la misma para toda la muestra, en otras palabras, quiere decir que la probabilidad
de que el error tome un determinado valor va a ser siempre la misma. Tambin se puede decir
que, para cada periodo existe una distribucin para el trmino de error y el valor observado
corresponde slo a una realizacin de dicha distribucin. En este sentido, el supuesto de
homocedasticidad implica que la distribucin relevante para cada observacin es la misma. En
algunos casos, sin embargo, puede ser ms razonable pensar que la distribucin del trmino de
error es diferente para cada observacin en cuyo caso su varianza tambin diferira. Por
ejemplo, el hecho de que la varianza de la perturbacin muestre un comportamiento creciente
para cada observacin no significa que el error deba necesariamente registrar un valor muy alto
en las ltimas observaciones pero s implica que la probabilidad de tener un valor errtico sea
mayor. Este es un ejemplo de heterocedasticidad la cual, en trminos generales, significa que el
error muestra diferentes dispersiones para cada observacin o, lo que es lo mismo, que la
probabilidad de que el trmino de error tome un determinado valor es diferente para cada
observacin.
205
8.4.1 Qu implica la heterocedasticidad?
En general, existen dos problemas principales al momento de trabajar con una muestra que
presenta un trmino de error heterocedstico. Ambos se refieren a los estimadores de los
parmetros de la ecuacin de regresin pero el primero est relacionado a su eficiencia mientras
que el segundo a su significancia estadstica.
Al momento de estimar los parmetros se busca que stos sean insesgados y ptimos.
Especficamente, la optimalidad de los estimadores depende de su varianza la cual deber ser
mnima. Si los trminos de error presentan un comportamiento homocedstico, la varianza de
los estimadores MCO ser la mnima de todos los posibles estimadores lineales insesgados. Por
el contrario, ante la presencia de heterocedasticidad, los estimadores de los parmetros no sern
eficientes, lo cual implica que se pueden calcular otros estimadores de menor varianza. En otras
palabras, para demostrar que un comportamiento heterocedstico del trmino de error conlleva a
la existencia de estimadores MCO no eficientes basta encontrar otro estimador que registre una
menor varianza.
Una vez descritas las implicancias de la heterocedasticidad sobre el estimador de mnimos

cuadrados ordinarios, conviene precisar cul sera la forma especfica del estimador de mnimos
cuadrados generalizados para este caso.
Si tomamos en cuenta el modelo lineal general:
Y = X +
en donde el vector de errores tiene esperanza igual a cero y le estructura de covarianzas tendra
el siguiente patrn:
12 0 . . . . 0

0 22 .
. . .

E ( ) = . . . (8.13)
. . .

. n21 0

0 . . . . 0 n2
Aqu vemos que la matriz de varianzas y covarianzas es diagonal y que los elementos de la
diagonal no son iguales entre s. Sin embargo debemos recordar que la estructura general
presentada anteriormente responde a la siguiente forma:
E ( ) = 2 (8.14)
Esto implica que existe una constante que se puede factorizar y que la matriz es diagonal con
elementos distintos a lo largo de ella. La nica forma por la cual ambas expresiones sean
compatibles es suponer que la constante ( 2 ) es igual a 1. La racionalidad de este supuesto
quedar clara ms adelante. Teniendo esto en mente podemos proceder a realizar la
descomposicin de la matriz en VV. Dada la forma de la matriz la descomposicin
implica que V tendr la siguiente forma:
206
1 0 . . . . 0

0 2 .
. . .

V = . . . (8.15)
. . .

. n 1 0

0 . . . . 0 n
Como se puede apreciar la matriz V tambin es diagonal y sabemos que una matriz diagonal es
simtrica por lo que su transpuesta es igual a s misma. Es fcil comprobar (y queda como
trabajo para el lector) que, para este caso = VV . Dada la descomposicin anterior veremos
que la matriz por la cual habra que transformar los datos (V-1) tendra la siguiente forma:
1 / 1 0 . . . . 0

0 1/ 2 .
. . .
1
V = . . . (8.16)
. . .

. 1 / n 1 0

0 . . . . 0 1/ n
Ahora, si premutiplicamos tanto el vector de observaciones de la variable dependiente as como

la matriz que contiene las observaciones de las variables independientes, el resultado ser:
y1 /1 1/ 1 x 21 / 1 . . x k1 / 1
y / 2 1/ x k 2 / 2
2 2 x 22 / 2
. . . .
1 1
V Y = . V X = . . . (8.17)
. . . .

y n 1 / n 1 1 / n 1 x 2 n 1 / n 1 x kn 1 / n 1
y / n 1/ x 2n / n x kn / n
n n
Asimismo, si premultiplicamos el vector de errores tendremos lo siguiente:
1 /1
/ 2
2
.
1
V = . (8.18)
.

n 1 / n 1
/ n
n
207
Tal como se muestra en (8.18), la transformacin del vector de errores implica estandarizar los
errores. Como sabemos, la esperanza de cada uno de los errores es igual a cero por lo que el
numerador de cada observacin es interpretado como la desviacin con respecto a la media y si
lo dividimos entre la desviacin estndar obtenemos los errores estandarizados. Como sabemos
que los errores estn estandarizados y suponemos que estos siguen una distribucin normal, la
varianza de cada uno de ellos ser igual a 1. Por ello, anteriormente supusimos que la constante
por la que se factorizaba toda la matriz de varianzas y covarianzas de los errores era igual a 1. El
objetivo de toda la transformacin ha sido estandarizar los errores para lograr observaciones de
ellos que tengan una varianza constante. Ese sera el beneficio de realizar tal transformacin. El
costo es que las dems variables del modelo tambin han sido divididas por dicha desviacin
estndar con lo cual su interpretacin es distinta a la original. Debemos notar que lo que se ha
hecho en ltima instancia es ponderar cada uno de los errores por su desviacin estndar a fin de
lograr cierta equivalencia entre ellos
En el modelo lineal simple, el planteamiento es similar. Para ilustrar lo anterior planteemos el

modelo de forma explcita:
yi = xi + ui donde V(ui) = i2
El modelo a estimarse no incluye intercepto con el fin de simplificar los resultados. En este
caso, el estimador MCO vendra dado por:
! = = +
x iy i x iu i (8.19)
xi xi
2 2
y su varianza sera igual a:
2
(8.20)
V( ) =
( xi2 )
Ahora, suponga que i2 = 2zi2, donde zi es conocido. Entonces, dividiendo el modelo

planteado anteriormente por zi se tendra:
yi xi (8.21)
= + vi
zi zi
donde vi = ui/zi tiene varianza constante (2). Como ya hemos mencionado, la estimacin
mnimocuadrtica de los parmetros del modelo con las variables transformadas recibe el
nombre de mnimos cuadrados ponderados ya que se est ponderando la i-sima observacin
por 1/zi. En este caso, el estimador vendra dado por la siguiente relacin:
* =
(y / z )(x / z )
i i i i (8.22)
(x / z )
2
i i
y su varianza vendra dada por:
2 (8.23)
V ( *) =
(x i / z i )
2
Tal como se indic anteriormente, para demostrar que la presencia de heterocedasticidad

implica la estimacin de parmetros no ptimos basta con encontrar algn otro estimador de
208
menor varianza. Sustituyendo i2 = 2zi2 en la expresin para la varianza del estimador MCO
tenemos:
V( ) = 2 z 2
i (8.24)
( x ) i
2 2
Por lo que:
V( *) ( xi2 ) 2
=
V ( ) (x i
2
/z i
2
) zi2
Esta expresin es menor a uno si zi2 no es constante en cuyo caso los errores son
heterocedsticos2. En conclusin, la varianza del estimador de mnimos cuadrados ponderados
resulta menor a la varianza del estimador minimocuadrtico cuando zi2 no es constante o, lo que
es lo mismo, cuando el trmino de error presenta un comportamiento heterocedstico.
El problema asociado a la ineficiencia de los parmetros estimados puede, sin embargo, ser
demostrado de un modo ms intuitivo. Supongamos, tal como en el ejemplo planteado
anteriormente, que la varianza del error muestra un comportamiento creciente para cada
observacin. Si elige una observacin donde el trmino de error registra una menor desviacin
estndar, esta observacin ser un indicador confiable de la ubicacin de la lnea de regresin.
Por el contrario, si elegimos una observacin con una mayor desviacin estndar (mayor
dispersin), sta ser un indicador muy pobre de la ubicacin de la lnea de regresin. El mtodo
de Mnimos Cuadrados Ordinarios no discrimina respecto a la calidad de las observaciones,
otorgndole un mismo peso a todas. Esto implica que frente al problema de heterocedasticidad
existe la posibilidad de encontrar otro mecanismo para la estimacin de los parmetros que, en
este caso particular, consistira en otorgar un mayor peso a las observaciones que muestren una
mejor calidad en cuanto a indicadores de la posicin de la lnea de regresin.
Por otro lado, y en lo que se refiere a la significacin estadstica de los parmetros

estimados, cabe recordar que stos son calculados bajo el supuesto de que los trminos de error
presentan un comportamiento homocedstico. El problema referido a la validez de los
estimadores surge debido a que, frente a la presencia de heterocedasticidad, las desviaciones
estndar tienden a ser subestimadas lo que implica que los estadsticos-t tendern a estar
sobrestimados. Esto ltimo implica que, bajo un nivel de significancia dado, ser probable que
se rechace la hiptesis nula de que el coeficiente es significativamente distinto de cero cuando
en realidad no lo es.
8.4.2 Por qu se presenta la heterocedasticidad?
El problema poblacional de la heterocedasticidad como ya hemos visto se debe a que cada

observacin proviene de una distribucin diferente y que cada una de estas distribuciones
presenta una varianza distinta. Esa es la consecuencia estadstica del problema que nos preocupa
en esta seccin. Sin embargo, es importante determinar qu razones asociadas a los datos
explican la presencia de esta caracterstica de las distribuciones.
Relacin entre los variables explicativas y la varianza del error
Usualmente, la heterocedasticidad surge cuando los valores de las variables involucradas en

la ecuacin de regresin varan significativamente para cada observacin. En estos casos es
2
La demostracin de ello queda como tarea al lector.
209
probable que las variaciones en el trmino del error tiendan a ser pequeas cuando las variables
registran valores pequeos y grandes cuando las variables involucradas muestran valores
elevados.
Especficamente, cuando se trabaja con informacin econmica el comportamiento de los

agentes resulta una variable clave. Por ejemplo, si se plantea un modelo que explique el
consumo en funcin al ingreso de las familias se debe considerar que aquellas familias con
mayores ingresos disponen usualmente de un mayor excedente de renta, el cual deben repartir
entre consumo y ahorro. Distintas familias dentro del mismo estrato o nivel de ingresos tendrn,
a su vez, distintas preferencias y tomarn por tanto decisiones diferentes respecto a su exceso de
renta. Por esto, es de esperar que las cifras de consumo para familias con mayores ingresos
presenten una mayor varianza que las de familias de menores ingresos. Por otro lado, aquellas
familias con menores ingresos estarn muy cerca de la lnea de pobreza y su consumo estar en
niveles de subsistencia. Por ello es de esperar que estos presenten una menor varianza.
Asimismo, al momento de trabajar con variables que dependen del comportamiento de los
agentes econmicos resulta importante considerar que estos agentes usualmente aprenden a lo
largo del tiempo por lo que los errores en su comportamiento tienden a disminuir conduciendo a
una menor varianza.
Datos Agregados
Al momento de trabajar con datos agregados es comn encontrarse con errores

heterocedsticos. Especficamente, si se trabaja con promedios de datos obtenidos de distintos
grupos, la varianza de estos datos ser inversamente proporcional al nmero de individuos
considerados dentro de cada grupo. Asimismo, la dispersin misma de los datos juega un papel
importante. Por ejemplo, si trabajamos con datos promedios de la tasa de mortalidad infantil por
provincias, podra observarse que en algunas provincias los distritos que la componen presentan
datos muy diferentes y el promedio oculta esa dispersin. En otras provincias, los distritos
pueden tener una menor dispersin y el promedio resultante no muestra esta propiedad. Sin
embargo cuando realicemos la estimacin es obvio que la distribucin de cada promedio tendr
una varianza distinta. Este hecho deber incorporarse al momento de la estimacin.
Error de Especificacin
Otra de las causas ms frecuentes de la presencia de heterocedasticidad es la mala

especificacin de un modelo. Si se omite una variable relevante al momento de plantear el
modelo, la varianza del error del modelo mal especificado vendra dada por la varianza del
210
modelo verdadero (la cual es constante) ms el cuadrado del producto de la variable omitida y
su coeficiente. En este sentido, la varianza del error del modelo mal especificado no sera
constante. Supongamos que el modelo verdadero es la forma:
yt = 1 + 2x2t + 3x3t + ut
sin embargo, si se estima el modelo omitiendo la tercera variable explicativa se tendra lo

siguiente:
yt = 1 + 2x2t +vt
donde vt = ut + 3x3t y su varianza vendra dada por:
V(vt) = 2u + 32x3t2
En este sentido, la varianza del error mal especificado dependera de los valores de la
variable x3t y sera, por tanto, cambiante a lo largo del tiempo. Esta causa de la presencia de
heterocedastidad es sobre la cual se ha prestado especial inters recientemente. Esto porque
sabemos que la omisin de una variable relevante en el modelo verdadero provoca un sesgo en
los parmetros y vemos que puede causar la presencia de heterocedasticidad con lo cual el
estimador MCO pierde sus dos principales caractersticas: insesgamiento y eficiencia. Esto es
grave dado que la estimacin pierde toda relevancia. Si tomamos en cuenta estas
consideraciones una recomendacin que usualmente suele hacerse es que cualquier estimacin
debe hacerse partiendo de una especificacin amplia donde es preferible tener ms variables que
las relevantes para luego, despus de un proceso ordenado, ir eliminando variables hasta llegar a
un modelo que cumpla con la mayor cantidad de propiedades.
8.4.3 Cmo detectar la heterocedasticidad?
Descritos ya los efectos de la presencia de heterocedasticidad sobre el estimador MCO y las

formas de corregirlo de manera terica debemos pasar al terreno prctico. Debemos recordar
que los errores y su varianza son desconocidos por lo que debemos buscar la forma de realizar
una estimacin de ellos. Algunas de las pruebas para detectar la heterocedasticidad nos
sugieren la forma de la varianza. Sin embargo, no todas las pruebas nos sugieren la forma de la
varianza y slo detectan la presencia de heterocedasticidad. Cuando tenemos una forma
explcita de la varianza podemos aplicar la ponderacin con la varianza estimada por lo que
estamos en el caso en que podemos aplicar el estimador de mnimos cuadrados generalizados de
forma factible.
Dada la discusin anterior podemos agrupar en dos categoras las pruebas de heterocedasticidad:
1. Pruebas de deteccin: Estas pruebas slo detectan la presencia de

heterocedasticidad pero no sugieren la forma de la varianza. Usualmente estn
centrados en determinar si es que existe heterocedasticidad entre grupos de
observaciones y analizan si es que la varianza del error presenta un cambio
estructural.
2. Pruebas de deteccin y correccin: Estas pruebas aparte de detectar la presencia de

heterocedasticidad nos sugieren la forma de la varianza por la que debemos
ponderar cada una de las observaciones. Con la varianza estimada se hace factible la
correccin recomendada en estos casos por lo que estamos en capacidad de utilizar
el estimador de mnimos cuadrados generalizados factibles.
211
Teniendo lo anterior en mente, podemos iniciar la discusin de cada una de las pruebas ms
utilizadas para detectar (y si es posible corregir ) la heterocedasticidad.
i) Test grfico
Cuando la muestra es grande, se puede utilizar el cuadrado de los residuos estimados (ei2)
como una aproximacin de la varianza del error. Los residuos estimados se obtienen a travs
del anlisis de regresin del modelo original sobre el supuesto de homocedasticidad. Este test
plantea verificar la presencia de algn patrn sistemtico en el comportamiento de la varianza
del trmino de error a travs de un grfico que relacione el cuadrado de los residuos con alguna
de las variables explicativas. En este caso, el supuesto de homoscedasticidad implica la ausencia
de un patrn sistemtico en los grficos planteados ya que, en este caso, la varianza del error
sera independiente del comportamiento de las variables explicativas a lo largo del tiempo.
Ejemplo:
Se supone un modelo de la forma:
CONPRIt = 0 + 1CAPITALt + 2INGDISPt + ut
donde:
CONPRI = Consumo privado

CAPITAL= Stock de capital
INGDISP = Ingreso Disponible
LS // Dependent Variable is CONPRI

Sample: 1896 1995
C 208.6535 46.70111 4.467848 0.0000

CAPITAL 0.023852 0.004480 5.323810 0.0000
INGDISP 0.454549 0.013246 34.31568 0.0000

Sum squared resid 10041598 Schwarz criterion 11.65523
Este modelo, el cual ser utilizado para todos los ejemplos sugeridos para cada test, se
contruy con data anual para el periodo 1896 - 1995 (100 observaciones).
!"Comandos EViews:
GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos de la
regresin anterior.
SCAT RESID2 CAPITAL
212
SCAR RESID2 INGDISP: generar un grfico del cuadrado de los residuos contra cada una
de las variables explicativas.
!"
Resultados:
1200000
1000000
800000
RESID2
600000
400000
200000
0
0 20000 40000 60000 80000
CAPITAL
1200000
1000000
800000
RESID2
600000
400000
200000
0
0 5000 10000 15000 20000 25000
INGDISP
En ambos casos se puede apreciar la existencia de un patrn sistemtico entre el cuadrado de

los residuos y las variables explicativas. Se concluye que existe heterocedasticidad. Debemos
notar que en este caso que si bien se sugiere que existe relacin entre una variable explicativa y
los trminos de error no nos da una idea explcita de la relacin. Es ms como se puede advertir
la relacin es entre la varianza y ms de una variable explicativa. Esto nos indica que la forma
explcita sera una combinacin lineal de variables independientes. Por tanto esta prueba es slo
de deteccin.
ii) Test LR (Likelihood Ratio)
Al igual que el test anterior, el LR es aplicable cuando el nmero de observaciones de la

muestra es significativo. El primer paso para la aplicacin de este test consiste en dividir los
residuos MCO en k grupos, cada uno con ni observaciones tal que n i = n , donde n es el
nmero de observaciones en la muestra. Luego se estima la varianza de los residuos para cada
213
grupo (
! 2 i ) y la varianza de los residuos para toda la muestra ( ! 2 ). A partir de esta
informacin se define una funcin de la forma:
k
= (! i ) n i
/ ! n (8.25)
i =1
donde -2 ln se distribuye como una 2

( k 1) .
El paso final consiste en comparar el valor de 2 ( k 1) tabular con -2 ln . Si el primero es

mayor al segundo se acepta la hiptesis nula de homocedasticidad grupal. Si existe slo una
variable explicativa, el ordenamiento de los residuos se puede hacer sobre la base de las
magnitudes absolutas de estos. Sin embargo, si existiesen dos o ms variables explicativas se
puede utilizar el valor estimado de la variable dependiente ( y! ).
Ejemplo:
!" Comandos EViews:

FIT: calcular el valor estimado del consumo para cada periodo a partir de los coeficientes
estimados.
SORT: ordenar los residuos recogidos de la ecuacin original segn el consumo estimado.
(@VAR(serie de residuos))^0.5: calcular la desviacin estndar de los residuos para toda la
muestra y para cada uno de los grupos definidos.
!"
Resultados:
- Desviacin estndar de los residuos para el total de la muestra () = 318.48

- Nmero de grupos (k) = 4
- Nmero de observaciones en cada grupo (ni) = 25
- Desviaciones estndar para cada grupo (i):
1 = 30.70
2 = 34.23
3 = 156.92
4 = 269.37
(!
i =1
i ) ni
2.6581x10 +38 x 1.0397x10 +42 x 1.34249x10 +61 x 1.064910 +69
= =
! n 2.0341x10 +250
- Valor del estadstico (-2 ln ) = 182.79 (X2(3))
El valor calculado para el estadstico (182.79) result significamente mayor que el valor
tabular con 95% de confianza y 3 grados de libertad (7.815). Por tanto, rechazamos la hiptesis
nula de homocedasticidad. Esta prueba al agrupar los datos y verificar si las varianzas son
iguales entre los grupos lo que detecta es la presencia de heterocedasticidad pero no nos da una
forma explcita. Es una prueba de deteccin.
iii) Prueba de Spearman
Este test supone que la varianza del trmino de error depende de los valores de alguna de las
variables explicativas. Si existe esta dependencia, el tamao de los residuos debera estar
214
relacionado con el tamao de la variable explicativa. Se recuerda que en estos casos las
variaciones en el trmino de error tienden a ser pequeas cuando las variables explicativas
registran valores pequeos y grandes cuando las variables involucradas muestran valores
elevados.
Para llevar a cabo este test, es necesario ordenar en sentido creciente tanto los residuos
obtenidos a travs de la estimacin MCO (ei) (en valor absoluto) como los valores de la variable
explicativa (xi). A travs de este ordenamiento o ranking se calcula el coeficiente de correlacin
de rangos (rx,e).
6 Di 2
rx , e = 1 (8.26)
n( n 2 1 )
donde Di es la diferencia entre el puesto que ocupan en la ordenacin el valor de la i-sima

observacin de la variable explicativa y el i-simo valor absoluto del residuo.
Si el tamao muestral es grande, entonces la expresin:
rx,e n 2
(8.27)
1 rx,e 2
se distribuye aproximadamente como una T de Student con n-2 grados de libertad. Esta
expresin podra calcularse para cada una de las variables explicativas del modelo con el fin de
determinar si alguna de ellas determina el comportamiento de la varianza del trmino de error.
Especficamente, si el valor calculado del estadstico t es menor al valor tabular, se aceptar la
hiptesis nula de homocedasticidad respecto a la variable explicativa analizada.
Ejemplo:
En este caso, se estim el coeficiente de correlacin de rangos para cada una de las variables
explicativas (CAPITAL e INGDISP).
!"
Comandos Eviews:
GENR RESIDABS = ABS(RESID): generar una serie que recoja el valor absoluto de los
residuos estimados.
!"
Comandos Excel (para cada variable explicativa):
Plantear una tabla de cuatro columnas conteniendo el valor absoluto de los residuos y una de
las variables explicativas, asignando a cada observacin una constante (X) como en el
siguiente ejemplo:
XV Variable XE Valor absol. error

x1 2056 x1 23.45
x2 1356 x2 35.12
x3 2569 x3 19.14
x4 1923 x4 16.71
215
ORDENAR: ordenar ascendentemente los valores de la variable explicativa y los valores de

los residuos en trminos absolutos, manteniendo sus correspondientes constantes de modo
que pueda ser identificada luego de la ordenacin.
XV Variable XE Valor absol. error

x2 1356 x4 16.71
x4 1923 x3 19.14
x1 2056 x1 23.45
x3 2569 x2 35.12
BUSCAR: determinar la posicin que ocupan las constantes correspondientes a cada error en
la nueva ordenacin de modo que esta posicin pueda ser contrastada con la que ocupa la
constante de la variable explicativa para la misma observacin.
XV XE Orden Buscar Di
x2 x4 1 4 3
x4 x3 2 1 1
x1 x1 3 3 0
x3 x2 4 2 2
En el ejemplo anterior la columna Orden se refiere a la posicin que ocupan las variables
explicativas luego de la ordenacin. Por otro lado la columna Buscar se refiere a la posicin que
ocupan en la nueva ordenacin los errores correspondientes a la misma observacin. Para la
primera fila, el comando de bsqueda sera: Buscar ( x2; matriz XE -Orden; 2 ) = 4.
Por ejemplo, el valor de la variable explicativa para la segunda obsevacin ocupa el primer
lugar mientras que el valor del error para esta misma observacin ocupa el cuarto. De esta forma
la diferencia en el puesto que ocupan las variables explicativas y los errores correspondientes a
un mismo periodo vendra dado por la columna Di.
!"
Resultados:
Para la variable explicativa CAPITAL

- di2 = 50274
- rx,e = 0.6983
- t-estadstico = 9.66
Para la variable explicativa INGDISP

- di2 = 47810
- rx,e = 0.7131
- t-estadstico = 10.07
Para ambos casos, el valor calculado para el estadstico resulta significativamente mayor al
valor tabular para una distribucin T con 98 grados de libertad (n-2) y 95% de confianza. Por
tanto, para ambas variables explicativas, se rechaza la hiptesis nula de homocedasticidad. Tal
como se desprende de todo lo anterior, esta prueba es slo detectora.
Un programa con la generacin y construccin de esta prueba se encuentra en el apndice de

este captulo. (Programa 8.1)
iv) Prueba de Goldfeld y Quandt
216
Este test supone que la desviacin estndar de la distribucin del error (i) es proporcional al
valor de una de las variables explicativas para cada observacin. Asimismo, supone que el error
se distribuye normalmente y no presenta autocorrelacin.
Suponiendo que se cuenta con n observaciones, este test plantea ordenar la muestra segn
las magnitudes de la variable explicativa y realizar regresiones separadas para las primeras y
ltimas m observaciones; las observaciones centrales (n - 2m) son ignoradas. Si se verifica el
supuesto concerniente a la naturaleza de la heterocedasticidad, la varianza del error para las
ltimas m observaciones ser mayor a la correspondiente a las primeras m observaciones, lo
cual se ver reflejado en la suma residual (SRC) para ambas regresiones. Siendo SRC1 y SRC2
las sumas residuales para las regresiones con las primeras y ltimas m observaciones
respectivamente y bajo el supuesto de homocedasticidad y normalidad del trmino de error, el
coeficiente SRC2/SRC1 se distribuir F con m-k y m-k grados de libertad, donde k representa el
nmero de variables explicativas. Como siempre, se contrasta el valor calculado contra el
tabular y si Fcalc es menor que Ftab aceptamos la hiptesis nula de homoscedasticidad.
La potencia del test depende de la eleccin de m respecto a n ya que el nmero de

observaciones en cada submuestra determina los grados de libertad de la distribucin. En este
sentido, Goldfeld y Quandt sugieren que m debe ser alrededor de 11 cuando la muestra contiene
30 observaciones y 22 cuando la muestra contiene 60 observaciones. Al momento de definir m
se debe considerar tambin que cada grupo debe contener observaciones relativamente
extremas. En este sentido, si m/n se acerca a 0.5 la diferencia entre las observaciones includas
en cada subgrupo ser reducida por lo que el test perder potencia. Como regla prctica, se
deben eliminar un tercio de las observaciones. Esta deben corresponder a las observaciones
ubicadas en el medio de la muestra.
El test de Goldfeld y Quandt tambin puede ser utilizado bajo el supuesto de que la varianza
del error es inversamente proporcional al valor de alguna variable explicativa para cada
observacin. En este caso, el procedimiento es el mismo pero el test estadstico vendra dado
por la relacin SRC1/SRC2.
Ejemplo:
!"
Comandos Eviews:
SORT: ordenar ascendetemente las observaciones de todas las variables incluidas en el

modelo segn la variable explicativa elegida.
IMPORT: importar las observaciones para cada variable segn la nueva ordenacin.
SMPL: definir el rango para las subregresiones segn el valor elegido de m.
217
!"
Resultados:
Para la variable explicativa CAPITAL
- m = 30
30
- SRC1 = ( yi y! i ) 2 = 12307.85
i =1
100
- SRC 2 = ( yi y! i ) 2 = 6698694.98
i = 71
- Estadstico = SRC2/SRC1 = 544.26
Para la variable explicativa INGDISP
- m = 30
30
- SRC1 = ( yi y! i ) 2 = 12307.85
i =1
100
- SRC 2 = ( yi y! i ) 2 = 6698694.98
i = 71
- Estadstico = SRC2/SRC1 = 544.26
Los estadsticos obtenidos para ambas variables resultan similares debido a que las
ordenaciones planteadas segn cada una de ellas no mostraron ninguna diferencia significativa.
De esta forma, y para ambos casos, el estadstico calculado result mayor al valor tabular para la
distribucin F (28,28) de modo que se rechaza la hiptesis nula de homocedasticidad.
Esta prueba nos permite detectar la presencia de heterocedasticidad y la variable que la

causa. Sin embargo, no nos da una idea acerca de la forma aproximada de la relacin entre la
varianza y dicha variable. Un paso adicional si se quiere tener una idea ms precisa es realizar la
prueba de heterocedasticidad de Glejser.
v) Prueba de Glejser
El test de Glejser nos permite explorar la verdadera estructura de la heterocedasticidad. En

este sentido, este test ya no supone que la variancia del error es proporcional a una de las
variables explicativas sino que se investiga si alguna otra forma funcional es ms apropiada,
como por ejemplo:
2i = + xi + i
donde x es la variable que se supone explica la heteroscedasticidad. Esta puede haberse hallado
previamente por la prueba de Goldfeld y Quandt.
De esta forma, el test propone analizar el comportamiento de los residuos de una regresin
MCO plateando una forma funcional como la anterior. Especficamente, el test plantea la
siguiente ecuacin:
218
ei2 = + xi + i
para distintos valores del exponente y donde i rene las caractersticas de un ruido blanco. En
este caso, utilizamos el cuadrado de los residuos estimados como una proxi de la varianza del
error. El valor ms apropiado para el exponente corresponde a aquel que proporcione la
ecuacin con el mejor grado de ajuste y el mayor grado de significancia para el parmetro . Si
este parmetro no resulta significativamente distinto de cero para la mejor regresin, se acepta
que los errores son homocedsticos.
Ejemplo:
!"
Comandos EViews:
GENR RESIDABS = ABS(RESID): generar una serie que recoja los valores absolutos de los
residuos estimados.
GENR CAP05P = CAPITAL^0.5: generar una serie que contenga los valores para la variable
capital elevados a 0.5. Esta operacin se repite para cada una de las variables explicativas
segn cada uno de los exponentes escogidos.
!"
Resultados:
Para el ejemplo se eligieron los exponentes: 2, 1.5, 1, 0.5. Los resultados obtenidos se
presentan en el siguiente cuadro.
Variable Prob t-Stad. R-squared Variable Prob t-Stad. R-squared

cap^(0.5) 0.0000 9.596160 0.484445 ing^(0.5) 0.0000 11.13309 0.558451
cap^(-0.5) 0.0000 -7.117220 0.340755 ing^(-0.5) 0.0000 -7.737197 0.379213
cap^(1.0) 0.0000 8.598898 0.430037 ing^(1.0) 0.0000 11.39846 0.570034
cap^(-1.0) 0.0000 -5.186988 0.215403 ing^(-1.0) 0.0000 -5.841092 0.258241
cap^(1.5) 0.0000 7.318144 0.353371 ing^(1.5) 0.0000 10.96881 0.551107
cap^(-1.5) 0.0002 -3.893965 0.133992 ing^(-1.5) 0.0000 -4.440802 0.167521
cap^(2.0) 0.0000 6.239572 0.284318 ing^(2.0) 0.0000 10.28565 0.519124
cap^(-2.0) 0.0026 -3.092719 0.088922 ing^(-2.0) 0.0008 -3.477959 0.109869
Los parmetros asociados a todos los regresores sugeridos resultan significativamente

distintos de cero por lo que rechazamos la hiptesis nula de homocedasticidad.
vi) Prueba de Park
Park utiliza la intuicin detrs de la prueba grfica para plantear una forma funcional que
explique el comportamiento de la varianza del trmino de error. Especficamente, supone la
existencia de una relacin entre la varianza del error y alguna de las variables explicativas. Este
planteamiento es similar al del test de Glejser slo que la forma funcional sugerida por Park
viene dada por:
i2 = 2xievi
Esta forma multiplicativa plantea que la varianza del error para cada observacin depende de
la varianza bajo el supuesto de homocedasticidad (la cual es constante), una de las variables
explicativas del modelo original y el valor e.
219
Este planteamiento puede, a primera vista, resultar algo complejo, sin embargo, si
analizamos el logaritmo de la ecuacin anterior notaremos que sta no difiere mucho de las
relaciones planteadas en los dems tests.
ln i2 = ln2 + lnxi + vi
Al igual que en los casos anteriores, se utiliza el cuadrado de los residuos estimados (ei2)
como aproximacin de la varianza del error para cada observacin. En este sentido, la ecuacin
de regresin planteada por Park resulta de la forma:
ln ei2 = + lnxi + vi
Respecto al parmetro , se recuerda que la varianza bajo el supuesto de homocedasticidad

es constante por lo que ln2 representa el intercepto.
Si resulta estadsticamente significativo se concluye que la varianza del error para cada
periodo depende del valor de la variable explicativa, la cual no es constante a lo largo a lo largo
del tiempo. En este sentido, si se logra explicar el logaritmo del cuadrado del residuo en
trminos del logaritmo de alguna de las variables explicativas se puede afirmar que el trmino
del error presenta un comportamiento heterocedstico.
Harvey (1976) propone una prueba similar que consiste en una generalizacin de la prueba
de Park. Especficamente, Harvey propuso una relacin multiplicativa de la forma:
i2 = e z i
donde zt = 1 + 2z2t + ... + pzpt
El test platea estimar por MCO la relacin:
ln e2t = 1 + 2z2t + ... + pzpt + t
y definir el estadstico:
*' D 1 *
X 2
( p 1 ) (8.28)
4 . 935
donde D representa la matriz de covarianzas asinttica del vector (2 + ... + p) que resulta de
excluir la primera fila y columna de (zz)-1. El vector ! * es el vector de coeficientes
excluyendo el trmino independiente (1). El valor obtenido para este estadstico se compara
contra el valor tabular de un distribucin chi-cuadrado con p-1 grados de libertad.
Ejemplo:
!"
Comandos Eviews:
GENR RESID2 = RESID^2: generar una serie que recoja los cuadrados de los residuos
estimados.
GENR LNRESID2 = LOG(RESID2): generar una serie que contengan los logaritmos de los
residuos estimados al cuadrado. Esta operacin se repite para cada una de las variables
explicativas.
220
!"
Resultados:
Para la variable CAPITAL
LS // Dependent Variable is LNRESID2

Sample: 1896 1995
C -5.714970 1.929723 -2.961549 0.0038

LNCAPITAL 1.577852 0.206352 7.646399 0.0000

Para la variable INGDISP:
LS // Dependent Variable is LNRESID2

Sample: 1896 1995
C -5.648694 1.716655 -3.290523 0.0014

LNINGDISP 1.740910 0.203194 8.567735 0.0000

Para ambos casos se verifica la significancia estadstica del parmetro asociado al logaritmo
de la variable explicativa. A partir de esto se concluye que los errores presentan un
comportamiento heterocedstico.
vii) Prueba de White
La prueba de White en un contraste general que no precisa la estructura de la

heterocedasticidad. En este sentido, el test plantea un regresin entre el cuadrado de los residuos
estimados sobre una constante, los regresores del modelo original, sus cuadrados y sus
productos cruzados de segundo orden. Por ejemplo, si el modelo original contiene tres variables
explicativas, los regresores del test de White seran x1, x2, x3, x12, x22, x32, x1x2, x2x3, y x1x3.
Formalmente, la prueba implica estimar la siguiente regresin auxiliar.:
2 = + 11 + 22 + 33 +412 +522 + 632 + 712 + 823 + 913 +
221
Al aumentar el tamao muestral, el producto TR2 (donde T es el nmero de observaciones de

la muestra y R2 el coeficiente de bondad de ajuste de la regresin auxiliar) se distribuye como
una chi-cuadrado con p-1 grados de libertad, donde p es el nmero de parmetros de la
regresin auxiliar (la regresin planteada para el cuadrado de los residuos). Si ninguna de las
variables sugeridas en la regresin auxiliar explica adecuadamente a e2 cabe esperar que el valor
del R2 tienda a cero. En este caso, el valor calculado TR2 resultar bastante reducido por lo que
ser muy probable que se acepte la hiptesis nula de homocedasticidad (X2calc < X2tab).
Ejemplo:
!"
Comandos EViews:
VIEW/RESIDUAL TEST/WHITE HETEROSKEDASTICITY(cross terms)
!"
Resultados:

Test Equation:
Sample: 1896 1995
C -34357.41 30111.69 -1.140999 0.2568

CAPITAL 59.83741 15.12959 3.954992 0.0001
CAPITAL^2 -0.000236 0.000223 -1.054001 0.2946
CAPITAL*INGDISP -0.002449 0.001200 -2.040704 0.0441
INGDISP 130.3478 33.85792 -3.849847 0.0002
INGDISP^2 0.007841 0.002267 3.458243 0.0008

La probabilidad asociada al estadstico (0.0000) indica el rechazo de la hiptesis nula de

homocedasticidad. Especficamente, se verifica que el cuadrado de los residuos puede
explicarse en trminos de las variables CAPITAL, CAPITAL*INGDIS, INGDISP e
INGDISP^2 por lo que se concluye que los errores muestran un comportamiento
heterocedstico.
Debe mencionarse que esta prueba puede interpretarse como una prueba de mala especificacin
dado que si se detecta la presencia de heterocedasticidad y uno de los regresores resulta muy
significativo en la regresin auxiliar podra interpretarse como que dicha variable puede estar
faltando en la regresin de la media condicional. Por ello es deseable incluir tal variable en
dicha ecuacin a fin de corroborar que su significacin estadstica. Debe mencionarse que
cuando nos referimos a variables omitidas nos referimos a los cuadrados como a los productos
cruzados.
222
viii) Prueba de Breusch y Pagan
Partiendo del supuesto de que la varianza del error no es constante para cada observacin,
resulta factible encontrar un vector de variables zt que explique el comportamiento de la
varianza.
t2 = f (zt) = f (0 + 1z1t + 2z2t + ... +pzpt)
Si definimos esta forma funcional, el test consiste en verificar la hiptesis nula:
H0: 1 = 2 = ... = (8.29)
Ntese que si todos los coeficientes de la combinacin lineal zt, excepto el trmino
independiente 0 fuesen cero, entonces el trmino de error sera homocedstico ya que
t2=f(0), el cual es una constante. Asimismo, cabe resaltar que f puede representar cualquier
funcin de modo que el test de Breusch y Pagan no depende de la forma funcional.
Ahora, suponiendo que:
et 2
! 2 = n
calculamos la suma de cuadrados de regresin (o suma explicada, SE) de la regresin de et2

sobre z1, z2, ... ,zp y definimos la funcin de la forma:
SE
= (8.30)
2! 4
la cual se distribuye como una chi-cuadrado con p grados de libertad.
La intuicin de este test es similar a la del test de White. Para ste ltimo definimos la
funcin TR2 la cual se distribuye chi-cuadrado con p-1 grados de libertad. Trabajando de
manera anloga podemos obtener el estadstico TR2 para el caso de Breusch y Pagan donde el
coeficiente de bondad de ajuste, al igual que en el test de White, est referido a la regresin
auxiliar (en este caso la regresin de et2 contra z1, z2, ..., zp). Para determinar la relacin entre el
estadstico TR2 y el test de Breusch y Pagan ntese que:
TR2 = Suma de cuadrados de regresin / Var(et2)3

= SE / Var(et2)
Ahora, bajo la hiptesis nula de homocedasticidad, el cociente ut2/2 se distribuye chi-

cuadrado con 1 grado de libertad. Por tanto, Var (ut2/2) =2 dado que la varianza de una chi-
cuadrado es igual a dos veces los grados de libertad.
Por tanto: Var (ut2) = 24. Para muestras grandes, podemos generalizar Var(et2)=Var(ut2) y
! 4 = 4 . En conclusin, el estadstico propuesto por Breusch y Pagan vendra dado por:
3 Recordemos que R2 =(Suma explicada / Suma total) = (SE / ST). Para el caso especfico del test de Breusch y
Pagan, SE / ST =
( e! t 2 e t 2 ) 2 , donde el denominador vendra a ser T(Var (et2)).
(et 2 e t 2 ) 2
223
SE SE
= = = TR 2
2! 4 2
Var (et )
Al igual que para el caso del test de White, en la medida en que las variables del vector zt no
expliquen adecuadamente al estimador de la varianza del error (et2), el coeficiente de bondad de
ajuste se aproximar a cero y ser ms probable que se acepte la hiptesis nula de
homocedasticidad.
Ejemplo:
!"
Comandos EViews:
GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos.
Estimar una regresin de los residuos al cuadrado sobre las variables explicativas del modelo
original.
FIT: generar una serie que contenga los valores estimados para el cuadrado de los residuos a
partir de los coeficientes de la regresin anterior.
!"
Resultados:
LS // Dependent Variable is RESID2

Date: 05/31/97 Time: 23:10
Sample: 1896 1995
C -41424.48 21929.95 -1.888946 0.0619

CAPITAL -6.101892 2.103838 -2.900362 0.0046
INGDISP 34.10861 6.220116 5.483596 0.0000

100
- SE = (e!i 2 ei 2 ) 2
= 1.856E+12
i =1
100
ei 2
- 2 = n
= 100415.975
i =1
SE
-= = 92.0346717
2 4
El valor calculado para el estadstico resulta superior al valor tabular de un distribucin con
(p = 2) grados de libertad y 95% de confianza (5.991). Por tanto, se concluye que se rechaza la
hiptesis nula de homocedasticidad.
224
8.4.4 Correccin de la Heterocedasticidad
Si a travs de las pruebas mencionadas anteriormente detectamos la presencia de la

heterocedasticidad el siguiente paso es corregir el problema con el fin de obtener estimadores
que presenten las propiedades adecuadas. Como sabemos el estimador que nos permite obtener
estimados con las propiedades adecuadas es el de mnimos cuadrados generalizados. Sin
embargo, dicho estimador es terico. Por tanto, es necesario trabajar en el campo prctico en
donde tenemos que reemplazar nuestra matriz por su estimado, . Esto nos llevar al
estimador de mnimos cuadrados generalizados factibles.
Las pruebas detalladas en la seccin anterior si caen dentro del grupo de las pruebas que
hemos denominado correctoras nos sugerirn la forma de la varianza y por tanto podremos
construir nuestra matriz y procederemos a realizar la estimacin por mnimos cuadrados
ponderados factibles lo que se lograr al ponderar cada observacin de la variable dependiente y
las respectivas variables independientes por la varianza relevante. Este es el procedimiento
general. Sin embargo, es pertinente revisar mtodos de correccin especficos diseados para
casos particulares.
i) Datos agregados
Se supone un modelo que pretende explicar el consumo de las familias a partir de su renta.
ci j = 0 + 1yi j + i j
donde:
ci j = consumo de la familia j en el momento i
yi j = ingreso de la familia j en el momento i
i j = ruido blanco
Sin embargo, si slo se dispone de datos agregados el modelo a estimar sera de la forma:
Ci Yi
= 0 + 1 + ui
Pi Pi
donde:
Pi
C i = ci j
j =1
Pi
Yi = yi j
j =1
Tomando sumatorias al modelo original y dividiendo entre la poblacin se tiene:
Pi Pi
ci j Pi 0 + 1Yi + i
j
Ci j =1 j =1
= =
Pi Pi Pi
225
Pi

j
i
Ci Y j =1
= 0 + 1 i +
Pi Pi Pi
Comparando este resultado con el modelo agregado se tiene que:
0 = 0
1 = 1
Pi

j
i
j =1
ui=
Pi
Ahora, desarrollando la varianza del trmino de error (ui) se tiene:
Pi
Var ( i j )
1
Var (ui ) =
Pi 2 j =1
Pi
2
1
=
Pi 2 j =1
1
= 2
Pi 2
Pi
2
=
Pi
Lo anterior demuestra que la varianza del error del modelo agregado depende de la
poblacin en el momento i presentando, por tanto, un comportamiento heterocedstico. Cabe
resaltar, sin embargo, que la presencia de heterocedasticidad no se debe a alguna peculiaridad en
la conducta de las familias sino al hecho de haber trabajado con datos agregados.
Tal como se indic anteriormente, la correccin del problema de heterocedasticidad se basa

en determinar la estructura de la matriz . Para este caso particular, la varianza del error viene
dada por:
1
P1
1
Var (U ) = 2 P2
...
1
Pn
donde la matriz cuya diagonal principal contiene la inversa de la poblacin para cada periodo es
precisamente la matriz . Por tanto, y tal como se propone en la correccin por MCG, el
modelo debe ser premultiplicado por la matriz V-1 donde VV = . Especficamente:
V-1 C = V-1 Y + V-1 U
226
donde:
1
P1
1
V = P2

...
1
Pn
Ahora, el error para el periodo i (u*i) vendra dado por:
Pi
Pi i
j
j =1
u *i =
Pi
por lo que su varianza sera:
Pi
Pi
2
Var (u *i ) = Var ( i j )
P i j =1
Pi
Pi
=
Pi 2
2
j =1
2
Pi
= 2 =2
Pi 2
Ejemplo:
Consideremos el siguiente modelo:
Cai = 0 + 1Yai + 2Kai + ui
donde:
Ci
Ca i =
Pi
Y
Ya i = i
Pi
K
Ka i = i
Pi
P1 = 11, P2 = 12,...., P100 = 110
Debido a que se ha trabajado con informacin agregada, es de esperarse que el trmino de

error presente heterocedasticidad. Si suponemos que el modelo micro es de la forma:
ci j = 0 + 1yi j + i j
227
donde:
ci j = consumo de la familia j en el momento i
yi j = ingreso de la familia j en el momento i
i j = ruido blanco con varianza constante (2)
la varianza del trmino de error del modelo agregado vendra dado por:
2
Var (u i ) =
Pi
Segn la metodologa considerada anteriormente, la correccin consistira en ponderar cada

observacin por la raz de la poblacin para cada periodo.
Los resultados de la regresin planteada anteriormente son:
LS // Dependent Variable is CA
Sample: 1 100
C 0.193721 0.015199 12.74539 0.0000

YA 0.553360 0.103087 5.367877 0.0000
KA 0.352750 0.095943 3.676679 0.0004

Utilizando el cuadrado de los residuos de la regresin anterior como un estimador de la

varianza del error notaremos que sta depende de la poblacin y es, por tanto, variable en el
tiempo.
!"Comandos EViews:
GENR VAR1=RESID^2
LS // Dependent Variable is VAR1

Sample: 1 100
C 0.048494 0.006536 7.419264 0.0000

POB -0.000433 9.75E-05 -4.444519 0.0000

228
Tal como se indic anteriormente, la estrategia para corregir el problema de

heterocedasticidad en este caso consiste en multiplicar cada observacin por la raz de la
poblacin o, lo que es lo mismo, estimar nuevamente el modelo por MCG.
!"Comandos EViews:
QUICK - ESTIMATE EQUATION - OPTIONS - WEIGHTED LS/TSLS
Weight = POB1^(1/2)
LS // Dependent Variable is CA
Weighting series: POB^(1/2)
Sample: 1 100
C 0.190451 0.012998 14.65236 0.0000

YA 0.641209 0.103368 6.203181 0.0000
KA 0.389417 0.095255 4.088150 0.0001
Weighted Statistics

Unweighted Statistics

S.E. of regression 0.152391 Sum squared resid 2.252628
Durbin-Watson stat 1.883187
El modelo presentado anteriormente correponde a la estimacin por Mnimos Cuadrados

Generalizados de la regresin original. En este caso, la varianza del trmino de error ya no
depende de la poblacin y la perturbacin es, por tanto, homocedstica.
!"Comandos EViews:
GENR RESP=RESID*POB^(1/2)4
GENR VAR2=RESP^2

Sample: 1 100
C 0.902110 0.251767 3.583118 0.0005

POB 0.001241 0.003756 0.330357 0.7418

4
Los residuos guardados automticamente en la serie RESID luego de la estimacin por MCG no estn ponderados,
por lo que resulta necesario realizar la ponderacin respectiva a travs de este comando.
229

ii) Conductas diferenciadas
El problema asociado a la presencia de conductas diferenciadas ocurre cuando las respuestas

de los agentes difieren a lo largo de la muestra. Frente a esto, la muestra puede dividirse en
grupos, cada uno de los cuales contiene un trmino de error diferente, en el sentido de
pertenecer a una distribucin distinta para cada grupo. Es lgico suponer que, para cada grupo,
el trmino de error rene las caractersticas de un ruido blanco, sin embargo, si se considera el
total de la muestra en conjunto se encontrar que el trmino de error no presenta una varianza
constante ya que los errores para cada submuestra pertenece a una distribucin distinta.
Este problema se presenta usualmente al trabajar con modelos del tipo de corte transversal.
Supongamos que se quiere analizar la relacin existente entre el consumo y el ingreso para
distintas regiones del pas. Evidentemente, frente a distintos niveles de ingreso las respuestas de
los agentes (los niveles de consumo) sern distintos. Sin embargo, puede darse el caso que para
niveles similares de ingreso nos encontremos con distintos niveles de consumo, en otras
palabras, las respuestas de los agentes sern distintas debido a la presencia de conductas
heterogneas entre una regin y otra. En este caso, es precisamente la perturbacin la que
recoge el efecto de las conductas diferenciadas y es por tanto vlido suponer que para cada
submuestra el trmino de error pertenezca a una distribucin particular. Para ilustrar mejor este
caso, supongamos que se pretende estimar un modelo de corte transversal de la forma:
ci = 0 + 1yi + ui
donde:
ci = consumo de la regin i
yi = ingreso de la regin i
i = 1,2...n
Ahora, suponga que la muestra puede dividirse en dos submuestras de la forma:
ci1 = 0 + 1yi1 + ui1

i = 1,2, ... ,m
cj2 = 0 + 1yj2 + uj2

j = (m+1), ... ,n
donde:
Var(ui1) = 21
Var(uj2) = 22
De esta forma, y si se considera la totalidad de la muestra, la varianza del trmino de error

no es constante ya que depende de la submuestra y por tanto de la respuesta de los agentes.
Formalmente:
U 2 1 I 1
Var (U ) = Var 1 = =W
U 2 2 I2
2
230
La matriz W resulta proporcional a la matriz considerada anteriormente y por ello puede

ser utilizada para el clculo del estimador MCG:
*MCG = (X W-1 X)-1 X W-1 Y (8.31)
Para esto, y tal como fue descrito para el caso de datos agregados, es necesario
premultiplicar el modelo por la matriz A-1, donde W=AA. Sin embargo, para poder realizar esta
correccin es necesario conocer los valores de 21 y 22. Al respecto, el estimador de mnimos
cuadrados de la varianza del trmino de error puede ser utilizado para el clculo de la matriz W.
Para el ejemplo presentado lneas arriba, la estrategia consiste en estimar el modelo por
MCO para cada submuestra donde el estimador de la varianza del trmino de error para cada
grupo vendra dado por:
e1 ' e1
= ! 2 1
m k
e 2 ' e2
= ! 2 2
(n m) k
donde k representa el nmero da variables explicativas, en este caso 1.
Ahora, es factible estimar la estructura de la matriz W:
! 2 1 I 1
W! =
! 2 I 2
2
y de esta forma se puede proceder con la correccin a travs de Mnimos Cuadrados

Generalizados.
La estrategia sugerida anteriormente presenta, sin embargo, una dificultad: la eleccin de las
submuestras a ser analizadas. Para el caso planteado lneas arriba convendra dividir la muestra
en grupos que renan caractersticas demogrficas similares. Por ejemplo, cabe suponer que la
conducta de los agentes en zonas urbanas difiere de la conducta en zonas rurales. Usualmente, la
propensin marginal a ahorrar en zonas urbanas tiende a ser mayor debido, en parte, a un mayor
desarrollo del sistema financiero, por lo que una alternativa al problema de la eleccin de las
submuestras sera, para este caso, considerar que los grupos seleccionados correspondan a las
poblaciones rurales y urbanas respectivamente. Evidentemente, para otros casos la eleccin de
las submuestras depender en gran medida del criterio del investigador, sin embargo, el test de
Goldfeld y Quandt (diseado para la deteccin de heterocedasticidad por grupos) puede darnos
una idea acerca de las submuestras a ser analizadas.
Ejemplo:
Supongamos un modelo de la forma:
C1i = 0 + 1Y1i + 2K1i +ui
donde:
C1i = consumo de la regin i
231
Y1i = ingreso de la regin i

K1i = dotacin de capital de la regin i
i = 1,2,...,200
Se busca evaluar la presencia de heterocedasticidad por conductas diferenciadas tenemos la

posibilidad de analizar el grfico de los residuos de la regresin planteada lneas arriba.
!"Comandos EViews:
QUICK - ESTIMATE EQUATION
C1 c Y1 K1
VIEW - ACTUAL, FITTED, RESIDUAL - GRAPH
3
2
1
0
2
-1
1 -2
-3
0
-1
-2
20 40 60 80 100 120 140 160 180 200
Residual Actual Fitted
En este caso, el comportamiento que registran los residuos sugiere la presencia de

heterocedasticidad. Claramente se observa como alrededor de la observacin 150 en adelante la
varianza de stos aumenta, siendo, por tanto, variable a lo largo de la muestra. Este
comportamiento nos permite realizar el siguiente supuesto respecto a las submuestras a analizar:
C1i1 = 0 + 1Y1i1 + 2K1i1 + ui1

i = 1,2, ... ,150
C1j2 = 0 + 1Y1j2 + 2K1i2 + uj2

j = 151, ... ,200
donde:
Var(ui1) = 21
Var(uj2) = 22 (21 < 22)
La estrategia de correccin sugerida en este caso consiste en ponderar cada observacin de la

primera submuestra por la inversa de la raz del estimador de la varianza:
232
e1 ' e1
= 12
150 3
y cada observacin de la segunda submuestra por la inversa de la raz del estimador de la

varianza:
e2 ' e2
= 22
50 3
Para estimar la suma de cuadrados del error para cada submuestra es necesario realizar la
estimacin MCO de cada una de ellas.
!"Comandos EViews:
SMPL 1 150
C1 c Y1 K1
LS // Dependent Variable is C1
Sample: 1 150
C 0.229483 0.024914 9.210914 0.0000

Y1 0.496267 0.029671 16.72592 0.0000
K1 0.326542 0.024386 13.39055 0.0000

Para la primera submuestra, el estimador de la varianza vendra dado por:
e1 ' e1 13.68605
=
150 3 147
!"Comandos EViews:
GENR POND1=1/(13.68605/147)^(1/2)
GENR C1P=C1*POND1
GENR Y1P=Y1*POND1
GENR K1P=K1*POND1
Ahora, si se trabaja con la segunda submuestra tenemos:
!"Comandos EViews:
SMPL 151 200
C1 c Y1 K1
233
Sample: 151 200
C 0.222016 0.087271 2.543973 0.0143

Y1 0.455394 0.078044 5.835071 0.0000
K1 0.197000 0.099722 1.975498 0.0541

En este caso, el estimador de la varianza vendra dado por:
e2 ' e2 17.50534
=
50 3 47
!"Comandos EViews:
GENR POND2=1/(17.50534/47)^(1/2)
GENR C1P=C1*POND2
GENR Y1P=Y1*POND2
GENR K1P=Y1*POND2
Ahora, trabajando con el total de la muestra, se observa como la varianza de los errores ya no
presenta un comportamiento variable.
!"Comandos EViews:
SMPL 1 200
C1P c Y1P K1P
VIEW - ACTUAL, FITTED, RESIDUAL - GRAPH
234
10
4 0
2 -5
0 -10
-2
-4
20 40 60 80 100 120 140 160 180 200
Residual Actual Fitted
Otra alternativa para la correccin de heterocedasticidad por conductas diferenciadas es la

sugerida por el test de Glejser. En este caso, sin embargo, suponemos que las distintas
respuestas de los agentes dependen de alguna de las variables involucradas en el modelo. En
este sentido, la varianza del error depender del comportamiento de esta variable y ser, por
tanto, cambiante en el tiempo.
Supongamos que se estima un modelo de la forma:
ci = 0 + 1yi + 2ki + ui
donde
ci = consumo de la familia i
yi = ingreso de la familia i
ki = dotacin de capital de la familia i
Al respecto la intuicin econmica nos indica que aquellas familias con mayores ingresos
presentarn una mayor variabilidad en sus decisiones de consumo dada la mayor renta
excedente con la que cuentan. En este sentido, cabe esperar que la varianza del trmino de error
se incremente segn el nivel de ingresos de las familias. Si la intuicin detrs de este
razonamiento es correcta, ser factible representar la varianza del error de la siguiente manera:
! 2 i = e 2 i = 0 + 1 yi + i
En este caso se ha supuesto una relacin lineal, sin embargo, tambin pueden darse casos
donde otras formas funcionales presenten un mejor ajuste. Al respecto, el test de White (donde
se incluyen los cuadrados de las variables explicativas) puede dar una idea acerca de la variable
que explica la heterocedasticidad y su forma funcional.
Una vez determinada la forma funcional ms apropiada podemos estimar la estructura de la

matriz a ser utilizada en la estimacin MCG. Para el ejemplo analizado sta sera de la forma:
235
! 0 + ! 1 y1

! = ...
! + ! y

0 1 n
Ejemplo:
Supongamos un modelo de la forma:
C1i = 0 + 1Y1i + 2K1i + ui
donde:
C1i = consumo en el momento i
Y1i = ingreso en el momento i
K1i = stock de capital en el momento i
Tal como se indic anteriormente, la intuicin econmica nos lleva a pensar que la varianza
del trmino de error depende del nivel de ingreso para cada periodo. Para confirmar esto,
verfiquemos los resultados del test de White.
Sample: 1 100
C 0.326073 0.100931 3.230640 0.0017

Y1 0.697753 0.109240 6.387326 0.0000
K1 0.237217 0.091954 2.579744 0.0114

!"Comandos EViews:
VIEW - RESIDUAL TESTS - WHITE HETEROSKEDASTICITY
236

Test Equation:
Sample: 1 100
C -0.439386 0.255494 -1.719751 0.0888

Y1 0.371889 0.185452 2.005312 0.0478
Y1^2 1.485348 0.152522 9.738594 0.0000
Y1*K1 -0.100854 0.181903 -0.554442 0.5806
K1 -0.114173 0.151505 -0.753594 0.4530
K1^2 0.143806 0.113713 1.264635 0.2091

Como se observa, la variable ms significativa para explicar el comportamiento de la

varianza del error es Y1^2, por lo que se puede sugerir una forma funcional:
! 2 i = e 2 i = 0 + 1 yi 2 + i
!"Comandos EViews:
GENR VAR1=RESID^2

Sample: 1 100
C -0.328041 0.204686 -1.602654 0.1122

Y1^2 1.538236 0.143959 10.68521 0.0000

El resultado obtenido anteriormente confirma la intuicin acerca de la relacin existente

entre los niveles de ingreso y la varianza del trmino de error. Especficamente, el coeficiente
237
positivo indica que a mayores niveles de ingreso la mayor discrecionalidad de los agentes
respecto a sus decisiones de consumo nos lleva a perturbaciones con una mayor varianza.
La estrategia de correccin en este caso consiste en multiplicar cada observacin por la

inversa de la raz de la varianza estimada para cada periodo. Formalmente, el ponderador
utilizado para la observacin vendra dado por:
1 1
=
! i ! + ! Y12 i
0 1
!"Comandos EViews:
FIT - Estimacin de VAR1, variable generada: VAR1F
QUICK - ESTIMATE EQUATION - OPTIONS - WEIGHTED LS/TSLS
Weight = 1/VAR1F^(1/2)
Weighting series: 1/VAR1F^(1/2)
Sample(adjusted): 1 99
Excluded observations: 32 after adjusting endpoints
C 0.161934 0.074944 2.160739 0.0345

Y1 0.426262 0.125126 3.406656 0.0011
K1 0.306240 0.069993 4.375276 0.0000
Weighted Statistics

Unweighted Statistics

S.E. of regression 1.287526 Sum squared resid 106.0943
Durbin-Watson stat 2.206372
Para verificar que los errores de la nueva regresin son homocedsticos construyamos una
regresin del cuadrado de los residuos contra el cuadrado de la variable ingreso.
!"Comandos EViews:
GENR RESP=RESID*(1/VAR1F^(1/2))
GENR VAR2=RESP^2
238

Excluded observations: 32 after adjusting endpoints
C 1.504632 0.272181 5.528058 0.0000

Y1^2 -0.185154 0.156816 -1.180710 0.2420

iii) Correccin de White
Las dos correcciones planteadas anteriormente suponen que se tiene alguna idea de la forma
de la varianza y por tanto existe algn soporte para poder realizar la ponderacin . Sin embargo,
ese no es el caso que se presenta con mayor regularidad. En muchos casos no tenemos idea de la
forma de la varianza aunque hemos detectado la presencia de heterocedasticidad. Ello nos lleva
a pensar en la posibilidad de desarrollar una forma general de correccin que nos permita
corregir el problema de la ineficiencia del estimador.
Esta alternativa fue desarrollada por White (1980). El plantea una mtodo ms general para
la obtencin del estimador MCG y de su estructura de varianza-covarianza. White sugiere
realizar una serie de estimaciones puntuales a travs de MCO y utilizar los errores estimados
para construir la matriz . Especficamente, plantea estimar como la matriz diagonal que
contenga al i-simo error MCO como el elemento (i,i):
e1 2
2
=
e2
(8.32)
...

e m 2
Ya se sabe que la presencia de heterocedasticidad conduce a la estimacin de parmetros

ineficientes con una matriz de covarianzas (2u(XX)-1) inconsistente. Si conocemos el tipo de
proceso que genera la heterocedasticidad, este problema puede resolverse fcilmente a travs de
las transformaciones pertinentes. Sin embargo, y a pesar de que es factible evaluar diferentes
procesos generadores del problema y plantear diversas formas funcionales, es difcil conocer a
ciencia cierta si el proceso propuesto es el adecuado. En este sentido, y a pesar de que se puede
tener una idea acerca del valor de los parmetros del modelo original, ser difcil conocer la
exactitud de los estimadores y su significancia (estadsticos t), debido a la incosistencia de la
matriz de covarianzas.
Frente a esto, White propuso un estimador para la matriz de covarianzas que sea consistente
con la presencia de heterocedasticidad pero que no dependa de ninguna forma funcional
especfica para la estructura del problema. White demostr que:
239
plim ( X ' X ) 1 X ' ! X ( X ' X ) 1 = ( X ' X ) 1 X ' X ( X ' X ) 1

T
de modo que:
Var (! ) = ( X ' X ) 1 X ' ! X ( X ' X ) 1 (8.33)
resulta un estimador consistente de la estructura de varianza-covarianza del estimador,

independientemente del proceso generador del problema. El trmino plim significa que la
primera expresin converge en probabilidad a la segunda. En otras palabras, para muestras
suficientemente grandes el estimador de la matriz de covarianzas converge a la verdadera
matriz, siendo, por tanto, un estimador consistente.
Por tanto, la estimacin de los parmetros se realiza mediante el estimador de mnimos

cuadrados ordinarios y se realiza una correccin a la matriz de varianzas y covarianzas de los
parmetros estimados. La racionalidad de esta secuencia descansa en el hecho de que el
estimador MCO no es sesgado pero s ineficiente. El siguiente ejemplo nos permitir ilustrar la
secuencia descrita:
Ejemplo:
Trabajando con le modelo propuesto anteriormente:
C1i = 0 + 1Y1i + 2K1i + ui
donde:
C1i = consumo en el momento i
Y1i = ingreso en el momento i
K1i = stock de capital en el momento i
Si se utiliza el estimador consistente de White no es necesario suponer ninguna forma

funcional para el proceso de heterocedasticidad. Basta realizar la estimacin del modelo a travs
de MCO y utilizar los residuos para construir la matriz .
!"Comandos EViews:
QUICK - ESTIMATE EQUATION - OPTIONS - HETEROKEDASTICITY CONSISTENT
COVARIANCE
White
Sample: 1 100
White Heteroskedasticity-Consistent Standard Errors & Covariance
C -0.026961 0.095170 -0.283291 0.7776

Y1 0.305391 0.123439 2.474029 0.0151
K1 0.224557 0.084376 2.661387 0.0091
R-squared 0.164876 Mean dependent var -0.025856
240

En este caso, la matriz utilizada por el programa economtrico para estimar la estructura de
covarianza de los estimadores viene dada por:
T T 2
( X ' X ) 1 ut x t x t ' ( X ' X ) 1 (8.34)
Tk t =1
Tal como se indic anteriormente, este estimador es consistente con la presencia de errores
heterocedsticos y no depende de la estructura especfica del problema. Por otro lado los
estimados se obtienen por el estimador MCO.
iv) Variables Omitidas
Ya se ha discutido el problema que causa la omisin de una variable sobre la

heterocedasticidad. Si la variable omitida presenta variabilidad lo que obtenemos es la presencia
de heterocedasticidad que se detectar por las diversas pruebas. Es ms, si la variable omitida
presenta correlacin fuerte con una de las variables que se incluyen en el modelo es posible que
se llegue a determinar la forma de la varianza en funcin a la variable incluida en el modelo y
equivocadamente procederamos a corregir la heterocedasticidad a travs de la ponderacin de
las observaciones por la varianza estimada.
El procedimiento descrito puede ser muy frecuente. Sin embargo queda claro que la
correccin sera errnea. Por ello, para minimizar que suceda la secuencia de hechos aqu
descrita es necesario iniciar la estimacin con una especificacin lo ms general posible a fin de
evitar esta heterocedasticidad esprea que suele presentarse con una gran frecuencia. Slo una
vez que hemos iniciado nuestra estimacin con una especificacin general y el problema de
heterocedasticidad ha sido detectado podremos estar seguros que el problema responde a la
forma de la poblacin y no a una mala especificacin.
241
APENDICE
Programa de la prueba de Spearman.
Programa 8.1
WORKFILE sp1 U 50
GENR Y = 10*NRND+ (@TREND(1))
GENR X1 = 10*NRND + Y +(@TREND(1))
ls y x1
GENR RESIDABS = ABS(RESID)
genr obsr=@trend(1)+1
genr obsv=@trend(1)+1
sort residabs
genr ordr=@trend(1)+1
store ordr
store obsr
sort x1
store obsv
WORKFILE sp2 U 50
fetch ordr
matrix (50,1) ordrv
stom(ordr,ordrv)
fetch obsr
matrix (50,1) obsrv
stom(obsr,obsrv)
fetch obsv
matrix (50,1) obsvv
stom(obsv,obsvv)
vector b=0
!j=1
!n=0
series orden=0
for !i=1 to 50
smpl 1 50
vector a=@rowextract(obsv,!i)
while a<>b and !j<51
vector b=@rowextract(obsrv,!j)
!j=!j+1
!n=!n+1
wend
!j=1
smpl !i !i
orden = !n
!n=0
next
smpl 1 50
genr dif=abs(orden-ordr)
scalar r=1-(6*(sum(dif))^2)*(50*(50^3-1))
8.5. AUTOCORRELACIN
Luego de la discusin de la naturaleza, deteccin e implicaciones del problema de la

heterocedasticidad, debemos centrarnos en otro de los problemas poblacionales ms frecuentes
y estudiados en el anlisis economtrico: la autocorrelacin. En las siguientes pginas se
buscar dar una idea ms o menos acabada de los efectos de este problema sobre las
242
propiedades del estimador MCO. Como ya se mencion en las primeras pginas de esta
captulo, la violacin del supuesto referido a que la matriz de varianzas y covarianzas de los
errores sea diagonal y con elementos constantes a lo largo de ella ocasiona la prdida de
eficiencia del estimador MCO.
En trminos ms formales, la tercera condicin de Gauss-Markov implica que el trmino de

error para cada observacin se determina independientemente de los valores que pueda arrojar
en el resto de observaciones de la muestra. Especficamente, la independencia de las
perturbaciones implica que su covarianza es cero (Cov (uiuj) = 0 para todo i j). Cuando esta
condicin no se cumple se dice que el error presenta autocorrelacin.
Especficamente, se puede distinguir dos tipos de autocorrelacin. La primera se define

como autocorrelacin espacial y se presenta cuando trabajamos con modelos de corte
transversal mientras que la segunda, conocida como autocorrelacin serial, se presenta al
trabajar con series de tiempo. Las siguientes pginas slo se concentrarn en la discusin de la
segunda forma de autocorrelacin
8.5.1. Tipos de Autocorrelacin
Habiendo mencionado que nos centraremos en la autocorrelacin presente en el contexto de

los modelos de series de tiempo debemos hacer una presentacin de las principales formas de
representacin estadstica de este tipo de caracterstica de la estructura de los errores. Con esto
haremos una breve introduccin a los modelos de series de tiempo que se analizarn en
profundidad ms adelante.
La idea detrs de los modelos de series de tiempo es que se puede representar cualquier
conjunto de datos ordenados de manera temporal a travs de relaciones con otras variables
aleatorias que generalmente son valores pasados de la misma variable aleatoria, de otra variable
aleatoria o una combinacin de ambas. Este conjunto de datos se conoce como proceso
estocstico y se plantean distintos modelos estadsticos alternativos que estn relacionados entre
s.
El primer modelo sugerido para representar la autocorrelacin, basado en los modelos de

series de tiempo es el modelo autorregresivo:
t = 1 t 1 + 2 t 2 + ..................... + p t p + t (8.35)
Este modelo es conocido por su abreviacin. En este caso, el modelo presentado sera un
AR(p). Esto nos indica que la variable en cuestin slo es explicada por sus valores pasados.
Esto implica que existe una correlacin serial entre las observaciones de la variable que se
estudia que en este caso es el error. El trmino t es un ruido blanco y representa los shocks a
los cuales est sometido el proceso que gobierna la evolucin del trmino de error.
El otro modelo utilizado como representacin estadstica de un proceso con autocorrelacin

es el que se denomina de medias mviles:
t = t + 1 t 1 + 2 t 2 + .......... + q t q (8.36)
Este modelo es conocido tambin por su abreviacin. As, en este caso tendremos que este
modelo ser un MA(q). Como se puede apreciar, este proceso supone que el trmino de error es
una combinacin lineal de varios shocks pasados. El orden del modelo viene dado por los
rezagos de los ruidos blancos incluidos. Debemos tener cuidado de que el nombre no nos lleve a
confusin porque implica que los parmetros del modelo deberan sumar 1. Ello no es as.
Debemos evitar dicha confusin.
243
Un tercer modelo que usualmente se utiliza es una combinacin de los dos anteriores. Este es
conocido como el modelo Autorregresivo y de Medias Mviles:
t = 1 t 1 + ......... p t p + t + 1 t 1 + ......... + q t q (8.37)
Las siglas del modelo son ARMA(p,q). Ello implica que existen p rezagos del error y
tambin que se incluyen q rezagos de shocks pasados dentro de la estructura del error.
Los tres modelos presentados tienen cierta relacin entre s. Existe una propiedad que es la
de isomorfismo que sostiene que todo modelo de series de tiempo puede expresarse en trminos
de cualquiera de los otros. Esto ser visto en ms detalle en el captulo de modelos de series de
tiempo.
8.5.2. Qu implica la autocorrelacin?
Los problemas asociados a la presencia de autocorrelacin son similares a los que

enfrentamos cuando los errores son heterocedsticos. Los estimadores MCO se mantienen
insesgados pero dejan de ser eficientes. Esto implica que la varianza aumenta por lo que la
volatilidad de los estimadores aumenta. Sin embargo, en trminos de la estimacin en la prctica
ocurre lo contrario. Dado que los programas economtricos utilizan el estimador MCO, lo que
ocurre es que calculan la varianza siguiendo la frmula tradicional de MCO la cual nos da
desviaciones estndar menores. Por tanto, stas son usualmente subestimadas lo que conduce a
una sobreestimacin de los estadsticos-t y a problemas de inferencia dado que nuestras
conclusiones seran errneas.
Con referencia al problema asociado a la eficiencia de los estimadores MCO, y al igual que
para el caso de heterocedasticidad, basta encontrar otro procedimiento para la estimacin de los
parmetros que arroje estimadores de menor varianza para descartar la eficiencia de los
estimadores MCO. En este sentido, y como alternativa a la estimacin MCO, la estimacin por
mnimos cuadrados generalizados arroja estimadores ms eficientes en el sentido de presentar
una menor varianza.
8.5.3. Por qu se presenta la autocorrelacin?
Existen diversas explicaciones de porqu aparece la autocorrelacin en un modelo.

Revisaremos algunas de ellas con el fin de que se tengan en cuenta al momento de realizar la
estimacin de cualquier modelo. Si se quiere realizar una investigacin seria debemos conocer
nuestros datos y las propiedades de los mismos a fin de tenerlos en cuenta si es que los
problemas economtricos son detectados.
Presencia de ciclos econmicos
Una de las razones para la aparicin de autocorrelacin es que muchas de las variables
econmicas que analizamos presentan un comportamiento cclico. Esto est relacionado a la
presencia de ciclos econmicos. Como sabemos en economas de mercado existe una
proclividad a que las series econmicas se muevan de manera conjunta y que presenten cierto
comportamiento en donde las elevaciones tanto por encima como por debajo de su media
muestren cierta persistencia. Esto puede ocasionar que un modelo que incluye variables con este
comportamiento presente autocorrelacin.
Presencia de relaciones no lineales
244
En muchos casos puede ocurrir que a pesar que el modelo es lineal en los parmetros la
relacin sea no lineal en las variables. Una de las posibilidades es que la relacin sea cuadrtica
y ello no ha sido incluido en el modelo. Esto podra ser una de las razones por las que se podra
encontrar la presencia de autocorrelacin en el modelo.
Mala especificacin
La perturbacin de un modelo recoge la influencia de aquellas variables que afectan el

comportamiento de la variable dependiente pero que no han sido incluidas en el modelo. Por
ello, se pretende que el trmino de error para cualquier observacin sea independiente de los
valores obtenidos en periodos pasados, los valores de las variables omitidas debern ser tambin
independientes en el tiempo. En este sentido, la persistencia de los efectos de las variables no
incluidas es probablemente la causa ms frecuente para la existencia de autocorrelacin.
Especficamente, si se busca explicar el consumo de determinado bien slo a travs del

ingreso disponible es probable que se est omitiendo variables importantes como el clima o la
moda. Si lo que se busca es estimar la demanda por helados, por ejemplo, es de esperar que sta
se incremente en verano al margen del ingreso disponible de las familias. En este sentido, ser
usual encontrar varias observaciones consecutivas donde el error muestra valores positivos si
estamos en verano seguidas por observaciones donde el error muestra valores negativos frente al
cambio de estacin. En otras palabras, la lnea de regresin slo indica la relacin existente
entre el ingreso disponible y el consumo de helados pero es la estacin del ao (variable omitida
en el modelo) la que explica el carcter cclico de la demanda. En este ejemplo particular
estamos frente a un caso de autocorrelacin serial positiva ya que la estacin del ao determina
la presencia de errores consecutivos con un mismo signo.
En general, puede decirse que la mayora de las veces que se encuentra autocorrelacin
puede deberse a la presencia de una mala especificacin del modelo. De hecho las dos razones
anteriores que se han presentado de alguna manera pueden relacionarse con una mala
especificacin. Para minimizar la probabilidad de ocurrencia y tener certeza de que el problema
est presente una buena estrategia ser comenzar por una especificacin amplia que incluya
todas las variables posibles relevantes para el modelo y sus respectivos rezagos y de all
proceder a la reduccin del modelo (eliminacin de variables o decantacin son expresiones
alternativas para este procedimiento), a travs de la realizacin de muchas pruebas, hasta llegar
a una representacin parsimoniosa que nos permita obtener un buen modelo. Slo si se ha
seguido este proceso se podr disminuir fuertemente la probabilidad de que la autocorrelacin
sea realmente una expresin de la distribucin de los errores y no de una mala especificacin del
modelo.
245
8.5.4 Cmo es la matriz de varianzas y covarianzas del error cuando existe

autocorrelacin?
Sabemos que cuando los errores son no esfricos, debemos aplicar el estimador MCG. Ello
implica determinar la forma de las matrices y V. Analizaremos en este caso las formas de
dichas matrices para el caso de un error que sigue un modelo AR(1) y MA(1).
Proceso AR(1)
De conocerse el tipo de proceso que siguen los errores, la correccin del problema de
autocorrelacin no debe presentar mayores dificultades. Al respecto, la correccin del problema
de autocorrelacin serial positiva de primer orden es la que ha recibido mayor atencin en la
literatura debido a la sencillez de su planteamiento:
t = t 1 + t (8.38)
donde -1< <1 y t cumple todas las condiciones de Gauss-Markov. Esta representacin
implica que ut depende slo de los valores pasados de t . Para entender esto veamos la siguiente
transformacin de la ecuacin anterior. Esta expresin puede escribirse de la siguiente manera:
t = L t + t
donde L es el operador de rezago. Este operador tiene la propiedad que si se aplica sobre
cualquier variable fechada en un periodo t la rezaga tantas perodos como se aplique el operador
de rezago. Formalmente:
Lx t = x t 1
L2 x t = x t 2 (8.39)
1
L x t = x t +1
Retomando nuestra expresin anterior, podemos hacer la siguiente transformacin:
t ( 1 L) = t
t
t = (8.40)
( 1 L)

t = (L) i t
i =0
La ltima expresin proviene del hecho que, si partimos del supuesto que < 1 , tenemos
que la expresin 1
(1 L ) que es el denominador de la segunda expresin es la suma de una
serie geomtrica infinita de orden infinito con mdulo menor a 1. Por ello de la segunda
expresin pasamos a la tercera que es justamente una serie geomtrica de orden infinito. El
operador de rezago interviene en la expresin debido a que, aunque no es una variable, no afecta
para nada la expresin anterior. Si aplicamos el operador de rezago veremos que obtenemos la
siguiente expresin:

ut = i t i (8.41)
i =0
246
que es una representacin MA de orden infinito. Una condicin para poder hacer esta
operacin es que < 1 , lo cual implica que la serie es estacionaria5. Esto ilustra la propiedad
de isomorfismo mencionada anteriormente: podemos pasar de un proceso AR a un proceso MA.
Debemos detenernos un momento a pensar lo que implica el proceso descrito anteriormente.
Como vemos, si < 1 , vemos que el efecto de los shocks pasados van teniendo un peso
decreciente conforme nos alejamos en el tiempo. Esto implica que las condiciones iniciales no
importan mucho para explicar el presente, lo relevante es el pasado reciente. Por ello se dice que
estos procesos tienen memoria corta.
Si queremos obtener la varianza de este tipo de proceso podemos utilizar la representacin

MA. As, aplicando la varianza a dicha expresin obtenemos lo siguiente.

Var ( t ) = 2iVar ( t i )
i =0
Esta expresin slo toma en cuenta la varianza y no las covarianzas de los shocks. Esto
obedece a la naturaleza de ruidos blancos de los shocks. Esta caracterstica implica tambin que
Var ( t ) = Var ( t i ) . Por tanto, si imponemos estas condiciones, el resultado a obtener sera:
2
Var (ut ) = 2 u = , constante para todo t. (8.42)
1 2
Adicionalmente, dado que t est autocorrelacionado, la covarianza entre distintas
observaciones del error sera distinta de cero. Utilizando las propiedades ya explicadas, el
resultado sera:
Cov (u1 , u2 ) = 12 = E ( u1u2 ) = E [u1 ( u1 + 2 )] = E ( u1 2 + u1 2 ) = 2 u
dado que E(u12) = 0
Cov (u1 , u3 ) = 13 = E [u1 ( u2 + 3 )] = E (u1u2 ) = ( 2 u ) = 2 2 u
En general, de lo anterior se desprende que:
Cov (ut , ut j ) = j 2 u (8.43)
A partir de las relaciones establecidas anteriormente, se puede construir la matriz de

varianzas y covarianzas del trmino de error:
1 2 3 ... t 1

1 2 ... t 2
Cov (u) = 2 u = 2 u 2 1 ... t 3 (8.44)

... ... ... ... ... ...
t 1 t 2 t 3 t 4 1
...
5
El concepto de estacionariedad ser revisado ms adelante pero podemos adelantar que el concepto implica de cierta
manera la existencia de un equilibrio estadstico.
247
Al igual que en el caso de la correccin de heterocedasticidad, es necesario estimar la matriz

y, a partir de sta, calcular el estimador por MCG Factibles al reemplazar por su estimado:
! MCG = ( X ' ! 1 X ) 1 ( X ' ! 1Y ) (8.45)
En este caso, la matriz 1 vendra dada por la siguiente expresin:
1 0 . . 0
0
1+
2
0 .
0 1+ 2
. 0
1 = (8.46)
. . . . . .
0 . 0 1+ 2

0 . . 0 1
Una alternativa ya conocida a este procedimiento consiste en premultiplicar el modelo por la

matriz V-1 ( = VV). Para ello, debemos tener en cuenta que la matriz V-1 para esta estructura
de autocorrelacin:
1 2 0 0 . . 0 0

1 0 . . 0 0
0 1 0 . 0 0

V 1 = . . . . . . . (8.47)
. . . . . . .

0 . . . 1 0

0 . . . 0 1
Esta vendra a ser nuestra matriz P por la cual habra que premultiplicar los datos para lograr
la transformacin que nos permita obtener errores transformados que cumplan con las
propiedades deseadas. A manera de ejemplo, podemos notar que el vector que contiene a la
variable dependiente queda transformado de la siguiente manera:
1 2 y1

y 2 y1
V 1Y = .

.
y y
T T 1
En la prctica, esta alternativa consiste en transformar el modelo original trabajando con las
cuasidiferencias.
y t y t 1 = 1 (1 ) + 2 ( x t x t 1 ) + t (8.48)
Si renombramos nuestras variables de la siguiente manera:
248
y t* = y t y t 1
xt* = x t xt 1
1* = (1 )
tenemos:
y t* = 1* + 2 x t* + t
Debido a que t satisface todas las condiciones de Gauss-Markov, se puede aplicar MCO
sobre las variables transformadas y obtener estimadores insesgados y ptimos. Sin embargo,
uno de los problemas que se presentan al momento de utilizar este procedimiento radica en que
se pierde la primera observacin debido a que, evidentemente, no tiene observacin precedente.
Todo el anlisis presentado implica que se conoce y por tanto la transformacin requerida
es fcil de realizar. Sin embargo, este parmetro es desconocido y debe realizarse su estimacin.
Una vez que se estime este parmetro se podr realizar la transformacin de manera factible.
Esto implica el estimador de mnimos cuadrados generalizados factibles.
Para evitar esto, podemos utilizar la transformacin de Prais-Winsten que consiste en

ponderar la primera observacin de cada variable por 1 2 . En principio, debido a que cada
elemento del vector t es independiente de ut, no es necesario trabajar con la cuasidiferencia de
la primera observacin, sin embargo, de ser as, sta tendra un efecto desproporcionado sobre
los estimadores. Es por ello que se sugiere ponderarla por el factor antes mencionado.
Hasta ahora se ha supuesto que se conoce el valor del coeficiente por lo que la formulacin
anterior resulta bastante sencilla. En realidad, en la mayora de casos difcilmente se conoce el
verdadero valor de , por lo que resulta necesario considerar procedimientos alternativos.
En el caso de un proceso de medias mviles de orden 1 MA(1), el error sigue la siguiente

ecuacin:
u t = t + t 1
en este caso la varianza del error vendra dada por la siguiente expresin:
Var ( t ) = E ( t t ) = E [( t + t 1 )(( t + t 1 ))] = 2 (1 + 2 ) (8.49)
adicionalmente la covarianza entre el error contemporneo y el primer rezago del mismo

sera la siguiente:
E ( t t 1 ) = E [( t + t 1 )( t 1 + t 2 )] = 2 (8.50)
Estos dos resultados se derivan del hecho que la covarianza entre dos ruidos blancos (cada
uno fechado en distinto perodo) es cero. En funcin a lo anterior es de esperarse que dada la
estructura de la autocorrelacin del error, la covarianza entre dos errores alejados ms de dos
perodos sea tambin igual a cero.
249
E ( t t 2 ) = E [( t + t 1 )( t 2 + t 3 )] = 0
De esta manera, la matriz de varianzas y covarianzas de los errores quedara de la siguiente

manera:
1 + 2 0 . . . 0

1+ 2 0 . . 0
0 1+ 2 0 . 0

E ( ) = 2 . . . . . . . (8.51)
. . . . . . .

0 . . 0 1+ 2

0 1 + 2
. . . 0
Queda como tarea para el lector determinar la forma de las matrices V y V-1. Una vez
obtenidas stas sera posible realizar la estimacin de mnimos cuadrados factibles siguiendo los
pasos sugeridos para el caso de un proceso AR(1).
8.5.5 Cmo se detecta la autocorrelacin?
Una vez revisada la forma del estimador MCG bajo la presencia de autocorrelacin, es necesario
indagar acerca de las formas que tenemos a disposicin para poder detectar la presencia de este
problema. Al igual que el caso de la heterocedasticidad existirn pruebas que nos sugieran la
forma de la autocorrelacin y otros que nos dirn simplemente que la presencia de la
autocorrelacin es detectada simplemente. Los principales estadsticos que se utilizan se
researn a continuacin:
i) Test de Durbin Watson:
El test de Durbin-Watson verifica la existencia de autocorrelacin de primer orden:
ut = ut-1 + t
donde t rene las caractersticas de un ruido blanco. Especficamente, el estadstico propuesto,

a travs del cual podemos verificar la hiptesis nula de ausencia de autocorrelacin viene dado
por:
t=N
( e t e t 1 ) 2
t =2
D= t=N
(8.52)
et 2
t =2
donde et representa al residuo de la regresin MCO para el periodo t. La intuicin sobre la que
basa el planteamiento de este estadstico sugiere que dado un coeficiente de autocorrelacin
significativo y positivo, los valores positivos o negativos del trmino de error (ut) tiendan a ser
seguidos de valores positivos o negativos respectivamente. En tales condiciones, la diferencia
250
(et - et-1) ser generalmente menor, en valor absoluto, que el valor de et. En consecuencia (et - et-
2 2
1) < et , lo que es lo mismo, el numerador del estadstico ser menor que el denominador. De
esta forma, si el coeficiente es cercano a 1 et ser aproximadamente igual a et-1 por lo que el
valor del estadstico tender a cero. Por otro lado, si el coeficiente de autocorrelacin presenta
un valor negativo, valores positivos para el trmino del error vendrn seguidos de valores
negativos y viceversa. En este caso, el estadstico tender a registrar valores elevados dado que
el numerador ser mayor que el denominador.
La intuicin anterior puede verificarse ms directamente si replanteamos el estadstico de la

forma:
D=
e t 2 + e 2 t 1 2 e t e t 1
e 2t
Si el nmero de observaciones es suficientemente grande, et 2 y e t 1 2 son
aproximadamente iguales por lo que el estadstico D puede aproximarse por: D = 2(1 ! ) ,
donde ! = e t e t 1 y representa el estimador del coeficiente de correlacin serial de los

e 2t
errores. Dado que el parmetro flucta entre 1 y -1, el estadstico registrar valores entre 0 y
4, con valores prximos a cero cuando exista autocorrelacin serial positiva de primer orden y
valores cercanos a 4 cuando exista autocorrelacin serial negativa de primer orden. Finalmente,
de no presentarse ningn tipo de autocorrelacin, el valor del coeficiente ser cero por lo que
es estadstico registrar valores cercanos a 2.
Cabe resaltar que la distribucin del estadstico D vara con los valores de las variables
explicativas y, por tanto, es distinta para cada aplicacin emprica. Esto torna particularmente
difcil la constatacin del estadstico, sin embargo, Durbin y Watson obtuvieron cotas superiores
(DU) e inferiores (DL) para los niveles de significancia de su estadstico sobre el conjunto de
todas sus posibles distribuciones de probabilidad. Estas cotas, presentadas en una serie de tablas
publicadas por los autores6 depende del nmero de observaciones de la muestra y del nmero de
variables explicativas incluidas en el modelo. Especficamente, y bajo el supuesto de
autocorrelacin serial positiva7 de primer orden, las reglas de decisin para la contrastacin
estadstica seran:
Si D < DL, se rechaza la hiptesis nula de ausencia de autocorrelacin

Si D > DU, se acepta la hiptesis nula de ausencia de autocorrelacin
Si DL < D < DU, no se puede concluir nada acerca de la presencia de autocorrelacin (zona
de indefinicin)
Lamentablemente, y debido a que las cotas propuestas fueron obtenidas de entre todas las
distribuciones posibles del vector de residuos MCO, exigir que el valor del estadstico est por
debajo de la cota inferior o supere a la cota superior, es en general un requisito demasiado
estricto. Por esto, ser comn encontrarse dentro de la zona de indeterminacin por lo que no
podr concluirse nada acerca de la presencia de autocorrelacin. Asimismo, las cotas obtenidas
por Durbin y Watson suponen que hay un trmino constante includo en el modelo y que todas
las variables explicativas son deterministas (exgenas), condiciones que debern cumplirse para
poder aplicar la prueba.
6
Las tablas para la contrastacin del estadstico Durbin Watson pueden encontrarse en Gujarati, Econometra
(Segunda Edicin), Apndice B.
7
Para el caso de autocorrelacin serial negativa de primer orden basta intercambiar DL y DU.
251
Respecto al supuesto referido a la exogeneidad de las variables explicativas, un caso

bastante usual donde no se cumple esta condicin es cuando se incluyen dentro del modelo
rezagos de la variable endgena. Para aminorar el problema en este caso, Durbin sugiri un
estadstico alternativo:
T
H = ! (8.53)
1 TVar ( ! 2)
donde Var( ! 2) denota la varianza del estimador MCO del coeficiente asociado al primer rezago
de la variable endgena. De no existir autocorrelacin, el estadstico H tiene una distribucin
que se aproxima a N(0,1) cuando el tamao muestral tiende a infinito. Dado que la hiptesis
alternativa es que exista autocorrelacin serial positiva o negativa, el contraste de la hiptesis
nula debe ser un contraste de una sola cola, por lo que debe compararse el valor calculado
contra 1.645, el valor de la N(0,1) al 95% de confianza. Sin embargo, puede an aparecer un
problema adicional si la varianza del coeficiente MCO es mayor que 1/T , en cuyo caso el
trmino dentro del radical sera negativo. Para estos casos, Durbin demostr que cuando la
muestra tiende a infinito, un modo equivalente de llevar a cabo esta prueba consiste en estimar
una regresin de los residuos MCO de la regresin original sobre un rezago del mismo, todos
los rezagos de la variable endgena incluidos en el modelo y las dems variables explicativas.
En este caso, la hiptesis nula se rechaza si el coeficiente de et-1 resulta significativamente
distinto de cero.
Estrategias cuando el test de Durbin Watson es significativo:
Originalmente, el test de Durbin Watson fue construido para verificar si el trmino de error
sigue un proceso autorregresivo de primer orden. Sin embargo cuando el valor del estadstico es
significativo existen otras tres posibles causas alternativas:
Que la significancia del estadstico sea una indicacin de correlacin serial pero que sta no
sea de primer orden.
Que la correlacin serial haya sido causada por omisin de alguna variable.
Que la correlacin serial haya sido causada por una mala especificacin dinmica.
1. Cuando los errores no siguen un proceso autorregresivo de primer orden AR(1)
El hecho de que el estadstico D resulte significativo no necesariamente implica que los

errores sigan un proceso AR(1). De un modo similar, la aceptacin de la hiptesis nula del test
de Durbin Watson no debe llevar a pensar que no existe algn otro tipo de autocorrelacin
serial superior a uno. Por ejemplo, si suponemos que los errores siguen un proceso de la forma:
ut = + 4ut-4 + et
el test de Durbin Watson (tal como ha sido planteado anteriormente) bien podra sugerir que no
existe autocorrelacin. Frente a estos casos, y dada la naturaleza de las observaciones, podemos
construir estadsticos alternativos. Por ejemplo, y para el caso concreto de autocorrelacin de
orden 4 (tal como la planteada lneas arriba), Wallis sugiri utilizar un estadstico (D4)
construido de manera anloga al Durbin-Watson con la sola diferencia de utilizar ut-4 en lugar de
ut-1.
Por otro lado, y si se rechaza la hiptesis nula de ausencia de autocorrelacin serial de primer
orden, sera conveniente determinar si no existen otros rezagos del trmino del error que
tambin sean significativos. Esto se puede realizar a travs de una regresin MCO del error
252
estimado contra algunos de sus rezagos, donde la intuicin acerca del nmero de rezagos
significativos la puede proporcionar el correlograma de los residuos.
2. Autocorrelacin causado por variables omitidas
La presencia de autocorrelacin puede tambin deberse a la omisin de variables serialmente

correlacionadas. Por ejemplo, consideremos un modelo de la forma:
Modelo Verdadero: yt = 0 + 1xt + xt2 + ut

Modelo Estimado: yt = 0 + 1xt +vt
donde ut es un ruido blanco. Dado que vt = xt2 + ut , si Xt presenta autocorrelacin entonces el

trmino de error del modelo estimado (vt) presentar tambin este problema. Asimismo, y dado
que vt no es independiente de Xt, los estimadores MCO no slo sern ineficientes sino que
tambin sesgados.
Planteemos otro ejemplo que permita analizar un poco ms la naturaleza del proceso de
autocorrelacin dada la omisin de una variable. Supongamos un modelo de la forma:
Modelo Verdadero: yt = 1xt + 2zt + ut

Modelo Estimado: yt = 1xt + wt
donde: wt = 2zt + ut
Cov (zt,zt-1) = z2z 8 (z=coeficiente de autocorrelacin de primer orden de z)

Var(zt) = 2z
Al igual que en el ejemplo anterior, si Zt est autocorrelacionado, wt tambin lo estar, sin

embargo, en este caso conviene medir de alguna forma el grado de autocorrelacin de los
errores de la ecuacin estimada (wt). As, nuestro principal inters recaer sobre el coeficiente de
correlacin de los errores wt, que incluye el efecto sistemtico de la variable z no incluida en el
modelo. Como wt = b2zt + ut, entonces tenemos que:
Cov(wt,wt-1) = 22z2z
Var(wt) = 222z + 2u
por lo que el coeficiente de autocorrelacin de wt (w) dependera del proceso que sigue la
variable omitida y vendra dado por:
z
w = (8.54)
1+ 2
u / 2 2 2 z
En este caso, se puede comprobar que la prueba de Durbin Watson presenta algunos problemas
en la deteccin de autocorrelacin. Se ha encontrado que la prueba pierde poder cuando la
autocorrelacin se explica por la omisin de una variable. Por ello es que se han desarrollado
pruebas alternativas que intenten explorar la posibilidad de estructuras de autocorrelacin ms
complejas. En todo caso, una manera de evitar la aparicin de este tipo de autocorrelacin es
realizar una correcta especificacin del modelo desde el principio dado que la aparicin de un error
8
Recordemos que el coeficiente de autocorrelacin de una variable Xt puede ser expresado de la forma: k =
Cov(xt,xt-k) /Var (xt).
253
no esfrico debida a una mala especificacin nos llevara a realizar una correccin a travs de la
manipulacin de los datos. Esto porque si la variable omitida es autocorrelacionada de primer orden
un resultado probable es que el error estimado del modelo nos sugiera la presencia de un modelo
AR(1) para el error. Esto nos llevara a tratar de corregir el problema a travs del mtodo de la
cuasidiferencias lo cual sera un error. El resultado sera que un problema sera corregido de manera
equivocada lo cual hara que nuestro modelo carezca de relevancia. Por ello, a riesgo de ser
repetitivos, lo recomendable es iniciar la modelacin de una manera lo ms general posible para
evitar este tipo de problemas.
3. Autocorrelacin causado por una mala especificacin dinmica
Para comprender el problema de mala especificacin dinmica, se parte de un modelo de la

forma:
yt = xt + ut
donde ut = ut-1 + t
Tomando las cuasidiferencias del modelo planteado se tiene:
yt = yt-1 + xt - xt-1 + t
Se supone ahora un segundo modelo de la forma:
yt = 1yt-1 + 2xt + 3xt-1 + t
Ntese que el primer modelo es igual al segundo bajo la restriccin de que 1 2 + 3 = 0 y

que 1 = . En este sentido, un test que verifique si = 0 es un test para 1=0 y 3=0, de modo
que si se rechaza la hiptesis nula de ausencia de autocorrelacin en realidad se estara
aceptando que es distinto de cero por lo que los parmetros 1 y 3 seran tambin
significativamente distintos de cero de modo que el modelo original estara mal especificado, ya
que estara omitiendo las variables yt-1 y xt-1 . En otras palabras, de obtener un estadstico D
significativo puede ser que se est frente a un problema de mala especificacin dinmica ms
que ante un proceso autorregresivo en los errores. Nuevamente lo mejor es iniciar el proceso de
modelacin con una especificacin lo ms amplia posible que incluya todas las variables
necesarias as como todas las consideraciones dinmicas posibles.
Ejemplo:
El valor para el estadstico Durbin-Watson lo proporciona el programa EViews al realizar

cualquier regresin:
LS // Dependent Variable is CONPRI

Date: 06/01/97 Time: 00:36
Sample: 1896 1995
C 208.6535 46.70111 4.467848 0.0000

CAPITAL 0.023852 0.004480 5.323810 0.0000
INGDISP 0.454549 0.013246 34.31568 0.0000
254

Sum squared resid 10041598 Schwarz criterion 11.65523
Intuitivamente se puede suponer la existencia de autocorrelacin serial positiva dado lo

reducido del valor obtenido. Sin embargo, se puede plantear el test en trminos ms formales
resolviendo las sumatorias incluidas en el estadstico D.
t=N
(et et 1 ) 2 = 5461920.67
t =2
- D= t=N
= 0.54454327
et 2
= 10030278.5
t =2
A partir de las cotas sugeridas por Durbin y Watson en sus tablas, se puede contrastar el
valor obtenido para el estadstico D. Especficamente , y para k = 3 (dos variables explicativas y
la constante) y n = 100 (nmero de observaciones), tenemos que dL = 1.613 y dU = 1.736. Dado
que el valor obtenido para el estadstico D resulta menor a la cota inferior, se concluye que
existe autocorrelacin serial positiva de primer orden.
ii) Los test de Ljung-Box y Box-Pierce:
Estos tests se basan en los coeficiente de correlacin simple y pueden ser aplicados slo cuando
el conjunto de variables explicativas son todas exgenas.
Formalmente, Box-Pierce define el estadstico Q de la forma:
i= p
Q = T r 2i (8.55)
i =1
mientras que Ljung-Box presenta un refinamiento del mismo planteando:
i= p
r 2i
Q = T ( T + 2 ) (8.56)
i =1 T i
donde ri es igual al coeficiente de autocorrelacin simple de i-simo orden definido como:
t =T
ut ut i
t =1
ri = t =T
(8.57)
ut 2
t =1
255
Ntese que ambos estadsticos, y en especial el de Box-Pierce, son similares al propuesto en el

test de Breusch y Pagan. Para los tres casos, la dificultad estriba en la eleccin del orden p.
La hiptesis nula de ausencia de autocorrelacin se aceptar si los estadsticos Q de Ljung-Box

y Box-Pierce resultan menores a los valores tabulares de una distribucin chi-cuadrado con p
grados de libertad y un 95% de confianza. En esencia lo que se analiza es si los coeficientes de
correlacin entre los rezagos del error y el valor contemporneo del mismo son iguales a cero. Esto
implica que todos y cada uno son iguales a cero. Si alguno es distinto de cero se no se podr aceptar
la hiptesis nula. Usualmente los programas economtricos lo que hacen es presentar estos
estadsticos junto con el correlograma del trmino de error. Como ejemplo de ello podemos
presentar una prueba tpica:
En el correlograma tenemos dos columnas una referida a la autocorrelacin y la otra referida

a la autocorrelacin parcial. Empecemos por la segunda. Tal como se aprecia debajo de dicha
columna tenemos unos rectngulos que nos indican la magnitud del coeficiente de
autocorrelacin correspondiente al mximo rezago incluido en la ecuacin estimada para cada
fila del cuadro de la derecha. Como vemos, en nuestro caso tenemos quince filas. En la prctica
ello tiene significa que el programa ha estimado las siguientes regresiones:
et = 1et 1 + t
et = 1et 1 + 2 et 2 + t
(8.58)
.................................
et = 1et 1 + 2 et 2 + 3 et 3 + ........... + 15 et 15 + t
256
Como vemos en cada regresin se va incluyendo un rezago ms (y por tanto un parmetro

ms por estimar). No se incluye un intercepto porque la media de los errores MCO por
construccin es cero. Bajo esta perspectiva, cada parmetro que se calcula es el coeficiente de
correlacin del error contemporneo con el rezago respectivo. Para poder calcular una
correlacin limpia de la influencia de los otros rezagos se tienen que incluir a stos (recordar la
interpretacin de cada parmetro cuando analizamos el modelo particionado en el captulo 3).
Entonces, el ltimo parmetro de cada ecuacin nos mide la correlacin del respectivo rezago
con el valor contemporneo del error. Ese valor es que se registra en la columna de
autocorrelacin parcial. El grfico correspondiente nos muestra el valor del mismo. Las lneas
discontinuas que estn a los lados de la lnea continua (que representa el valor de cero) son las
bandas de confianza para un intervalo centrado en cero. La interpretacin del grfico es
entonces que cuando los rectngulos caen dentro del intervalo se puede esperar que los
coeficientes de correlacin parcial sean estadsticamente iguales a cero. Si los rectngulos salen
fuera de la banda se espera que sean diferentes de cero. Como vemos en nuestro grfico, slo el
primer rezago sale fuera de la banda de confianza, mientras que los dems no lo hacen. La
interpretacin es entonces que slo podra haber autocorrelacin de primer orden. En la columna
de autocorrelacin se registran los estadsticos tanto de Ljung-Box como de Box-Pierce.
Usualmente se consigna el primero. Como sabemos por las frmulas presentadas, estos
estadsticos toman en cuenta todos los coeficientes de correlacin. Por ello se habla de
autocorrelacin y no de autocorrelacin parcial.
Si observamos la ltima columna de la tabla se presentan las probabilidades del estadstico

consignado. Como nos debemos haber percatado, la hiptesis nula de la prueba es que no existe
autocorrelacin. Demos una mirada con detenimiento. Si vemos los valores de la probabilidad
para cada fila, veremos que en cada una de ellas se rechaza la hiptesis nula. Esto nos llevara a
pensar que incluso tenemos una autocorrelacin autorregresiva de orden 15. Esa es una
conclusin errnea. Revisando nuestras pruebas, vemos que la hiptesis nula es que no existe
autocorrelacin de ningn orden. Se utiliza para calcular el estadstico todas las correlaciones
parciales. En nuestro caso, como slo la primera es distinta de cero, el estadstico ser grande a
pesar de que las dems sean cercanas a cero. Ello explica las bajas probabilidades observadas.
Por lo tanto, vemos que los estadsticos de Ljung-Box y Box-Pierce slo pueden detectar la
autocorrelacin pero no indican el orden de sta. Por tanto su interpretacin debe ser comparada
con los grficos del correlograma para detectar posibles patrones de autocorrelacin. En todo
caso no son definitivos sino slo referenciales.
iii) Test de Breusch Godfrey:
Una alternativa al test de Durbin-Watson consiste en realizar contrastes donde la hiptesis

alternativa incluya especificaciones ms generales que la del modelo autorregresivo de primer
orden. De esta forma, se plantea una serie de estadsticos para distintos valores de k:
rk =
ut ut k
ut 2
El primer estadstico (r1) que correspondera a la estimacin MCO del parmetro , fue el
utilizado en la construccin del test de Durbin-Watson. La generalizacin planteada
simultneamente por Breusch y Godfrey se conoce tambin como el test de multiplicadores de
Lagrange (LM) y consiste en regresionar los residuos MCO sobre sus p rezagos y las variables
explicativas del modelo original. El nmero de rezagos incluidos de los errores debe coincidir
con el nmero de estadsticos rk cuya significacin conjunta se pretende contrastar. El
estadstico que obtenemos a partir del planteamiento de este test corresponde a TR2 (donde T es
257
el nmero de observaciones en la muestra y el coeficiente de bondad de ajuste se refiere a la

ecuacin planteada lneas arriba). Este estadstico se compara con el valor tabular para una
distribucin chi-cuadrado con p grados de libertad.
Intuitivamente, se observa que el coeficiente R2 tender a cero en la medida en que las

variables explicativas propuestas en la regresin anterior no expliquen adecuadamente a los
residuos. Recordemos que de no existir autocorrelacin, los residuos no se podran explicar a
partir de sus rezagos, esto, sumado al hecho de que las variables explicativas incluidas son
supuestamente ortogonales a los errores, garantizar un valor muy cercano a cero para el R2. En
este caso, el valor del estadstico propuesto tendera a cero por lo que se aceptara la hiptesis
nula de ausencia de autocorrelacin.
Ejemplo:
Comandos EViews:
VIEW/RESIDUAL TESTS/SERIAL CORRELATION LM TEST
Resultados:
258

Test Equation:
C 4.931975 31.99916 0.154128 0.8778

CAPITAL 0.001622 0.003220 0.503841 0.6156
INGDISP -0.004797 0.009471 -0.506525 0.6137
RESID(-1) 0.788615 0.101299 7.785007 0.0000
RESID(-2) -0.123128 0.128390 -0.959015 0.3400
RESID(-3) 0.206486 0.128409 1.608036 0.1112
RESID(-4) -0.198072 0.105542 -1.876721 0.0637
R-squared 0.552325 Mean dependent var -8.25E-13

Sum squared resid 4495368. Schwarz criterion 11.03575
La probabilidad asociada al estadstico (0.000) indica el rechazo de la hiptesis nula de

ausencia de autocorrelacin. Si queremos tener una idea de cul es el patrn autorregresivo del
error debemos fijarnos en la ecuacin auxiliar que se utiliza para construir la prueba. En nuestro
caso, observamos que slo el parmetro asociado al primer rezago es significativo. Esto nos
sugiere la presencia de autocorrelacin de primer orden. Una estrategia vlida es ir reduciendo
el nmero de rezagos incluidos en la medida que no sean significativos. Cuando lleguemos a un
modelo auxiliar que presente todos los parmetros asociados a los rezagos incluidos
significativos, nos indicar con un alto grado de certeza el patrn de autocorrelacin. Un
procedimiento que nos permite mejorar lo anterior es incluir el menor nmero de rezagos de tal
manera que el error de la ecuacin auxiliar sea ruido blanco.
Esta prueba es una de las ms potentes para la deteccin de autocorrelacin porque permite
una especificacin mucho ms general y no presenta problemas aunque el modelo analizado
presente a la variable dependiente rezagada como variable explicativa. En todo anlisis de
autocorrelacin es indispensable su utilizacin.
8.5.6 Qu hacer frente a la autocorrelacin?
Al igual que la heterocedasticidad, la presencia de autocorrelacin en los trminos del error

origina la estimacin de parmetros no eficientes. En este sentido, la correccin de este
problema se basa en la utilizacin de un procedimiento alternativo a MCO que arroje
estimadores de menor varianza. Todos los procedimientos que sern analizados en las siguientes
pginas se enmarcan dentro de la estimacin por MCG, la cual se basa en realizar
transformaciones a las variables originales de modo que se garantice la obtencin de
estimadores ms eficientes.
i) Mtodo de la primera diferencia
259
Este procedimiento se basa en el supuesto extremo de que = 1 , es decir que existe una
autocorrelacin positiva o negativa perfecta. Para el caso en que = 1, la ecuacin de
cuasidiferencia se reduce a la primera diferencia:
Yt Yt 1 = 2 ( X t X t 1 ) + (ut ut 1 ) = 2 ( X t X t 1 ) + t (8.59)
o, lo que es lo mismo:
Yt = 2 X t + t
Bajo el supuesto simplificador de que existe autocorrelacin serial positiva de primer orden,
la estrategia de correccin consistira, por tanto, en tomar las primeras diferencias de la variable
explicada y las explicativas, y aplicar MCO. Una caracterstica importante del modelo en
primera diferencia es que no contiene un intercepto. Si fuera as, se estara partiendo de un
modelo original con tendencia, donde el intercepto en el modelo en diferencias vendra a ser, en
realidad, el coeficiente de la variable de tendencia en el modelo original. Para verificar esto,
supongamos un modelo de la forma:
Yt = 1 + 2Xt + 3t + ut
donde ut sigue un esquema autorregresivo de primer orden. Tomando la primera diferencia al

modelo anterior tenemos:
Yt = 2Xt + 3 + t
Tal como se indic anteriormente, el trmino de intercepto en el modelo en diferencias

corresponde al coeficiente de la tendencia en el modelo original.
Ahora, en lugar de suponer que = 1 se har el supuesto extremo contrario, esto es, que el
error sigue un esquema autorregresivo de primer orden negativo ( = -1). En este caso, el
procedimiento de correccin tambin se basa en el modelo en diferencias el cual, sin embargo,
adopta ahora la siguiente forma:
Yt + Yt 1 = 2 1 + 2 ( X t + X t 1 ) + (ut + ut 1 ) = 2 1 + 2 ( X t + X t 1 ) + t
Yt + Yt 1 X + X t 1 t
= 1 + 2 t +
2 2 2
Tal como se verifica en la expresin anterior, el procedimiento de correccin cuando = -1

consiste en realizar una regresin de promedios mviles.
En los dos casos analizados previamente, se han realizado supuestos bastante simplificadores
respecto al tipo de proceso que caracteriza al error. Evidentemente, de no verificarse el supuesto
sobre el que descansa el procedimiento utilizado para corregir el problema de autocorrelacin,
las estimaciones realizadas pueden incluso resultar peores en trminos de eficiencia que las del
modelo original. Por esto, resulta til realizar alguna prueba que permita verificar la validez de
los supuestos utilizados.
ii) Prueba de Berenblutt-Webb sobre la hiptesis: = 1
Con el fin de verificar la hiptesis de que los errores siguen un esquema autorregresivo de
primer orden y positivo, estos autores desarrollaron en siguiente estadstico:
260
n
e! 2 t
t =2
g= n
(8.60)
u !2 t
t =1
donde u! t son los residuos MCO del modelo original y e!t son los residuos MCO del modelo en
primeras diferencias. Si el modelo original contiene una constante es factible realizar el
contraste de este estadstico en las tablas de Durbin Watson, slo que en este caso hay que tener
presente que la hiptesis nula es que = 1 y no que = 0, como en la prueba de Durbin-
Watson original.
Ejemplo:
Supongamos que se quiere estimar el modelo:
D1t = 1 + 2Y1t + 3I1t +ut
donde:
D1t = demanda de dinero en t

Y1t = ingreso en t
I1t = tasa de inters en t
LS // Dependent Variable is D1
Sample: 1 100
C 2.047960 1.432332 1.429808 0.1560

Y1 1.739924 0.095900 18.14320 0.0000
I1 -0.683569 0.133423 -5.123335 0.0000

Ahora, se puede verificar directamente si el error presenta algn esquema autorregresivo con
el test de Breusch Godfrey.
Comandos EViews:
VIEW - RESIDUAL TESTS - SERIAL CORRELATION LM TEST
261

Test Equation:
C -0.845271 0.545537 -1.549429 0.1246

Y1 -0.057133 0.036343 -1.572059 0.1193
I1 -0.077066 0.050805 -1.516895 0.1326
RESID(-1) 0.927554 0.103192 8.988652 0.0000
RESID(-2) 0.014394 0.104768 0.137391 0.8910
R-squared 0.864414 Mean dependent var 5.68E-16

Tal como lo indican los resultados anteriores, existe evidencia suficiente para suponer que el
error sigue un esquema autorregresivo de primer orden positivo (el coeficiente asociado al
primer rezago es significativo y cercano a uno). Sin embargo, se puede verificar lo anterior con
la prueba de Berenblutt-Webb, para lo cual se debe realizar la regresin del modelo en primeras
diferencias:
LS // Dependent Variable is D(D1)

C 0.084773 0.109872 0.771557 0.4423

D(Y1) 0.839124 0.123092 6.817044 0.0000
D(I1) -0.483509 0.121542 -3.978107 0.0001

Prueba de Berenblutt-Webb:
n
e! 2 t 1116067
.
t =2
g= n
= = 0.092297
1209.211
u! 2 t
t =1
262
Segn la tabla de Durbin-Watson para 100 observaciones y dos variables explicativas,

DL=1.634 y DU=1.715 (para un nivel de significancia del 5%). Debido a que el valor del
estadstico g se encuentra por debajo del lmite inferior, se acepta la hiptesis nula de que = 1,
por lo que la transformacin de primeras diferencias sugerida para corregir la presencia de
autocorrelacin resulta apropiada. Al respecto, podemos verificar que el problema de hecho se
ha corregido, aplicando nuevamente el test de Breusch-Godfrey al modelo en primeras
diferencias.

Test Equation:
C 0.003120 0.110319 0.028278 0.9775

D(Y1) 0.001804 0.124221 0.014525 0.9884
D(I1) -0.000194 0.122235 -0.001591 0.9987
RESID(-1) -0.048578 0.104299 -0.465756 0.6425
RESID(-2) -0.110444 0.104173 -1.060199 0.2918
R-squared 0.013607 Mean dependent var -4.49E-18

iii) Estimacin de basada en el estadstico de Durbin-Watson
El estadstico de Durbin-Watson provee de una forma sencilla de estimar el coeficiente .

Basta recordar que este estadstico puede aproximarse por:
D = 2(1 ! ) (8.61)
Una vez realizada la estimacin, resulta factible realizar la transformacin planteada en el

modelo de cuasidiferencias y proceder con la estimacin MCO.
Una variante de este procedimiento conocido tambin como el mtodo de dos etapas de
Durbin, implica tomar en cuenta que si existe autocorrelacin de primer orden, el modelo
transformado para poder realizar la estimacin por mnimos cuadrados generalizados queda de
la siguiente forma:
y t = 1 (1 ) + y t 1 + 2 xt xt 1 + t (8.62)
Esto implica que tenemos un modelo con tres variables explicativas: x y los primeros
rezagos de x e y. Si estimamos esta ecuacin por mnimos cuadrados ordinarios y nos fijamos
en el parmetro del primer rezago de y, veremos que precisamente es . Tomando este estimado
procedemos a realizar la transformacin de las variables.
263
Ejemplo:
Para el modelo planteado anteriormente:
D1t = 1 + 2Y1t + 3I1t +ut
se tiene que:
D = 2(1 ! ) = 0143886
.
D
! = 1 = 0.928067
2
Ntese que este resultado es bastante similar al valor del coeficiente del primer rezago en el
test de Breusch-Godfrey (0.927554), por lo que ste ltimo tambin puede ser utilizado como
estimador de .
Comandos Eviews:
GENR DD1=D1-0.928067*D1(-1)
GENR DY1=Y1-0.928067*Y1(-1)
GENR DI1=I1-0.928067*I1(-1)
LS // Dependent Variable is DD1

C 0.352990 0.154581 2.283520 0.0246

DY1 0.946188 0.118961 7.953790 0.0000
DI1 -0.500170 0.127881 -3.911220 0.0002

El modelo anterior ya no presenta el problema de autocorrelacin, sin embargo, hay que

tener cuidado al momento de interpretar los resultados. El valor del intercepto (0.352990)
corresponde en realidad al valor del intercepto del modelo original ponderado por (1-), esto es:
*1 = 1(1-), por lo que debemos realizar las transformaciones del caso si se busca evaluar los
coeficientes originales.
iv) Procedimiento iterativo de Cochrane-Orcutt
Este procedimiento presenta una alternativa ms precisa para la estimacin de , a travs de

una serie de regresiones iterativas. Este procedimiento es adecuado cuando se pretende hacer la
correccin por mnimos cuadrados factibles siguiendo el patrn que se present en el caso de un
proceso AR(1) en la seccin 8.3.3. Suponiendo que el error sigue un esquema de autorregresivo
de la forma:
264
ut = ut-1 + t
esta metodologa se resume en:
1. Recoger los residuos MCO de la regresin original, ignorando la presencia (conocida) de

autocorrelacin ( u! t ).
2. Estimar el coeficiente a partir de la siguiente relacin:
u! t = ! u!t 1 + v t
3. Utilizar el estimado de para estimar el modelo en cuasidiferencias ( ! * )
4. Debido a que no se sabe, a priori, si ! es el mejor estimador, utilizar ! * para generar una
nueva serie de residuos:
u ** t = Y ! * X
t t
5. Estimar nuevamente el coeficiente :
u ** t = !! u! ** t 1 + wt
Este proceso iterativo debe continuar hasta que las estimaciones consecutivas de difieran
en una cantidad muy pequea, que ser el punto de convergencia9. Este procedimiento de
estimacin puede generalizarse al caso de ms de una variable explicativa y de autocorrelacin
de orden superior a uno, tal como se ver en el ejemplo siguiente. Antes de presentar el ejemplo,
conviene preguntarse si los estimadores del modelo original renen o no las propiedades
ptimas usuales del modelo clsico. Al respecto, cabe recordar que siempre que se utilice un
estimador de en lugar de su valor original, los coeficientes estimados a travs de MCO tienen
las propiedades ptimas usuales slo asintticamente, es decir, para muestras grandes. En
consecuencia, si se trabaja con muestras pequeas se debe tener cuidado al momento de
interpretar los resultados estimados. Un elemento a destacar es que este mtodo implica perder
la primera observacin de la muestra. Este se entiende a partir de la construccin de las
cuasidiferencias. Para todas las observaciones excepto la primera, siempre habr una
observacin anterior.
Ejemplo:
Utilizando el modelo anterior:
D1t = 1 + 2Y1t + 3I1t +ut
el test de Breusch-Godfrey permite identificar el tipo de proceso que sigue el error:

9
Usualmente si la diferencia entre los parmetros obtenidos en dos iteraciones consecutivas es menor que 0.001 se
puede decir que el proceso puede detenerse.
265
Test Equation:
C -0.265253 0.165411 -1.603605 0.1122

Y1 -0.152843 0.081069 -1.885348 0.0625
I1 -0.143106 0.070917 -2.017946 0.0465
RESID(-1) 0.313898 0.103924 3.020462 0.0033
RESID(-2) 0.589440 0.109222 5.396709 0.0000
RESID(-3) 0.070033 0.108307 0.646613 0.5195
RESID(-4) -0.023779 0.106255 -0.223797 0.8234

A partir de esta informacin, se puede construir un esquema autorregresivo de segundo

orden para el trmino de error de la ecuacin original, de la forma:
ut = 0.31ut-1 + 0.59ut-2 + t
donde:
1 = 0.31
2 = 0.59
Sin embargo, una estimacin ms precisa de los coeficientes 1 y 2 la proporciona el mtodo

iterativo de Cochrane-Orcutt.
Comandos EViews:

D1 C Y1 I1 AR(1) AR(2). La inclusin de los dos ltimos trminos es la forma en la cual
se puede instruir al programa estadstico que se est utilizando para que realice la rutina de
estimacin de Cochrane-Orcutt.
Date: 07/22/97 Time: 17:21
Convergence achieved after 8 iterations
C 2.871037 1.775444 1.617081 0.1092

Y1 0.745355 0.098863 7.539253 0.0000
I1 -0.219017 0.103968 -2.106576 0.0378
AR(1) 0.408321 0.088468 4.615476 0.0000
AR(2) 0.535560 0.089713 5.969693 0.0000
266

Inverted AR Roots .96 -.56
Los coeficientes asociados a los trminos AR(1) y AR(2) son precisamente los estimados de
1 y 2 obtenidos a travs del mtodo de Cochrane-Orcutt. El modelo presentado anteriormente
ya no presenta autocorrelacin, tal como lo demuestran los resultados del test de Breusch-
Godfrey.

Test Equation:
C 0.020412 1.783038 0.011448 0.9909

Y1 0.014301 0.100126 0.142832 0.8867
I1 0.031968 0.108766 0.293911 0.7695
AR(1) -0.099628 0.442233 -0.225283 0.8223
AR(2) 0.098771 0.431590 0.228854 0.8195
RESID(-1) 0.108719 0.450496 0.241332 0.8099
RESID(-2) 0.027278 0.272334 0.100164 0.9204
RESID(-3) 0.082017 0.176205 0.465462 0.6427
RESID(-4) -0.197602 0.140408 -1.407346 0.1628

No obstante todas las ventajas reseadas de este procedimiento debemos tener en cuenta que el
mtodo de Cochrane Orcutt lo que hace es imponer una serie de restricciones sobre el modelo que pueden
ser exageradas. Analicemos cmo puede ocurrir esto. Si tomamos como supuesto que los resultados nos
arrojan la existencia de un modelo AR(1) el modelo que se estimara sera el siguiente:
y t y t 1 = 1 (1 ) + 2 ( x t x t 1 ) + t
Desarrollando esta expresin obtendramos lo siguiente:
y t = 1 (1 ) + y t 1 + 2 xt xt 1 + t
En trminos de un modelo estimable, esto es equivalente a:
y t = 1 + 2 y t 1 + 3 x t + 4 x t 1 + t (8.63)
267
Este modelo presenta rezagos tanto de la variable dependiente como de la variable

independiente10. Este modelo es estimable via mnimos cuadrados ordinarios. Sin embargo, si
queremos verificar si las restricciones impuestas por el mtodo de Cochrane-Orcutt son
correctas, podramos probar si en (8.63) se cumple la siguiente restriccin:
2 3 = 4
Slo si los parmetros estimados por el modelo sin restringir cumplen con la anterior restriccin
podremos concluir que el mtodo de Cochrane-Orcutt es un mtodo apropiado. De no ser as,
probablemente la estimacin de la ecuacin sin restringir ser lo mejor. Si nos detenemos a
observar esta ecuacin veremos que responde a una especificacin dinmica. La
autocorrelacin, entonces habra surgido por no haber incluido los rezagos correspondientes.
v) Procedimiento de bsqueda de Hildreth-Lu
Una estrategia alternativa a la planteada en el caso de Cochrane-Orcutt es estimar a travs de

una red de bsqueda. Este procedimiento implica aplicar de manera repetida el estimador MCO
a la siguiente ecuacin:
y t y t 1 = 1 (1 ) + 2 ( x t x t 1 ) + t
utilizando valores de que se ubiquen en el intervalo abierto +1, -1. Por ejemplo podra
utilizarse valores de =-0.95, -0.90,....., 0.90, 0.95 para realizar todas las estimaciones. El valor
a escoger corresponder al de la ecuacin que arroje la menor suma de residuos al cuadrado
(SRC). Se ha demostrado que este tipo de estimacin puede ser interpretada como estimados
condicionales de mxima verosimilitud dado que la estimacin a travs de la minimizacin de la
suma de residuos al cuadrado es la misma que la maximizacin de la funcin de verosimilitud si
es que eliminamos la primera observacin (al igual que el mtodo de Cochrane-Orcutt). Dada la
eliminacin de la primera observacin se dice que la maximizacin es condicional en Y1, dado
que se estara asumiendo que esta observacin es constante.
v) Procedimiento de dos etapas e iterativo de Prais-Winsten
Una de las desventajas de los tres ltimos procedimientos descritos es que se pierde la primera
observacin. En primera instancia, se podra pensar que eliminar una observacin no tendra
mucho efecto sobre las estimaciones a realizar. Eso es cierto si es que los datos no presentan una
tendencia. Sin embargo, si los datos presentan una tendencia y eliminamos una observacin
podramos estar alterando el valor de los parmetros al no incluir dicha observacin.
Un procedimiento que intenta no eliminar esta primera observacin es el de Prais-Winsten.

Estos autores plantean que una estrategia recomendable para obtener sera minimizar la
siguiente expresin:
n
S * = (1 2 )e12 + (et et 1 ) 2 (8.64)
t =2
La innovacin del mtodo es la inclusin del primer trmino de la derecha. Si minimizamos esta
expresin obtenemos el estimador de Prais-Winsten :
10
Aqu con fines didcticos estamos utilizando un modelo lineal simple, el resultado se puede generalizar a un
modelo con un mayor nmero de variables.
268
e e t t 1
pw = t =2
n
(8.65)
e
t =3
2
t 1
Las etapas del proceso son las siguientes:
1. Estimar el modelo original (sin ninguna correccin) por mnimos cuadrados

ordinarios. Tomar los errores y calcular pw .
2. Una vez calculado pw , aplicar MCOal siguiente modelo transformado:
Yt* = Wt* + X t* + t (8.66)
donde para t=1:
Yt* = Yt 1 2 , Wt * = 1 2 , X t* = X t 1 2
y para t=2,........,n :
Yt * = Yt Yt 1 , Wt * = 1 , X t* = X t X t 1
si se cumplen estas dos pasos estamos en el llamado proceso de dos etapas de Prais-Winsten. El
proceso podra repetirse hasta alcanzar la convergencia al estilo de Cochrane-Orcutt. En dicho
caso el recibe el nombre de proceso iterativo de Prais-Winsten.
Una variante de este mtodo sera aplicar una estrategia tipo Hildreth-Lu en donde se prueba
diferentes estimaciones con diferentes valores de y se escoge aquella que presenta la menor
suma de residuos al cuadrado (SRC). Ambos mtodos son asintticamente equivalentes.
vii) Planteamiento para un estimador consistente de la matriz de covarianzas con la

presencia heterocedasticidad y autocorrelacin (Newey-West)
Tal como se indic en el captulo referente a la correccin del problema de

heterocedasticidad, White (1980) desarroll un estimador consistente para la matriz de
covarianzas de los coeficientes MCO que no depende de la estructura especfica del proceso que
genera la presencia de errores heterocedsticos. Sin embargo, este estimador supone que los
errores no presentan autocorrelacin serial. Al respecto, Whitney Newey y Kenneth West
desarrollaron en 1987 un estimador para la matriz de covarianzas que sea consistente con la
presencia de ambos problemas.
Para muestras lo suficientemente grandes, Newey y West verificaron que el estimador

MCO puede representarse como:
( )
! N ,V!
luego de demostrar que:
269
plim V! = V
T
de modo que la matriz de covarianzas del estimador MCO vendra dada por:
1 1
T T 2 q
v T T
V = xt x' t et t x t x' t + 1 ( x t et et v x' t v + x t v et v et x' t ) xt xt '
t =1 t =1 v =1 q + 1t =v +1 t =1
(8.67)
La expresin anterior es precisamente el estimador consistente de la matriz de covarianzas,

donde et representa el residuo MCO para el periodo t, y la variable q el nmero de rezagos que
se supone determina la estructura autorregresiva del error. Al igual que en el caso del estimador
consistente de White, la matriz la covarianzas contiene los errores MCO e incluye adems el
esquema autorregresivo que se supone caracteriza al error. Especficamente, paquetes
economtricos como el Econometric Views estima q a partir de la siguiente relacin:
2
T 9
q = 4
100
Este estimador implica calcular la ecuacin original por MCO sin aplicar ninguna
correccin. Esto se basa en el hecho que la presencia de autocorrelacin y heterocedasticidad no
afectan el insesgamiento del estimador. En cambio para la ecuacin de varianzas y covarianzas
se plantea la correccin presentada lneas arriba. Debe mencionarse que este procedimiento es
recomendable cuando no se tiene una idea clara de cul es el patrn que sigue la autocorrelacin
pero s se ha detectado su presencia. Es un estimador asintticamente eficiente.
8.6. PREDICCIN CON HETEROCEDASTICIDAD Y AUTOCORRELACIN
Al momento de plantear un modelo lo que se busca generalmente es establecer una relacin

entre el vector de variables exgenas o regresores (Xt) y la variable explicada (Yt). En este
sentido, el tipo de relacin establecida puede ser utilizada para obtener predicciones de Yt, en
otras palabras, estimar su valores futuros. Una vez establecida la mejor relacin lineal entre Yt y
los regresores involucrados en el modelo para el intervalo muestral, cabe suponer que esta
relacin es tambin vlida para momentos fuera del intervalo muestral, o lo es lo mismo,
suponer que los coeficientes estimados son estables a lo largo del tiempo.
Si denotamos Et al valor esperado de un variable sobre la base de la informacin disponible

en el instante t, la relacin planteada para predecir Yt+1 vendra dada por:
Et(Yt+1) = Et(Xt+1 + ut+1) = Et(Xt+1) + Et(ut+1) = (Et(Xt+1)) ! t + Et(ut+1) (8.68)
Cabe resaltar que la estimacin MCO de los coeficientes para el intervalo muestral se denota
! debido a que est referida precisamente a esta muestra, que se supone comprende hasta el
t
momento t. Asimismo, se supone que esta estimacin es lo suficientemente estable como para
poder ser utilizada en la prediccin de Yt+1.
270
Segn la expresin anterior, se necesita estimar tanto el valor de las variables explicativas en
el periodo t+1 (Xt+1) como el valor esperado del error para el momento t+1 (Et(ut+1)).
Usualmente se considera que el valor futuro de las variables explicativas es conocido,
especialmente cuando depende de las decisiones de los mismos agentes que buscan realizar la
prediccin. De no ser as, sin embargo, se requerira de un anlisis de series de tiempo que nos
permita conocer el comportamiento de dichas variables a partir de su evolucin pasada. En lo
que respecta al trmino de error, cabe recordar que hemos supuesto que ste es una sucesin de
variables aleatorias independientes, por lo que la muestra no puede proporcionarnos ninguna
informacin respecto a su comportamiento futuro. Frente a esto, la esperanza matemtica resulta
la mejor prediccin, esto es: Et(ut+1) = E(ut+1) = 0.
A partir de los resultados anteriores y asumiendo que los valores futuros de las variables
explicativas son conocidos, se tiene que la prediccin mnimo-cuadrtica se reduce a:
Et(yt+1) = (Et(Xt+1)) ! t = Xt+1 ! t
En tal sentido, el error de prediccin (definido como la diferencia entre la variable predecir y
su prediccin) vendra dado por:
et = Yt+1 - Et(Yt+1) = Xt+1 - Xt+1 ! t + ut+1 = Xt+1( - ! t ) + ut+1
Cabe recordar que et es una variable aleatoria en el momento t, ya que su realizacin ocurrir
en el periodo t+1. Asimismo, y debido a que el estimador MCO es insesgado, el error de
prediccin tiene esperanza cero. Con esto en mente, se pasar ahora a la estimacin de la
varianza del error de prediccin (2e).
[
2 e = E X ' t +1 ( ! t )( ! t )' X t +1 + 2 X ' t +1 ( ! t )ut +1 + u 2 t +1 ]
[ ]
= X ' t +1 E ( ! t )( ! t )' X t +1+ E (u 2 t +1 )
= X ' t +1 E {[( X ' X )

t t
1
][ ]}
X t ' ( X t + ut ) ( X t ' X t ) 1 X t ' ( X t + ut ) ' X t +1 + E (u 2 t +1 )
= X ' t +1 E {[( X ' X )

t t
1
][ ]}
X t ' ut ( X t ' X t ) 1 X t ' ut ' X t +1 + E (u 2 t +1 )
= 2 u X ' t +1 ( X t ' X t ) 1 X t +1 + 2 u
(8.69)
La expresin anterior se basa en el supuesto de que el trmino de error es independiente en el

tiempo, por lo que E ! u [ =0. t t +1 ]
A partir de la estimacin de la varianza del error de prediccin es factible construir un
intervalo de confianza para la prediccin de Yt+1. Bajo el supuesto de normalidad del error,
podemos afirmar que el error de prediccin es una combinacin lineal de dos variables
normales:
et = X ' t +1 ( ! t ) + ut +1 = X t +1 ( X t ' X t ) 1 X ' t ut + ut +1
y tiene, por tanto, una distribucin normal (et N(0,2e)). A partir de lo anterior, resulta vlido
afirmar que la expresin:
271
et Y E t (Yt +1 )
= t +1
! e ! e
sigue una distribucin Tt-k (donde t es igual al nmero de observaciones en la muestra y k

representa el nmero de variables explicativas). En este sentido, dada una prediccin puntual de
Et(Yt+1) y la estimacin de la desviacin tpica del error de prediccin, se puede utilizar esta
ltima expresin para construir un intervalo de confianza para el valor de Yt+1. Para esto, se
puede aplicar la desigualdad de Chebyshev, a partir de la cual:
[
P E t (Yt +1 ) Yt +1 e ] 1
2
(8.70)
1
y elegir un nivel de confianza adecuado ( = 0.05). Sustituyendo la desviacin tpica del error
2
de prediccin por su estimado y replanteando la desigualdad anterior se tiene:
P[ E t (Yt +1 ) ! e Yt +1 E t (Yt +1 ) + ! e ] 1
1
2
De esta forma, se elige un nivel de confianza del 95% (=4.472) y a partir de la expresin
anterior, se puede afirmar que la probabilidad de que el valor de Yt+1 se halle entre Et(Yt+1) -
4.472 ! e y Et(Yt+1) + 4.472 ! e es mayor o igual a 0.95.
Segn lo visto anteriormente, resulta obvio que la presencia de una matriz de covarianzas no
escalar o, lo que es lo mismo, frente a la presencia de heterocedasticidad y/o autocorrelacin,
afecta el poder predictivo de un modelo. Especficamente, este efecto puede verse de dos
formas: alterando las estimaciones puntuales o alterando los intervalos de confianza.
En el caso de errores heterocedsticos, se sabe ya que el trmino 2u no es constante en el

tiempo, lo que tiene un efecto importante sobre la amplitud de los intervalos de confianza.
Especficamente, y dado que la definicin del intervalo depende del estimado de la desviacin
tpica del error de prediccin (la cual a su vez depende de la varianza del error muestral), su
amplitud se vera alterada de presentarse una varianza cambiante a lo largo de la muestra.
Recordemos que la varianza del error de prediccin viene dada por:
2 e = 2 u X ' t +1 ( X t ' X t ) 1 X t +1 + 2 u
En este sentido, si se registrase la presencia de errores heterocedsticos 2u no sera constante

y la varianza del error de prediccin se vera alterada. Si suponemos, por ejemplo, que la
varianza del trmino de error depende positivamente de alguna de las variables explicativas, la
varianza del error de prediccin se vera incrementada lo que ocasionara una mayor amplitud
en el intervalo de confianza para la prediccin.
Luego de corregir el problema de heterocedasticidad a travs de la estimacin por MCG, la

varianza del error de prediccin vendra dada por:
[
Var (et ) = Var (ut +1 ) + 2 u X ' t +1 ( X ' 1 X ) 1 X t +1 ] (8.71)
Consideremos un modelo con errores heterocedsticos de modo que:

2 t = Var (ut ) = 2 u X 2 t . De esta forma, la expresin anterior se reduce a:
272
1
t
X 2t
Var (et ) = 2 2
u X t +1 + X 2 t +1

2t

1 (8.72)
1
t
1 1
= 2 u X 2 t +1 + X 2 t +1

2 u = 2 u X 2 t +1 1 +
t
1
Por otro lado, si los errores presentan autocorrelacin ya no resulta factible asumir que
Et(ut+1) = 0 ya que la muestra de hecho aporta informacin para la estimacin futura de ut+1. En
este sentido, la presencia de autocorrelacin afecta el valor obtenido en la prediccin puntual. Si
los errores presentan un esquema autorregresivo de primer orden de la forma:
ut = ut-1 + et
y se utiliza el modelo en cuasidiferencias para corregir este problema, la expresin para la

prediccin puntual se reduce a:
E t (Yt +1 ) = X ' t +1 MCG + u!t
Resulta sencillo verificar lo anterior utilizando la transformacin en cuasidiferencias:
Yt +1 Yt = ( X t +1 X t )' + t +1
y tomando la esperanza condicional en el periodo t11:
E t (Yt +1 ) Yt = X ' t +1 X t ' + t +1

E t (Yt +1 ) = X ' t +1 + u! t
Ejemplo:
Supongamos dos modelos de la forma:
CONS1t = 0 + 1Yt + 2Kt + ut
CONS2t = 0 + 1Yt + 2Kt + t
donde:
CONS = cosumo en el periodo t

Yt = ingreso en el periodo t
Kt = dotacin de capital en el periodo t
Var(ut) = 2u
Var(t) = 2uYt2
t = 1,2,...,300
Segn el planteamiento anterior, el segundo modelo presenta errores heterocedsticos debido

a que su varianza depende positivamente del cuadrado de una de las variables explicativas.
Debido a esto, es de esperar que la varianza del error de prediccin para el primer modelo sea
11
Evidentemente, la esperanza condicional en t de un valor ya realizado en este periodo es el valor mismo.
273
menor que la varianza del error de prediccin del segundo modelo, dado que sta depende
positivamente de la varianza del error muestral. Ahora, si suponemos que el ingreso (que es la
variable que influye sobre la varianza del error del segundo modelo) presenta una trayectoria
creciente, debemos esperar que la varianza del error de prediccin del segundo modelo tambin
presente este comportamiento. En otras palabras, si realizamos una serie de predicciones
sucesivas, el error de prediccin deber presentar una varianza cada vez mayor debido a la
influencia de la variable ingreso, la cual presenta un comportamiento creciente.
Para verificar lo anterior, se estima cada modelo para el periodo t = 1,...,100 y se utilizarn
los coeficientes MCO para predecir el consumo para los 200 periodos subsiguientes.
!"Comandos EViews:
CONS1 C Y K
FORECAST
Sample 101 101
La serie CONS1F guarda el valor de la prediccin para la variable dependiente
(E100(CONS1101))
GENR ER1=CONS1-CONS1F
As estimamos el valor del error de prediccin para el periodo t=101.
Si se realiza esta operacin para cada modelo y de modo iterativo modificando la muestra de
la prediccin de 100+i a 100+i (i=1,...200), se debe verificar que la varianza del error de
prediccin para el segundo modelo registra un comportamiento creciente. Para comprobar este
ltimo, se comparan los grficos de las series ER1 y ER2.
-1
-2
-3
120 140 160 180 200 220 240 260 280 300
ER1
274
200000
100000
100000
200000
300000
120 140 160 180 200 220 240 260 280 300
ER2
Los grficos anteriores nos muestran claramente cmo el efecto de la variable ingreso sobre
la varianza del error de prediccin (efecto que se da a travs de la varianza del error muestral)
causa que sta siga un comportamiento creciente a lo largo del tiempo. Asimismo, la varianza
del error de prediccin para el primer modelo resulta considerablemente menor que la varianza
del error de prediccin para el segundo modelo (tal como se verifica al observar entre qu
valores flucta cada error de prediccin), lo que tiene un efecto importante sobre el intervalo de
confianza de la prediccin, tal como se indic anteriormente.
Ejemplo:
Supongamos ahora un modelo de la forma:
D1t = 1 + 2Y1t + 3I1t +ut
donde:
D1t = demanda de dinero en t

Y1t = ingreso en t
I1t = tasa de inters en t
t = 1,2,...,300
Definiedo la muestra para las primeras 100 observaciones, se estima el modelo anterior:
Sample: 1 100
C 0.037237 0.115442 0.322557 0.7477

Y1 0.844006 0.104999 8.038228 0.0000
I1 -0.295039 0.109523 -2.693852 0.0083
275

Para verificar si el error presenta algn esquema autorregresivo, apliquemos el test de

Breusch-Godfrey:
276

Test Equation:
C 0.019112 0.111357 0.171628 0.8641

Y1 -0.046911 0.102614 -0.457165 0.6486
I1 -0.023888 0.106056 -0.225242 0.8223
RESID(-1) 0.282882 0.104178 2.715364 0.0079
RESID(-2) 0.060756 0.106760 0.569090 0.5706

Segn los resultados anteriores, resulta factible suponer el siguiente esquema autorregresivo
para el error muestral:
ut = 0.2829ut-1 + t
Ahora, si lo que se busca es realizar una prediccin hay que tomar en cuenta que frente a la
presencia de autocorrelacin de primer orden en el trmino de error, la prediccin puntual se
reduce a:
E t (Yt +1 ) = X ' t +1 MCG + u!t
Al utilizar el comando FORECAST del EViews, el programa empieza estimando los residuos
del modelo original para las observaciones ubicadas antes de la primera observacin de la
muestra involucrada en la prediccin. Luego, el EViews estima los residuos para el periodo
definido en la prediccin y finalmente suma estos residuos al producto de las variables
explicativas y los estimadores MCG, tal como se indica en la expresin anterior.
Para verificar esto, se corrige la autocorrelacin utilizando el mtodo iterativo de Cochrane-

Orcutt y se comparan los resultados con los obtenidos a travs del comando FORECAST.
277
!"Comandos EViews:
SMPL 1 100
D1 C Y1 I1 AR(1)
Convergence achieved after 6 iterations
C 0.058860 0.155499 0.378523 0.7059

Y1 0.840467 0.106958 7.857891 0.0000
I1 -0.332134 0.111986 -2.965856 0.0038
AR(1) 0.298718 0.099164 3.012377 0.0033

Inverted AR Roots .30
Ahora, siguiendo el procedimiento utilizado por el programa estadstico, pasemos a estimar

los residuos para el periodo involucrado en la prediccin (t = 101,...,300) a partir del esquema
autorregresivo sugerido.
!"Comandos EViews:
GENR RES1=RESID
SMPL 101 300
GENR RES1=0.298718*RES1(-1)
Finalmente, se estima el valor de la prediccin puntual utilizando los coeficientes estimados

y los residuos hallados a partir de la relacin anterior:
!"Comandos EViews:
GENR FORE=0.058860 + 0.840467Y1 - 0.332134I1 + RES1
Se comparan ahora los resultados obtenidos con la estimacin realizada a travs del comando
FORECAST.
!"Comandos EViews:
SMPL 1 100

D1 C Y1 I1 AR(1)
FORECAST
Sample 101 300
La serie D1F guarda el valor de la prediccin para la variable dependiente
278
Comparando los grficos de las variables FORE y D1F para la muestra t=101,...,300, se
verifica que ambas estimaciones arrojan valores bastante cercanos. Lo anterior demuestra que la
estimacin realizada por el programa a travs del comando FORECAST incorpora el esquema
autorregresivo del error muestral al momento de predecir los valores futuros de la variable
dependiente.
-2
-4
120 140 160 180 200 220 240 260 280 300
D1F
-2
-4
120 140 160 180 200 220 240 260 280 300
FORE
8.7 ESTIMACIN POR MXIMA VEROSIMILITUD EN PRESENCIA DE PERTURBACIONES

ESFRICAS
279
El empleo del mtodo de mxima verosimilitud (MV) como una tcnica alternativa al
estimador mnimo cuadrtico (MCO) ya ha sido analizada en el Captulo 5. En l se demostr
que los estimadores que se obtenan utilizando esta nueva tcnica resultaban ser asintticamente
iguales a los reportados por el empleo del MCO.
A lo largo de este captulo se ha desarrollado una variacin al mtodo MCO para poder
seguir obteniendo estimadores eficientes aun en presencia de perturbaciones no esfricas. Esta
tcnica recibe el nombre de mnimo cuadrados generalizados (MCG) ya que en ella se
contempla el caso en que la matriz de varianzas y covarianzas no cumpla con las condiciones de
Gauss-Markov, lo cual implica que esta matriz est especificada de la siguiente forma: 2 u ,
en donde I . Al igual que en el caso del MCO, ahora tambin podemos demostrar que los
estimadores MV son tambin equivalentes a los obtenidos a travs de los MCG.
Para esto es necesario asumir la normalidad de los errores u N (0, 2 ) ; de tal manera que
la funcin de verosimilitud quedara determinada de la siguiente forma:
1 1
L( Y, X / , 2 ) = exp 2 ( y x) 1 ( y x) (8.73)
( 2) n/2
( )
2 n/2

1/ 2

2
en ella ya ha sido incorporada la matriz . Luego, aplicando logaritmos a esta expresin

obtenemos:
n n n 1
ln L = ln(2) ln( 2 ) ln 2 ( y x) 1 ( y x) (8.74)
2 2 2 2
Ahora se procede a derivar las condiciones de primer orden para obtener los estimadores, tal
como se vio en la seccin 5.3:
de ln L : MV = ( x 1 x ) 1 x 1 y

e 1 e
de ln L : 2 MV =
2
T
donde el error est definido como: e = y x MV 12.
Como se sabe, la estimacin por Mxima Verosimilitud representa una alternativa

operacional para el clculo de estimadores. A travs de ella se obtienen estimadores
asintticamente iguales a los obtenidos a travs del MCG. La mayora de paquetes
economtricos utilizan esta tcnica a travs de un proceso iterativo, el cual consiste en asignarle
diferentes valores a los parmetros que se quiere estimar hasta encontrar un vector que contenga
los valores para cada una de ellos que logre maximizar la funcin de verosimilitud. El desarrollo
de computadoras ms veloces a convertido este mtodo en uno de los ms empleados.
Hasta el momento se ha supuesto que se conoce la estructura de la matriz , es decir, la

forma en que se presenta la heterocedasticidad o la autocorrelacin segn sea el caso. Como ya
se sabe, esto generalmente no se da por lo que el investigador debe tratar de encontrar la mejor
forma de modelarla buscando la va que ms se ajuste a las caractersticas de cada problema
especfico. Sin embargo, la utilizacin de los procedimientos descritos en las secciones previas
12
Nota: para el clculo de los errores se pueden emplear los estimados a partir del procedimiento MCO o de MV.
280
involucrara el empleo de demasiado trabajo por parte del investigador. El mtodo de MV nos
permite realizarlo en una forma mucho ms rpida.
ESTIMACIN EN PRESENCIA DE HETEROCEDASTICIDAD.
A lo largo del presente captulo se han analizado las causas de la presencia de

heterocedasticidad, cules son sus implicancias y la forma en que se emplean diferentes test que
buscan identificar no slo su presencia sino su forma (especificacin que puede incluir alguna
variable del modelo o bien alguna variable exgena al mismo). Como se sabe, la estimacin por
MCG consiste en ponderar apropiadamente cada observacin de tal forma que la perturbacin
de nuestro modelo quede libre de este problema. Sin embargo, para poder realizar adecuadas
ponderaciones se debe conocer la matriz de varianzas-covarianzas ().
Entre los tests que han sido revisados en la seccin 8.2.3, los nicos que buscan determinar
la verdadera estructura de la heterocedasticidad son el test de Glejser, el test de Park y la
generalizacin de este ltimo realizada por Harvey. Como es sabido, el estimador MCG necesita
que se haya especificado la estructura completa de la matriz de varianzas y covarianzas () ex-
ante de estimar el valor de y 2. Si se revisa la aplicacin prctica del test de Glejser efectuada
en este captulo, se observ que se determinaba el grado de ajuste del modelo especificado para
la varianza ( e i2 = 1 + 2 x i + i )13 para los diferentes valor es que se le asignaba al parmetro
:
z 1 (1 , 2 , )
z 2 ( 1 , 2 , )

2 i = 2 . = 2 z 3 ( 1 , 2 , )

.....
z n (1 , 2 , )
donde tomaba los valores de 2, 1.5, 1, 0.5.
Del modelo que ajustaba mejor, era de donde se sacaba los valores para los parmetros i y .
De esta manera ya se conoca la forma que adoptaba la matriz , la cual sera empleada para
poder estimar la varianza de y 2. Se recuerda que la importancia del clculo estas varianzas
radica en su utilizacin para poder realizar diferentes test de significancia y los intervalos de
confianza.
Por este motivo la aplicacin de la tcnica de MCG es un procedimiento de tres etapas:

primero se calculan los y 2, luego se estiman los valores de i y y finalmente se puede
determinar el valor de la varianza de y 2.
En cambio, el estimador MV no requiere de "dividir" en diferentes etapas todo el proceso de

estimacin. Como este mtodo utiliza una rutina de iteracin, entonces es posible ir buscando
los valores ms apropiados para los parmetros que contenga la matriz junto con los valores
de y 2 y sus respectivas varianzas.
13
El lector deber tener cuidado en no confundir los parmetros de los dos modelos involucrados en todo este
proceso: el primer modelo es aquel donde se aplica el MCG para lograr obtener estimadores eficientes de los
parmetros y i. El segundo busca modelar la varianza del error del primer modelo (esto es necesario para poder
aplicar MCG al primer modelo) y obviamente contiene parmetros que deben ser estimados (i y ).
281
A continuacin se utilizar la especificacin propuesta por Glejser en su test para

ejemplificar la forma en que se aplica la tcnica de MV. As, la varianza de los errores est
determinada de la siguiente forma:
i2 = 2 z i
(8.75)
Para este ejemplo se asumir que zi representa a una sola variable (ms adelante se asumir
que representa una funcin de variables en donde tambin hay que calcular los parmetros i).
El siguiente paso consiste en reemplazar (8.2) en la expresin (8.1):
n n
e i2
z
n n n 1
ln L = ln(2) ln( 2 ) ln ln z i
2 2 2 2 i =1 2 2 i =1 i
(8.76)
En esta expresin se cuenta con tres parmetros desconocidos: , 2 y . Por tanto, si se

deriva la expresin anterior con respecto a cada uno de estos, se obtendran las denominadas
condiciones de primer orden:
ln L n
ei

= x .
i =1
i 2
z I
ln L n
e i2

n 1
= +
2 2 2 2 4 i =1 z i
ln L n n
e 2I ln z i
ln z
1 1
= +
z i
i
2 i =1 2 2 i =1
Para poder estimar algebraicamente los valores ptimos de cada una de las variables es
necesario utilizar procedimientos no lineales. Por este motivo, la mayora de los paquetes
economtricos utilizan un procedimiento iterativo para realizar estas estimaciones. El rango de
los valores en que se esperara encontrar el ptimo es de entre 0 y 3. El computador va
asignando diversos valores dentro de este rango y para cada valor que toma procede a estimar
y 2. Finalmente, la computadora elige los valores de, y 2 que maximicen el valor de la
funcin ln L14.
Si se quiere hallar la matriz asinttica de varianzas-covarianzas, entonces se estima

empleando para ello a la matriz de informacin de la siguiente manera:
1
1
2 x i x i / z I 0 0
1

E ln L =
2

n 1
0 ln z i

2 2 2
4

ln z
1 1
0 i
2
ln z i
2 2 2
(8.77)
donde representa el vector de los parmetros a estimar: , 2 y . Los elementos de la diagonal

principal son una estimacin de la varianza de los estimadores de cada uno de estos parmetros.
14
Este procedimiento de estimacin es conocido como el algoritmo de bsqueda y es bastante sencillo aunque no se
aplica mucho en la prctica. Existen otros algoritmos de optimizacin que emplean tanto el vector gradiente (como
en este caso) como la matriz hessiana, para de esta manera crear una rutina de bsqueda ms compleja.
282
En general, se puede determinar diferentes funciones de zi (fi) que involucre la estimacin de

un vector que incluya a todos los coeficientes de las variables, y parmetros en general, que
modelen la varianza. De esta manera queda definida la matriz en funcin de parmetros que
sern calculados simultneamente con los parmetros del modelo principal: , y 2. Se puede
generalizar la especificacin de la varianza, tal como lo indica Greene15:
i2 = 2 f i ()
(8.78)
Repitiendo el mismo procedimiento efectuado para el ejemplo anterior, se procede a

reemplazar esta ltima expresin en la expresin (8.1) y se obtiene la funcin objetivo a
maximizar:
n n
1
ln f () 2 f () e
n n n 1
ln L = ln(2) ln( 2 ) i 2
2
i
2 2 2 i =1 i =1 i
Antes de definir las condiciones de primer grado denotaremos a fi() como fi y al vector de
f ()
derivadas i como gi. De esta manera, las condiciones de primer grado sern las siguientes:

ln L n
ei

= x .
i =1
i 2
fi
ln L n
e 2I

n 1
= +
2 2 2 2 4 i =1 fi
ln L 1 n
ei2 1

=
2 f
i =1
2
i
1 g i
f i
ln L
de se obtienen los valores de las k variables que estn incorporados en el modelo

ln L ln L
original. De se estima la varianza de los errores, mientras que de se obtiene el
2

valor de todos los parmetros desconocidos de la matriz . Se asume que dentro de estos
parmetros () no se encuentra el valor de algn coeficiente del modelo original . Los clculos
se realizan de manera simultnea a travs de diferentes algoritmos de optimizacin. El empleo
de estos depende generalmente de las caractersticas de la matriz de segundas derivadas.
Antes de calcular la matriz de varianzas y covarianzas para este caso general se debe definir
a la matriz G de n x M como aquella en donde cada fila es f i / y donde i es un vector nx1
de conformado por 1s:
1
1 (1 / 2 )X X 0 0
1
E ln L
2
= 0 n /(2 )
4
(1 /(2 ))i G
2

0 (1 /(2 ))G i (1 / 2)G 2 G
2 1

[
en donde = , 2 , ]
15
Greene, William, Econometric Analysis, 3a. ed., Prentice-Hall Inc., 1997.
283
Generalmente, debido a que la obtencin de los parmetros de las condiciones de primer

orden (vector gradiente) es bastante compleja (o imposible) de efectuar analticamente y, ms
aun si se desea obtener estimadores de la matriz de varianzas y covarianzas, su clculo se
efecta a travs de algoritmos de optimizacin. Entre los ms conocidos se encuentran el
algoritmo de Newton-Raphson y algoritmo de scoring. En ambos casos el proceso de clculo
involucra tanto al vector gradiente (primeras derivadas) como a la matriz hessiana (matriz de
segundas derivadas)16.
En algunos casos la composicin de la matriz de varianzas y covarianza hace posible obtener

la estimacin de la varianza de algn parmetro independientemente del valor que adopten el
resto de parmetros. Un ejemplo de esto es tratado en el ejercicio 8.4.
ESTIMACIN EN PRESENCIA DE AUTOCORRELACIN
Al igual que en el caso de la heterocedasticidad, el mtodo MCG brinda los mismos

resultados que en el caso en que se emplea el mtodo de mxima verosimilitud si y solo si el
investigador conociese el valor del factor de autocorrelacin . Sin embargo, como esto no se da
en la prctica, al emplear el estimador MCG se puede incurrir en estimaciones no eficientes.
Para entenderlo con mayor claridad se vuelve a escribir el modelo visto en la seccin 8.3:
y t = x t + u t
si se decide que el trmino de perturbacin presenta autocorrelacin de primer orden, este puede
ser modelado de la siguiente forma:
u t = u t 1 + t
Se haba determinado en la seccin 8.3 que la forma de calcular estimadores de eficientes

era transformado las variables a semidiferencias: y * t = y t y t 1 y x * t = x t x t 1 . Sin
embargo, el clculo del factor es efectuado ex-post de la estimacin de los parmetros del
modelo principal (), es decir, ha sido calculado con estimadores que no son eficientes. Un
algoritmo de optimizacin que pretenda corregir este defecto podra consistir en una rutina de
clculo: primero se estima los parmetros del modelo principal (), luego se calcular el
coeficiente de autocorrelacin , conociendo este factor se procede a transformar las variables
(yt,xt) y calcular "eficientemente" los coeficientes de ese modelo (). Una vez que se tienen los
"eficientes" se vuelve a nuestro modelo original y se calculan los errores (ut) para volver a
calcular el factor de autocorrelacin (). Este proceso se repite hasta que la diferencia entre los
parmetros calculados sea mnimas (el investigador determinar el criterio de convergencia).
Sin embargo, aun subsanando la eficiencia de los estimadores, se est incurriendo en un error
que aunque asintticamente no produce un efecto importante, s lo es en el caso de muestras
pequeas. Nos estamos refiriendo a la eliminacin de la primera observacin para las variables
y*t y x*t. No es difcil determinar que es imposible su clculo para las observaciones y1 y x117.
16
El algoritmo de scoring utiliza la propiedad de que la esperanza matemtica de la matriz hessiana de la funcin
de verosimilitud (la matriz de informacin cambiada de signo) tiene una expresin analtica ms sencilla que la
propia matriz de segundas derivadas. Para una revisin intuitiva de la forma en que operan estos algoritmos, el
investigador puede revisar el anexo al final de este captulo.
17
Una alternativa para evitar la eliminacin de estas variables consiste en determinarlas de la siguiente manera:
y *1 = ( 1 2 ) y1 o bien x *1 = ( 1 2 ) x 1
284
Frente a esto, la estimacin por mxima verosimilitud ofrece una alternativa bastante
interesante para realizar las estimaciones de todos los parmetros involucrados en el modelo.
Para esto se asumir que los errores que se obtienen de regresionar ut contra su rezago se
distribuyen normalmente, esto es: t N (0, 2 ) . Reemplazando esto en la funcin de
verosimilitud se obtiene:
n 2

n/2

i
exp i =1 2
1
L= 2
( 2) 2

luego, haciendo las respectivas sustituciones, y diferenciando el valor que toma la primer
observacin, obtiene:
ln L =
1
2
[
ln(2) + ln 2 ln(1 2 )
1 2
2 2
]
( y1 x1 ) 2
n 1
2
ln(2) + ln 2 [ ]
1 n
- 2 [( y t y t 1)( x t x t 1 )]

2 t = 2
Las condiciones de primer orden estaran dadas de la siguiente manera:
ln L n
x
1
= 2

t i
i =1
donde los errores estn definidos como:
1 = 1 2 ( y 1 x 1 )
t = ( y t y t 1 ) ( x t x t 1 ) ; para t=2,..,n
estas son el resto de condiciones de primer orden:
ln L n

n 1
= + 2
t
2 2 2 2 4 i =1
ln L 1 n
u 12

=
2
i=2
t u t 1 +
2

1 2
Ahora bien, se tiene la opcin de realizar un algoritmo de bsqueda. Esto implicara que la
computadora le vaya asignando valores a que se encuentre en el rango [ 1,1] y para cada uno
de estos valores se calcula . Los valores ptimos son aquellos que logren maximizar la
funcin log-verosmil. Sin embargo, tambin se puede utilizar un algoritmo de optimizacin, lo
cual representa un mtodo ms eficiente que el anteriormente mencionado. Para esto es
necesario calcular su matriz de informacin. Este es el resultado al que se llegara:
285

(1 / )X X
2
0 0

I(, 2 , ) = 0 n /( 2 4 )
2 (1 2 )
n2 1+ 2
0 +
(1 2 )
2
1 2 (1 2 ) 2
Sin embargo, en el caso en que se hubiese ignorado la primera observacin, la matriz de

informacin sera mucho ms sencilla:

(1 / 2 )X X 0 0

I(, 2 , ) = 0 n /(2 4 ) 0
n 1
0 0
1 2
1 2
Tal como se puede observar, en este caso la varianza del factor de autocorrelacin, ,y
n 1
2 4
de la varianza de 2, , se estima independientemente de la varianza de los parmetros del
n
modelo original; por este motivo la estimacin de , de y de 2 se realiza de forma
independiente. Es necesario recalcar que la conveniencia o no de incluir la primera observacin
depende del tamao de la muestra. Esta observacin no es relevante asintticamente hablando.
Sin embargo, puede acarrear problemas para muestras chicas. Incluso podra darse el caso en
que el valor que alcanzase el factor de autocorrelacin estuviese fuera del rango que se podra
esperar [ 1,1] .
El empleo del mtodo de mxima verosimilitud en el caso de presencia de autocorrelacin de

segundo o mayor orden es bastante complicado por lo que no es muy utilizado. Los paquetes
economtricos utilizan algoritmos y mtodos ms apropiados (tales como los algoritmos de
Beach y MacKinon18) que no sern tratados al detalle en este libro; sin embargo, el lector
interesado puede revisar la bibliografa.
18
Beack, N. y J. MacKinnon. "Full Maximun Likelihood Estimation of Second-Order Autoregressive Error Models",
Journal of Econometrics, 7, 1978, pp 187-198.
286
CAPITULO 9
MULTICOLINEALIDAD
9.1. DEFINICIN DEL PROBLEMA
Barrie Wetherill distingue dos tipos de problemas al aplicar el modelo clsico de regresin
lineal: aquellos relacionados a la especificacin del modelo y las perturbaciones y aquellos
relacionados a los supuestos sobre la informacin. El problema de la multicolinealidad est
referido a este ltimo y surge al violar los supuestos que establecen que los regresores incluidos
en el modelo son independientes, que el nmero de observaciones debe ser mayor al nmero de
regresores y que debe existir suficiente variabilidad en los valores de estos ltimos.
Recordemos que uno de los supuestos del Modelo Lineal General implica que la matriz de
regresores (X) tiene rango completo e igual a k, donde k es el nmero de regresores o variables
independientes. Este supuesto garantiza que las columnas de X sean linealmente independientes
o, lo que es lo mismo, que los regresores involucrados no presenten una alta correlacin. Si el
nmero de observaciones fuese menor que el nmero de regresores involucrados (n<k),
entonces la matriz X no puede tener rango completo1 y se estara violando uno de los supuestos
del Modelo Lineal General. Sabemos que MCO = (XX)-1Xy. Si el nmero de observaciones
(n) es menor que el nmero de regresores, entonces el determinante de (XX) es cero2 por lo
que (XX)-1 es indeterminado y, por lo tanto, MCO no existe.
1
El rango de una matriz se define como:
Rango(A) min(nmero de filas, nmero de columnas)
En este sentido, si el nmero de observaciones fuese menor que el nmero de regresores, el rango de la matriz X sera
menor a k.
2
El determinante de una matriz es distinto de cero slo si sta tiene rango completo, esto es, que los vectores que la
conforman son linealmente independientes. Pensemos en el determinante de una matriz de 2x2 como el rea del
parelelograma que se formara a partir de los vectores de dicha matriz. Si las columnas de esta matriz fueran
linealmente dependientes, ambos vectores caeran dentro de una misma lnea por lo que dicho paralelograma
Econometra Moderna Multicolinealidad
La colinealidad est referida a la existencia de una sola relacin lineal entre las variables
explicativas y, por lo tanto, la multicolinealidad se refiere a la existencia de ms de una relacin
lineal. Es importante anotar que la multicolinealidad se refiere slo a relaciones lineales entre
las variables independientes y no a cualquier otro tipo de relacin, as pues, si xi = xj2, entonces
no existir multicolinealidad en el modelo. El problema de la multicolinealidad est definido
por el alto grado de intercorrelacin entre variables explicativas. Dentro de las violaciones de
los supuestos del modelo lineal general, la multicolinealidad es un problema de grado y no
terico como la heterocedasticidad o la autocorrelacin, ms an, los estimadores obtenidos
bajo multicolinealidad, conservan las propiedades que los define como MELI.
En 1934, Ragnar Frisch introdujo por primera vez este trmino, refirindose a una situacin
en la que las variables que se trataban estaban sujetas a dos o ms relaciones. l adjudic el
problema a errores en las variables y ste radicaba en la dificultad para estimar las diferentes
relaciones lineales entre las variables verdaderas. Es decir, originalmente, la multicolinealidad
se atribua slo a la existencia de una relacin perfecta o exacta entre las variables
independientes de un modelo economtrico. Se sabe que un conjunto de vectores es linealmente
dependiente si existe al menos una combinacin lineal de ellos que es no trivial.3
En la actualidad, y tal como se mencion anteriormente, se asume que este problema no es

terico sino de grado. En otras palabras en todo modelo economtrico tender a presentarse este
problema, slo que en algunos casos la severidad del problema ser mayor. En este sentido, el
grado, se refiere a la severidad de la correlacin entre las variables explicativas, as pues, la
correlacin entre una o ms variables independientes puede ser perfecta (si, por ejemplo, x1 =
ax2) o puede ser menos que perfecta (o imperfecta) (si x1 = ax2 + ni , donde ni es un trmino de
error estocstico). En trminos generales se puede afirmar que para el caso de series de tiempo,
y ms especficamente de series econmicas, siempre se tendr un grado relativamente alto de
multicolinealidad. Obsrvese la siguiente tabla:
AO PBI PBIPC PBIPCM

1988 1100 11 10.73397401
1989 1200 12 11.83209893
1990 1300 13 13.12691507
1991 1400 14 13.98190954
1992 1500 15 14.39807322
1993 1600 16 15.91166607
1994 1700 17 17.81305959
1995 1800 18 16.12831142
1996 1900 19 19.31642334
1997 2000 20 18.21723033
En la segunda columna se tiene el PBI de un pas con una economa en crecimiento, en la

tercera, el PBI per cpita, asumiendo que la poblacin de dicho pas permanece constante e
igual a 100. Como se observa, la relacin lineal entre el PBI y el PBI per cpita es perfecta
(PBIPC = PBI/100). En la cuarta columna, se tiene el PBI per cpita pero afectado por un
trmino estocstico que afecta la relacin lineal perfecta que s exista en la columna anterior.
colapsara y su rea sera igual a cero. Este ejercicio puede replicarse en R3, slo que este caso el determinante de la
matriz sera igual al volumen del slido que formaran los tres vectores.
3
Dado un conjunto de k vectores {x1,,xn} en el espacio vectorial X (que en este caso es la matriz de observaciones
correspondientes a las variables explicativas), una combinacin lineal de ellos es cualquier suma de mltiplos
escalares arbitrarios de dichos vectores:
1x1 + 2x2 + + kxk en X con 1, 2, ,k escalares
Observar que si tenemos una combinacin lineal igual al vector nulo, donde todos los escalares son cero, sta es
trivial.
266
Al analizar la matriz de correlacin para estas tres variables, y teniendo en cuenta los
valores de la misma4, se nota que la correlacin entre estas variables es muy alta:
PBI PBIPC PBIPCM

PBI 1 1 0.959027
PBIPC 1 1 0.959027
PBIPCM 0.959027 0.959027 1
Se puede concluir entonces que si PBI y PBIPC fuesen empleadas como variables
explicativas de un modelo, los estimadores de los parmetros asociados a tales variables no
podran ser hallados, pues la correlacin entre stas es perfecta. Sin embargo, si el modelo
presentase a la variable PBIPCM, existira an el problema de multicolinealidad, pero ya no en
forma perfecta. Por tanto, la estimacin sera posible, sin embargo, los resultados no seran
fiables debido a que la correlacin entre las variables PBI y PBIPCM es an muy alta.
Todo esto puede ser enfocado bajo el diagrama de Ballentine, en el cual se consideran tres
conjuntos, uno para la variable dependiente (y) y otros dos para las independientes (x2 y x3).
Supongamos que se quiere explicar el bienestar econmico de un pas en funcin el PBI y al
PBI per cpita, entonces, se tiene un modelo como:
Y = b1 + b2x2 +b3x3 + u
donde:
- Y = Indicador de bienestar.
- x2 = PBI
- x3 = PBI per cpita.
Como se ver ms adelante, si la variable para explicar el PBI per cpita fuese PBIPC, al
menos uno de los estimadores no podra ser hallado, pero s se podran hallar todos si se
empleara PBIPCM dado que la correlacin entre PBI y sta no es perfecta. Llevando este
anlisis al diagrama de Ballentine, se tienen tres posibles estados:
No existe colinealidad Existe colinealidad alta
4
Recordemos que los valores del coeficiente de correlacin oscilan entre 1 y -1, indicando estos extremos una
correlacin perfecta (directa e inversa respectivamente), y valores en la vecindad de stos una correlacin severa.
267
Existe colinealidad perfecta
Como se observa en los tres diagramas, existe una relacin entre las variables explicativas y
la explicada. Dicha relacin es imprescindible si es que las variables independientes son
relevantes (es decir que s explican a la variable dependiente), tal relacin est representada por
las intersecciones de Y con x2 y x3 . Adems, puede existir una relacin entre las variables
independientes, representada por la interseccin de x2 con x3. Si dicha interseccin no existe,
entonces no existe correlacin entre las explicativas y no hay colinealidad. Si, por el contrario,
dicha relacin existe entonces s hay multicolinealidad. sta, a su vez, puede ser menos que
perfecta (tal como se indica en el segundo grfico) o perfecta (tal como se indica en el tercer
grfico, representada por el conjunto incluido x3).
Las posibles fuentes de multicolinealidad son cuatro principalmente5 :
El mtodo de recoleccin de informacin empleado

Restricciones sobre el modelo o en la poblacin que es objeto de muestreo
Especificacin del modelo
Un modelo sobredeterminado6
9.2. QU IMPLICA LA MULTICOLINEALIDAD ?
En esta seccin analizaremos las consecuencias de trabajar con regresores

colineados sobre los estimadores obtenidos bajo Mnimos Cuadrados Ordinarios.
Primero se ver el caso de multicolinealidad perfecta y luego el de la multicolinealidad
imperfecta pero severa.
9.2.1 Multicolinealidad perfecta
Supngase el siguiente modelo:
Y = b1 + b2X2 + b3X3 + u
que en desviaciones sera de la forma:
5
En Introduction to Linear Analysis. Douglas Montgomery y Elizabeth Peck.
6
Un modelo es sobredeterminado cuando tiene ms variables explicativas que observaciones.
268
y = b2x2 + b3x3 + u
Matricialmente:
y1 x12 x13
y x23
2 = x 22 b2
! ! ! b
3

yn xn 2 x n3
1
2 x12 " x n 2 x12 x13 x12 " x n2 y1
= !
! !

3 x13 " x n 3 xn 2 x n3 x13 " xn 3 y n
# %%%%% %$%%%%% %&
x' x
n 2 n

xi 2 x i 2 xi 3
x' x = n 1 1
n

x i 2 x i 3 xi23
1 1
Para analizar el caso de multicolinealidad perfecta, supongamos que x2 = ax3, entonces:
2 n 2 n

a x 3 a x 32
x ' x = n1 n
1

a x2 2
1
3 1 x 3
x ' x = a 2 * ( x 32 ) 2 a 2 * ( x 32 ) 2 = 0
Con lo que se concluye que (xx)-1 es indeterminado y bMCO no se puede estimar.
Adems, bajo estas condiciones, la varianza de los estimadores sera infinita:
269
2 x 32
Var ( 2 ) =
x22 x32 ( x2 x3 ) 2
En este caso, X2 = a X3
2 x 32
Var ( 2 ) = =
(
x32 ) (
x32 )
2 2
a2 a2
Consecuentemente, los errores estndar de los coeficientes de regresin tambin sern

infinitos.
Como se ha demostrado, en el caso de la multicolinealidad perfecta no es posible hallar una

solucin nica para los coeficientes de regresin individual pero s se puede obtener una
solucin nica para combinaciones lineales de estos coeficientes. As pues, en el caso anterior:
Y = b1 + b2X2 +b3X3 + u
Y = b1 + b2aX3 +b3X3 + u
Y = b1 + (b2a + b3) X3 + u
Y = b1 + b4 X3 + u
en donde b4 = b2a + b3
se podr estimar tanto b1* como b4* bajo el mtodo convencional de MCO pero no se podr
descomponer b4* en sus componentes combinados linealmente b2 y b3. Esto, a no ser que se
tenga informacin adicional como el b2* (o el b3*) obtenidos de otra regresin, por ejemplo.
Esto es lo que se conoce como la solucin gracias a la posesin de informacin a priori para
eliminar el problema de multicolinealidad.
9.2.2 Multicolinealidad severa
En este caso, dado que se conserva el supuesto de perturbaciones esfricas7, los estimadores
de los parmetros de regresin sern MELI. Entonces, dnde radica el inconveniente de
trabajar con un grado relativamente alto de multicolinealidad? Al respecto, no debemos olvidar
la estrecha relacin que existe entre la multicolinealidad y la escasez de observaciones.
El nico efecto de la multicolinealidad tiene que ver con la dificultad de obtener los
coeficientes estimados con errores estndar pequeos. Sin embargo, el mismo problema
se tiene al contar con un nmero reducido de observaciones o al tener variables
independientes con varianzas pequeas (...) Por lo tanto la pregunta qu se debe
hacer acerca de la multicolinealidad? es similar al interrogante qu se debe hacer
si no se tienen muchas observaciones? A este respecto, no se puede dar una respuesta
estadstica.8
7
El supuesto de perturbacin esfrica considera que : E (ui) = 0 y que E (uu) = 2I
8
Christopher H. Achen, Interpreting and Using Regression, 1982.
270
La obtencin de estimadores MELI, a pesar de la presencia de multicolinealidad, no es razn

suficiente para no considerar las consecuencias prcticas de este problema. As, en los casos de
multicolinelidad imperfecta pero severa es probable detectar las siguientes consecuencias:
Los estimadores MCO presentarn varianzas y covarianzas grandes, lo que hace difcil su
estimacin precisa.
Debido a lo anterior, los intervalos de confianza sern ms amplios por lo que se tender a
aceptar ms fcilmente la hiptesis nula de cero.
A pesar de lo anterior, el R2 como medida global de la bondad de ajuste puede tener valores
altos.
Los estimadores MCO y sus errores estndar pueden ser bastante sensibles a pequeos
cambios en la informacin de la muestra.
Pasemos ahora a analizar ms de cerca cada una de estas consecuencias.
i) Varianzas y covarianzas grandes
Consideremos un modelo que involucra slo dos variables independientes. Al respecto,

sabemos que la varianza del primer estimador MCO puede expresarse de la forma:
2
Var (' 1 ) =
x 2 1i (1 r 212 )
y a la covarianza entre ste y el segundo estimador:
r12 2
Cov (' 1 , ' 2 ) =
(1 r 2 12 ) x 21i x 2 2i
donde r12 es el coeficiente de correlacin entre las variables X1 y X2. A partir de las relaciones
planteadas anteriormente, se observa claramente que a medida que el coeficiente de correlacin
entre las variables independientes aumenta, ambas medidas toman valores cada vez ms altos.
En el caso extremo de colinealidad perfecta, donde el coeficiente de correlacin es igual a uno,
tanto la varianza como covarianza de los estimadores tiende a infinito. Esta consecuencia se
aprecia claramente si planteamos la varianza del estimador MCO en trminos matriciales:
2 ' = ( X' X) 1 2
Ya sabemos que cuando una de las columnas de la matriz X puede expresarse como una
combinacin lineal de otra columna (esto es, que una de las variables independientes est
colineada con otra) esta matriz no posee rango completo por lo que su determinante sera igual
a cero, ocasionando que la varianza y covarianzas de los estimadores sean infinitas.
Con el fin de analizar esta consecuencia con algo ms de detalle, Gujarati9 plantea un
indicador denominado el factor inflador de varianza (FIV) definido como:
9
Damodar N. Gujarati, Econometra (tercera edicin, 1997)
271
1
FIV =
(1 r 2 12 )
Este factor muestra la forma como la varianza del estimador MCO es inflada por la
presencia de multicolinealidad. Evidentemente, a medida que el coeficiente de correlacin entre
las variables explicativas X1 y X2 se acerque a uno, el FIV tender a infinito. Por otro lado, de
no existir colinealidad entre X1 y X2, el FIV ser igual a uno.
Partiendo de la definicin del FIV, podemos replantear la varianza del estimador MCO de la
forma:
2
Var (' 1 ) = FIV
x 21i
lo cual demuestra de la varianza del estimador es directamente proporcional al FIV.
ii) Intervalos de confianza ms amplios
Debido a la presencia de errores estndar altos, los intervalos de confianza para los
parmetros poblacionales tienden a ser ms grandes. Por consiguiente, en casos de alta
multicolinealidad, la probabilidad de aceptar hiptesis falsas (Error tipo II) aumenta ya que la
muestra resulta compatible con un diverso nmero de hiptesis. En otras palabras, para un nivel
de confianza de 95%, por ejemplo, el rango de valores entre los cuales puede fluctuar el
parmetro poblacional se ve incrementado de manera directamente proporcional al error
estndar del estimador. Para verificar esto, comparemos dos distribuciones distintas para los
parmetros, tal como se presenta en el siguiente grfico. Para un mismo nivel de confianza
(95%), los valores crticos de determinada prueba de hiptesis difieren para ambas
distribuciones. Para aquella con mayor varianza, los valores crticos (t-crtico2) se encuentran
ms alejados de la media por lo que resultar ms probable, en este caso, aceptar la hiptesis
nula dado el valor para el t-calculado.
272
iii) Estadsticos t poco significativos y un R2 alto
Para confirmar esto, vasta revisar el planteamiento de los estadsticos t de significacin

individual:
' 1
t=
'
1
Evidentemente, ante un aumento considerable en el error estndar del estimador el

estadstico t se vera reducido, aumentando la probabilidad de aceptar la hiptesis nula de que
el verdadero parmetro poblacional es igual a cero.
Sin embargo, y a pesar de lo anterior, de existir un alto grado de multicolinealidad entre los
regresores, ser frecuente encontrar un R2 alto para la ecuacin de regresin. Ante esto ser
factible, y sobre la base de la prueba F de significacin conjunta, rechazar la hiptesis de que
1 = 2 =... = k = 0
A pesar de la influencia del alto grado de colinealidad sobre la varianza de los estimadores
y, por tanto, sobre las pruebas de significacin individual (que nos lleva a aceptar la hiptesis
de que los regresores incluidos son poco significativos), la presencia de un alto R2 nos indica
que, en conjunto, los regresores elegidos son significativos y, por tanto, relevantes para explicar
el comportamiento de la variable independiente. Esta conclusin resulta de especial
importancia si tomamos en cuenta el objetivo de nuestro modelo. Evidentemente, en un modelo
cuyo objetivo es conocer la sensibilidad de la variable dependiente ante cambios en los
regresores resultar importante determinar con relativa exactitud los valores de cada uno de los
coeficientes involucrados. Segn esto, un modelo que presenta un alto grado de colinealidad no
sera el ms indicado ya que este problema conduce a grandes errores estndar en los
estimadores. Por otro lado, si el objetivo de nuestro modelo es predecir el comportamiento de la
variable dependiente para periodos fuera del intervalo muestral, la multicolinealidad puede ser
obviada. En este caso, lo que nos interesa es que los regresores incluidos, en conjunto, nos
ayuden a modelar en comportamiento de la variable dependiente. Tal como se indic
anteriormente, a pesar de la presencia de pruebas-t poco significativas, es factible encontrar
modelos con un R2 elevado, lo que nos llevara a concluir que el modelo estimado es lo
suficientemente robusto como para realizar predicciones de la variable de inters. Sin embargo,
lo anterior slo puede ocurrir siempre y cuando los valores de las variables independientes
obedezcan a las mismas relaciones lineales halladas para el intervalo muestral. Por ejemplo, si
en una regresin estimada se encuentra que X2 = 2X3, en una muestra futura utilizada para
pronosticar Y, X2 tambin deber ser aproximadamente igual a 2X3.
La presencia de estadsticos t poco significativos y un R2 alto puede verificarse ms

claramente desde un punto de vista geomtrico. Consideremos para esto el siguiente ejemplo:
Ejemplo10
Consideremos una regresin donde se pretende estimar el consumo de una familia a partir de
su ingreso y su riqueza. Sobre la base de informacin hipottica se obtuvieron los siguientes
resultados:
10
Damodar N. Gujarati, op. cit, pp 328-329
273
Yi = 24.7747 + 0.9415 X 2i 0.0424 X 3i

(6.7525) (0.8229) (0.0807)
Variable Estadstico t
Intercepto 3.6690
X2i 1.1442
X3i -0.5261
R-cuadrado 0.9635
Los resultados de la regresin muestran que el ingreso y la riqueza explican

conjuntamente alrededor del 96% de las variaciones en el consumo. Sin embargo, ninguno
de los coeficientes de las variables involucradas es estadsticamente significativo. Ms an,
no slo la variable riqueza no resulta significativa sino que el signo del coeficiente asociado
a esta variable es contrario al esperado. Evidentemente, es de esperar que las variables
involucradas presenten un alto nivel de colinealidad, especficamente, se debera esperar una
relacin positiva entre el consumo y la riqueza. Verifiquemos ahora estas conclusiones
desde un punto de vista geomtrico. Si establecemos intervalos de confianza11 para 2 y
3 notaremos que ambos incluyen el valor de cero. Por tanto, resulta factible que,
individualmente, se acepte la hiptesis nula de que los parmetros son iguales a cero. Sin
embargo, al construir el intervalo de confianza conjunto para la hiptesis 2 = 3 = 0
(dado por la elipse), resulta evidente que esta hiptesis no puede ser aceptada ya que este
intervalo no incluye el origen.
11
Los intervalos de confianza para cada coeficiente se construyen a partir del siguiente planteamiento:
[
' t tab se(' ) ]
274
iv) Sensibilidad de los estimadores y sus errores estndar ante pequeos cambios en la
muestra
Siempre y cuando la multicolinealidad no sea perfecta, es posible la estimacin de los

coeficientes de regresin. Sin embargo, los estimadores y sus errores estndar se tornan muy
sensibles ante cambios en la informacin contenida en la muestra. Para verificar esto,
consideremos el siguiente ejemplo:
Ejemplo
Consideremos una regresin donde las variables independientes registran un alto grado de
colinealidad. Especficamente, el coeficiente de correlacin entre X1 y X2 asciende a 0.9998.
Comparando los resultados de ambas regresiones notaremos que al incluir en la muestra 10
observaciones adicionales, se registra un drstico cambio en el valor de los coeficientes
involucrados. Por otro lado, resulta interesante comprobar que para ambas regresiones, si bien
los estadsticos t resultan poco significativos, en la prueba de significacin conjunta se rechaza
la hiptesis nula. Tal como se indic anteriormente, la presencia de un alto grado de
multicolinealidad no permite estimar de un modo preciso los coeficientes de regresin
individuales pero que, en conjunto, los regresores incluidos s explican adecuadamente a la
variable dependiente. En otras palabras, resulta factible estimar las combinaciones lineales de
estos coeficientes con relativa exactitud. En este sentido, resulta importante comprobar que la
suma de los coeficientes para ambas regresiones arrojan valores muy similares (1.0873 v.s.
1.0499).
Sample: 1 90
C 0.404438 0.113068 3.576963 0.0006

X1 -0.539482 5.167992 -0.104389 0.9171
X2 1.626773 5.190419 0.313418 0.7547

Sample: 1 100
C 0.433715 0.107205 4.045670 0.0001

X1 0.340541 5.098772 0.066789 0.9469
X2 0.709403 5.118200 0.138604 0.8901
275

9.3. CMO DETECTAR LA MULTICOLINEALIDAD?
Existen diversos indicadores y mtodos para constatar la existencia de este problema, los
ms tiles son:
9.3.1 R2 alto y t* bajos
Este es uno de los indicadores ms empleados para justificar la existencia de este problema
ya que es considerado como un sntoma clsico. Si el coeficiente de determinacin es alto, se
podra afirmar que el nivel de significancia es bueno, es decir, que las variables independientes
explican a la dependiente con un grado de ajuste bastante alto (R2 alto: R2 > 0.8). Bajo estas
circunstancias, el estadstico F indicar que no todos los coeficientes de regresin sern cero a
la vez, pues con el coeficiente de determinacin se concluy que las explicativas eran
relevantes. Sin embargo, la existencia de t bajos indica que se aceptarn las hiptesis de nulidad
de los regresores para varias explicativas consideradas individualmente, contradiciendo los
resultados anteriores.
Aunque este diagnstico es razonable, su desventaja es que es demasiado fuerte, en el

sentido de que la multicolinealidad se considera daina, nicamente cuando la totalidad de las
influencias de las variables explicativas sobre Y no se pueden separar12
9.3.2 Altas correlaciones entre los regresores
Si el coeficiente de correlacin simple, de orden cero, o entre dos regresores, es alto (mayor
a 0.8) entonces, la multicolinealidad constituye un problema grave. Sin embargo, esta
correlacin no es imprescindible para que exista multicolinealidad fuerte. Las correlaciones de
orden cero elevadas son una condicin suficiente pero no necesaria para la existencia de
multicolinealidad debido a que sta puede existir a pesar de que dichas correlaciones sean
comparativamente bajas (menores a 0.5). En los modelos que involucran ms de dos variables
independientes, el coeficiente de correlacin simple no proporciona una gua infalible sobre la
presencia de multicolinealidad. Sin embargo, si slo existen dos variables independientes y
estn correlacionadas, es obvio que este indicador ser suficiente.
9.3.3 Test de Farrar Glauber
A pesar de que la prueba de Farrar Glauber ha sido criticada por economistas como T.
Krishna Kumar, John OHagan y Brendan McCabe, esta es una de las ms completas y
fidedignas para detectar multicolinealidad grave en un modelo de regresin, sobre todo si ste
consta de ms de dos variables explicativas.
12
Jan Kmenta, Elements of Econometrics.
276
Este test consta de tres etapas:
2):
i) Test de Ortogonalidad (
En esta etapa se busca evaluar la ortogonalidad de las variables independientes. Si el

resultado de la evaluacin arroja que se rechaza la hiptesis de existencia de ortogonalidad,
entonces se aceptar la posibilidad de existencia de multicolinealidad y se pasa a la segunda
etapa.
H0 : las X son ortogonales.

H1 : las X no son ortogonales.
El estadstico relevante para esta etapa del test se construye a partir de la siguiente relacin:
(2 k + 5)
2 calc = n 1 * ln ( valor del determinante estandarizado)
6
2calc 2 (k(k-1))/2 g.l.
donde:
2calc : es el valor estimado de 2
n : es el tamao de la muestra
k : es el numero de variables asociadas a pendientes (sin incluir el
intercepto)
Para hallar el determinante estandarizado se construye la matriz de correlacin. Para tres

variables explicativas, por ejemplo, la matriz de correlacin vendra dada por:
1 rx 2 x 3 rx 2 x 4
R = rx 3x 2 1 rx 3x 4
rx 4 x 2 rx 4 x 3 1
|R| = valor del determinante estandarizado
Si 2calc > 2 tabla se rechaza el supuesto de ortogonalidad, se acepta que los X no son
ortogonales.
Si 2calc < 2 tabla se acepta el supuesto de ortogonalidad.
Mientras ms alto sea el 2 estimado, ms severo ser el grado de la multicolinealidad entre

las variables explicativas.
ii) Test F:
En esta segunda etapa, luego de haber detectado que las variables predeterminadas no son
ortogonales, se regresiona cada explicativa contra el resto de independientes para ver cul de
stas est ms colineada conjuntamente con las dems.
Se observa el coeficiente de determinacin de cada regresin y se selecciona aquella

variable explicativa que, tras haber sido regresionada con las dems en conjunto, arroje el F
estimado ms alto.
277
x2 = f (x3,...,xk) R2x2 . x3, x4, ..., xk

x3 = f (x2,x4...,xk) R2x3 . x2, x4, ..., xk
y as hasta xk
H0 : R2xi . x2,x3, x4, ..., xk = 0

H1 : R2xi . x2,x3, x4, ..., xk 0
R 2 x i . x 2 , x 3 , x 4 , ... , x k / (k - 1)
Fi = F(k-1, n-k)
(1 - R 2 x i . x 2 , x 3 , x 4 , ... , x k ) / (n k)
Si Fi > Ftabla se acepta la hiptesis alternante, es decir que la variable xi est colineada con
las dems explicativas.
Si Fi < Ftabla se acepta la hiptesis planteada, entonces la multicolinealidad no existe.
Conociendo el F ms alto y contrastndolo contra el valor en tablas, se sabr cul es la

relacin dominante entre las variables explicativas.
iii) Test t:
En esta ltima etapa se hallan los coeficientes de correlacin parcial para conocer con cual
variable explicativa est ms relacionada la variable seleccionada en la etapa anterior.
H0 : rxixj . x2,x3, x4, ..., xk = 0

H1 : rxixj . x2,x3, x4, ..., xk 0
r x i x j . x 2 , x 3 , x 4 , ... , x k n-k
t= t( n-k)
(1 - rx i x j . x 2 , x 3 , x 4 , ... , x k )
Si t > t tabla se acepta la hiptesis alternante, entonces la multicolinealidad es alta.

Si t < t tabla se acepta la hiptesis planteada, es decir que la variable xi no est colineada con
la variable xj entonces, se puede convivir con multicolinealidad.
9.4. QU HACER FRENTE A LA MULTICOLINEALIDAD?
Las siguientes son algunas de las soluciones al problema de multicolinealidad.
9.4.1 Regresin por cordillera
Una de las soluciones que se emplea con ms frecuencia para curar el problema de la
multicolinealidad es el uso de la regresin por cordillera. En trminos generales, la idea
consiste en aadir una constante () a las varianzas de las variables explicativas (es decir, a los
278
elementos de la diagonal de la matriz XX) antes de resolver las ecuaciones normales de modo
que las intercorrelaciones se reducen.
Ejemplo:
Para entender la aplicacin del mtodo de regresin por cordillera, se har uso del siguiente
programa:
!"
Programa 9.1
workfile cordillera u 100
genr x1=nrnd
genr x2= x1+nrnd/1000
genr y = x1 + x2+ nrnd/5
equation eq1.ls y x1 x2 c
smpl 1 99
equation eq2.ls y x1 x2 c
smpl 1 100
matrix (100,3) mtx
genr c1=1
group g1 c1 x1 x2
stom(g1,mtx)
matrix (3,100) mtxt=@transpose(mtx)
matrix (3,3) mtxx = mtxt*mtx
matrix (100,1) mty
stom(y,mty)
matrix (3,1) mtxy =mtxt*mty
matrix (3,1) mtb0 = (@inverse(mtxx))*mtxy
vector v1=@rowextract(@columnextract (mtxx,3),2)
mtos(v1,s23)
mtos(v2,s22)
mtos(v3,s33)
smpl 1 1
genr r23=(s23*s23)/(s22*s33)
smpl 1 100
scalar l1=0.05
scalar l2=0.5
scalar l3=1.5
scalar l4=5
scalar l5=7.5
scalar l6=10
scalar l7=20
matrix (3,3) matri = @identity(3)
for !x=1 to 7
matrix (3,3) sum{!x} = l{!x}*matri
matrix (3,3) cord{!x} = mtxx+sum{!x}
matrix (3,1) mtb{!x} = (@inverse(cord{!x}))*mtxy
vector v1{!x}=@rowextract(@columnextract (cord{!x},3),2)
279

mtos(v1{!x},s23{!x})
smpl 1 1
genr r23{!x}=(s23{!x}*s23{!x})/(s22{!x}*s33{!x})
smpl 1 100
next
!"
Resultados
Sample: 1 100
X1 -29.18545 24.22895 -1.204569 0.2313

X2 31.16150 24.23263 1.285931 0.2015
C -0.020095 0.024123 -0.833029 0.4069

Sample: 1 99
X1 -37.74754 24.79090 -1.522637 0.1311

X2 39.72551 24.79477 1.602173 0.1124
C -0.024270 0.024152 -1.004866 0.3175

Como se observa, el programa genera series colineales (x1 y x2) y corre dos regresiones:
una con todos los elementos del espacio muestral y otra con un elemento menos. Al analizar los
resultados y comparar los coeficientes de los regresores, se aprecia un cambio drstico en la
magnitud de los mismos, esto es un sntoma evidente de la existencia de la multicolinealidad.
As mismo, los altos coeficientes de determinacin en ambas regresiones indican que la bondad
de ajuste es buena, de igual manera, el test de probabilidad conjunta (F) indica que se rechaza
la hiptesis de nulidad conjunta de los coeficientes de los regresores; sin embargo los test de
280
probabilidad individual (t) indican que los regresores no son significativos, como ya se explic,
ste es otro sntoma de la existencia de multicolinealidad severa.
Ante este problema, se procede a construir la matriz XX para poder aadir el coeficiente
a la diagonal, as, la matriz original XX para la muestra completa (100 observaciones) es la
siguiente:
MATRIZ XX c x1 x2
C 100 -12.205275 -12.195719
X1 -12.205275 113.252169 113.233954
X2 -12.195719 113.233954 113.215839
Con estos datos, se puede hallar el coeficiente de correlacin entre las variables x1 y x2, que
por los comandos del programa, se sabe, son las variables colineadas13:
2
r23 =
(S 23 )2
S 22 * S 33
r232 =
(113.233953713) 2
= 0.999999136234
113.252169258 * 113.21583889
El resultado obtenido era esperado, pues al ser las variables x1 y x2 colineadas, el coeficiente
de correlacin entre stas debe ser muy cercano a la unidad. Sin embargo, luego de sumar el
coeficiente a la diagonal de XX, los coeficientes de correlacin disminuyen puesto que se
incrementan los factores que componen el denominador de este estadstico. As, si = 5, se
tendr:
2
r23 =
(S 23 )2
( S 22 + 5) * ( S 33 + 5)
r232 =
(113.233953713) 2 = 0.917209529644
(113.252169258 + 5) * (113.21583889 + 5)
Es fcil observar que se trata de una solucin mecnica. A medida que los valores de se
incrementen, el coeficiente de correlacin ir disminuyendo.
=0 () =0.05 =0.5 =1 =5 =7.5 =10 =20

232 0.999999 0.999117 0.991226 0.974023 0.917210 0.879618 0.844291 0.722309
0cordillera 0.020095 0.01781 0.018216 0.019085 0.021924 0.023775 0.025491 0.031210
1cordillera 29.18545 0.95628 0.980678 0.978272 0.964000 0.953698 0.943573 0.905074
2cordillera 31.16150 1.01474 0.986394 0.980078 0.964439 0.953942 0.943721 0.905081
Los estimadores hallados por el mtodo de regresin por cordillera son sesgados, puesto que
se obtienen distorsionando la diagonal de la matriz XX. Referente a este aspecto, cabe
mencionar que la transformacin de la matriz XX puede realizarse de dos modos:
13 La segunda lnea del programa genera una variable aleatoria distribuida como una normal. En seguida, la tercera
lnea genera otra variable igual a la anterior ms una perturbacin poco significativa (observar la divisin entre 1000)
1
[XX + ] X
281
El primero de ellos, que da origen al estimador de regresin por cordillera simple consiste en
seguir el procedimiento detallado en la seccin anterior, es decir sumar un escalar a los
elementos de la diagonal de XX:
cordillera = [XX + ]1XY
donde I es una matriz identidad
El segundo mtodo da origen al estimador por cordillera estricto y consiste en multiplicar

los elementos de la diagonal de la matriz XX por un escalar =1+:
cordillera = [XX + D]1XY
donde D es una matriz diagonal que contiene los elementos de la diagonal de XX
En el ambos casos,. la adicin de a las varianzas produce estimadores sesgados14 pero el

argumento es que si la varianza puede reducirse15, bajar el error cuadrtico medio. Hoerl y
Kennard demuestran que existe siempre una constante >0 tal que
k k
MSE (i * *) < MSE (i*)
i =1 i =1
donde i** son los estimadores de i a partir de la regresin por cordillera, i* los estimadores
MCO y k es el nmero de regresiones. Por desgracia, es una funcin de los parmetros de
regresin y la varianza de error, que son desconocidos. Sin embargo, Hoerl y Kennard sugieren
que se pruebe con diferentes valores de y se elija el valor de modo que el sistema se
estabilice o los coeficientes no tengan valores poco razonables, por tanto, argumentos
subjetivos. Algunos otros han sugerido obtener estimados iniciales de bi y s2 y despus utilizar
el estimado. Es posible iterar este procedimiento y obtener el estimador por cordillera iterado.
La utilidad de este procedimiento tambin ha sido cuestionada.
Otro problema sobre la regresin por cordillera es el hecho de que no es invariante ante las
unidades de medida de las variables explicativas y transformaciones lineales de las variables. Si
se tienen dos variables explicativas x1 y x2 , y x1 se mide en decenas y x2 en millares, no tiene
sentido sumar el mismo valor de a las varianzas de ambas. Es posible evitar este problema si
se normaliza cada variable dividindola entre su desviacin estndar. An s x1 y x2 se miden
en unidades similares, en algunos casos hay diferentes transformaciones lineales de x1 y x2 que
tienen la misma sensibilidad.
Existen situaciones diferentes bajo las cuales la regresin por cordillera surge en forma
natural. Estas permiten entender las circunstancias bajo las cuales el mtodo podr ser til. A
continuacin mencionaremos dos de ellas.
i) Mnimos cuadrados restringidos
Suponga que se estima los coeficientes de regresin sujetos a la condicin de que
14
E [ cordillera] = [XX + ]1XX
15
Var [ cordillera] = 2 [XX + ]1XX[XX + ]1
282

i =1
bi2 = c
entonces se obtendra algo similar a la regresin por cordillera. La que se utiliza es el

multiplicador de Lagrange en la minimizacin. Para observarlo, suponga que se tienen dos
variables explicativas.
Se tiene el estimador de mnimos cuadrados restringidos minimizado:
S(y - b1x1 - b2x2)2 + ( b12 + b22-c)
donde es el multiplicador de Lagrange. Al diferenciar esta expresin con respecto a b1 y b2 e

igualar las derivadas con cero, se obtienen las ecuaciones normales:
2S(y - b1x1 - b2x2)(-x1) +2b1 = 0
2S(y - b1x1 - b2x2)(-x2) +2b2 = 0
Estas ecuaciones pueden escribirse como
(S11 + ) b1 + S12 b2 = S1y
S12b1 + (S22 + )b2 = S2y
en donde S11 = S x12, S12 = S x1x2 , etctera. Por lo tanto, se obtiene la regresin por cordillera y
es el multiplicador de Lagrange. El valor de se decide por el criterio b12 + b22 = c. En este
caso, el procedimiento para elegir es claro.
Rara vez se da el caso en el que se conoce previamente la bi que se encuentra en la forma

Sbi2=c.Pero tambin puede utilizarse alguna informacin menos concreta para elegir el valor de
en la regresin por cordillera. La regresin por cordillera de Brown y Beattie sobre los datos
de la funcin de produccin utiliza el conocimiento previo de las relaciones entre los signos de
las bi .
ii) Interpretacin de los errores de medida
Considrese un modelo de dos variables con mnimos cuadrados restringidos. Supngase

que se aade errores aleatorios con media igual a cero y varianza tanto para x1 como para
x2. Dado que estos errores son aleatorios, no afectan la covarianza entre x1 y x2. Las varianzas
de x1 y x2 se incrementarn en . Por lo tanto, se obtiene el estimador de regresin por
cordillera. Esta interpretacin hace que el estimador por cordillera sea un poco sospechoso.
Smith y Campbell dicen que esta interpretacin se resume en la frase: sense datos menos
precisos para obtener estimados ms exactos.
Estas son situaciones en las que es fcil justificar la regresin por cordillera. En casi todos
los dems casos, se involucra un juicio subjetivo que a veces se equipara con una vaga
informacin previa. Los mtodos bayesianos permiten un anlisis sistemtico de los datos con
una vaga informacin previa.
283
Debido a las deficiencias ya discutidas de la regresin por cordillera, este mtodo no se

recomienda como solucin general al problema de la multicolinealidad. En particular, la forma
ms sencilla del mtodo (donde una constante se agrega a cada varianza) no tiene demasiada
utilidad.
9.4.2 Regresin por componentes principales
Otra solucin que muchas veces se sugiere para el problema de la multicolinealidad es la

regresin por componentes principales. Esta cura implica un procedimiento ms sofisticado
pero a la vez permite una mejor comprensin intuitiva de la solucin al problema de la
multicolinealidad. Supongamos que tenemos k variables explicativas. Entonces es posible
considerar algunas funciones lineales de estas variables:
z1 = a1x1 + a2x2 + + akxk

z2 = b1x1 + b2x2 + + bkxk etc.
Supongamos que los coeficientes que acompaan a los regresores xi (ai) se eligen de modo
tal que la varianza de z1 se maximice, sujeta a la condicin de que
a12 + a22 + + ak2 = 1
Esto se conoce como condicin de normalizacin. (Es necesaria, o de otro modo la varianza
de z1 se elevar en forma indefinida). Se dice entonces, que z1 es el primer componente
principal. Es la funcin lineal de las x que tiene la mayor varianza (sujeta a la regla de la
normalizacin). Lo que se ha hecho hasta esta etapa es generar combinaciones lineales de los
regresores (que originalmente presentaban alta correlacin lineal) que presenten conjuntamente
una dispersin elevada, se maximiza la varianza. Esto se realiza con el propsito de formar
grupos de componentes principales que sern empleados como regresores en lugar de las
variables originales (como estos componentes principales tienen alta varianza, no estarn
correlacionados entre s)
El proceso de maximizar la varianza de la funcin lineal z sujeta la condicin de que el

cuadrado de la suma de los coeficientes de las x es igual a uno, produce k soluciones.
Correspondiendo a esto, se construyen k funciones lineales, z1,z2,zk. Estas se conocen como
componentes principales de las x. Pueden ordenarse de manera que
var(z1) > var(z2) > . . . > var(zk)
z1, la que tiene mayor varianza, se conoce como primer componente principal, z2 es la siguiente
varianza ms grande y se conoce como segundo componente principal, y as sucesivamente.
Estos componentes principales tienen las siguientes propiedades:
1. var(z1) + var(z2) + + var(zk) = var(x1) + var(x2) + + var(xk).

2. A diferencia de las x que estn correlacionadas, las z son ortogonales o no correlacionadas.
Por lo tanto no existe multicolinealidad entre ellas.
A veces se sugiere que, en lugar de regresionar y sobre x1, x2, , xk, deber regresarse
sobre z1, z2, zk. Pero esto no soluciona el problema de multicolinealidad. Si se regresara y
sobre las z y despus se sustituyeran los valores de stas en trminos de las x, al final se
obtendra las mismas respuestas que antes. El hecho de que las z carezcan de correlacin no
significa que se obtendrn mejores estimaciones de los coeficientes en la ecuacin original de
284
regresin. De modo que es vlido utilizar los componentes principales slo si se regresa y sobre
un conjunto de las z. Pero este procedimiento representa tambin algunos problemas. Estos son:
1. El primer componente principal z1, si bien es el que tiene la mayor varianza, no

necesariamente tiene la mayor correlacin con y. De hecho, no necesariamente existe una
relacin entre el orden de los componentes principales y el grado de correlacin con la
variable dependiente y.
2. Es posible pensar en elegir slo aquellos componentes principales que tengan una alta
correlacin con y y eliminar el resto, pero se puede usar el mismo tipo de procedimiento
con el conjunto original de variables x1,x2, , xk si se elige primero la variable que tiene la
mxima correlacin con y, despus la que posee la correlacin parcial ms elevada, y as
sucesivamente; esto es lo que hacen los programas de regresin por pasos.
3. Muchas veces las combinaciones lineales z no tiene significado en trminos econmicos.
Por ejemplo, qu significa 2 (ingreso)+ 3 (precio)? Este es uno de los inconvenientes ms
importantes del mtodo.
4. Al cambiar las unidades de medicin de las x se modificarn los componentes principales.
Es posible evitar este problema si se estandarizan todas las variables para tener una
varianza unitaria.
Derivacin formal de los estimadores generados por componentes principales.
Sea z1 una combinacin lineal de todos los regresores, tal que:

16
z1 = X.c1
Como el coeficiente de determinacin (R2) de la regresin de cualquier columna de X sobre

z1 ser el mismo para cualquier escalar mltiplo de c1, se impone una restriccin para levantar
esta indeterminacin:
z1z1 = 1
Para cada columna (xk) de la matriz de informacin (X), la suma de errores al cuadrado ser
igual a:
ekek = xk[I - z1 (z1 z1)-1 z1]xk17
considerando la restriccin:
ekek = xk[I - z1 z1]xk
Generalizando, para todas las columnas de X, se busca minimizar :
16
La matriz X de orden nxk contiene en cada columna a las observaciones correspondientes a cada una de las
variables explicativas. Uno de los supuestos bsicos del modelo de regresin lineal considera que las k columnas
deben ser linealmente independientes para garantizar la no singularidad de la matriz XX. Sin embargo, generalmente
se tiene menos de k fuentes de informacin verdaderamente independientes, es decir menos fuentes de variacin.
El uso del mtodo de componentes principales es un intento de extraer de la matriz de informacin X aquellas
variables que representen la mayor (o toda) la fuente de variacin de X.
17
x = z
e = x - zMCO
e = x - MCO.z
ee = xx - xz MCO - MCOzx + MCOzz MCO
ee = xx - xz (zz)-1zx - xz(zz)-1zx + xz(zz)-1zz(zz)-1zx
ee = x(I- z(zz)-1z)x
285
K 18
ek ' ek = tr ( X ' (I zk ' zk ) X )
k =1
sujeta a la restriccin ya enunciada. Esto equivale a maximizar el sustrayendo de esta ecuacin,

con lo cual se elabora el siguiente Lagrangiano:
L = tr(Xz1z1X) + (1z1z1)
Permutando la traza y considerando que z1 = x.c1, se deduce que:
L = c1(XX)2c1 + (1c1(XX)c1)19
Ahora que se tiene el Lagrangiano en funcin de c1 se halla la condicin de primer orden
derivando L respecto a c1 (recuerde que lo que se pretende es armar los componentes
principales, que son combinaciones lineales de los regresores ponderados por coeficientes c1,
por ello, se trata de encontrar estos ponderadores):
L 2(XX)2c1 - 2 (XX)c1 = 0
=
c1
(XX)c1 - c1 = 0
((XX) - )c1 = 0
20
(XX) =
Teniendo esto en cuenta se observa que se debe maximizar :
L = c1(XX)2c1 + (1c1(XX)c1) = 2(c1c1) + (1 (c1c1)) pero (c1c1)=1

entonces:
L = 2 + (1 ) =
Por lo tanto, para maximizar el lagrangiano, se debe elegir un vector caracterstico (c1)
asociado a la mayor raz caracterstica (). Con esto se habr obtenido la combinacin lineal de
mayor varianza (el primer componente principal)
Estos pasos pueden ser repetidos en bsqueda de una segunda combinacin lineal de los
regresores originales (columnas de X) teniendo en cuenta el mismo criterio y adems que esta
segundo componente principal debe ser ortogonal al primero.
18
Como se ve, la suma de errores al cuadrado (ekek = xk[I - z1 z1]xk) involucra adems del componente
principal a los elementos de la diagonal de X. Es obvio que para hallar la sumatoria de ekek se debe hallar la traza de
la matriz generada en esta ecuacin puesto que sta (la traza) se define como la suma de los componentes de la
diagonal principal de una matriz.
19
z1 = Xc1
Xz1 = XXc1
z1X = c1XX
tr (Xz1z1X) = tr (XXc1c1XX) = tr (AA) donde A = XXc1
tr (A2) = tr (XXc1)2 = c1(XX)2c1
20
Ya que c1 no puede ser cero puesto que es el vector de coeficientes que estamos buscando.
286
Se pueden armar hasta k componentes principales (k es el nmero de variables contenidas en

la matriz de informacin). Los estimadores por componentes principales se hallan
regresionando la variable dependiente contra un conjunto de componentes principales. Si se
regresiona la explicada versus todos los componentes principales, se obtendrn resultados
equivalentes a regresionar la explicada versus todas las explicativas originales que presentaban
el problema de multicolinealidad. Puesto que los componentes principales son ortogonales, en
la nueva regresin, la multicolinealidad se elimina.
Ahora, que ya se sabe cmo armar los componentes principales, se procede a hallar los
estimados de los coeficientes de regresin:
Suponga que de las k columnas de X se usan L<k componentes principales. Luego se

regresiona y versus XCL (donde CL es una matriz de orden kxL que contiene L vectores
caractersticos, semejantes a c1 de la seccin anterior, de XX) El estimador de la regresin de
la explicada versus los componentes principales es:
z = (ZZ)-1Zy
Ahora bien, si se tiene en cuenta que:
Z = XCL
ZZ = CLXXCL = L
donde L es la matriz cuya diagonal contiene los mayores valores propios (o races
caractersticas) de XX.
Adems:
Zy = (CLX)y = CLXX MCO

y
CLXX = L CL
Reemplazando (Zy) y (ZZ) en z se obtiene que :
z = CL MCO
Por lo tanto, si se emplean L componentes principales, los coeficientes de regresin

estimados por componentes principales (y vs Z) es una combinacin lineal de los coeficientes
de regresin estimados por MCO. (Y vs X)
Al igual que los estimados hallados a travs del mtodo de regresin por cordillera, los de
componentes principales tambin son sesgados:
z = CL MCO
p = CL z
p = CL CL MCO
9.4.3 Eliminacin de variables
287
El problema de la multicolinealidad es, en esencia, la falta de informacin suficiente en la

muestra, que permita una estimacin precisa de los parmetros individuales. En algunos casos,
podemos no tener inters en todos los parmetros; entonces, es posible obtener estimadores
para aquellos parmetros en los que tenemos inters y que tengan errores cuadrticos medios
ms pequeos que los estimadores MCO, mediante la eliminacin de algunas variables.
Consideremos el modelo
y = b1X1 + b2X2 + u (9.1)
y el problema de que x1 y x2 tienen una correlacin muy alta . Supongamos que el inters
principal radica en b1. Entonces eliminamos x2 y estimamos la ecuacin
y = b1X1 + v (9.2)
Sea b1* el estimador de b1 a partir del modelo completo (1) y b1** el estimador de b1 a partir
del modelo con la variable omitida. b1 * es el estimador MCO y b1 ** es el estimador de la
variable omitida. A partir del estimador MCO, sabemos que
E(b1*) = b1
Var (b1*) = s2/(S11 (1 - r122))
Para el estimador de la variable omitida, es preciso calcular E (b1**) y var (b1**). Ahora,
b1** =
x y1
x 2
1
Si se sustituye y a partir de (1), se obtiene:
b1** =
x (
1 x + 2 x 2 + u)
1 1
x 2
1
= b1 + b2 (S12/S11) +
x u 1
S11
Ntese que se utiliz S11 = S x12 y S12 = S x1 x2. Por lo tanto:
E(b1**) = b1 + b2 (S12/S11)
y
var (b1**) = var (

x u )=s
1 2
S11/S112 = s2 /S11
S11
Esto se conoce como estimador ponderado (WTD) y tiene un error cuadrtico medio mnimo
si l=t22/(1+ t22), donde t2 es la relacin t verdadera para x2 en la ecuacin (1). Una vez ms no
se conoce t2 y es preciso utilizar su valor estimado t 2 . Huntsberger fue el primero en sugerir
este estimador ponderado. El estimador de variable condicional omitida fue sugerido por
primera vez por Bancroft. Feldstein estudi el error cuadrtico medio de estos dos estimadores
para valores de t2 y t 2 . El afirma que:
288
1. Por lo general, no es aconsejable omitir una variable colineal de ruido sobre la base de su
estadstica t muestral t 2 . Es preferible MCO a cualquier estimador COV a menos que se
tenga una fuerte conviccin previa de que t2 es <1.
2. Por lo general, es mejor el estimador WTD que el COV.
3. El estimador WTD es superior al MCO para t2 < 1.25 y slo ligeramente inferior para 1.5 <
|t2| <3.0
4. Lo inadecuado de los datos colineales no deber disfrazarse con el reporte de los resultados
a partir de la regresin de variables omitidas, Aun si se utiliza un estimador WTD, se
debera reportar los estimados MCO y sus errores estndar para hacer que los lectores
juzguen el alcance de la multicolinealidad.
Toda esta discusin demuestra que la informacin previa sobre t2 es muy importante, aun
utilizando los estimadores COV o WTD. Esto nos lleva al mismo resultado de la discusin
sobre la regresin por cordillera y la regresin por componentes principales, es decir, a la
importancia de la informacin previa. La informacin previa referente a la omisin de las
variables de ruido, tiene que ver con los valores t verdaderas para los coeficientes de las
mismas.
Leamer sugiere estudiar la sensibilidad de los estimadores de los coeficientes para las
distintas especificaciones sobre la informacin previa referente a los mismos. Si bien el
enfoque es bayesiano, es posible analizar en forma sencilla la sensibilidad en cada problema, a
fin de evaluar el impacto sobre el estimado de los coeficientes de inters debido a cambios en
las suposiciones en torno a los coeficientes de parmetros de ruido. Tal anlisis de sensibilidad
sera ms til que emplear una solucin como la regresin por cordillera, la de componentes
principales, omitir variables, etc., ya que todas ellas implican, en forma oculta, cierta
informacin previa especfica. Con mucha frecuencia, tal vez esta no sea la informacin previa
que desea considerar.
9.4.4 Otras soluciones miscelneas
En la literatura se encuentran muchas otras soluciones al problema de la multicolinealidad.

Sin embargo, stas deberan utilizarse slo si hay otras razones para hacerlo, y no para resolver
el problema de la colinealidad como tal. Estas soluciones se discutirn en forma breve:
i) Uso de razones o primeras diferencias
El mtodo que utiliza las razones se estudi en la discusin de heterocedasticidad, y las

primeras diferencias en la de autocorrelacin. Si bien estos procedimientos pueden reducir las
intercorrelaciones entre variables explicativas, deberan utilizarse sobre la base de las
consideraciones discutidas, y no como una solucin al problema de la colinealidad.
ii) Uso de estimados externos
Este mtodo se sigui en los primeros estudios de la demanda. Se demostr que en los datos
de series de tiempo, el ingreso y el precio tenan una alta correlacin.
Por tanto, ni la elasticidad de precios ni la elasticidad de ingresos podan estimarse con

precisin. Lo que se hizo fue obtener un estimado de la elasticidad del ingreso a partir de los
estudios de presupuesto (donde los precios no varan gran cosa), usar este estimado con el fin
de corregir las series de cantidad para la variacin del ingreso y despus estimar la elasticidad
de precios.
289
Por ejemplo, si la ecuacin a estimarse es:
log Q = a + b1log p + b2log y + u
primero se obtiene b 2 a partir de los estudios de presupuesto y, despus, se regresa (log Q - b

2log y) sobre log p para obtener los estimados de a y b 1. En este caso b 2 se conoce como el
estimado externo . Este procedimiento supone dos problemas principales. Primero, que
debera tomarse en cuenta el hecho de estimar b 2 al calcular las varianzas de a y b 2. Por lo
general, esto no se realiza, pero podra hacerse.
Segundo, y este problema es ms importante, que es posible que el estimado de corte

transversal de b 2 mida algo enteramente diferente de lo que se supone que mide el estimado en
la serie de tiempo, Como afirman Meyer y Kuh, el estimado externo puede ser en verdad
externo.
Supongamos que se desea usar un estimado para un parmetro con base en otro conjunto de
datos. Cul es el mejor procedimiento para hacerlo? Consideremos la ecuacin:
y1 = b1X1 + b2X2 + u (9.3)
Supongamos que, debido a la alta correlacin entre X1 y X2 no es posible obtener buenos

estimados de b1 y b 2. Se trata de obtener un estimado de b1 a partir de otro conjunto de datos y
otra ecuacin.
Y2 = b1X1 + gZ + v (9.4)
En esta ecuacin, X1 y z no tienen una alta correlacin y se obtiene una buena correlacin
de b1, digamos b1*. Se sustituye esto en la ecuacin (9.3) y se regresiona (y1 - b1* X1) sobre X2
para obtener un estimado b2* de b2. Este procedimiento se mencion antes. El estimado de b2* es
condicional, sobre b1= b1*. Asimismo es preciso corregir la varianza estimada de b2*, pues el
error en la ecuacin es, ahora,
(y1 - b1* X1) = b2X2 + w
donde W = u + (b1 - b1*) X1 no es igual a u. Este procedimiento es aconsejable slo cuando los
datos detrs de la estimacin de la ecuacin (9.4) no estn disponibles (es decir cuando otra
persona hizo el estudio).
Por otra parte si disponemos de dos conjuntos de datos, no existe razn para utilizar este
procedimiento de estimacin condicional. Sera mejor estimar las ecuaciones (9.3) y (9.4) de
manera conjunta.
Esto fue lo que hizo Maddala con los datos utilizados por Tobin en el estudio sobre la
demanda de alimentos. Asimismo, es posible probar, mediante la estimacin conjunta de las
ecuaciones (9.3) y (9.4) y la estimacin separada de las ecuaciones, que el coeficiente de X1 es
el mismo en ambas ecuaciones.
En resumen, como solucin al problema de la multicolinealidad, no es aconsejable sustituir

los estimados de parmetros externos en la ecuacin.
Por supuesto, es posible acumular los diferentes conjuntos de datos para obtener estimados
ms eficientes de los parmetros, procediendo a desarrollar tambin algunas pruebas que
permitan ver si los parmetros en las diferentes ecuaciones son ciertamente los mismos.
290
iii) Obtencin de ms datos
Una solucin al problema de la multicolinealidad, que muchas veces se sugiere, es salir y

obtener ms datos. En realidad, el caso de los estimadores externos que se discuti tambin
cae en esta categora (se busca otro modelo con parmetros comunes y el conjunto de datos
asociados).A veces, el uso de datos trimestrales o mensuales, en lugar de anuales, ayuda a
obtener mejores estimados. Sin embargo, se estara sumando ms fuentes de variacin como la
estacionalidad. En cualquier caso, debilidad en los datos dbiles e informacin inadecuada son
las fuentes del problema y obtener ms datos ser de gran ayuda.
291
CAPITULO 10
UNA INTRODUCCIN A LA TEORIA ASINTOTICA
10.1 EL ANLISIS DE MUESTRAS GRANDES
Cuando hablamos de las propiedades de los estimadores en el captulo 3 se hizo mencin que
los estos estadsticos usualmente presentan dos grupos de propiedades. El primer grupo de ellas
son las llamadas de muestras pequeas o exactas. Generalmente los libros de texto se centran en
el insesgamiento y la eficiencia. Si un estimador cumple con estas dos propiedades podemos
estar seguros de hacer una interpretacin correcta de los parmetros esperados. Adicionalmente
se mencion que cuando existen estimadores que no cumplen con las dos propiedades a la vez,
el criterio a utilizar es el error cuadrtico medio a travs del cual se toman en cuenta el sesgo y
la varianza. El criterio para realizar la eleccin del estimador es el de escoger aquel estimador
que minimice el error cuadrtico medio.
No obstante toda esta discusin, en muchas oportunidades no es posible contar con estimadores
que cumplan con estas propiedades simultneamente. Adicionalmente, la distribuciones de
probabilidad que se utilizan para hacer inferencia son exactas. Estas generalmente son las
distribuciones t de student y F. Cuando no se cumplen las propiedades exactas estas
distribuciones tampoco son vlidas. Por tanto debemos hallar distribuciones con las cuales
poder realizar ejercicios de inferencia. La pregunta que surge entonces es qu debemos hacer?
Dado que no se pueden comprobar las propiedades exactas, es necesario analizar si los
estimadores que estudiamos son buenas aproximaciones a los verdaderos parmetros y tambin
podemos . En este contexto es que debemos utilizar ciertas herramientas que nos permitan
analizar los estimadores bajo este contexto. Estas herramientas son los pilares de lo que viene a
llamarse teora asinttica.
Esta teora lo que busca es estudiar el comportamiento de los estimadores a medida que el
tamao muestral crece. En el lmite se ver cules son la caractersticas de estos estimadores
cuando la muestra tienda a infinito, de all el apelativo de asinttica. En este captulo haremos
una simple introduccin a los principales conceptos relevantes en la teora asinttica. La idea
ser presentar los principales resultados y formas de analizar y obtener las propiedades
asintticas de un estimador. Se dar especial nfasis al lmite en probabilidad y la propiedad de
consistencia que es una de las ms tiles y menos complicadas de trabajar.
Debe mencionarse adicionalmente que una de las ventajas de las propiedades asintticas es que
el anlisis y sus herramientas son mucho ms flexibles que aquellas que se utilizan para el
anlisis de las muestras exactas. Por ello, muchas veces puede ser ms fcil obtener las
propiedades asintticas de un estimador que las propiedades exactas debido a la complejidad de
algunos de ellos. Uno de los elementos a tomar en cuenta es que si un estimador cumple con las
propiedades exactas tambin cumplir con las propiedades aproximadas. Lo contrario no es
necesariamente cierto. Por ello, si un estimador cumple con las propiedades asinttica podr
utilizarse con cierta certeza porque sern buenas aproximaciones a los verdaderos parmetros.
Esto es vlido principalmente en estimadores que son funciones no lineales de variables
aleatorias.
Habiendo mencionado esto, iniciemos la presentacin de los principales elementos que

constituyen la teora asinttica.
10.2 MODOS DE CONVERGENCIA
Cuando analizamos las propiedades asintticas estamos estudiando el comportamiento de los

estimadores a medida que crece el tamao de la muestra que analizamos. Si tomamos en cuenta
que cada observacin es una variable aleatoria per se, una muestra es una coleccin o una
secuencia de variables aleatorias. La teora asinttica estudia el comportamiento de una
secuencia de variables aleatorias a medida que el nmero de elementos de sta crece. Teniendo
esto en mente presentaremos los distintos modos de convergencia referidos a una secuencia de
variables aleatorias.
Convergencia en Probabilidad
Si tenemos una secuencia de variables aleatorias definida por el smbolo {x n }, decimos que esta
secuencia converge en probabilidad a otra variable aleatoria X en probabilidad si cumple la
siguiente condicin:
Lim P( X n X > ) = 0
n
Esta expresin nos indica que la convergencia en probabilidad implica que conforme aumenta el
tamao muestral o los elementos de la secuencia de variables aleatorias, un estadstico
representativo de esta secuencia estar muy cerca de un valor dado. Este valor puede ser
cualquier variable aleatoria o una constante. En el contexto de lo que nos interesa en este texto,
esta constante podra representar el verdadero valor del parmetro. El trmino , es un nmero
lo suficientemente pequeo como para decir que el estadstico representativo de la secuencia de
variables aleatorias est en el entorno de la variable o constante X. Esto en trminos comunes
implica que est lo suficientemente cerca del valor X. De manera compacta el cumplimento de
esta condicin se escribir alternativamente de las siguientes dos maneras:
p
Xn X
P lim X n = X
El trmino Plim se refiere a lmite en probabilidad. Es el ms comnmente utilizado. Veremos
sus propiedades ms adelante dado que ser aquel concepto que utilizaremos de manera profusa
en el anlisis de los estimadores a lo largo de este texto.
Convergencia en Media n
Si tenemos una secuencia {x n }, decimos que converge en media n a X si se cumple lo

siguiente:
Lim E (X n X ) = 0
n
n
La expresin presentada implica que la esperanza de la diferencia del estadstico representativo

de la secuencia y un valor dado X elevada a una potencia n tiende a cero a medida que crece el
tamao de la secuencia de variables aleatorias. La potencia ms utilizada es 2 por lo que el
trmino ms utilizado es el de convergencia en media cuadrada. Este modo de convergencia se
incluye porque a veces es ms fcil de comprobar que el concepto anterior. Esto quedar ms
claro ms delante cuando veamos la relacin entre los distintos modos de convergencia. El
trmino reducido que se utiliza para denotar que una secuencia cumple con esta propiedad es el
siguiente:
M
Xn X
Convergencia en distribucin
Diremos que una secuencia {x n } converger en distribucin a X si la distribucin Fn de Xn

converge a la funcin de distribucin F de X en cada punto de continuidad de F. El manejo de
este tipo de concepto implica una serie de elementos complicados que no mencionaremos aqu.
Sin embargo si se cumple con este tipo de convergencia ello se denotar con:
d
Xn X
La distribucin F a la cual converge ser llamada distribucin lmite.
Convergencia casi segura
Diremos que una secuencia {x n } converge a X de manera casi segura si se cumple la siguiente
condicin:
{ }
P / Lim X n ( ) = X ( ) = 1
n
Este tipo de convergencia implica condiciones ms rigurosas que las anteriores porque, como se
observa, se requiere una condicin de igualdad para el evento sobre el cual se evala la
probabilidad. Por ello se dice que este tipo de convergencia es de tipo fuerte mientras que los
modos como el de convergencia en probabilidad son modos dbiles.
Estos modos de convergencia son conceptos muy utilizados en el anlisis de las propiedades
asintticas. Su operatividad, principalmente el de la convergencia en probabilidad ser
presentado ms adelante. Sin embargo, es deseable mencionar la relacin que existe entre estos
modos. El siguiente esquema ilustrar este relacin:
a.s.

M P D
Como se puede apreciar, las convergencias en media cuadrada y casi segura (almost surely a.s.)
implican a la convergencia en probabilidad que es la que ms nos interesa en este texto. A su
vez, si existe convergencia en probabilidad (lo que implica que estamos cerca de la media de la
distribucin) ello implica la convergencia en distribucin por lo que podremos decir que existe
una distribucin asinttica y por tanto tomando en cuenta sta podremos hacer ejercicios de
inferencia.
10.3 LEY DE LOS GRANDES NMEROS Y TEROREMA DEL LMITE CENTRAL
La ley de los grandes nmeros y el teorema del lmite central son pilares bsicos que sirven
como fundamento para comprobar muchos de los resultados de la teora asinttica. De hecho
son captulos enteros de un tratado de fundamentos estadsticos. Sera presuntuoso pretender
hacer una presentacin extensa y completa en estas lneas1. Sin embargo trataremos de hacer un
resumen de las principales ideas referidas a cada uno de estos conceptos. Debe mencionarse que
existen muchas versiones de cada uno de estos conceptos por lo que no se puede hablar de una
sola versin. Por ello discutiremos de manera intuitiva los principales resultados y las
implicaciones relevantes para nuestro anlisis.
La ley de los grandes nmeros
Este concepto es de gran utilidad y de manera intuitiva podemos decir que implica que a medida
que crece el tamao muestral, el promedio de dicha muestra tender a la media poblacional. En
trminos un poco ms formales y bajo pena de resultar muy simplificado podemos plantear la
siguiente expresin:
Lim X n / n =
n
Debe resaltarse una vez ms que esta es una simplificacin de toda una teora estadstica, pero
creemos que resume de manera entendible la esencia de esta teora2. Una de las condiciones que
se requieren es que las distribuciones de cada una de las variables aleatorias que componen la
secuencia sean independientes. Algunas versiones requieren adems que sean idnticamente
distribuidas.
Debe mencionarse que las leyes de los grandes nmeros tienen dos vertientes: una referida a las
denominadas leyes dbiles que analizan la convergencia en probabilidad de la condicin
anterior y la otra de las denominadas leyes fuertes que analizan la convergencia casi segura de la
misma expresin.
Teorema del Lmite Central
Este resultado estadstico es de suma utilidad para poder encontrar una distribucin asinttica
con la cual poder realizar ejercicios de inferencia. Esta distribucin es aproximada pero es til
para trabajar con ella. En general, se analiza si es que el promedio de la distribuciones de los
1
Para el lector interesado , existen muy buenos tratados acerca de la teora asinttica. Especialmente recomendadmos
los textos de Amem,iya (1985) Advanced Econometrics y Spanos (1986) Statistical Foundations of Econometrics
Analysis.
2
Amemiya (1985) sostiene que un planteamiento ms formal implica analizar las condiciones bajo las cuales la
expresin:
(X n EX n ) tiende a cero. X n es el promedio de una secuencia de variables aleatorias.
elementos de una secuencia de variables aleatorias tiende a una distribucin conocida. En todas
sus versiones, la distribucin a la cual se converge es una distribucin normal estndar. En
general lo que se busca es estandarizar las variables aleatorias que componen la secuencia y
descubrir cul es la distribucin hacia la cual converge la secuencia. Otra vertiente analiza el
comportamiento de la diferencia entre la variable aleatoria y su media simplemente. Como
ejemplo podemos tomar una versin sencilla del teorema de Lindberg-Feller3 que es uno de los
ms utilizados. Este establece que si x1, x2, ...., xn es una muestra aleatoria tomada de una
distribucin de probabilidad con media finita y varianza finita 2 y definimos
x n = 1 / n x n entonces.
[
n (x n ) N 0, 2 ]
d
como vemos en este caso al analizar la diferencia entre el promedio y la media de la distribucin
no hemos dividido por la desviacin estndar. Este paso lo que hace es asegurar que la media de
la distribucin resultante tenga media cero. Por otro lado como no dividimos por la desviacin
estndar, la varianza de la distribucin normal estndar que es 1 queda multiplicada por la
varianza4. Usualmente lo que se requiere como condicin general es que las distribuciones de
cada variable aleatoria sea desconocida pero que tenga una media y una varianza conocidas y
que las distribuciones sean independientes entre s. El trmino por el que se multiplica la
diferencia entre el promedio y la media ( n ) es un artificio que se utiliza comnmente y la
racionalidad de su inclusin ser explicada ms adelante.
Habiendo definido estos conceptos de una manera general podemos empezar la discusin de las
propiedades asintticas de los estimadores.
10.4 PROPIEDADES ASINTTICAS DE LOS ESTIMADORES
En general estas propiedades se relacionan a la distribucin de un estimador cuando el tamao

crece y se aproxima a infinito, de all el uso del adjetivo asinttico. Usualmente la distribucin
de un estimador vara conforme el tamao de la muestra se incrementa. Esta diferencia puede
darse en trminos de la media, la varianza o su forma matemtica. Precisamente el proceso de
cambio de la distribucin de las medias muestrales de muestras de cualquier poblacin es
relevante al teorema del lmite central que ya fue expuesto en la seccin anterior. Como hemos
visto, la distribucin a la cual se converge recibe el nombre de distribucin asinttica.
Debemos ser cuidadosos al momento de analizar y tomar en cuenta el concepto de distribucin

asinttica dado que si analizamos el procedimiento veremos que estamos calculando el lmite de
una expresin cuando n tiende a infinito. Esto nos lleva a que debemos converger hacia un
punto el recibe el nombre de forma final. Si tenemos un punto, con l no podemos obtener una
distribucin. En todo caso podemos decir que dicho punto ser de manera preferente el
verdadero parmetro.
La distribucin asinttica no es la forma final de la distribucin sino es la forma que la
distribucin tiende a replicar precisamente antes de colapsar en el punto final (suponiendo que
esto ocurre). Algo que debe llamar la atencin es que la diferencia entre el promedio muestral y
la media de la distribucin (para el caso de un estimador lo deseable es que la media sea el
verdadero valor del parmetro) debe tender a un valor constante. Entonces la pregunta es cmo
obtenemos una distribucin? La respuesta a ello viene dada por el trmino n . Entendamos
3
Aqu tomamos la versin del teorema planteada por Greene (1997) pg 122.
4
Como sabemos si tenemos una distribucin normal estndar y la multiplicamos por una constante (en este caso ) la
media queda multiplicada por dicha constante y la varianza por la constante al cuadrado.
porqu. Cuando hablamos de la distribucin de un promedio, debemos recordar que la varianza
del promedio viene dado por el trmino 2 / n donde el numerador es aquel que corresponde a
la varianza de cada observacin (si suponemos que todas la varianzas son iguales) y el
denominador es el nmero de observaciones de la muestra. Es obvio que si el nmero de
observaciones tiende a infinito, tendremos que la varianza tiende a cero y por tanto colapsamos
en un punto. Cmo nos interesa tener una distribucin y para ello requerimos una varianza, al
multiplicar la distribucin por la expresin n eliminamos el trmino n del denominador de la
varianza de la distribucin y la varianza por tanto no colapsa a cero. Otra forma de verlo es que
conforme el nmero de observaciones aumenta, la velocidad con la cual se acerca la varianza a
cero es n , por ello al multiplicar la diferencia entre el promedio muestral y la media de la
poblacin por la misma expresin eliminamos dicho problema al hacer que el numerador de la
varianza crezca a la misma tasa.
Tomando en cuenta lo discutido definamos las propiedades asintticas:
Insesgamiento asinttico
Cualquier parmetro es un estimador asintticamente insesgado de si se cumple:
Lim E ( ) =
n
Esta propiedad implica que la esperanza del sesgo cuando el tamao muestral tiende a infinito
es igual a cero. Es una condicin fuerte dado que implica una igualdad estricta. Esta propiedad
si bien es importante no es la que comnmente se utiliza para analizar la pertinencia de un
estimador cuando tenemos muestras grandes.
Consistencia
Diremos que un estimador ser un estimador consistente de si:
P lim =
Esta propiedad es la ms usada para medir la pertinencia de un estimador. Debemos recordar

que el lmite en probabilidad es un modo de convergencia dbil.
Eficiencia asinttica
Un estimador es asintticamente eficiente si se cumplen tres condiciones:
1. Si tiene una distribucin asinttica con una media y varianza finita

2. Si es consistente
3. No existe otro estimador consistente de que tenga una varianza asinttica
menor.
Las condiciones planteadas para esta propiedad incluyen la consistencia del estimador
analizado. Esto est relacionado con lo analizado en la seccin anterior en lo referido a que la
convergencia en probabilidad (utilizada para analizar la consistencia) implica la convergencia
en distribucin (lo cual es necesario para poder analizar una varianza)
Estas tres propiedades asintticas son las que formalmente todo estimador debe mostrar con el
fin de poder ser utilizado con cierto grado de certeza. Sin embargo, para fines de nuestro anlisis
slo nos centraremos en desarrollar el concepto de consistencia. La razn de ello radica en que
el modo de convergencia en probabilidad implica a la convergencia en distribucin.
Adicionalmente, el tratamiento de la convergencia en distribucin es ms complicado que el uso
del lmite en probabilidad.
10.5 CONSISTENCIA DE UN ESTIMADOR
En trminos formales la consistencia de un estimador se analiza a travs de la convergencia en

probabilidad:
Lim Pr ( > ) = 0
T
Lim Pr ( < ) = 1
T
Ambas expresiones son equivalentes entre s, lo nico que cambia es el sentido de la

desigualdad.
La consistencia hablando desde un punto de vista ms intuitivo implica que a medida que el
tamao de muestra va creciendo el centro de la distribucin del estimador calculado se va
acercando al verdadero valor del parmetro. Un grfico puede ayudarnos a entender el concepto:
Como se puede observar a medida que aumenta el tamao muestral , el centro de la distribucin
se va acercando de manera consistente al valor del verdadero parmetro. Un hecho especial a
notar es que conforme aumenta el tamao muestral, la varianza de la distribucin va
disminuyendo. Un estimador es consistente si colapsa sobre el punto que denota el valor
verdadero del parmetro. Como es imposible tener una muestra que tienda a infinito, el
resultado de la consistencia nos indica que con un tamao de muestra relativamente grande
podemos estar relativamente seguros que estamos cerca del valor del parmetro verdadero.
Un tema aparte lo constituye el hecho de saber a partir de dnde podemos hablar de una muestra
grande. Un hecho que se ha comprobado es que conforme crece el tamao de muestra a partir de
valores pequeos, la velocidad del acercamiento es alta. Conforme nos acercamos, la velocidad
va disminuyendo. Esto implica que podemos hacer un punto de corte a partir del cual podemos
decir que la muestra es lo suficientemente grande. Existe cierta controversia al respecto. Sin
embargo, podemos decir que si tenemos menos de 40 observaciones podemos considerar que
tenemos una muestra grande y si tenemos ms de 60 observaciones podemos considerar que
tenemos una muestra grande. Esto se deriva del hecho que para lograr un acercamiento
considerable al verdadero parmetro deberamos incrementar fuertemente el tamao muestral, lo
cual representa un costo considerable en trminos de informacin. Una buena aproximacin se
logra a partir de 60 observaciones. Por ello, si queremos que los resultados de teora asinttica
se apliquen nuestra muestra deber contar con al menos 40 observaciones aunque lo deseable
ser contar con 60.
Un punto importante es que si uno observa la primera propiedad referida al insesgamiento

asinttico se creera que su cumplimento seria suficiente para contar con un estimador con
propiedades deseadas. Sin embargo, debemos mencionar que el insesgamiento asinttico no
implica necesariamente la consistencia de un estimador. La razn es que se requieren
propiedades adicionales para asegurar la consistencia. Estas propiedades quedarn claras con un
ejemplo.
Supongamos que tenemos un estimador cuya esperanza es la siguiente:
E (mt ) = + C / T
Veremos que, si el valor del verdadero parmetro es , entonces el estimador es sesgado.

Presenta un sesgo aditivo expresado por C/T. Si analizamos su insesgamiento asinttico
obtenemos el resultado que presentamos a continuacin:
Lim E (mt ) =
T
La expresin anterior nos indica que en el lmite la esperanza del estimador es el verdadero
parmetro. Para ilustrar la diferencia con la propiedad de consistencia podemos utilizar un
resultado til en estadstica que es la desigualdad de Chebychev. Formalmente esta desigualdad
se expresa por :
Pr{x > }< 1 / 2
es la desviacin estndar de la distribucin de x, es la media de la misma distribucin y

es una constante arbitraria. Si fijamos el valor de esta ltima magnitud en 2, por ejemplo, la
desigualdad nos dice que la probabilidad de que una observacin est alejada de la media de la
distribucin en dos desviaciones estndar para ambos lados es menor al 25%. De alguna manera
representa la cota superior de la probabilidad de tal evento. Si tomamos en cuenta una
distribucin normal podemos recordar que aproximadamente el 95% de las observaciones se
encuentra dentro del intervalo de dos desviaciones estndar a cada lado de la media. Esto nos
indica que la probabilidad de que una observacin est alejada ms de dos desviaciones estndar
de la media es de 5% lo cual es menor que la cota superior impuesta por la desigualdad de
Chebychev.
Si utilizamos esta desigualdad para el caso del estimador que estamos analizando, tomara la
siguiente forma:
{ }
Pr mt ( + C / T ) > Var (mt ) < 1 / 2
Si introducimos la siguiente expresin:
= Var (m t )
podemos obtener lo siguiente:

1 Var (mt )
=
2 2
Si introducimos estas expresiones en nuestra desigualdad, sta queda de la siguiente forma:
Pr{mt ( + C / T ) > }<

Var (mt )
2
Si aplicamos lmites, la expresin anterior se transforma en:
Pr{mt > }<

Var (mt )
2
Si el estimador es consistente, debera cumplirse que la probabilidad es cero5. La nica forma de

que esta condicin sea asegurada es que la varianza del estimador converja a cero a medida que
la muestra tiende a infinito. Lo anterior nos indica que una condicin adicional para asegurar la
consistencia de un estimador no es slo que ste sea insesgado asintticamente sino que la
varianza de la distribucin tienda a cero. Ambas condiciones aseguran que la distribucin
colapsa en el valor del verdadero estimador. El insesgamiento asinttico slo nos asegura que la
media de la distribucin coincide con el verdadero estimador pero no implica que la varianza se
desvanezca. Una conclusin de lo anterior es que la consistencia implica al insesgamiento
asinttico.
Una forma ms sencilla de denotar al lmite en probabilidad es la de Plim. Una de las ventajas
de trabajar con el lmite en probabilidad es que permite simplificar los clculos drsticamente
debido a que puede aplicarse a funciones no lineales de variables aleatorias. Por ello, muchas
veces es mucho ms sencillo probar la consistencia de un parmetro que su insesgamiento. La
simplicidad del uso del lmite en probabilidad quedar ilustrada a partir de las siguientes
propiedades:
1. P lim = . El lmite en probabilidad de una constante es la misma constante.
2. P lim( y1 y 2 ) = p lim y1 + p lim y 2 . y1 e y2 son variables aleatorias.
3. P lim( y1 y 2 ) = P lim y1 P lim y 2 . y1 e y2 son variables aleatorias.
y P lim y1
4. P lim 1 = . El plim de la divisin de dos variables aleatorias es igual a la
y2 P lim y 2
divisin de los plims de cada una de las variables aleatorias.
5. P lim[g ( y )] = g [P lim( y )]. El lmite en probabilidad de una funcin continua de una

variable aleatoria y es igual a la funcin del Plim.
A partir de las propiedades 4 y 5 queda claro la ventaja de trabajar tomando en cuenta los
lmites en probabilidad. Por ejemplo, si queremos analizar la esperanza de una razn de
variables aleatorias y stas no son independientes entre s, la esperanza se tiene que aplicar a
5
Debemos indicar que lo expuesto parece lo inverso de lo mencionado cuando se defini la propiedad de
consistencia. Sin embargo, debe notarse que el signo de desigualdad dentro de l corchete no es menor que sino mayor
que. Ello explica porqu la probabilidad es igual a 0.
toda la expresin en su conjunto y no se puede trabajar el numerador y el denominador por
separado. En el caso del lmite en probabilidad vemos que s se puede aplicar por separado a
cada una de las expresiones que forman la razn. Esto facilita los clculos de manera
importante.
Como complemento a las propiedades ya enunciadas podemos enunciar dos adicionales

referidas a la operatividad del Plim en el caso de matrices de variables aleatorias:
6. P lim( A B) = P lim( A) P lim( B) . Donde A y B son matrices conformables.
7. ( )
P lim A 1 = (P lim A) . A es una matriz cuadrada no singular.
1
Una vez que hemos definido las propiedades del lmite en probabilidad estamos en posicin de
poder analizar la consistencia de distintos estimadores con el fin de mostrar la operatividad del
concepto. Iniciemos nuestro anlisis estudiando la consistencia del estimador MCO:
Como sabemos el estimador MCO tiene la siguiente frmula:
= ( X X ) 1 X Y
Si reemplazamos el modelo lineal general en la expresin anterior obtenemos la siguiente

expresin:
= + ( X X ) 1 X
Esta es la expresin que usualmente se utiliza para analizar el insesgamiento del parmetro.
Como sabemos se aplica esperanza a toda la expresin y como las x son fijas el operador de
esperanza slo es aplicable al trmino de error.
Si queremos analizar la consistencia del estimador debemos hacer uso de un procedimiento que
es estndar para cada operacin de esta tipo. Este procedimiento consiste en dividir cada uno de
los elementos de las matrices involucradas por T que es el nmero de observaciones. Esto
ocasiona que cada una de las expresiones estn expresadas en trmino de sus valores promedios.
As, la expresin anterior queda de la siguiente forma:
1
X X X
= +
T T
La ventaja de esta transformacin radica en que estamos multiplicando y dividiendo la ltima

expresin por el trmino T, lo cual la deja inalterada. Si queremos hacer explcita la expresin
X X / T obtenemos lo siguiente:
X X 1 x1i x x
2
= 1i 2i

T T x1i x 2i x 2
2i
De igual manera se podra representar el vector X / T . Aplicando los lmites en probabilidad

la expresin anterior y tomando en cuenta queda transformada de la siguiente manera:
1
X X X
P lim = + P lim P lim
T T
Si la matriz X contiene regresores no estocsticos (fijos) como lo establecen los supuestos del
modelo lineal general podemos suponer que segn las propiedades del lmite en probabilidad:
X X X X
Lim =
T T T
Esto se deriva a partir de que el Plim de una constante es la misma constante. Ahora bien si la
matriz X contiene regresores que son estocsticos podemos suponer que los momentos
muestrales convergen a sus momentos poblacionales:
X X
P lim =Q
T
Donde Q es una matriz cuadrada no singular que contiene los momentos poblacionales. Ahora,
si queremos analizar el trmino X / T sus trminos seran los siguientes. Si consideramos que
x1 es la variable referida al intercepto, el vector quedara de la siguiente manera:
1
P lim i
X
P lim = T

T P lim 1
T
x 2i i

El primer trmino del vector tiende a la media de los errores que sabemos es igual a cero. Por
otro lado, el segundo trmino captura la covarianza entre x2 y el trmino de error. Como
sabemos uno de los supuestos es que la covarianza entre dos elementos es igual a cero. El
resultado de todo lo anterior es que cada uno de los elementos del vector es igual a cero.
Tomando en cuenta todos los resultados obtenidos hasta el momento podemos proceder a unir
las piezas para analizar la consistencia de nuestro estimador MCO:
P lim = + Q 1 0 =
Con esto comprobamos que el estimador MCO es consistente. Debemos recordar que este
estimador es insesgado tambin. Algo que se deriva de esta anlisis es que un estimador
insesgado tambin ser consistente. La razn de ello radica en que si la distribucin tiene como
centro el verdadero parmetro a medida que sta vaya convergiendo a un punto es obvio que
colapsar en el verdadero valor del parmetro.
Lo discutido con respecto al estimador MCO no se cumple de manera inversa. Todo estimador
sesgado no necesariamente es inconsistente. De hecho tenemos muchos estimadores sesgados
que son consistentes lo cual asegura que con un muestra grande pueden ser utilizados como
buenas aproximaciones. Podemos decir que la mayora de estimadores son de este tipo. El caso
del estimador MCO es un caso especial que cumple con todas las propiedades de muestras
pequeas y grandes. Un caso que nos permitir ilustrar la discusin precedente es el del
estimador por Cordillera que se utiliza para corregir la multicolinealidad y que fue revisado en
el captulo anterior. La frmula de este estimador es la siguiente:
c = (X X + I ) X Y
1
La lgica del estimador es agregar constantes a la diagonal principal de la matriz XX con el fin
de aumentar su tamao y hacer que la matriz sea invertible. Si queremos analizar su
insesgamiento debemos reemplazar Y por el modelo terico ( X + ). Realizando esta
operacin obtenemos la siguiente expresin:
c = (X X + I ) X X + (X X + I ) X
1 1
de la expresin anterior se deduce fcilmente que si aplicamos el operador de esperanza

matemtica, el ltimo trmino de la derecha ser igual a cero. Igualmente por simple inspeccin
el primer trmino de la derecha no ser igual al verdadero parmetro por lo que se puede
concluir que el parmetro ser sesgado y el sesgo tendr un carcter multiplicativo. Ello no nos
debe llevar a pensar que el estimador no tiene ninguna utilidad. Para ello debemos analizar su
consistencia. Tomando esta expresin y realizando la transformacin ya utilizada (dividir entre
T) obtenemos lo siguiente:
1 1
X X I X X X X I X
c = + + +
T T T T T T
Si volvemos a utilizar los supuestos planteados para el caso del estimador MCO, podemos
imponer las siguientes condiciones:
X X
Lim =Q
T T
X
Lim =0
T T
De manera similar, si analizamos la expresin I / T veremos que el numerador es una

constante y que conforme T tiende a infinito la expresin colapsar a cero. Ello porque el
numerador no crece y el denominador crece sin lmite. Utilizando ese resultado podemos
proceder a analizar la consistencia del estimador:
P lim c = (Q + 0 ) Q + (Q + 0) 0 =
1
como podemos apreciar el estimador es consistente por lo que si contamos con una muestra
grande lo podremos utilizar como una buena aproximacin al verdadero parmetro. Con esto
hemos ilustrado la conveniencia de trabajar la consistencia de un estimador. Las propiedades de
muestras grandes pueden ser de gran utilidad al momento de analizar la bondad de distintos
estimadores. Casos como el analizado los iremos estudiando en el resto de captulos del presente
texto.
10.6 A MODO DE CONCLUSIN
El presente captulo ha pretendido hacer una presentacin sucinta de algunos de los principales
elementos de la teora asinttica. Se ha incidido en los concepto ms relevante para analizar una
de las propiedades de muestras grandes ms importantes que es la consistencia. De lo discutido
aqu se puede decir que si un parmetro converge en probabilidad tambin lo har en
distribucin. La obtencin de la distribucin asinttica escapa de los objetivos del presente texto
debido a que se requieren algunos conceptos y definiciones ms complejas. Sin embargo, basta
decir que si comprobamos la consistencia de un estimador, podemos suponer que su distribucin
ser normal y podremos usar los procedimientos tradicionales de inferencia estadstica. Debe
mencionarse que lo expuesto aqu dista mucho de ser una presentacin rigurosa pero creemos
que brinda las principales herramientas tiles para el anlisis de estimadores para un texto de
pregrado.

Econometria Casas PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometria Casas PDF

Cargado por

Copyright:

Formatos disponibles

CAPITULO 1

EL MODELO DE REGRESIN LINEAL

1.1. EL ANLISIS DE REGRESIN

Una interpretacin ms moderna de regresin indica que la misma es cualquier aproximacin

1.1.2 Cmo se conecta el anlisis econmico con el anlisis de regresin?

El anlisis econmico toma en consideracin diversas variables en conjunto. La relacin

Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe

Siendo la primera la funcin de probabilidad condicional y la segunda la marginal. En el

donde u es el componente estocstico o aleatorio, que recoge los efectos de variables no

El modelo economtrico especificado en la expresin (1.2), tiene como objetivo estimar el

E (C /r, Yd, w, Yp ) = f (Xi) (1.3)

1.1.3 Definiciones Bsicas

El modelo de regresin lo podemos plantear de manera general de la siguiente forma:

La parte sistemtica o determinstica que viene representada por :

La parte aleatoria o estocstica que viene representada por el trmino de error ( ).

vida de las personas a travs de la medicin de ingresos y acceso a servicios bsicos

1.1.4 Cmo obtener los parmetros?

La estimacin de los parmetros se deriva de un problema de prediccin condicional. En

Siendo la funcin de prdida L, P denota un predictor de Y y E (L (Y P) / X ) es la prdida

0=L(0)L(u) L(v) (1.6)

0 = L(0) L(-u ) L(-v ) (1.7)

Evidentemente, la idea es que la funcin de prdida sea lo ms pequea posible, donde u y v

En la prctica, los mejores predictores son los que se estudian ms detalladamente en el

i) Prdida cuadrtica: La funcin de prdida cuadrtica es:

En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se

ii) Prdida absoluta: Cuya funcin de prdida es la siguiente:

Si tomamos esta funcin de prdida, el mejor predictor es la mediana de Y condicional en X.

En general, la media, la mediana y la moda de la regresin de Y en X difieren entre s. La

En el problema de prediccin descrito, la funcin de prdida escogida determina la regresin

1.2 Mtodos de estimacin de los parmetros

Cuando se efecta una regresin se puede seleccionar el mtodo de estimacin ms

posteriormente se discutirn en detalle. Esos mtodos son los ms utilizados y responden a

i) Mnimos Cuadrados Ordinarios (MCO)

El mtodo de Mnimos Cuadrados es uno de los ms usados, eficaces y conocidos del

La minimizacin de los errores al cuadrado presenta una ventaja con respecto a la

ii) Mtodo de Momentos

El objetivo de este mtodo consiste en aproximar lo ms posible los momentos muestrales a

iii) Mxima Verosimilitud

1.3 Significado de la lnea de regresin

E(Y/X ) = f (Xi) (1.13)

E( Y/X ) = 0 + 1Xi (1.14)

Los parmetros o coeficientes de regresin son los de la ecuacin anterior. Asimismo,

En el anlisis de regresin lo que se busca es estimar los parmetros desconocidos teniendo

Despejando la ecuacin, queda:

y reemplazando la ecuacin (1.14) en (1.16) resulta:

Yi = 0 + 1 X i + i i=1,2, ... , n (1.17)

Como se mencion en la seccin anterior, i es llamado perturbacin estocstica o

Cabe mencionar que en la mayora de casos, no es posible disponer de todas las

El siguiente captulo se ocupar de abordar dicho problema empezando con el anlisis de un

2 SUPUESTOS DEL MODELO DE REGRESIN LINEAL

El objetivo de un anlisis de regresin no slo consiste en estimar los coeficientes de

Primer supuesto: El modelo es estocstico

Esto se debe a la inclusin de un componente aleatorio en el modelo, expresado por el

Agregacin de variables. En muchos casos, la relacin existente entre la variable endgena

Segundo supuesto: La esperanza matemtica del trmino de error o perturbacin es cero.

Tercer supuesto: La varianza del error es constante (el error es homocedstico).

Var(i) = 2 i = 1,2,3,...,n (1.20)

Esto implica que el trmino de error tiene igual(homo) dispersin(cedasticidad). Aqu

Cuando no se verifica este supuesto, se dice que el trmino de perturbacin es

Var(i) = i2 i = 1,2,3,..., n (1.21)

Cuarto supuesto: Ausencia de autocorrelacin entre los errores.

Un ejemplo tpico donde se detecta la presencia de autocorrelacin positiva ocurre bajo el

Esta ecuacin implica que la expectativa de la inflacin de maana es una combinacin