Está en la página 1de 92

ECONOMETRIA BSICA

Apuntes de Clases

Prof. Raimundo Soto

April 19, 2006


Indice

Repaso de Conceptos Bsicos Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


1. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Funciones de Distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3. Descriptores del Momento Central de una Distribucin . . . . . . . . . . . . . 3
4. Distribuciones Discretas de Uso Comn . . . . . . . . . . . . . . . . . . . . . . . . . 4
5. Distribuciones Continuas de Uso Comn . . . . . . . . . . . . . . . . . . . . . . . . 4
6. Distribuciones Conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
7. Distribuciones Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
8. Distribuciones Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Repaso de Conceptos Bsicos Inferencia Estadstica . . . . . . . . . . . . . . . . . . . . . . . 8
1. Por qu necesitamos inferir ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Distribucin muestral de la media muestral . . . . . . . . . . . . . . . . . . . . . . 8
3. El proceso de inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4. Estimador de mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5. Estimacin Eficiente (mximo verosmil) . . . . . . . . . . . . . . . . . . . . . . . 11
6. Testeo de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7. Tres tests de hiptesis asintticamente equivalentes . . . . . . . . . . . . . . . 13
Modelo Clsico de Regresin Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1. Lgica del modelo de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2. Supuestos del modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . 16
3. Mtodo de Mnimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . . . 22
4. Estimador de Mnimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . 23
5. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Propiedades del Estimador de OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1. Propiedades en muestra finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2. Tests de Hiptesis en el Modelo Multivariado . . . . . . . . . . . . . . . . . . . 31
3 Tests de Hiptesis y Modelo Restringido . . . . . . . . . . . . . . . . . . . . . . . . 37
4. Propiedades de muestra grande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Violacin de los Supuestos del Modelo de Regresin Lineal . . . . . . . . . . . . . . . 48
1. Problemas de Especificacin I: Regresores Inadecuados . . . . . . . . . . . . 49
2. Problemas de Especificacin II: Cambio de Rgimen . . . . . . . . . . . . . . 54
3. Problemas de Especificacin III: Datos errneos . . . . . . . . . . . . . . . . . 58
4. Problemas de Especificacin IV: Colinealidad . . . . . . . . . . . . . . . . . . . 61
5. Modelos de Varianza No Constante . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6. Variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7. Modelos de Ecuaciones Simultneas . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1

Repaso de Conceptos Bsicos Probabilidades


Por qu necesitamos estudiar teora de probabilidades para analizar
observaciones o datos de la realidad? Por qu no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenmeno de inters. Podemos hacer un grfico de frecuencias
empricas de los datos y derivar informacin til.

Figure 1
Distribucin de Anchos de Calles en Santiago

Aunque el grfico anterior describe adecuadamente la distribucin del ancho


de una muestra de calles de Santiago, los estadsticos descriptivos estn confinados
a dicha muestra. Cualquier pregunta respecto de la poblacin de la cual se deriv la
muestra no puede ser discutida. La esencia del trabajo economtrico es, en este
sentido, proveer resultados generales a partir de muestras cuya informacin es
limitada.
La teora de probabilidades provee un modelo matemtico para la inferencia
estadstica que, al realizarse sobre una muestra de observaciones, permite estudiar

Taller Econometra Bsica


Raimundo Soto
2

fenmenos generales. Por eso, este captulo repasa la principal teora de


probabilidades, en tanto que el siguiente revisa los fundamentos de la inferencia
estadstica clsica.

1. Variables Aleatorias

Definicin til de variable aleatoria (X): Funcin cuyo rango de valores es


conocido ex-ante pero el valor que toma es slo conocido ex-post

Asociamos a ellas una probabilidad de ocurrencia, que denotamos,

Prob (X = x)

donde X es el conjunto de valores y x es un elemento (realizacin) de la funcin. Para


este curso, las probabilidades son exgenas.

Existen dos tipos de variables aleatorias: las variables discretas (ej: robos) y las
variables aleatorias continuas (ej: ingresos familiares)

2. Funciones de Distribucin
Exigiremos que las funciones de probabilidades cumplan algunas restricciones.
La manera ms simple de visualizarlo es:

(5.1)

Lo anterior es directo si la variable X es discreta, pero si sta es continua


entonces P(X=x) = 0. Sin embargo, para x 0 [x , x] , P(a # x #b) existe y de hecho:

Taller Econometra Bsica


Raimundo Soto
3

(5.2)

La distribucin acumulada de probabilidades es la probabilidad que X sea


menor que un cierto valor z y la denominamos por F(x):

(5.3)

Para describir variables aleatorias y su distribucin, usualmente empleamos los


momentos de la distribucin (esperanza, mediana, moda, varianza, skewness,
Kurtosis, etc.), los cuales pueden ser brutos o centrados. Los segundos utilizan
desviaciones con respecto a la media, en tanto que los primeros no.

3. Descriptores del Momento Central de una Distribucin


El valor esperado de una variable aleatoria se define como el promedio de las
realizaciones de X ponderado por su probabilidad de ocurrencia.

(5.4)

Note que la esperanza (media) no tiene que ser un valor que la variable
aleatoria puede tomar cuando sta es discreta. Por ejemplo, al lanzar un dado
numerado de 1 a 6, el valor esperado es 3.5.
Otros descriptores de uso comn son la mediana que es el valor del medio
del rango de valores de la distribucin y se usa principalmente cuando hay valores
extremos, pues a diferencia de la media no se ve tan influida por stos.

Taller Econometra Bsica


Raimundo Soto
4

Ocasionalmente se usa la moda, que es el valor que ocurre con mayor probabilidad,
pero cuya definicin es arbitraria para variables continuas.

Descriptores de Otros Momentos de una Distribucin

C Varianza de una distribucin V ( x) ' E [x & E(x)]2 es decir, es el valor esperado de


la dispersin de la variable aleatoria.

C Skewness de una distribucin S ( x) ' E [x & E(x)]3 es decir, es el valor esperado


de la asimetra de la variable aleatoria.

C Kurtosis de una distribucin K ( x) ' E [x & E(x)]4 es decir, es el valor esperado


de las colas de la distribucin de la variable aleatoria.

4. Distribuciones Discretas de Uso Comn


Supongamos que el experimento tiene dos posibles resultados S = {xito,
fracaso} y que tienen probabilidades p y 1-p, respectivamente:

Exito x=1 P(x=1) = p


Fracaso x=0 P(x=0) = 1-p

La distribucin (o descripcin) de los datos del experimento anterior es la


llamada distribucin de Bernouilli:

(5.5)

Como el mismo Bernoulli se encarg de demostrar, si el experimento se repite


n veces se obtiene la distribucin binomial

(5.6)

Taller Econometra Bsica


Raimundo Soto
5

Hay otras distribuciones discretas tiles. Entre ellas est la Poisson que
corresponde al lmite de la binomial cuando n64 y p60, tal que np es constante.

(5.7)

5. Distribuciones Continuas de Uso Comn


En muchos experimentos en economa no puede suponerse que las variables
aleatorias de inters sean discretas, por lo que se utilizan funciones contnuas.

La distribucin normal: Si n64, la expresin de la binomial es poco prctica. De


Moivre encuentran la distribucin que resulta en este caso:

(5.8)

es decir, la distribucin normal. Esta distribucin es la base de muchos tests y


procedimientos de estimacin que usaremos en este curso.

La distribucin normal estndar: La distribucin normal se estandariza


fcilmente:

(5.9)

La distribucin Chi cuadrado


(5.10)

Una propiedad de esta funcin es que sumas de variables que se distribuyen


tambin se distribuyen :

Taller Econometra Bsica


Raimundo Soto
6

(5.11)

La distribucin F

(5.12)

La distribucion t de Student

(5.13)

La distribucin logstica

(5.14)

6. Distribuciones Conjuntas
Es posible que dos (o ms) variables puedan ser descritas por una funcin de
probabilidades conjunta

(5.15)

El objetivo principal de las ciencias sociales y la economa en particular es


describir (i.e., modelar) distribuciones conjuntas.

Taller Econometra Bsica


Raimundo Soto
7

7. Distribuciones Marginales
Suponiendo que existe la densidad conjunta de dos o ms variables, resulta
natural preguntarse que probabilidad tiene x (o y) de ocurrir, independientemente de
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribucin conjunta y sumamos sobre todo los posibles
valores de la o las otras variables. En un caso de dos variables:

(5.16)

De aqu se deriva el concepto de independencia estadstica. Si la densidad


conjunta es el producto de las marginales, las variables son independientes.
Asociada a la distribucin marginal habrn, naturalmente, esperanzas
marginales, varianzas marginales, etc.

8. Distribuciones Condicionales
Para ciencias sociales, la distribucin ms interesante es la condicional, es decir
aquella que describe cul es la probabilidad que x condicional en que y tome algun
cierto valor y que denotamos por f (y|x).
Se puede demostrar que f (y |x) ' f (x , y) . Para ello, definiremos primero la
f x(x , y)
nocin de probabilidad condicional. Supongamos que en el experimento de tirar dos
monedas, sabemos que el primer tiro fue cara. Cambia esta informacin la estructura
de probabilidades? Primero, note que ahora el espacio de eventos se reduce a
SA={CC,CS}. Entonces, tienen que cambiar las probabilidades P(.), siendo ahora:

PA({CC})= PA({CS})=

Definiremos la probabilidad condicional como:

Taller Econometra Bsica


Raimundo Soto
8

(5.17)

si y solo si P(A)>0.
Resulta clave entender que la media condicional de y en x, E[y|x], es
exactamente el concepto de una regresin lineal en econometra. Suponga que el
experimento puede ser descrito por la siguiente relacin: y = x + , con ruido
blanco, cuyas caractersticas son E[]=0 y cov[i ,j]= para i=j y 0 en todo otro
caso. Entonces E[ y * x] ' x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza
condicional al modelo anterior. Un poco de lgebra permite obtener:
(5.18)

Esta es la funcin cedstica. Aplicando la ley de las esperanzas iteradas


E [y] ' Ex [E [y | x] ] . Se puede obtener:

(5.19)

de donde se desprende que:

(5.20)

es decir, la incertidumbre asociada a la prediccin hecha sobre la base de una


regresin es menor que aquella de los datos.

Taller Econometra Bsica


Raimundo Soto
9

Repaso de Conceptos Bsicos Inferencia Estadstica

1. Por qu necesitamos inferir ?


C Muestras
C Relacin entre muestras y probabilidades

Tomaremos el muestreo como correcto

C Una muestra de tamao n es una muestra aleatoria si las


observaciones provienen de una misma poblacin (distribucin) y son
independientes.

C Esa distribucin queda representada por un conjunto de parmetros ()


desconocidos.

C Objetivo: inferir de la muestra (es decir, observaciones) el valor ms


probable de .

C La inferencia ser en muestras de corte transversal, series de tiempo, o


panel.

2. Distribucin muestral de la media muestral


C Si {x1, x2, ..., xn} es una muestra aleatoria extradas de una poblacin con
media y varianza , entonces x es una variable aleatoria con media
y varianza /n.

C Demostracin es directa:

(5.21)

Taller Econometra Bsica


Raimundo Soto
10

ntese que los resultados (1) y (2) no dependen de ningn supuesto de


distribucin de las variables x.

(5.22)

3. El proceso de inferencia

C Existen muchos mtodos de inferir (al ojo, descriptores simples como la media,
regresin economtrica, tcnicas Bayesianas, etc.).

C Estos mtodos entregan un estimador ( ) de los verdaderos parmetros ()


de la distribucin conjunta de los datos.

C El estimador es impreciso, por lo que tiene un mrgen de error (desviacin


estndar). No olvidar que los Intervalos de confianza son imprescindibles.

C Caractersticas deseables de los estimadores:

C Insesgado E[ ] =
C Eficiencia Menor V[ ] posible

C qu es preferible: sesgo o ineficiencia? Un criterio para el trade off es el error


cuadrtico medio:

(5.23)

C Existe un estimador que sea ptimo (es decir, insesgado y de varianza


mnima)?

Taller Econometra Bsica


Raimundo Soto
11

4. Estimador de mxima verosimilitud


C Consideremos que tenemos una muestra de n observaciones independientes
de una misma distribucin que no conocemos pero queremos descubrir, f (xi,
).

C Si cada dato viene de f (xi, ) y stos son independientes, su distribucin


conjunta (la densidad de la muestra) viene de:

L = f (x1, ) f (x2, ) ... f (xn, )

Esta es la funcin de verosimilitud que mide la probabilidad que los datos que
disponemos vengan de una misma distribucin f (x,).

C Propuesta: por qu no buscamos el que hace mxima la probabilidad que los


datos vengan de f (x,)?

Veamos un ejemplo elemental. Supongamos que los datos son tomados


independientemente y corresponden a robos de bicicletas en el campus. La
muestra es : {5,0,1,1,0,3,2,3,4,1}. Supongamos que creemos que la distribucin que
mejor representa los datos es la Poisson. Entonces:

(5.24)

As la funcin de verosimilitud es:

(5.25)

Taller Econometra Bsica


Raimundo Soto
12

C Podemos optimizar (15), pero resulta ms fcil optimizar el logartmo de la


funcin de verosimilitud. Entonces,

(5.26)

C Buscamos aquel que hace ms probable que los datos vengan de una Poisson.
Lo que se resuelve de manera elemental mediante clculo para obtener =2. Se
debe comprobar que la segunda derivada sea negativa, para asegurar que es
un mximo.

C Ese es el estimador de mxima verosimilitud y es ptimo. Es insesgado, de


varianza mnima, es asintticamente normal e invariante.

C Si la distribucin que utilizamos es multivariada en parmetros, ser un


vector.

C Lmite de Cramer-Rao: suponiendo que la densidad satisface ciertas


restricciones que veremos ms adelante, la varianza de un estimador lineal
insesgado de un parmetro es siempre mayor o igual a:

(5.27)

C El lmite Crmer-Rao en el ejemplo de la Poisson sera:

(5.28)

C La utilidad del lmite de Crmer-Rao es que si algn estimador insesgado


lineal alcanza dicho lmite, entonces ste ser ptimo.

Taller Econometra Bsica


Raimundo Soto
13

5. Estimacin Eficiente (mximo verosmil)


Hemos estudiado la funcin de verosimilitud. Ahora, la usaremos para derivar
un estimador crucial y, adems, para entender lo que hace cada tipo de test.

En trminos genricos, la funcin de verosimilitud se puede escribir como:

(5.29)

lo que haremos ser buscar aquel que hace mximo la funcin de verosimiltud, es
decir, la probabilidad que los datos vengan de la distribucin f.

Maximizar L(|x) es lo mismo que maximizar Log L(|x) debido a que log es
una transformacin monotnica.

El estimador de mxima verosimilitud ser aquel que cumpla:

(5.30)

Este estimador tiene 4 propiedades que lo hacen formidable:

1. Consistencia: plim MV '


2
2. Normalidad asinttica: a N , [I()]&1
MV 6 donde I() ' &E M Ln L .
M )M

3. Eficiencia Asinttica: MV es asintticamente eficiente y alcanza Cramer-


Rao.

4. Invarianza: si =g() entonces g ( MV) es el estimador mximo de

Taller Econometra Bsica


Raimundo Soto
14

6. Testeo de hiptesis
C Supongamos que tenemos un estimador y su varianza. Podemos preguntarnos
si ste calza con un prejuicio nuestro. Testeo de hiptesis.

C Con algn grado de incertidumbre podremos rechazar o no la presuncin que


nuestro prejuicio sea correcto.

C El procedimiento nos pide tener una hiptesis nula (Ho) y una hiptesis
alternativa (H1) mutuamente excluyentes, en general.

C El test rechaza o no rechaza Ho.

C Se rechaza (o no) con determinada probabilidad.

C Como el testeo se hace con variables aleatorias, es probable cometer errores

Tipo I: Rechazar Ho cuando es verdadera


Tipo II: No rechazar Ho cuando es falsa

Nte que la distinta naturaleza de los errores lleva asociado dos distintos
conceptos tiles:

Tamao del Test: es la probabilidad de cometer error tipo I, que usualmente


llamamos .

Poder del Test: es la probabilidad de que el test correctamente rechaze Ho cuando


es falsa, es decir 1- (donde es la probabilidad de cometer error
tipo II).

Taller Econometra Bsica


Raimundo Soto
15

7. Tres tests de hiptesis asintticamente equivalentes

C Test de Razones de Verosimilitud: Al maximizar la funcin de verosimilitud


obtenemos y Lmax. Si el R hipottico es estadsticamente igual a , entonces
recalcular la funcin de verosimilitud con debiera producir un valor (LR)
similar al Lmax.

(5.31)

Con m es el nmero de parmetros restringidos. Un inconveniente de este test


es que exige computar dos veces la funcin de verosimilitud.

C Test de Wald La distancia entre el y R no debiese ser estadsticamente


significativa si el prejuicio es correcto. Entonces:

(5.32)

donde G es la varianza de ( - R). Ms generalmente, podemos usar Ho: c( ) -


R = 0. Note que este es el test t al cuadrado.

C Multiplicador de Lagrange Cuando se obtiene el estimador MV de , la primera


derivada es cero. Si la primera derivada evaluada en R no difiere
estadsticamente de cero, entonces la hiptesis nula no es falsa.

(5.33)

Taller Econometra Bsica


Raimundo Soto
16

Grficamente:

Razones

>
Verosimilitud
Ln L
Ln LR Ln L()

C()
MLn L()/M

Lagrange

R
>
MV
Wald

Taller Econometra Bsica


Raimundo Soto
17

Modelo Clsico de Regresin Lineal

1. Lgica del modelo de regresin

C El modelo de regresin lineal ser nuestra principal herramienta en este curso.

Regresin es una relacin funcional entre dos o ms variables correlacionadas


que se obtiene de los datos y se usa para predecir una dada la(s) otra(s).

(5.34)

Buscamos los parmetros () que relacionan los regresores (x) con la variable
de inters (y).

C Existen otras herramientas. Por ejemplo, los mtodos Bayesianos, no


paramtricos, o semi no-paramtricos.

C El modelo clsico se basa en 6 supuestos que vamos a revisar a fondo.

1. Forma funcional lineal


2. Rango completo de los regresores
3. Media condicional de los residuos cero
4. Residuos esfricos
5. Regresores no estocsticos
6. Residuos normales.

Taller Econometra Bsica


Raimundo Soto
18

2. Supuestos del modelo de regresin lineal


a. Modelo Lineal

(a) Un modelo es lineal si podemos escribir la relacin entre x e y como:

(5.35)

donde x es una secuencia de variables aleatorias de rango k.

(b) Si el modelo analtico no es lineal, hay que linealizarlo (si es posible). Por
ejemplo:

(5.36)

(c) El modelo debe ser lineal en los parmetros, no en las variables.

(5.37)

De la manera que hemos escrito el modelo general:


(5.38)

y es un vector con la variable de inters, x es una matriz con las variables que
describen el fenmeno y es un vector de perturbaciones aleatorias que denota la
estocasticidad del problema.

Taller Econometra Bsica


Raimundo Soto
19

(5.39)

Para incluir la constante incluimos un vector de 1 en la primera columna.

(5.40)

b. Regresores de Rango Completo

El supuesto necesario es que el rango de x sea completo, (x)=k. Este supuesto


es tambin llamado condicin de identificacin, ya que:

(5.41)

Taller Econometra Bsica


Raimundo Soto
20

es decir, no es posible identificar por separado 2 y 3.

Resulta evidente que rango completo requiere que (xN)=n > (x)=k.
Demostrar. No obstante, puede haber correlacin imperfecta entre los regresores.

c. Media condicional de los errores cero

Formalmente, el supuesto de media cero de los errores es condicional en las x.


Es decir, E[i|x]=0 Cul es la intuicin?

C Note que el supuesto no es E[i|xi]=0.

C Si E[i|x]=0 entonces E[]=0. Para probarlo, use la definicin de densidad


marginal.

C La presencia de la constante asegura que E[|x]=0.

C Si E[|x]=0, entonces nuestro modelo de regresin es una media condicional.

(5.42)

Si E[i|x]=0, la regresin NO es una media condicional.

C Adems, cov[xi , i]=0. Por qu?

d. Errores esfricos

Este supuesto tiene dos partes.

(a) V[i| x] es constante (no depende de x)

Taller Econometra Bsica


Raimundo Soto
21

A esto se le llama homocedasticidad. La funcin cedstica es la que describe


la incertidumbre asociada a los shocks o perturbaciones, . Homocedasticidad seala
que dicha incertidumbre no depende de haber observado una realizacin particular
de x.

(b) cov ( , |x) ' 0


i j

A esto se le llama ausencia de correlacin entre errores. Seala que observar


una determinada perturbacin o error no contiene informacin respecto del posible
tamao de otra perturbacin.

La matrix de covarianzas condicional de los residuos:

(5.43)

De manera sinttica podemos escribir E[N|x] = I.

Aplicando la descomposicin de varianza, se puede derivar la siguiente


identidad:

(5.44)

e. Regresores no estocsticos.

Este supuesto seala que la nica fuente de incertidumbre est en la variable


que se modela, y. Es decir, no se est haciendo un modelo de los regresores.

En ese sentido, los regresores son variables controlables. Usualmente se dice


que los regresores son fijos en muestras repetidas.

Taller Econometra Bsica


Raimundo Soto
22

Si los regresores son controlables, entonces los supuestos anteriores son


incondicionales.
Este supuesto no es demasiado costoso, como se deducir al estudiar las
distribuciones asintticas de los estimadores ms adelante.

f. Errores normales

Esto quiere decir que los errores, condicionales en x, se distribuyen con


distribucin normal. En particular,

(5.45)

Por qu normales? La manera de entender esto es que el modelo no pretende


ser una descripcin 100% fiel del fenmeno, sino slo una aproximacin conveniente.
Por ello, hay un error.
Si las causas de este error no son sistemticas, una normal es una buena
descripcin (pienslo un poco). Si son sistemticas, el modelo est mal especificado,
pues debera incluir dichas sistematicidades.

Qu papel juegan estos supuestos en el modelo de regresin lineal clsico?

C Los primeros tres supuestos


C Forma funcional lineal
C Regresores de rango completo
C Media condicional de los errores cero
nos van a servir para obtener los estimadores de nuestros parmetros de inters ().

C Los segundos tres supuestos


C Errores esfricos
C Regresores no estocsticos
C Errores normales condicionales
nos van a servir para hacer inferencias sobre los parmetros.

Por qu tenemos que hacer inferencias?

Taller Econometra Bsica


Raimundo Soto
23

Los Datos

P(u)

X1 X2
y2

y1

La estocasticidad
del problema
P(u)

X1 X2
y2

y1

El modelo de
regresin

Taller Econometra Bsica


Raimundo Soto
24

3. Mtodo de Mnimos Cuadrados Ordinarios


Ahora vamos a fijarnos en el plano XY, pero incluyendo una segunda fuente
de error en el problema de representar los datos con un modelo economtrico: la
existencia de nuestras.

yi ' $ xi

C Modelo verdadero (poblacional) y i ' x i % i


C Modelo muestral y ' x %
i i i

La idea es buscar el que minimiza el error cometido. Si el procedimiento est


bien, converger a .

Como hay puntos por arriba y abajo de la recta poblacional, entonces es


necesarios minimizar la suma de errores al cuadrado.

Taller Econometra Bsica


Raimundo Soto
25

4. Estimador de Mnimos Cuadrados Ordinarios

Definimos la suma de residuos al cuadrado para algn 0 como:

(5.46)

(omitimos el subindice i salvo que sea confuso)

El objetivo es:

(5.47)

note que se ha usado el supuesto (3).

Derivando e igualando a cero:

(5.48)

La ecuacin (15) es llamada ecuacin normal (es un sistema de ecuaciones).

Tomando la segunda derivada:

(5.49)

Taller Econometra Bsica


Raimundo Soto
26

por lo tanto cualquiera sea el valor de , si xNx es positiva definida el problema es una
minimizacin.

Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el


estimador de mnimos cuadrados (ordinarios).

(5.50)

Note que slo hemos usado los primeros tres supuestos, pero no los segundos
tres. Es decir, es posible obtener un estimador del parmetro an si no se cumplen
estos ltimos, porque ellos se refieren a la distribucin del estimador.

Propiedades de la solucin:

De (15): x )x & x )y ' x )(x & y) ' &x ) ,

1. cada columna de x es ortogonal a los residuos.


2. la suma de los residuos es cero (por qu?).
3. la regresin pasa por la media (por qu?).
p
4. la prediccin es insesgada, y i ' x i

Entonces, incluir la constante es realmente importante.

Vamos a usar repetidamente la siguiente matriz:

(5.51)

aplicada a y produce los residuos de una regresin de y en x, es decir:


(5.52)

La matriz M es idempotente y simtrica, lo que es conveniente.

Taller Econometra Bsica


Raimundo Soto
27

Regresin particionada

Supongamos que la regresin tiene dos grupos de variables, x1 y x2. Entonces,


las ecuaciones normales son:

(5.53)

de lo cual obtenemos:

(5.54)

De (43) se desprende un resultado importante: Si (x1'x2)=0, es decir si son


ortogonales, los estimadores pueden ser obtenidos de regresiones independientes. Si
no son ortogonales, la omisin de x1 o x2 llevar a obtener estimadores sesgados.

Usando (42) en (43) obtenemos:

(5.55)

Este es otro resultado importante: el estimador 2 describe la contribucin


marginal de x2 para explicar las variaciones de y, es decir neta de la contribucin de
x1.

Taller Econometra Bsica


Raimundo Soto
28

5. Bondad de Ajuste

El objetivo del anlisis de regresin es dar cuenta (explicar) de las variaciones


de y. Es decir, la variacin total de y: j (y i & y)2 .
i
Sea M0 ' [I & 1 i i )] . Entonces, la suma de cuadrados totales se puede escribir
n
como: yN M0 y. As:

(5.56)

entonces, SCT = SCR + SCR y se define el coeficiente de ajuste como:

(5.57)

El problema de R es que si se aaden variables a la regresin, ste no puede


reducirse (probar). Por ello, se necesita una medida de ajuste que penalice el exceso
de regresores. El R ajustado es dicha medida:

(5.58)

Taller Econometra Bsica


Raimundo Soto
29

Propiedades del Estimador de OLS

El estimador de OLS de puede ser escrito como:

(5.59)

1.1 Regresores no estocsticos

Si los regresores son no estocsticos, entonces (xN x)-1xN es una constante. As,
E [ ] ' . El estimador es insesgado, independientemente de la distribucin de los
residuos.

La matriz de varianzas y covarianzas de es:

(5.60)

Es el estimador OLS de mnima varianza?

Este es el teorema de Gauss-Markov. Vamos a comparar la varianza del


estimador OLS con un rival. Supongamos que existe otro estimador insesgado:
' c y .

Obtenemos la esperanza del rival:

Taller Econometra Bsica


Raimundo Soto
30

(5.61)

Obtenemos la varianza del rival:


(5.62)

Definimos la distancia entre ambos estimadores como D=c-(xNx)-1xN , ya que


D y ' & . De vuelta en (4):

(5.63)

ya que Dx=0 y cx=I.

% DD ) . Si D0, la varianza del rival es mayor y, por lo


' V []
Entonces, V [ ]
tanto, el estimador OLS es de mnima varianza.

Entonces, cada estimador k es insesgado y de varianza mnima.

1.2 Regresores estocsticos

Ahora x no es fijo entre muestras. El truco para obtener las propiedades del
estimador es primero obtener las propiedades condicionales en x y luego la no
condicional.

El estimador es, segn (1), ' % (x )x)&1x ) . Entonces, condicional en x el


estimador es:

(5.64)

Taller Econometra Bsica


Raimundo Soto
31

esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener


la esperanza incondicional:

(5.65)

este resultado no depende de distribuciones sino slo del supuesto 3.

Computamos, tambin, la varianza incondicional. Sabemos que la varianza


condicional es V[|x]=(xNx)-1.

(5.66)

Ahora, la varianza del estimador depende de la muestra. Pero, para esa muestra, el
estimador OLS es BLUE. Luego la conclusin principal de Gauss-Markov no se
altera.

1.3 Distribucin del estimador

Debido a que hemos supuesto que los errores se distribuyen normales,


entonces:
(5.67)

esta es una distribucin normal multivariada. Es decir, cada k se distribuye normal.

Este resultado proviene del supuesto 6. Sin ste, no podramos hacer inferencia
alguna.

Cuando x no es estocstica, sa es exactamente la distribucin del estimador.

Taller Econometra Bsica


Raimundo Soto
32

Cuando x es estocstica, esa es la distribucin condicional del estimador.

Como se ha supuesto que la distribucin de los residuos es normal, la densidad


conjunta queda descrita por la siguiente funcin de verosimilitud:

(5.68)

Es evidente que maximizar la funcin de verosimilitud en este caso es


equivalente a minimizar el segundo trmino que, a su vez, es una funcin de la suma
de residuos al cuadrado.

Entonces, el estimador OLS es el de mxima verosimilitud y es MELI (BLUE).

1.4 Varianza de los errores

La varianza del estimador OLS de los parmetros de la ecuacin (2) requiere


conocer . Ello no es usual. Un estimador natural sera:

(5.69)

donde i son los residuos muestrales. Este no es el estimador adecuado, sin embargo.

Consideremos:
(5.70)

Taller Econometra Bsica


Raimundo Soto
33

) )
As, la suma de residuos al cuadrado es i i ' i Mi .
) )
Cuyo valor esperado es: E [i i |x] ' E [i Mi |x] .

) )
Debido a que i i y i Mi son matrices cuadradas, obtener el valor esperado
anterior es equivalente a la esperanza de su traza. Pero,

(5.71)

como M es una funcin de x para un x dado, entonces

(5.72)

Por ello, el estimador insesgado de la varianza de los errores es:

(5.73)

Finalmente, la varianza estimada de los parmetros ser:


(5.74)

Taller Econometra Bsica


Raimundo Soto
34

2. Tests de Hiptesis en el Modelo Multivariado

Sea y i ' x i % i el modelo estimado.

Buscamos un mtodo de hacer cualquier tipo de hiptesis e inferencia sobre el


conjunto de parmetros estimados. Una manera general de hacer tests para hiptesis
lineales es expresar dichas hiptesis de la siguiente manera:

(5.75)

donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). Todo
el truco consiste en escoger de manera inteligente las matrices R y q.

qu hay en R y en q?

(5.76)

donde los r son los elementos de R. Ntese que hay k parmetros y j ecuaciones (j<k).

2.1 Test de una hiptesis simple.

Supongamos que queremos testear j ' 2 . Escogemos:

(5.77)

de esa forma, R escoge el parmetro j-simo.

Taller Econometra Bsica


Raimundo Soto
35

2.2 Test de una hiptesis de igualdad de parmetros.

Supongamos que queremos testear j ' k . Es decir, j & k ' 0 . Escogemos:

(5.78)

2.3 Test de varias hiptesis sobre parmetros.

Supongamos que queremos testear si las siguientes hiptesis se


cumplen j ' 1 y k ' &4 . Escogemos:

(5.79)

ntese que ahora hay dos filas en q (j=2).

2.4 Test de varias hiptesis sobre varios parmetros.

Supongamos que queremos testear si las siguientes hiptesis se cumplen


j ' 1 & i y k ' . Escogemos:

(5.80)

ntese que tambin hay dos filas en q (j=2).

Ya sabemos cmo escribir cualquier grupo de hiptesis en trminos de R ' q .


Cmo hacemos un test?

C La intuicin es que si n64, entonces sera fcil comparar directamente R ' q .


Taller Econometra Bsica
Raimundo Soto
36

C Pero, n es finito. Por ello, an si R q en trminos numricos,


estadsticamente podran ser iguales.

Hagamos el tpico test para R & q ' 0 :

(5.81)

La intuicin del test es directa. Si R & q es grande entonces R q y se


rechaza Ho.

En (80) hay dos cosas que no conocemos: (1) la Var( R & q ) y (2) la distribucin
del test. Veamos primero la varianza.

(5.82)

Veamos ahora la distribucin.

C R y q son constantes.
C Por ello, el numerador es una funcin de los errores ( es C.L. de errores
normales) y por lo tanto es Normal (0,), donde es la varianza de los
errores.
C Pero estamos dividiendo por R(xNx)-1RN, es decir, la distribucin es N(0,1).

Como usualmente la varianza de los errores es desconocida, usamos el


estimador de sta y, por lo tanto, estamos dividiendo por algo que es estocstico.

Taller Econometra Bsica


Raimundo Soto
37

Pareciera que obtener la distribucin es directo. El problema es que queremos


la distribucin de la razn y no la distribucin del numerador y del denominador por
separado. Excepto que ... ellas sean independientes.

C Note que es una combinacin lineal de del tipo L. Ello, porque


&
' (x )x)&1x )


C Note que 2 es una combinacin lineal de 2 del tipo xAx.
) )
Ello, porque i i ' i Mi

Para que sean independientes, las CL deben ser ortogonales. Es decir, LA=0.
Es decir, (x )x)&1x )M ' 0 , que obviamente se cumple.

Entonces, tenemos una normal estndar dividida por una ajustada por grados
de libertad.

En espaol, el test de un parmetro: debido a que k se distribuye normal, el


test de la hiptesis nula Ho: k es directamente:

(5.83)

Cuando la varianza de los residuos es desconocida, usamos el estimador de la


varianza. Entonces, dividimos (72) por la raz del estimador para obtener:

(5.84)

Taller Econometra Bsica


Raimundo Soto
38

As, el reemplazo de la verdadera varianza por su estimador produce una


distribucin t.

La idea es la siguiente. Tenemos ( k & k)/ 2 S kk pero queremos ( k & k)/ 2 S kk .


Luego tenemos que multimplicar y dividir por 2 . Reacomodando nos queda:

(5.85)

Intuicin: El numerador es obviamente normal estandar (normal - media)/desv


estandar. El denominador es algo.

(5.86)

Ahora, dividimos por convenientemente

(5.87)

Notar que se distribuye normal con media cero, por lo que / es N(0,1) y (*) es el
cuadrado de una normal estndar, por lo que se distribuye . Los grados de libertad
son el rango de M que es (n-k). Asi es que tenemos una N(0,1) dividido por una .
Si queremos el test t debemos ajustar el denominador por los grados de libertad.

C Cuando se trata de una hiptesis complejas, usamos directamente el test de


Wald de la siguiente forma:

Taller Econometra Bsica


Raimundo Soto
39

(5.88)

la distribucin es bien obvia, no?, excepto por J (obtener, lo que es trivial pero
largo).

Nuevamente, tenemos el problema que es desconocida. Se usa el estimador


por lo que se obtiene el siguiente test que tiene la distribucin de Fischer.

(5.89)

La intuicin es de nuevo directa. Si R & q es grande entonces R q y se


rechaza Ho.

2.5 Distribucin del test t con regresores estocsticos

Qu sucede cuando los regresores son estocsticos? Acabamos de obtener la


distribucin condicional del test t en x (t|x). Deberamos integrar por x para obtener
la distribucin marginal del test t (es decir, la distribucin no condicional en x).

(5.90)

El estimador es normal condicional en x. Su distribucin marginal no tiene


por qu ser normal porque depende de x. Cuando x es estocstico, el denominador

Taller Econometra Bsica


Raimundo Soto
40

no tiene por qu ser la raz de una ajustada por (n-k).

No obstante, el test sigue siendo t a pesar de que x contenga variables


estocsticas y determinsticas. Ello, porque f(t|x) la integracin para obtener la
marginal no es funcin de x.

3 Tests de Hiptesis y Modelo Restringido


Otra manera de pensar un test de hiptesis es en trminos de restricciones
impuestas.

Supongamos que en vez de hacer el test, imponemos directamente la hiptesis


nula y hacemos la regresin.

Hay dos resultados posibles: (1) la restriccin que hemos impuesto si afecta la
estimacin, cambiando los parmetros estimados y (2) la restriccin que hemos
impuesto no afecta la estimacin.

Dnde se vera ms fcilmente el efecto? Obviamente en los parmetros que


no hemos restringido, pero sera dificil de evaluar. Ms fcil de evaluar es en ... ) .

Si ponemos una restriccin y afectamos la estimacin, tendremos que estar


cometiendo ms errores que sin dicha restriccin, porque la estimacin sin
restriccin es la ptima (min ) ).

Si ponemos una restriccin y no afectamos la estimacin, entonces la


restriccin ya se cumpla y no estaremos cometiendo ms errores que sin dicha
restriccin.

)
Si llamamos ( ( a los errores de la regresin con la restriccin impuesta,
entonces:

Taller Econometra Bsica


Raimundo Soto
41

)
) = ( ( seala que la estimacin con y sin restricciones son iguales.
)
) < ( ( seala que la estimacin con y sin restricciones son distintas.

)
Qu son ) y ( ( ?

(5.91)

Por lo tanto:
(5.92)

de lo que se desprende

(5.93)

Si queremos entender la ecuacin anterior tenemos que estudiar ( & () . Para


ello, vamos a pensar de nuevo en el problema de optimizacin. Vamos a buscar *
tal que sea ptimo bajo Ho. Es decir,

(5.94)

formamos el tpico Lagrangeano,


(5.95)

derivando, obtenemos

(5.96)

Taller Econometra Bsica


Raimundo Soto
42

Ya tenemos ( . Premultiplicamos por R(xNx)-1 y obtenemos:

(5.97)

Note que el primer trmino es &2 R y el segundo es &2 R ( . Entonces,

(5.98)

De vuelta en la ecuacin (32) despejamos:

(5.99)

pero * = R-q. Usando (38) en (32), obtenemos

(5.100)

pero esto ya lo conocemos, no? As,

(5.101)

Por ello el test F anterior puede ser escrito como:

(5.102)

Taller Econometra Bsica


Raimundo Soto
43

n
Dividiendo el denominador y numerador por j (y i & y)2 obtenemos:
i' 1

(5.103)

4. Prediccin
Una vez parametrizado un modelo resulta natural preguntarse por las
propiedades de las proyecciones hechas con ste. Hay dos alternativas de
proyecciones: dentro y fuera de la muestra. A las segundas se les llama usualmente,
predicciones.
El valor efectivo para la observacin o del modelo es y 0 ' x 0 % 0 en tanto que
p . Note que la proyeccin es lineal, insesgada, y de
el valor proyectado es y ' x
mnima varianza. Por ello el error de prediccin es simplemente:
(5.104)

lo que pone de manifiesto las tres fuentes de error de una proyeccin.

C La estocasticidad de los regresores.


C La distancia que hay entre parmetro y estimador, an si E [ ] ' .
C La presencia del error aleatorio.

Resulta conveniente computar la varianza del error de pronstico y deducir la


expresin:

(5.105)

Taller Econometra Bsica


Raimundo Soto
44

de donde se desprende que la incertidumbre de la proyeccin depende de (1) la


presencia de shocks aleatorios, , (2) el tamao muestral, n, y (3) la distancia entre
la proyeccin de los regresores y su media, x & x.

Medidad de Calidad de la Prediccin

La principal medida de calidad de una regresin debiese ser con respecto del
experimento que se est haciendo. No obstante, se usan frecuentemente medidas
resumidas basadas en los errores de prediccin dentro de la muestra. El ms popular
es el error cuadrtico medio (ECM) que se define como:

(5.106)

una variacin es el error absoluto medio (EAM)

(5.107)

El problema del ECM y EAM es que dependen de la unidad de medida de las


variables. Por ello, Theil propone el siguiente estadstico normalizado:

(5.108)

Este estadstico, adems, puede ser descompuesto en tres componentes que


resultan interesantes. Primero, note que el denominador del estadstico U puede ser
descompuesto en:

(5.109)

donde sy , sy y r son las desviaciones estndares de cada variable aleatoria y la


correlacin entre prediccin y valor verdadero. Se pueden obtener tres proporciones:

Taller Econometra Bsica


Raimundo Soto
yi
j(
45
& y)2
n0
C . Esta es una medida de sesgo, porque nos dice que tan lejos
j ( y i & yi)
1 2
est la media de la prediccin de la verdadera media de la
n0
variable.
(sy & s y)2
C . Esta es una medida de variacin, porque indica qu tan
j ( yi & yi)
1 2
lejos est la variacin de la prediccin respecto de la
n0
verdadera variabilidad de la variable.
2(1 & r) sy sy
C . Esta es una medida de covariacin residual que refleja los
j ( yi & yi)
1 2
componentes no sistemticos que separan la prediccin del
n0
verdadero valor de la variable.

Una mejor prediccin es aquella donde el sesgo sistemtico y la impresicin


de las prediccines son menores

Taller Econometra Bsica


Raimundo Soto
46

Violacin de los Supuestos del Modelo de Regresin


Lineal

En esta seccin estudiamos problemas derivados de la violacin de los seis


supuestos sobre los cuales se desarroll el modelo de regresin lineal en el captulo
anterior. La lgica de operar es la siguiente: en primer lugar estudiamos el efecto de
la violacin sobre los estimadores mnimos cuadrados y los diferentes tipos de tests.
En segundo lugar, propondremos, si es posible, alguna una solucin, examinando el
contexto en el que dicha solucin es vlida.

La pregunta ms natural que se tiene es cmo sabemos que se ha violado un


supuesto?. La respuesta no es simple porque hay muchas consecuencias de violar un
supuesto y, adems, porque muchas veces se pueden violar varios supuestos
simultneamente. Aunque no hay reglas al respecto, algunos fenmenos pueden
delatar la violacin de algn supuesto son:

C Los errores que no tienen la caracterstica de ser ruido blanco que se les
exige para representar la parte asistemtica del fenmeno en cuestin.
Este es el indicador ms importante de la violacin de algn supuesto
aunque, debe reconocerse, es dificil de evaluar an con los mejores tests
estadsticos.
C Los parmetros estimados tienen caractersticas que no son congruentes
con los pre/juicios que se tenan antes de hacer el experimento, en
trminos que presentan signos opuestos a los esperados, baja
significancia, o son poco robustos ante pequeos cambios en las
condiciones de estimacin.
C Existen problemas con los estadsticos asociados a la regresin, como
son R, tests de correlacin residual, o la comparacin entre el error
estndar de la variable de inters SE(y) el de la regresin,
SE(regresin).
C Baja capacidad predictiva del modelo estimado o sesgo sistemtico en
la prediccin.

Taller Econometra Bsica


Raimundo Soto
47

1. Problemas de Especificacin I: Regresores Inadecuados

Es frecuente que al modelar el econometrista tenga varias alternativas de


variables que puede incluir o excluir del modelo. En principio, su teora debiera
sugerirle una especificacin completa y las hiptesis que va a estudiar. Pero a veces
las teoras no son muy finas y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos
situaciones (incluidas y excluidas). Dos combinaciones son obvias (pertinente
incluida e irrelevante excluida). Las otras dos son ms interesantes de estudiar.

Omisin de variable pertinente.

Un problema economtrico comn en los modelos econmicos es la omisin


de variables que pueden ser potencialmente importantes (tpicamente por mala
especificacin analtica o por limitaciones de los datos). Supongamos que el modelo
y=x+ es particionado en dos grupos de variables:
(5.110)

Supongamos ahora que la estimacin excluye x2. Entonces:

(5.111)

esta expresin ya la hemos visto con anterioridad, de donde derivamos este


importante resultado:

(5.112)

Entonces,

Taller Econometra Bsica


Raimundo Soto
48

(5.113)

Por lo tanto la omisin de variables pertinentes correlacionadas con aquellas


que quedan en el modelo sesga los estimadores. El sesgo es de direccin y tamao
desconocidos, porque no conocemos 2. La omisin de variables pertinentes no
correlacionadas con aquellas que quedan en el modelo no sesga el estimador de los
coeficientes.
Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la
inversa de matrices particionadas. La varianza del verdadero estimador, es decir
incluyendo x2, es

(5.114)

la varianza del estimador en el modelo que excluye x2 es

(5.115)

Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor


varianza. Sin embargo, consideremos el caso ms comn en el que resulta necesario
usar el estimador de , 2 ' ()) / ( n&k1) , donde son los residuos del modelo
estimado excluyendo x2 (no los del modelo completo, ). Pero podemos expresar en
funcin de usando la matriz M1

(5.116)

donde M1=I- (x1Nx1)-1x1N, es decir, produce los residuos de una regresin de lo-que-
haya-a-la derecha en x1. Por lo tanto, en los residuos muestrales estn los verdaderos
residuos ms el efecto de la correlacin de x1 y x2 ponderado por 2.

Taller Econometra Bsica


Raimundo Soto
49

Cmo afecta esto al estimador de la varianza de los residuos? Tome la


ecuacin (118), multiplique por su traspuesta y tome el valor esperado para obtener:
la siguiente expresin:

(5.117)

Entonces,

(5.118)

El primer trmino del lado derecho de (120) es no-negativo, ya que es una


forma cuadrtica. El segundo es el estimador de la varianza de los residuos para el
modelo que excluye x2. Por ello, la varianza estimada de los residuos obtenida como
la suma de los residuos al cuadrado ajustada por grados de libertad estar sesgada.
Es interesante notar que si an si ocurre que x1N x2 = 0 y los parmetros no estn
sesgados, el estimador de la varianza de los residuos y por consiguiente los tests t
si lo est.

Adicin de variable irrelevante.

Nuevamente, debemos contestar las clsicas preguntas: Es el estimador de


insesgado? Se ha afectado la varianza del estimador de ? Se ha afectado 2 ? Cul
es el impacto sobre los tests? Dejo de tarea encontrar las respuestas, que son bastante
obvias.

Una conclusin errnea, popular y peligrosa

Como hemos visto, en trminos de la calidad de los estimadores resulta


preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugerira
que la mejor estrategia de modelacin economtrica es poner de todo al lado
derecho de la regresin, mientras alcancen los grados de libertad. As, si bien los
estimadores tendran problemas de eficiencia, no habra problemas de sesgo. Estos

Taller Econometra Bsica


Raimundo Soto
50

ltimos son naturalmente ms costosos.


Existen problemas graves con esta estrategia. El modelo de regresin ha sido
derivado bajo la premisa que ste describe un experimento aleatorio en un espacio de
probabilidad asociado a un conjunto de posibles eventos de inters. En tal caso, el
diseo del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de
hiptesis que se desea estudiar como la especificacin funcional particular que se
debe usar.
Cuando se incluyen variables aleatorias con el fin de maximizar algn criterio
(usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor,
no puede compararse el parmetro de inters entre modelos. Considere los dos
modelos planteados en la ecuacin (121):

(5.119)

evidentemente, el parmetro 1 de la ecuacin (a) se refiere a un experimento cuyo


espacio de eventos es distinto del que se considera implcitamente en la ecuacin (b),
lo que impide la comparacin entre modelos. Otra manera de ver este mismo
problema es considerar que la modelacin economtrica equivale a estudiar la
distribucin condicional F(y|x) que puede ser muy distinta de F(y|x,w).
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir
una especificacin no puede usarse esa misma muestra para (in)validar dicha
especificacin. En el primer caso, se est usando la informacin para descubrir
regularidades de inters (usualmente mal llamadas, hechos estilizados) y motivar la
modelacin y el anlisis econmico de algn fenmeno. En el segundo caso, se est
usando un conjunto de variables aleatorias para discutir la validez de una proposicin
econmica hecha con independencia de la realizacin (muestra) de dichas variables
aleatorias. Si bien ambos casos son vlidos por separado, en conjunto ellos no
constituyen una base adecuada de modelacin economtrica.
Frecuentemente los investigadores olvidan este hecho elemental y se engarzan
en una verdadera carrera de caballos con distintos modelos economtricos,
ponderando sus virtudes y defectos por medio de una batera de tests.
Cmo sabemos, entonces, si un modelo est bien especificado? Slo la teora
econmica nos puede sugerir una especificacin. Una vez obtenida una muestra
acorde al testeo que se desea hacer, hay dos alternativas: si la teora es congruente con

Taller Econometra Bsica


Raimundo Soto
51

los datos, nos quedamos con sta como una representacin adecuada de datos
caracterizados por algunas regularidades empricas. Si la teora no es congruente con
los datos, cambie de teora.
Existe la tentacin a poner cosas del lado derecho, slo para encontrarse
despus que no hay como justificar en serio la inclusin de dichas variables. Hay, sin
embargo, dos objeciones comunes a la idea que un investigador debe limitarse a la
disciplina que le impone su teora econmica:

Si el test t de estas variables adicionales es mayor que 2 por qu no incluirlas?

El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde


un punto de vista estadstico para describir la media condicional de y, pero no
tenemos idea por qu o qu papel desempean desde el punto de vista analtico. Lo
mismo se aplica a justificar por bondad de ajuste: no olvide que el R es una funcin
del test t. Si se aade una variable cuyo test t es mayor que 2, el R de la regresin
sube.

Por qu no usar las k variables disponibles y hacemos una competencia todos-


contra-todos seleccionando aquellas que maximizan R con tests t significativos al,
digamos, 95%?

Esta tcnica, llamada stepwise regression, busca aquella combinacin lineal de


los componentes de x que maximiza la bondad de ajuste, R. Esto tiene bastantes
problemas. En primer lugar, la seleccin es mecnica con independencia de las
restricciones que impone la teora. En segundo lugar, es dificil comparar entre
modelos (cmo se distribuye el test de distancia entre dos o mas R?). En tercer
lugar, esto es data mining.
El problema de data mining, en realidad, excede el de la bsqueda interesada
de las variables que se debe incluir en el modelo. Tambin debe incluirse la
reespecificacin de los modelos (porque tambin equivale a cambiar los supuestos
sobre los cuales se deriv el modelo originalmente), la bsqueda de muestras
convenientes (por ejemplo, el periodo de tiempo preciso) e, incluso, el uso de tests
estadsticos favorables (que usualmente son aquellos que no tienen poder para testear
la hiptesis nula de inters).

Taller Econometra Bsica


Raimundo Soto
52

2. Problemas de Especificacin II: Cambio de Rgimen


Una forma interesante de violar el supuesto que el modelo sea lineal es el caso
en el que hay cambio de rgimen (un caso muy frecuente en series de tiempo). Un
ejemplo comn queda descrito en el siguiente grfico. Resulta bastante obvio en este
caso que parecen haber dos regmenes que describen la variable. Uno ocurre
posiblemente en los perodos 1 a 15 y 40 a 60. El otro se observa, ms o menos,
entre 15 y 40 y luego entre 61 y 80.

-1
1 11 21 31 41 51 61 71
6 16 26 36 46 56 66 76

En el caso de cambio de rgimen, un modelo del tipo y = x + es inadecuado.


Supongamos que el cambio es slo en el intercepto de la regresin, lo que se debera
usar es una especificacin del tipo:

(5.120)

Sin embargo, es preferible anidar ambos modelos en una sola especificacin


usando variables ficticias (dummies), que toman valores 0 y 1 dependiendo del
rgimen. El modelo anidado es:

Taller Econometra Bsica


Raimundo Soto
53

(5.121)

As, cuando la variable muda D es 1, el intercepto es +, en tanto que si es 0 ste es


.
Supongamos ahora que el cambio de rgimen es tanto en el intercepto como en
los otros coeficientes de la regresin. Se debera usar es una especificacin del tipo:

(5.122)

Conviene, nuevamente, anidar ambos modelos en una sola especificacin


usando variables ficticias. El modelo anidado es:

(5.123)

As, cuando D es 1, el intercepto es + y la pendiente es +. Cuando D=0,


obtenemos los parmetros y .

Cmo descubrimos si hay cambio de rgimen?

Existen dos tcnicas de amplia difusin para descubrir la existencia de


regmenes distintos en una muestra: las tcnicas recursivas y el test RESET. Como
vamos a descubrir, estas tcnicas no sealan slo la presencia de cambio de rgimen
sino adems de otros problemas de especificacin.
El test RESET (Regression specification test) fue propuesto por Ramsey (1969)
y consiste en realizar una regresin auxiliar al modelo de inters. Sea el modelo
yt ' xt % t , supongamos que se distribuye N(0,I), y consideremos la siguiente
regresin auxiliar:
(5.124)

Taller Econometra Bsica


Raimundo Soto
54

donde zt ' 6 xt2 , xt3 , ...> . Si el modelo original estaba bien especificado, entonces los
coeficientes de las variables auxiliares no debiesen ser estadsticamente
significativos. En caso contrario, el estimador de es inconsistente. Por ello la
hiptesis nula del test es H0: 2=0 y H1: 20.
Para hacer el test en la prctica, se puede hacer un test F o de razones de
verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones.
Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso,
el test no slo sealara la presencia de error de especificacin sino, adems, de
variables omitidas. Segundo, en modelos de series de tiempo es posible incluir
rezagos de la variable del lado izquierdo, yt-k, de modo que el test ahora sealara la
presencia de error de especificacin sino, adems, de correlacin residual.
La tcnicas recursivas se aplican de modo natural a problemas de series de
tiempo y consisten en estimar el modelo incrementando de modo recursivo el tamao
de muestra. Consideremos el modelo yt ' xt % t y la siguiente regresin auxiliar:
(5.125)

donde t es el estimador del parmetro obtenido mediante una regresin hecha con
una muestra de datos 6 yi , xi>t&1
1 . La tcnica consiste en hacer un conjunto de regresiones

auxiliares incrementando el tamao de muestra desde i=k+1 hasta T, donde k es el


rango de x. Note que k+1 es la primera regresin que es posible hacer.
Existen dos posibles variables aleatorias de inters que se obtienen del
conjunto de regresiones auxiliares: los estimadores recursivos y los residuos
recursivos. Para ambos hay distintos tests.

Tests de residuos recursivos. Hay dos tests clsicos de residuos recursivos:


CUSUM y CUSUM-Q. Consideremos primero la varianza predicha del error de
prediccin de (127):

(5.126)

y ahora computamos recursivamente la variable aleatoria wt tal que

Taller Econometra Bsica


Raimundo Soto
55

(5.127)

El test CUSUM computa Wr ' j


r't wr
2
donde 2 es la varianza estimada de wr.
r'k%1
Bajo la hiptesis nula Wr tiene media cero y su varianza es aproximadamente igual
a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d.
estandarizada). Por ello el intervalo de confianza se obtiene de las rectas k , a (T&k)
y k , 3a (T&k) y se fija a para significancias de 95% o 99%. Un ejemplo se ve en la
Figura 5.2.

(5.128)

30 1.2

1.0
20

0.8
10
0.6
0
0.4

-10 0.2

-20 0.0

-0.2
-30
80 82 84 86 88 90 92 94 96 98
80 82 84 86 88 90 92 94 96 98

C U SUM of Squares 5% Significance


CUSUM 5% Significance

El test CUSUM-Q, por otro lado, utiliza una variacin del test anterior pues
estudia el estadgrafo: Bajo la hiptesis nula, la esperanza del estimador es
(aproximadamente) E[Sr]=(t-k)/(T-k) y su varianza es una funcin compleja de (t-k)

Taller Econometra Bsica


Raimundo Soto
56

para la cual existen tablas (ver Figura).


Finalmente, la estimacin recursiva del modelo produce para cada iteracin un
valor del estimador de los parmetros con su respectiva desviacin estndar que

Parmetros Recursivos
10 2.8

2.4
0 2.0

1.6
-10
1.2

0.8
-20
0.4

-30 0.0

-0.4

-40 -0.8
82 84 86 88 90 92 94 96 98 82 84 86 88 90 92 94 96 98

Recursive C(1) Estimates 2 S .E. Recursive C(2) Estimates 2 S.E.

0.2 2

0.0 1

0
-0.2
-1
-0.4
-2
-0.6
-3
-0.8
-4

-1.0 -5

-1.2 -6
82 84 86 88 90 92 94 96 98 82 84 86 88 90 92 94 96 98

Recursive C(3) Estimates 2 S .E. Recursive C(4) Estimates 2 S.E.

se puede utlizar como medida visual de la inestabilidad de una regresin y de la


presencia de cambios de rgimen. Como se ve en la Figura.
Test de Prediccin (One Step Ahead Forecat Error Test)
Si uno considera la ecuacin (127) notar que los residuos recursivos
corresponden al error de prediccin un periodo fuera de muestra. Es posible,
entonces, testear si la distancia entr el prediccin y el valor veradero est dentro de
un intervalo de confianza de x%. Una descripcin grfica de este test es presentada
en la siguiente figura. Se observan en azul los residuos recursivos, con su desviacin
estndar (escala derecha). En la escala izquierda se identifican aquellos errores que
estn entre 5, 10 y 15% fuera de rango.

Taller Econometra Bsica


Raimundo Soto
57

3. Problemas de Especificacin III: Datos errneos


El anlisis emprico frecuentemente se enfrenta a problemas con los datos en
dos dimensiones: datos perdidos y variables sustitutas. Naturalmente, es posible que
estos problemas sucedan simultneamente, pero para efectos pedaggicos los vamos
a estudiar por separado.

Datos Perdidos
Supongamos que el modelo es del tipo y i ' % x i % i . Obviamente, pueden
haber datos perdidos en la variable de inters, y, o en los regresores, x. Ello puede
suceder por varias razones. En primer lugar, porque no existen los datos para algn
determinado perodo de tiempo o segmento de la muestra. Lo ms comn es que esto
suceda porque los encargados de estadsticas no levantaban los datos de base o
porque las muestras se han perdido. Segundo, porque los datos existen pero estn en
distinta frecuencia a la necesaria para hacer el anlisis emprico (p.e., datos mensuales
versus trimestrales).
Desde un punto de vista analtico, podemos particionar la matriz de datos de
nuestro modelo de la siguiente manera:

Datos existen yA xA
Datos perdidos I - xB
Datos perdidos II yC -

Note que siempre podemos estimar el estimador en el subconjunto A. El


punto es ver cmo usar los datos restantes. Estudiamos primero el caso A+B, es decir
cuando faltan observaciones de la variable de lado izquierdo. Despus veremos el
caso A+C, es decir cuando faltan observaciones de los regresores.

Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar


algn mtodo para hacer una prediccin de yB y usar posteriormente el modelo
economtrico completo para estimar , es decir usando [yA % yB , xA % xB] . El quid del
asunto radica en cmo predecir yB. Hay dos alternativas populares:

Taller Econometra Bsica


Raimundo Soto
58

Alternativa popular 1. Rellene los datos faltantes con la media de yA.


Demuestre que el resultado es que se produce sesgo
en los parmetros.
Alternativa popular 2. Estime en el subgrupo A, prediga yB usando dicho
estimador, y luego estime el modelo completo. El
procedimiento es intil.

Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer


una prediccin de xC y usar el modelo completo para estimar , es decir usando
[yA % yC , xA % xC] . Cmo predecir xC?

Alternativa popular 1. Rellene los datos faltantes con la media de xA.


Demuestre que este procedimiento es equivalente a
eliminar los datos del segmento C.
Alternativa popular 2. Haga una regresin de x en y en el subgrupo A,
estime un parmetro y prediga xC usando dicho
estimador. Luego estime el modelo completo. Esta
tcnica viola el anlisis economtrico.
Variables proxies
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la
verdadera variable que no es observable o no est disponible. Puede haber proxies de
la variable de inters o de los regresores, pero el efecto sobre el estimador de los
parmetros no es igual. Recordemos que las propiedades del estimador mnimos
cuadrados se derivan de:
(5.129)

y del supuesto cov[x,]=0. Podemos reescribir la ecuacin anterior como:

(5.130)

Hasta el momento se ha cumplido que plim & ' Qxxx , pero la matriz de
covarianzas se desvanece cuando n64. Veamos ahora qu sucede con variables

Taller Econometra Bsica


Raimundo Soto
59

proxies.

Proxy para la variable de inters: Sea el modelo que nos gustara estimar y* = x
+ . Pero solo disponemos de y* = y + , donde es un shock aleatorio, con media
cero y varianza Var[]. Entonces el modelo estimable es y = x + - = x + ,
donde = - .
Notese que es una variable aleatoria con media cero y cuya covarianza con
x tambin es cero. Luego se satisfacen todos los supuestos del modelo clsico y no
hay problemas de sesgo en los estimadores. Obviamente, la varianza del estimador
de los residuos est sesgada, siendo ms grande porque incluye tanto la varianza de
como la de . Sin embargo, ese sesgo no es posible corregirlo sin conocer Var[].

Proxy de los regresores: Sea el modelo que nos gustara estimar y = x* + . Pero
solo disponemos de x = x* + , donde es un shock aleatorio con media cero y
varianza . Ahora el modelo es y = x + - = x + donde = - . El
problema radica en que hay correlacin entre regresor y error porque cov[ x ,] =
cov[x* + , - ] = -. El estimador de mnimos cuadrados es:

(5.131)

veamos el plim :

(5.132)

y como x*, , y son independientes entre s, se obtiene:

Taller Econometra Bsica


Raimundo Soto
60

(5.133)

con Q*=plim 1/n x*'x*. Podemos reescribir (15) como:

(5.134)

por lo tanto, si hay incertidumbre ( 0), el estimador del parmetro es


inconsistente y sesgado hacia cero. A mayor error de medida, ms fuerte este efecto
de atenuacin.

4. Problemas de Especificacin IV: Colinealidad


El problema de colinealidad consiste en que los regresores no son
independientes entre s. Cuando se impuso el supuesto de identificacin, es decir que
(xx)-1 fuese positiva definida, no se elimin el problema que los regresores estn
correlacionados imperfectamente. Consideremos el siguiente modelo:
(5.135)

pero supongamos que los regresores estn correlacionados de acuerdo a la siguiente


relacin:
(5.136)

Introduciendo (5.27) en (5.26) resulta obvio:


(5.137)

Hay dos interpretaciones interesantes de la ecuacin anterior. Primero, se puede

Taller Econometra Bsica


Raimundo Soto
61

estimar (j + j) pero no podemos identificar j. Segundo, el efecto marginal de


xk sobre y tiene dos componentes: uno directo (j) y otro que se filtra indirectamente
a travs de xj (kj). Ntese, adems, que la varianza del error (+3 ) tiene una
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mnimos cuadrados es
algo sorprendente. Tomando el estimador

(5.138)

Por lo tanto, en tanto la matriz de momentos de los regresores exista, el


estimador sigue siendo insesgado. Ello porque independientemente de si los
regresores son estocsticos o no, la correlacin entre regresor y error en valor
esperado es cero lo que implica que E ' .
Si los parmetros no son sesgados, dnde est el efecto de la colinealidad?
Debido a que el problema es que cov(x1,x2) 0, entonces tiene que afectar la matriz
de momentos de los regresores, xx. Veamos como la afecta con algunos ejemplos
prcticos. Recordemos que la inversa de xx es su adjunta dividida por el
determinante

(5.139)

Supongamos

(5.140)

y ahora consideremos un caso donde la correlacin entre las variables no es cero:

(5.141)

Taller Econometra Bsica


Raimundo Soto
62

Es evidente como se va reduciendo el determinante de la inversa. Entonces,


como V ( ) ' 2 (xi)xi)&1 , la presencia de colinealidad se traduce en varianzas de

(5.142)

parmetros cada vez ms grandes. En el lmite la varianza tiende a infinito.


Esto es congruente con lo que obtuvimos en (5.28). Cuando la colinealidad es
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no
podemos precisar el valor de los parmetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero
tampoco existe, usualmente, la ausencia de colinealidad (piense en el papel de las
expectativas y cmo stas correlacionan muchas variables econmicas). Por ello,
siempre habr algn grado de colinealidad.
Otro sntoma de la colinealidad es que los estimadores de los parmetros se
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimacin
punto de los parmetros bajo alta colinealidad depende de la conformacin de la
muestra. Si sacamos un(os) dato(s) de la muestra, la estimacin de los parmetros
suele cambiar fuertemente.

Como detectamos la presencia de colinealidad?


Podramos estudiar la correlacin de los regresores antes de estimar el modelo.
Esta prctica es esencial en cualquier modelacin economtrica, pues aparte de
detectar posibles problemas de colinealidad nos ayuda a descubrir errores en los
datos. Un problema prctico, no obstante, es que no es muy claro cundo hay alta
colinealidad entre dos o ms variables. Naturalmente una correlacin de 99% es alta
y una de 5% es baja, pero para una correlacin de 57% no es clara la conclusin.
Otra alternativa es investigar si los estimadores de los parmetros son
inestables. Si bien esto es correcto, existen otros problemas que veremos ms
adelante que tambin producen inestabilidad. Por ello, este test no es conclusivo.
Una tercera alternativa frecuente es que, si bien los parmetros no son
significativos por la alta varianza, como un todo la regresin es satisfactoria. Ello se

Taller Econometra Bsica


Raimundo Soto
63

traducira en el caso R 2 alto pero no significativos. Hay que reconocer, sin


embargo, que no es una regla muy firme, porque una variable irrelevante en un
modelo satisfactorio tendra el mismo sntoma.

Qu solucin tiene la colinealidad?


En estricto rigor, no existe ninguna solucin. La colinealidad no es un
problema. Es una caracterstica de las variables aleatorias utilizadas en el modelo. Es
decir, una caracterstica del problema econmico.
No obstante, algunos textos tradicionales suelen presentar pseudo soluciones
al problema de colinealidad que vale la pena estudiar para (a) descubrir su
inaplicabilidad y (b) porque existen otros usos para estas tcnicas que se utilizan a
menudo.

1. Elimine alguna variable para la que haya evidencia de colinealidad con otras.
1 2 3
En el modelo yi ' % 1 xi % 2 xi % 3 xi % i entonces se podra eliminar, digamos, x3.
El resultado es:

(5.143)

Obviamente, el problema de colinealidad se reduce. Sin embargo, tenemos un


problema grave. Ahora cov(x1,) y cov(x2,) no son cero. Por ello, los estimadores
estn sesgados, no se conoce el tamao o la direccin del sesgo, y las varianzas de
los estimadores pueden estar sobre-estimadas.

2. El mtodo de ridge. Esta tcnica se basa en la observacin que los


parmetros son difciles de identificar porque las varianzas de los parmetros son
relativamente pequeas en comparacin con las covarianzas. Las varianzas estn en
la diagonal de (xx)-1. Por ello, este estimador sugiere sumarle algo a dicha
diagonal, de modo que los parmetros sean identificables. El estimador de ridge es:
(5.144)

Taller Econometra Bsica


Raimundo Soto
64

donde r es un escalar pequeo (p.e., 0.01) y D una matriz diagonal.


Obviamente, ahora las varianzas de los parmetros estimados van a ser
menores.
(5.145)

Pero este beneficio se obtiene a costa de:

(5.146)

Hemos vuelto a obtener dos resultados importantes: (a) Modelos con variables
pertinentes omitidas producen parmetros sesgados, y (b) Es posible tener
estimadores sesgados ms eficientes que un estimador insesgado.

3. Mtodo de componentes principales. Otra propuesta de solucin de


colinealidad consiste en extraer de la matriz (xx) los componentes principales de
sta. Si el problema de las x es que no hay independencia lineal, por qu no
seleccionamos aquellos x que son ms independientes? As, mejorara la estimacin
del modelo, pues el subconjunto de x seleccionado representara bien a todas las
variables del modelo. La pregunta es equivalente a cul combinacin lineal de las
x es la que tiene el mejor ajuste a todas las x? Esa ser la mejor representante.
Sea la combinacin lineal z1 ' xa1 . Entonces, z1)z1 ' a1)x )xa1 . Buscamos a1 tal que
maximicemos z1'z1 (pinselo como matriz de informacin). Obviamente, si no
restringimos a1 es posible que [z1N z1]64. Por ello, optimizamos restringiendo a que
a1Na1=1 (a esto se le llama normalizar). Usando la tcnica de Lagrange:
(5.147)

derivando obtenemos la siguiente condicin de primer orden:

Taller Econometra Bsica


Raimundo Soto
65

(5.148)

es decir:
(5.149)

por lo tanto, a1 es un vector caracterstico. Recuerden, a1 es el vector caracterstico


asociado a la raz caracterstica. Cul vector caracterstico? Aquel asociado a la
raz caracterstica ms grande de xx.
As, hemos escogido el primer componente principal. Ahora, escogemos el
segundo, a2. Para ello optimizamos sujeto a a1 ya encontrado y a que a1 sea ortogonal
a a2 (a1'a2=0)
(5.150)

As, obtenemos la siguiente condicin de primer orden del problema restringido

(5.151)

entonces, premultiplicamos por a1'

(5.152)

pero a1'a2=0 y a1'a1 = 1. Por ello, =0. Se deduce entonces que x )xa2 ' 2 a2 , es decir
a2 es el segundo vector caracterstico (correspondiente a la segunda raz caracterstica,
2).
Podemos hacer esto k veces, obteniendo ak soluciones. Si lo hiciramos k veces,
obtendramos una representacin exactamente la matriz original xx.. Juntamos los
resultados en la matriz A=[a1, a2, ..., ak] que describe los ponderadores de los
componentes principales de xx, tal que Z=xA son los Z componentes principales.

Taller Econometra Bsica


Raimundo Soto
66

1 0 ... 0
0 2 ... 0
Note que Z )Z ' A )x )x A ' ' .
...
0 ... 0 k
Adems, si el rango de x es r<k habr k-r valores propios iguales a cero.

Finalmente, el estimador de componentes principales ser:


(5.153)

pero Zy = Axy = Ax[x + ] = Axx = Axx. Entonces, se desprende:

(5.154)

de donde se deduce que:

C el estimador de componentes principales es una combinacin lineal de los


verdaderos parmetros.
C que el estimador de componentes principales es sesgado.
C la varianza del estimador cp es menor que la de ols .

El uso del estimador tiene serios problemas. Primero, los estimadores son
sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables
(1/), pero esto afecta los resultados (cambia A). En realidad, todos los tests para
detectar la colinealidad sufren la debilidad de ser sensibles a transformaciones
lineales de los datos (origen y escala). Segundo, la seleccin de los componentes
principales se hace en funcin de x y no de y, lo que sera preferible. Tercero, la
interpretacin de los parmetros es muy difcil, pues no sern los coeficientes
asociados a las variables sino aqullos asociados a una combinacin lineal de las
variables.
Ntese que nuevamente encontramos que (1) modelos con variables pertinentes
omitidas producen parmetros sesgados, y (2) es posible tener estimadores sesgados
ms eficientes que un estimador insesgado.

Taller Econometra Bsica


Raimundo Soto
67

5. Modelos de Varianza No Constante

Esta es una familia con dos ramas principales de modelos: heterocedasticidad


y autocorrelacin. Estudiaremos en primer lugar el tema de heterocedasticidad y
luego el de correlacin de residuos (el contexto ms usual es series de tiempo, pero
existe una incipiente liteartura en correlacin espacial).
Es comn, sobre todo en muestras de corte transversal, que los datos tengan
heterocedasticidad, es decir, que las residuos (innovaciones) provengan de
distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo
es comn observar correlacin residual, es decir que la observacin de un residuo en
un determinado instante de tiempo contenga informacin til para predecir el error
en otro instante de tiempo. Naturalmente, en algn caso particular se puede enfrentar
simultneamente la presencia de heterocedasticidad y correlacin residual. Desde un
punto de vista pedaggico conviene tratar ambos problemas por separado.
En el caso en que la varianza de los errores no sea residual, el modelo general
se escribe de la siguiente manera:

(5.155)

donde es una matriz definida positiva.


Obviamente, cuando =I, volvemos al caso de mnimos cuadrados ordinarios.
Por ello, el modelo descrito en (1) es llamado modelo de regresin generalizado.
Grficamente, el problema se ve de la siguiente manera

Taller Econometra Bsica


Raimundo Soto
68

Cuando estudiamos heterocedasticidad suponemos que la matriz de


covarianzas de los errores es del tipo:

Figure 12

(5.156)

en cambio cuando hablamos slo de correlacin residual nos referimos a:

(5.157)

donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Ntese
que en (5.47) las covarianzas son 0, en tanto que en (5.48) las varianzas son
constantes.

Taller Econometra Bsica


Raimundo Soto
69

1. Heterocedasticidad
Cual es el efecto sobre un estimador mnimos cuadrados? Recordemos que el
estimador mnimos cuadrados es
(5.158)

y es mejor, insesgado, y asintticamente normal. Ms an si el residuo es normal, el


estimador es eficiente.

1.1 Propiedades de muestra pequea

Tomando esperanza en (5.49) obtenemos E [] ' E [ E [ | x] ] ' , es decir el


x

estimador sigue siendo insesgado.


Tomemos la varianza del estimador para el caso que x es no estocstico:

(5.159)

lo que podemos escribir como:

(5.160)

C x) ]
Si x es estocstico, la varianza no condicional es E[Var (|
C Si es Normal, N[ , 2 (x )x)&1(x ) x)(x )x)&1]

Entonces, lo nico que cambia es la varianza del estimador que no es (xx)-1,


por lo que las inferencias basadas en esta ltima estn sesgadas. Por otro lado, el
estimador de no tiene por qu haber retenido sus propiedades. Usualmente, no
podemos saber si (xx)-1 es mayor o menor que (5), por lo que los test t o F resultan

Taller Econometra Bsica


Raimundo Soto
70

inadecuados.

1.2 Propiedades de muestra grande

Retomemos (5.51). Resulta evidente que:


C si los regresores se comportan bien, los trminos 1/n(xx) convergern a Q.
C el trmino /n converge a 0
C el trmino 1/n xx no tiene por qu converger.

Se puede demostrar que si los regresores cumplen las condiciones de


Grenander, 1/n xx converge. Ello sucede en casos de heterocedasticidad pero no
necesariamente en correlacin de residuos. En tal caso, el estimador es consistente.
Finalmente, el estimador es asintticamente normal porque las mismas
condiciones de Grenander que impusimos para que

(5.161)

se distribuya asintticamente normal, se cumplen an si hay heterocedasticidad.


Tambin, se aplica el teorema de lmite central.
La varianza asinttica del estimador ser:

(5.162)

En resumen, la heterocedasticidad no afecta la estimacin punto de los


parmetros porque stos no dependen de la varianza de la distribucin. Pero,
obviamente afecta la varianza del estimador.

Recordemos que:
(5.163)

C cuando hay homocedasticidad, E[] = I.


C cuando hay heterocedasticidad, E[] = ?

Taller Econometra Bsica


Raimundo Soto
71

El problema es exactamente nuestra ignorancia sobre E[].

1.3 Estimacin eficiente

Supongamos que no somos tan ignorantes. Si tuvisemos E[] podramos


resolver el problema. Pensemos que, es ese caso, podramos usar directamente el
estimador de la varianza:
(5.164)

Basados en la idea que una matriz positiva y definida puede ser factorizada,
vamos a hacer una factorizacin conveniente. Tomemos una matriz T(nn) y
premultipliquemos el modelo, tal que
(5.165)

Se sigue cumpliendo que E[T]=0, por lo que:


(5.166)

Ahora, si TT=I habramos solucionado el problema de heteocedasticidad,


pues podemos estimar el modelo (5.56) por mnimos cuadrados con errores
homocedsticos y recuperar los estimadores de los parmetros del modelo (5.49).
Queremos, entonces, encontrar T tal que &1 ' T )T para ponderar el modelo. El
estimador de mnimos cuadrados ponderados tambin llamado estimador de Aitken
sera:

(5.167)

Ntese que este estimador es ms general de lo que parece. Ciertamente,


cualquier forma de heterocedasticidad puede ser acomodada en el estimador, provisto
que la matriz de covarianza de los errores sea diagonal del tipo . Nuevamente,

Taller Econometra Bsica


Raimundo Soto
72

note que el estimador de mnimos cuadrados ordinarios es un caso particular de


mnimos cuadrados generalizados, aquel donde T=I.

1.4 Estimacin Posible

Qu sucede cuando es desconocida? En algunas ocasiones, un reducido


nmero de parmetros, , es capaz de describir el patrn de heterocedasticidad. Por
ejemplo,
(5.168)

entonces, podramos usar ' () , es decir, el estimador de basado en el


estimador de .
Esto parece bien lgico: si plim ' entonces 6 . En realidad, no es
siempre as. Sea FGLS ' (xi) &1xi)&1xi) &1yi el estimador de mnimos cuadrados
generalizados posible. Cundo son asintticamente equivalentes FGLS
y ?
OLS
Las condiciones son:

(5.169)

La primera condicin dice que si la matriz de momentos ponderados converge


a algo (pos.def.), la matriz de momentos ponderados posibles debe converger a lo
mismo. Esto es un supuesto, en realidad.
La segunda condicin dice que si los regresores transformados estn bien
comportados, la suma (y el estimador) se distribuir asintticamente igual al
verdadero (no necesariamente pero tpicamente es normal).
Lo interesante es que no se necesita que el estimador de sea eficiente, basta
con que sea consistente para que el estimador FGLS sea eficiente. Para demostrar esto
basta con plantear el estimador mximo-verosmil de los parmetros del modelo

Taller Econometra Bsica


Raimundo Soto
73

generalizado y demostrar que es equivalente al de FGLS, por lo que no hay ganancia


o .
de eficiencia al usar

1.5 Tests de Heterocedasticidad

A. Muestras repetidas

Este es el test ms simple de heterocedasticidad y se aplica cuando se tienen


varias muestras repetidas de un mismo experimento. La lgica de operacin es la
siguiente:

2
C Estime el modelo yi ' xi % i y compute i para cada muestra i=1, ..., m
2
C Estime el modelo yi ' xi % i y compute ( con todos los datos.

El test es directo sobre la hiptesis nula que la varianza de los grupos no difiere
de la de la muestra completa, ajustando por tamaos relativos

(5.170)

Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, el test se distribuye (m-1). Los grados de
libertad se derivan del nmero de varianzas libres (m) menos la restriccin de la
varianza comn.

B. Test de Breusch y Pagan

Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es


posible disponer de varias realizaciones de la variable aleatoria 2 . Una vez estimado

Taller Econometra Bsica


Raimundo Soto
74

el modelo yi ' % xi% i , lo que se hace es:


2
C Computar gi ' i / 2
C Hacer una regresin entre gi y las variables que quiera, incluyendo x, y
computar SCE.

El test consiste en estudiar SCE. Si se puede explicar la proxy de


heterocedasticidad ms all de la constante, entonces hay heterocedasticidad. Por ello,

(5.171)

Debido a que los estimadores de las varianzas por muestra y totales son formas
cuadrticas de errores normalizados, el test se distribuye (p-1). Los grados de
libertad se derivan del el rango de regresores, p, en la segunda regresin.

C. Test de Goldfeld y Quandt

Este test aprovecha informacin extra-muestral para estudiar problemas de


heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad,
el procedimiento es:
C Ordene la muestra de mayor a menor segun xk.
C Remueva c datos del centro de la muestra.
C Haga la regresin del modelo yi ' % xi% i en cada grupo y compute la SRC.
El test consiste en estudiar la diferencia entre las SRC. Si stas son iguales,
significa que no hay heterocedastcidad. Por ello,

(5.172)

Como estamos comparando dos sumas de residuos normales al cuadrado y hay


el mismo nmero de regresores y datos en cada sub-grupo, entonces el test se

Taller Econometra Bsica


Raimundo Soto
75

SCR1 (n&c)/2 & k


distribuye F .
SCR2 (n&c)/2 & k

1.6 Estimador de White

Hay muchsimos tests de heterocedasticidad. Pero ...realmente necesitamos


estos tests? necesitamos entender qu es lo que causa la heterocedasticidad?
Verdaderamente, No. Lo que queremos es para poder hacer GLS.
, un estimador de 2 .
En realidad, no. Lo que queremos es 2
2 )
Tampoco, lo que queremos es un estimador de ' x x
n
En realidad, lo que queremos no es todo G sino slo su diagonal.
2 )
White (Econometrica, 1990) demuestra que un buen estimador de ' x x
n
es S0 ' 1 j 2i xi)xi . Por ello, la matriz de correccin de la varianza de los parmetros
n
para el caso de heterocedasticidad tambin llamada matriz de errores robustos
es:
(5.173)

Ntese que no es necesario conocer la forma de la heterocedasticidad, pues el


estimador es general.

1.7. Estimador de Newey y West.

Newey y West (1987) han extendido el estimador de White para el caso en que
la matriz no es diagonal. El estimador es:

(5.174)

Taller Econometra Bsica


Raimundo Soto
76

donde j/(j+1) es una correccin no pramtrica por tamao de muestra.

2. Correlacin de residuos: versin sencilla


Supongamos ahora que que E [i , j] 0 . En tal caso, la matriz de covarianza de
residuos es:

(5.175)

An si consideramos el problema de residuos son homocedsticos

(5.176)

y simtrica, es decir, ij = ji resulta imposible de estimar (5.67) con una muestra


finita. Hay ms incgnitas que grados de libertad. Usualmente:

C Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es


estimable.
C Si la forma de ij es parametrizable, es decir tiene una estructura (simple), es
estimable.

Si es estimable, los parmetros estimados por mnimos cuadrados del modelo y t ' x t % t
siguen siendo insesgados (por qu?), excepto si las variables de lado derecho
contienen un rezago de la endgena (por qu?).

Taller Econometra Bsica


Raimundo Soto
77

(5.177)

' . Dem 2. Hacer.


y por lo tanto, E[]

C Supongamos que yt ' xt % t y t ' t&1 % t donde t es ruido blanco.


Entonces,

(5.178)

' V[ ] slo si =0, es decir cuando no hay correlacin.


por lo tanto, V[] OLS

C Esta varianza podr ser mayor o menor que la de mnimos cuadrados


dependiendo del valor de . Si es positivo, sobreestima. Si es negativo, no
es claro el sesgo.

C Debieramos usar GLS, pero slo es posible si conocemos .

Cmo sabemos si hay correlacin residual?

Un test bastante comn es el de Durbin y Watson, para el caso de errores con


correlacin de orden 1. Es decir, t ' t&1 % t (correlacin de orden 2 es
t ' 1 t&1 % 2 t&2 % t ).
El test es:

Taller Econometra Bsica


Raimundo Soto
78

(5.179)

La lgica es que:
C si hay correlacin positiva, t ser cercano a t&1 y, por lo tanto, d ser
cercano a cero.
C si hay correlacin negativa t ser lejano a t&1 y, por lo tanto, d ser distinto
de cero.

Desarrollemos el cuadrado del numerador de (5.70).

(5.180)

Sumando y restando convenientemente:

(5.181)

de vuelta en (5.71)

(5.182)

es decir,

Taller Econometra Bsica


Raimundo Soto
79

(5.183)

Notemos que:

C Si T es razonablemente grande, el segundo y cuarto trminos sern cercanos


a cero.
C Igualmente, el tercer trmino ser cercano a 1.
C El ltimo trmino es interesante, porque es

(5.184)

es decir, es el estimador natural de mnimos cuadrados de . En resumen, podemos


escribir d . 2(1-)

Volvamos al test de Durbin y Watson. Si d . 2(1-), entonces tenemos los


siguientes casos:
C Cuando no hay correlacin d = 0.
C Cuando hay correlacin positiva, >0, d es menor que 2. En el lmite, d es 0
cuando es 1.
C Cuando hay correlacin negativa, <0, d es mayor que 2. En el lmite, d es 4
cuando es -1.

por lo tanto, d estar entre 0 y 4.

La aplicacin del test no es tan simple, porque hay tres casos. Entonces, los
tests son:

Taller Econometra Bsica


Raimundo Soto
80

Ho: No hay autocorrelacin,


H1: Hay autocorrelacin positiva.

Ho: No hay autocorrelacin,


H1: Hay autocorrelacin negativa.

Como se ve, la hiptesis nula es siempre la misma pero la hiptesis alternativa


es compleja.
Otro problema es que usamos los residuos del mnimos cuadrados como
estimadores de los residuos verdaderos, es decir, stos dependen de x. Por ello, la
distribucin del test no es estndar y tiene distintos lmites superiores e inferiores.
Si hacemos un test de correlacin positiva al 95%, entonces (1) si d est por
encima del limite superior no puedo rechazar la Ho que no hay autocorrelacin y (2)
si d est por debajo del lmite inferior tengo correlacin positiva.

Figure 13

Si hacemos un test de correlacin negativa al 95%, entonces (1) si d est por


debajo de 4-limite superior no puedo rechazar la Ho que no hay autocorrelacin y (2)
si d est por debajo del lmite inferior tengo correlacin positiva.

Taller Econometra Bsica


Raimundo Soto
81

Figure 14

El test completo de Durbin y Watson para autocorrelacin es:

Figure 15
El test de Durbin y Watson no se puede aplicar cuando hay variable del lado
derecho rezagada al lado izquierdo. En ese caso se usa el test h de Durbin.

Soluciones al problema de correlacin de primer orden.


Volvamos al modelo original.

Taller Econometra Bsica


Raimundo Soto
82

(5.185)

Podemos multiplicar el modelo original por , rezagarlo un periodo y restarlo


del original para obtener:
(5.186)

es decir:
(5.187)

C Ntese que ahora no hay problema con los errores.


C Si conocieramos , podramos transformar los datos y estimar con mnimos
cuadrados. En realidad, es GLS.

Lo conocemos? No. Pero tenemos una aproximacin, d. Obtenemos d


haciendo una regresin en los residuos originales de mnimos cuadrados y luego
usamos ' 1 & d / 2 .
Hay una estrategia estadsticamente mejor (Cochrane-Orcutt).
1. Estimar el modelo original por mnimos cuadrados y obtener residuos.
2. Hacer una regresin entre residuos y su rezago, obteniendo 1 .
3. Transformar el modelo usando 1 (es decir, yt & 1 yt&1 , etc).
4. Ir a 1 y volver a hacer el ejercicio hasta que el estimado converja.

Hay otra estrategia comn (Hildreth-Lu): Estime el modelo transformado con


=1, 0.99, 0.98, ... 0,... .99, 1. Minimice SCR.

Taller Econometra Bsica


Raimundo Soto
83

6. Variables instrumentales
El ltimo supuesto que no hemos levantado es la ausencia de correlacin entre
los regresores y el error, es decir, E[x,]=0. En numerosas ocasiones prcticas no es
posible estar seguros que ello se cumple, en particular cuando se usan datos
macroeconmicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que estn
correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se
estudia el rendimiento escolar y se omite la educacin de los padres como
determinante, entonces la estimacin entrega resultados sesgados porque las variables
independientes (p.e., ingresos familiares) estn tpicamente relacionadas con la
variable omitida. Un segundo caso se produce cuando hay problemas de
endogeneidad en alguna variable del lado derecho: este sesgo de simultaneidad lo
estudiaremos ms adelante. Una tercera causa de violacin de este supuesto es cuando
las variables independientes estn medidas con error. En tal caso, como vimos en la
seccion 2, cada vez que se observa x no se observa la verdadera variable sino una
medicin con ruido el cual estando correlacionado con x queda incluido en el error.
Una cuarta causa de correlacin entre regresor y residuo se da cuando hay sesgo de
seleccin, es decir cuando la conformacin de la muestra no es independiente del
diseo del experimento. Es decir, cuando aquellos que ms se benefician del
tratamiento son aquellos que ms participan del mismo.
Qu sucede con el estimador de OLS si E[x,] 0? Ninguno de los resultados
que obtuvimos sobre las propiedades del estimador de mnimos cuadrados se
mantienen. En particular, sabemos que va a haber sesgo, usualmente de tamao y
direccin desconocidas. Adems, las varianzas de los estimadores estn
distorsionadas (tpicamente, subestimadas).
Una solucin sera usar una o ms variables que, estando correlacionadas con
los regresores, no est relacionadas con el error. En ese caso, vamos a usar dicho
conjunto de variables auxiliares como un instrumento de x. En trminos sencillos,
buscamos un conjunto z tal que la correlacin entre z y x sea alta pero que la
correlacin entre z y sea baja. Usualmente esto resulta ms fcil de decir que de
hacer.
En primer lugar vamos a demostrar que el estimador mnimos cuadrados bajo
la hiptesis que los residuos estn correlacionados con x en el modelo de inters es
inconsistente. Como existe correlacin entre regresor y residuo:

Taller Econometra Bsica


Raimundo Soto
84

E[|x] i

Supongamos que E[] = 0. Este supuesto es irrelevante si la ecuacin incluye


la constante. La correlacin entre regresor y residuo puede ser escrita como:
(5.188)

Entonces
(5.189)

y por ello el Teorema de Gauss-Markov no se sostiene. De hecho,el estimador es,


adems, inconsistente porque
(5.190)

Derivemos ahora el estimador de variables instrumentales, IV. En particular


notemos que es importante acotar la varianza no condicional de :
(5.191)

Los supuestos necesarios para derivar el estimador IV son:

C [xi, zi, i] son secuencias i.i.d. de variables aleatorias


2
C E xij ' Qxx < 4 y constante
2
C E zij ' Qzz < 4 y constante
C E xij , z ij ' Qxz < 4 y constante
C E ij |zij ' 0

As lo que se obtiene es:

(5.192)

Taller Econometra Bsica


Raimundo Soto
85

Sea entonces el modelo y i ' x i % i y supongamos que tenemos un conjunto de


variables z. Entonces premultipliquemos el modelo por zN :
(5.193)

Aplicando el plim tenemos

(5.194)

pero el ltimo trmino es cero. Entonces

(5.195)

Note que para que tenga sentido, zx tiene que ser una matriz conformable. Por
ello, debe haber k variables en la matriz z. En este caso, estimador de variables
instrumentales es
(5.196)

Ntese que este estimador es consistente. Note que en el caso especial que
i=0, entonces =0 y obtenemos el estimador de cuadrados mnimos. Es decir, el
estimador de variables instrumentales es ms general que el de cuadrados mnimos.
Otra manera de pensarlo es que en el caso que no haya correlacin entre regresor y
residuo, el mejor instrumento de x ser x y el estimador de variables instrumentales
es el estimador clsico OLS.

El estimador de la varianza de los residuos es, naturalmente,

(5.197)

Taller Econometra Bsica


Raimundo Soto
86

Qu sucede si la matriz tiene un rango mayor a k? Naturalmente, zx no es


cuadrada y no tiene inversa. Sin embargo, consideremos el siguiente algoritmo:

1. Hacer una regresin de x en z (para todo x).


2. Hacer una prediccin de x basada en z llamada x .
3. Hacer una regresin de y en x .

Note que el estimador derivado en la etapa a) no tiene problemas de


consistencia y que la proyeccin derivada en b) es una representacin ptima de x y
que, adems, por el hecho de ser una prediccin es ortogonal a .
Entonces, el estimador del modelo estimado usando la prediccin sera:
(5.198)

Este es un procedimiento de OLS en dos etapas (2SLS). Es muy comn en la


literatura emprica. Pero podramos estimar todo en un slo paso. Debido a que
x ' z(z )z)&1z )x , entonces

(5.199)

Bastante directo. Quedan los detalles que se los dejo a ustedes de obtener la
varianza del estimador de variables instrumentales y, lo que es ms difcil, el
estimador de la varianza de los residuos.
Hay algunos econometristas que sealan que el estimador natural de la
econometra clsica es el de variables instrumentales. OLS sera una caso particular
en el que el mejor instrumento de x es la misma variable. Como OLS es tambin un
caso particular de GLS, entonces el estimador GLS-IV debiera ser el ms general de
todos los estimadores lineales.

Condiciones de validez de los instrumentos

En principio, le hemos exigido dos caractersticas a los estimadores para que


sean instrumentos adecuados: (1) que estn correlacionados con la(s) variable(s) que
tiene el problema y (2) que no estn correlacionados con el residuo. La primera

Taller Econometra Bsica


Raimundo Soto
87

condicin es que el instrumento sea pertinente, en tanto que la segunda exige que sea
exgeno.
Cuando el nmero de instrumentos es igual al nmero de variables que se
quiere instrumentar, las condiciones antes expuestas son directas. Cuando hay un
mayor nmero de instrumentos, la primera condicin se vuelve menos clara. Si uno
considera el estimador de variables instrumentales como un estimador de dos etapas,
entonces contar con un nmero muy grande de posibles instrumentos en una muestra
finita puede ser costoso en trminos de grados de libertad. Si el modelo es, adems,
multivariado el problema del nmero y tipo de instrumentos es parte fundamental del
anlisis de modelos de ecuaciones simultneas (ver captulo 7).
Qu sucede si algunos de los instrumentos, en realidad, est correlacionado
con el error? Entonces, el estimador es inconsistente. Pero si hay al menos tantos
instrumentos vlidos como variables que necesitan ser instrumentadas, el estimador
sigue siendo consistente. Entonces cmo podemos hacer un test de validez del
supuesto que hay suficientes intrumentos vlidos? En principio, se podran obtener
los residuos de la estimacin de variables instrumentales y luego hacer una regresin
de stos en los instrumentos. Si el R de esta segunda regresin es cero, entonces los
instrumentos no estn correlacionados con el residuo. El problema es que si el R es
significativo, entonces algunos o todos los instrumentos son invlidos, pero no
sabemos cuales.
El siguiente procedimiento, llamado test de Wu-Hausman, es frecuentemente
usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la
forma y ' X % Z2 % u , donde Z2 es una matriz de regresores fijos entre muestras (por
esta razn Z2 es ortogonal al residuo u). Suponga que existe un conjunto de variables
Z1 y que podemos definir Z=Z1cZ2 como la matriz de instrumentos de X. Entonces el
estimador de variables instrumentales en dos etapas se puede escribir como:

(5.200)

De esta manera, los estimadores de mnimos cuadrados y variables


isntrumentales son:

Taller Econometra Bsica


Raimundo Soto
88

(5.201)

donde PZ=Z(Z' Z)-1Z' y PZ2=Z2(Z2'Z2)-1Z2'.

Wu (1973) demuestra que la diferencia de los dos estimadores se distribuye:


(5.202)

por lo que el siguiente test es adecuado

(5.203)

(y&X IV))(I&Pz)(y&X IV)


donde '
2
, G=rango(X) y K2=rango de Z2.
n&G&K2
Qu sucede si los instrumentos no estn fuertemente relacionados con las
variables que se quiere instrumentar? Este problema es llamado instrumentos dbiles.
Existe una creciente literatura al respecto con diferentes enfoques. Hall, Rudebusch
y Wilcox (1996) estudian la mnima correlacin cannica entre instrumentos y
regresores. Shea (1997) desarrolla un test de R basado en el uso de regresores
adicionales. El trabajo de Stock y Yogo (2002) es superior a stos en el sentido que
proponen una definicin formal y un test de la debilidad de los instrumentos que ,
adems, nos ayuda a entender el problema. Si el modelo es de la forma y ' Y % u y
su forma reducida es del tipo Y ' Z % V , donde Z es la matriz de instrumentos,
entonces el estimador de variables instrumentales en dos etapas se puede escribir
como:

(5.204)

Rothenberg (1984) demuestra que este estimador puede ser escrito como:

Taller Econometra Bsica


Raimundo Soto
89

(5.205)

donde u ' )Z / (uu)Z )Z) , V ' )ZV / (VV)Z )Z) , SVu ' V )PZ u / (uuVV) y
SVV ' V )PZ V / VV . El parmetro 2' )Z ) Z / VV es llamado coeficiente de atenuacin
y es otra versin del que estudiamos en la ecuacin (5.25). Note que si los
instrumentos son fijos y los residuos normales, entonces u y V se distribuyen como
normales estndares y Svu y SVV son elementos de una matriz con distribucin de
Wishart. As, las distribuciones de estos cuatro elementos no dependen del tamao
de muestra. De hecho, en (5.95) el tamao de muestra solo entra a travs de . Ms
an, cumple exactamente el rol que T cumple en la derivacin del estimador de
mnimos cuadrados.
La importancia de esta descomposicin radica en que si los instrumentos son
dbiles, ser muy pequeo y la inferencia basada en (5.95) estar sesgada (el
estimador puede estar sesgado y los errores estndares estarn potencialmente mal
computados). Habr, entonces, dos preguntas prcticas que se derivan de esta
observacin: cun pequeo tiene que ser para que los instrumentos sean dbiles?
y, si (y por tanto ) son desconocidos, como se hace en la prctica para saber si
es suficientemente pequeo como para sealar que los instrumentos son dbiles?
Respecto de la definicin de instrumento dbil, Stock y Yogo presentan dos
alternativas: (1) un grupo de instrumentos es dbil si el sesgo del estimador de
variables instrumentales, relativo a aquel del estimador de mnimos cuadrados, es
mayor que un cierto punto de referencia, b (b=10%, 15%, etc.) y (2) un grupo de
instrumentos es dbil si el test de Wald convencional tiene un tamao que excede
algn punto de referencia r (r=10%, 15%, etc.)
Dada estas definiciones de debilidad, el test propuesto es una variacin del test
de Cragg y Donald (1993). Retomemos la matriz MX ' I & X(X )X)&1X ) para escribir el
estimador de mnimos cuadrados como OLS ' (M0Y))(M0Y) &1 (M0Y))(M0y) , en tanto que
el estimador de clase k es:
(5.206)

Taller Econometra Bsica


Raimundo Soto
90

Un estimador de clase k es una manera general de describir distintos tipos de


mtodos de mnimos cuadrados. En este caso, si k=1 el mtodo es 2SLS, si k=T/(T-
K2+2) es biased-adjustaed 2SLS, etc.
El test de Wald asociado a la hiptesis nula H0: =0 es:

(5.207)

)(MXu(k))
(MXu(k))
donde uu ' y u(k)
.
' y & Y(k)
T&K1&n

El test de Stock y Yogo (2002) se hace sobre el mnimo valor propio de la


matriz GT ( gmin ' mineval(GT) ), que es una matriz anloga al test F de la primera etapa
)
de 2SLS: GT ' ( VV(MXY))PZ)(MXY) VV) / K2 donde VV ' ((MXY))MZY) / (T&K1&K2) . La
distribucin del test no es estndar, pero los autores proveen las tablas con los valores
crticos.

Taller Econometra Bsica


Raimundo Soto