Está en la página 1de 524

E CONOMETR I A

`
DANIEL V ENTOSA -S ANTAUL ARIA
Version Diciembre 2012. Documento hecho en LATEX


Indice
general
I Econometra para primerizos

17

1. Introduccion
1.1. Parabola de Leamer . . . . . . . . . . . . .
1.2. Fisher tomando el te . . . . . . . . . . . . .
1.3. Para que hacer econometra? . . . . . . .
1.4. Orgenes . . . . . . . . . . . . . . . . . . .
1.4.1. La trayectoria de los cometas . . . .
1.4.2. Manchas solares y ciclos venusinos

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

21
23
24
31
32
32
33

2. El modelo de Regresion lineal simple


2.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . .
2.2. El concepto de la regresion . . . . . . . . . . . . . . .
2.2.1. El diagrama de dispersion . . . . . . . . . . .
2.3. Mnimos Cuadrados Ordinarios: MCO . . . . . . . . .
2.4. Propiedades de los estimadores . . . . . . . . . . . . .
2.4.1. Los supuestos del metodo . . . . . . . . . . .
2.4.2. Caractersticas Importantes del metodo MCO .
2.4.3. Propiedades de los parametros estimados . . .
2.4.4. El Teorema de Gauss-Markov . . . . . . . . .
2.5. Otros procedimientos de Estimacion . . . . . . . . . .
2.5.1. El metodo de momentos (MOM) . . . . . . . .
2.5.2. El Metodo de Maxima Verosimilitud . . . . . .
2.6. El estimador de la varianza . . . . . . . . . . . . . . .
2.6.1. Los grados de libertad: breve preludio . . . . .
2.6.2. El estimador insesgado de la varianza en MCO
2.6.3. Robustez del estimador de la varianza en MCO
2.7. Inferencia estadstica en MCO . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

37
37
41
41
44
49
49
54
56
69
72
72
74
79
79
81
85
86

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.


INDICE
GENERAL

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

90
93
95
96
96
102
104
112
113
114
114
116
118
118
119
121
122
123

3. El Modelo de Regresion Multiple


3.1. La especificacion del modelo de regresion multiple . . . . . . . .
3.1.1. Reglas del calculo matricial y la manipulacion de matrices
3.1.2. Optimizacion . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza . .
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . .
3.2.1. Demostracion . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Intuicion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Estimador Insesgado de la Varianza del Error . . . . . . . . . . .
3.3.1. Una matriz idempotente muy u til . . . . . . . . . . . . .
3.3.2. La varianza del error . . . . . . . . . . . . . . . . . . . .
3.4. Bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. La R cuadrada . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Inflacion de la R cuadrada y su version ajustada . . . . . .
3.4.3. Descomposicion de la varianza por variable explicativa . .
3.5. Pruebas de Hipotesis, Conjuntas e Individuales . . . . . . . . . .
3.5.1. Los estadsticos t . . . . . . . . . . . . . . . . . . . . . .
3.5.2. Pruebas conjuntas . . . . . . . . . . . . . . . . . . . . . .
3.5.3. Pruebas de desigualdad . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

127
127
130
131
132
136
137
140
141
142
144
146
147
147
154
159
159
160
170

2.8.

2.9.
2.10.

2.11.

2.7.1. Inferencia usando una distribucion de t de student . . . .


2.7.2. Inferencia asintotica . . . . . . . . . . . . . . . . . . .
2.7.3. Addendum: el p-valor . . . . . . . . . . . . . . . . . .
Analisis de varianza y bondad de ajuste . . . . . . . . . . . . .
2.8.1. La medicion de la bondad del ajuste . . . . . . . . . . .
2.8.2. Intervalos de confianza . . . . . . . . . . . . . . . . . .
2.8.3. La prueba de significancia conjunta de la regresion . . .
2.8.4. Analisis de Varianza o ANOVA . . . . . . . . . . . . .
La Falacia de la regresion . . . . . . . . . . . . . . . . . . . . .
Problemas de la Econometra . . . . . . . . . . . . . . . . . . .
2.10.1. El problema de la agregacion . . . . . . . . . . . . . . .
2.10.2. Una intuicion sobre el u ltimo supuesto: estacionariedad .
2.10.3. Algunas observaciones al respecto . . . . . . . . . . . .
Formas funcionales y especificacion . . . . . . . . . . . . . . .
2.11.1. El Modelo Log-Log . . . . . . . . . . . . . . . . . . .
2.11.2. El Modelo Log-Lin . . . . . . . . . . . . . . . . . . . .
2.11.3. El Modelo Lin-Log . . . . . . . . . . . . . . . . . . . .
2.11.4. El Modelo Recproco . . . . . . . . . . . . . . . . . . .


INDICE
GENERAL
4. La multicolinealidad
4.1. Multicolinealidad perfecta . . . . . . . . .
4.2. Multicolinealidad imperfecta . . . . . . . .
4.3. Deteccion de la multicolinealidad . . . . .
4.3.1. Analisis informal . . . . . . . . . .
4.3.2. Metodos mas formales . . . . . . .
4.4. Analisis de Componentes Principales . . . .
4.5. Regresion usando componentes principales

.
.
.
.
.
.
.

173
175
179
182
183
183
186
191

5. Variables Binarias y regresion por pedazos


5.1. Variables dicotomicas . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Solucion discontinua . . . . . . . . . . . . . . . . . . . . .
5.1.2. Regresion por pedazos . . . . . . . . . . . . . . . . . . . .

195
195
195
202

6. Autocorrelacion y Heteroscedasticidad
6.1. Autocorrelacion y Heteroscedasticidad . . . . . . . . . . . .
6.2. Mnimos Cuadrados Generalizados . . . . . . . . . . . . .
6.2.1. Ejemplos de aplicacion de MCG . . . . . . . . . . .
6.3. Consecuencias del rompimiento de supuestos sobre MCO . .
6.3.1. Sesgo bajo autocorrelacion o heteroscedasticidad? .
6.3.2. Varianza bajo autocorrelacion o heteroscedasticidad
6.4. Pruebas de Deteccion . . . . . . . . . . . . . . . . . . . . .
6.4.1. Deteccion de la Heteroscedasticidad . . . . . . . . .
6.4.2. Deteccion de la autocorrelacion . . . . . . . . . . .
6.5. Matrices de Varianza-covarianza Robustas . . . . . . . . . .

205
207
209
211
219
219
220
222
223
226
235

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

7. Ejercicios (i)

245

II Econometra para segundones

265

8. Sntesis de conocimientos previos

269

9. Especificacion y Ortogonalidad
9.1. Las variables independientes y la ortogonalidad
9.2. El supuesto de ortogonalidad . . . . . . . . . .
9.3. Que causa problemas de ortogonalidad? . . . .
9.3.1. Errores de Medicion en las Variables . .
9.3.2. Efectos de simultaneidad . . . . . . . .

275
275
279
281
281
295

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


INDICE
GENERAL

9.3.3. Variables relevantes omitidas . . . . . . . . .


9.3.4. Inclusion de variables irrelevantes. . . . . . .
9.4. Deteccion de algunos problemas de ortogonalidad . .
9.4.1. Pruebas de variables omitidas o redundantes .
9.4.2. Prueba de especificacion de Ramsey . . . . .
9.4.3. Heteroscedastidad e incorrecta especificacion

.
.
.
.
.
.

301
303
304
304
307
311

10. Variables Instrumentales


10.1. El estimador de Variables Instrumentales . . . . . . . . . . . . . .
10.2. Mnimos Cuadrados en 2 Etapas . . . . . . . . . . . . . . . . . .
10.3. Problemas con los instrumentos . . . . . . . . . . . . . . . . . .
10.3.1. Relevancia de los instrumentos . . . . . . . . . . . . . . .
10.3.2. Exogeneidad de los instrumentos . . . . . . . . . . . . . .
10.4. La Prueba de Hausman . . . . . . . . . . . . . . . . . . . . . . .
10.4.1. La prueba de Hausman . . . . . . . . . . . . . . . . . . .
10.4.2. La prueba de Hausman multivariada . . . . . . . . . . . .
10.4.3. Deteccion de errores de medicion en variables explicativas

.
.
.
.
.
.
.
.
.

315
317
324
332
332
333
338
339
343
345

11. Causalidad, exogeneidad y estabilidad


11.1. La Causalidad en el sentido de Granger . . . . . .
11.1.1. Filosofa detras de Causalidad . . . . . . .
11.1.2. Causalidad en Probabilidad . . . . . . . . .
11.1.3. Causalidad en Econometra . . . . . . . . .
11.1.4. La Granger-Causalidad . . . . . . . . . . .
11.2. Exogeneidad . . . . . . . . . . . . . . . . . . . .
11.2.1. Exogeneidad a` la Cowles Commission . .
11.2.2. Exogeneidad a` la Engle, Hendry y Richard
11.3. Mecanismo de Correccion de Error . . . . . . . . .
11.3.1. Estacionariedad y Ergodicidad . . . . . . .
11.3.2. Regresion Espuria . . . . . . . . . . . . .
11.3.3. Prueba de Raz Unitaria . . . . . . . . . .
11.3.4. Cointegracion . . . . . . . . . . . . . . . .
11.3.5. Mecanismo de Correccion de Error . . . .
11.3.6. Probando exogeneidad debil . . . . . . . .
11.4. Probando las demas exogeneidades . . . . . . . . .
11.5. Estabilidad de los parametros . . . . . . . . . . . .
11.5.1. Prueba quiebre de Chow . . . . . . . . . .
11.5.2. Prueba pronostico de Chow . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

349
350
350
353
355
356
358
358
359
370
371
375
384
391
396
401
402
403
403
406

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


INDICE
GENERAL

11.5.3. Prueba de Hansen . . . . . . . . . . . . . . . . . . . . . . . 407


12. Especificaciones Dinamicas y Expectativas
12.1. Expectativas naives:El modelo de Telarana . . .
12.1.1. Ecuacion homogenea: . . . . . . . . .
12.1.2. Solucion particular . . . . . . . . . . .
12.1.3. Combinacion lineal de las soluciones .
12.1.4. Eliminacion de las constantes . . . . .
12.1.5. El impacto de los choques . . . . . . .
12.2. Mas sobre Expectativas naives . . . . . . . . .
12.3. Modelos con rezagos distribuidos . . . . . . .
12.4. Expectativas Adaptativas . . . . . . . . . . . .
12.5. Modelo de ajuste de inventarios . . . . . . . .
12.6. Estimacion de modelos dinamicos . . . . . . .
12.7. Parsimonia: metodologa de General a simple .
12.8. Expectativas Racionales . . . . . . . . . . . . .
12.8.1. La hipotesis de Expectativas Racionales
12.8.2. Crticas a las Expectativas Racionales .
12.8.3. Probando las Expectativas Racionales .
12.8.4. La Crtica de Lucas . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

411
412
414
415
416
416
418
419
421
423
426
427
431
434
434
436
439
440

13. Modelos de ecuaciones simultaneas


13.1. Historia de los modelos macroeconometricos . . .
13.2. Sinopsis Metodologica . . . . . . . . . . . . . . .
13.2.1. Otra vez variables exogenas y endogenas .
13.2.2. Un modelo de oferta y demanda . . . . . .
13.3. El problema de la identificacion . . . . . . . . . .
13.3.1. Que es la identificacion? . . . . . . . . .
13.3.2. Mas sobre la identificacion . . . . . . . . .
13.4. Incorporando mas informacion . . . . . . . . . . .
13.5. Condiciones de identificacion . . . . . . . . . . . .
13.5.1. Restricciones de exclusion . . . . . . . . .
13.5.2. Restricciones homogeneas lineales . . . . .
13.5.3. Reagrupando las restricciones estructurales
13.5.4. Mas restricciones . . . . . . . . . . . . . .
13.5.5. Elucidando la identificacion . . . . . . . .
13.5.6. Reglas practicas . . . . . . . . . . . . . .
13.5.7. Variables Exogenas: algunas sugerencias .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

445
445
447
448
448
451
451
454
455
457
459
460
460
461
463
465
468

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


INDICE
GENERAL

13.6. El efecto desplazamiento (Crowding out) . . . . . . . . . . . . . 470


13.6.1. Que es el Crowding out? . . . . . . . . . . . . . . . . . . 470
13.6.2. Metodologa y datos . . . . . . . . . . . . . . . . . . . . . 471
14. Eplogo

477

15. Ejercicios (ii)

479

III Apendices

495

A. Tendencia central y dispersion

497

B. Operador Esperanza
499
B.1. definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
B.2. Algunas reglas del operador esperanza . . . . . . . . . . . . . . . . 500
C. La distribucion normal

501

D. Algebra
matricial

503

E. Independencia entre Parametros y Varianza

505

F. Origen de MCO: Legendre

509

G. MCO usando Excel 2007

515


Indice
de figuras
1.1.
1.2.
1.3.
1.4.

Estadstica y Probabilidad . . . . . . . . . . . .
Distribucion del reto Coca-Pepsi . . . . . . . .
Ciclo de Comercio segun Jevons (1884) . . . .
Ciclo de Negocios segun Moore (Moore, 1914)

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

22
26
33
34

2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
2.14.
2.15.
2.16.

Series de tiempo del PIB real y de M2 de E.E.U.U. . . . . . . . . . 38


Relacion lineal entre las coordenadas de un crculo . . . . . . . . . 39
Ingreso p.c. y esperanza de vida en Mexico, Francia, Japon y Nigeria 42
Ingreso per capita y esperanza de vida en 220 pases . . . . . . . . . 43
Diagrama de Dispersion o bien Nube de Puntos. . . . . . . . . . . 45
Ilustracion de los Supuestos . . . . . . . . . . . . . . . . . . . . . . 52
Diagrama de dispersion: normalidad . . . . . . . . . . . . . . . . . 53
Distribucion Condicional de yt . . . . . . . . . . . . . . . . . . . . 76
Distribucion bajo la hipotesis nula y la alternativa . . . . . . . . . . 89
Distribucion de t de student . . . . . . . . . . . . . . . . . . . . . 95
Comparacion del ajuste entre dos regresiones . . . . . . . . . . . . 97
Analisis de la Variacion . . . . . . . . . . . . . . . . . . . . . . . . 97
Distribucion de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 107
PIB per capita en Mexico, 1900-2000 . . . . . . . . . . . . . . . . 117
Ingreso per capita y esperanza de vida (bis) . . . . . . . . . . . . . 124
Tasa de analfabetismo vs PIB per capita (invertido) en Argentina. . . 126

3.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 156


3.2. Distribucion de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 170
4.1. Diagramas de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1. Efectos de las variables dicotomicas en la lnea de regresion . . . . 201
5.2. Ejemplo de Regresion por pedazos . . . . . . . . . . . . . . . . . . 203
9


INDICE
DE FIGURAS

10
6.1.
6.2.
6.3.
6.4.

Regla de decision de la Durbin-Watson .


Correlograma de un AR(1) . . . . . . .
Correlograma de un ruido blanco iid .
Correlogramas muestrales . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

228
232
233
234

7.1. Diagrama de dispersion . . . . . . . . . . . . . . . . . . . . . . . . 247


7.2. Variable yt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
9.1.
9.2.
9.3.
9.4.
9.5.
9.6.

Sesgo en un estimador . . . . . . . . . . . . . . . . .
Indicadores de Actividad cientfica . . . . . . . . . . .
Sesgo de una estimacion por MCO bajo simultaneidad.
Relacion entre residuales y valores ajustados . . . . . .
Heteroscedasticidad, autocorrelacion y ortogonalidad .
No-linealidad mal asumida . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

280
282
299
311
313
314

10.1. El problema de la identificacion y su solucion. . . . . . . . . . . . . 316


11.1. Posibles espacios parametricos (modelo Telarana)
11.2. Diagrama de Venn en exogeneidad . . . . . . . .
11.3. Proceso aleatorio . . . . . . . . . . . . . . . . .
11.4. Regresion espuria . . . . . . . . . . . . . . . . .
11.5. Regresion espuria, especificacion correcta . . . .
11.6. Distribuion de la Prueba DF . . . . . . . . . . .
11.7. Modo de empleo sugerido de la DF . . . . . . . .
11.8. Variables cointegradas y Espurias . . . . . . . .
11.9. Series cointegradas e independientes . . . . . . .
11.10.Relacion cointegrada . . . . . . . . . . . . . . .
11.11.Regresion y quiebres . . . . . . . . . . . . . . .
11.12.Regresion, quiebres y errores . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

364
368
371
381
384
387
392
394
397
398
404
405

12.1. Mercado de Maz, segun el modelo de Telarana . . . . . . . . . . . 413


12.2. Funcion Impulso-Respuesta en el Modelo de Telarana. . . . . . . . 419
13.1. Ecuaciones simultaneas . . . . . . . . . . . . . . . . . . . . . . . . 451
13.2. Evolucion de la inversion privada y la inversion publica . . . . . . . 472
C.1. Ejemplos de Densidad Normal . . . . . . . . . . . . . . . . . . . . 502
F.1. A.M. Portada del libro de Legendre . . . . . . . . . . . . . . . . . 510
F.2. Apendice del libro de Legendre (p.72) . . . . . . . . . . . . . . . . 511


INDICE
DE FIGURAS

11

F.3. Apendice del libro de Legendre (p.73) . . . . . . . . . . . . . . . . 512


F.4. Apendice del libro de Legendre (p.74) . . . . . . . . . . . . . . . . 513
F.5. Apendice del libro de Legendre (p.75) . . . . . . . . . . . . . . . . 514

12

INDICE
DE FIGURAS


Indice
de cuadros
1.1. Combinatorias del Reto Coca . . . . . . . . . . . . . . . . . . . . . 27
2.1. Relacion Ingreso-Esperanza de vida . . . . . . . . . . . . . . . . . 42
2.2. Analisis de Varianza (ANOVA) . . . . . . . . . . . . . . . . . . . . 113
11.1.
11.2.
11.3.
11.4.

Prueba DF: valores crticos de elementos deterministas (1)


Prueba DF: valores crticos de elementos deterministas (2)
Valores Crticos de la prueba Engle-Granger . . . . . . . .
Interpretacion de signos en el MCE . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

391
391
396
401

13.1. Calculo de la Condicion de Rango . . . . . . . . . . . . . . . . . . 467

13

14

INDICE
DE CUADROS

Agradecimientos
Al escribir las mas de 500 paginas de este curso descubr con gran horror la frecuencia con la que me equivoco. Algunos de estos errores son tan solo tipograficos; otros
mas son de plano humillantes; los peores son las pifias matematicas. Afortunadamente, mucha gente, primero en el seno del departamento de economa y finanzas
de la Universidad de Guanajuato, y ahora en el CIDE, me ha ayudado a enmendarlos, especialmente los alumnos. Quiero agradeceren orden cronologicocon
particular e nfasis a:
Oscar Manjarrez Castro, Miguel Amador, Jose Alfonso Garca Campillo, Lizeth
Adriana Garca Belmonte, Sandra Carolina Segovia Juarez, Lupita Garrido Espinoza, Liliana Lopez Rentera, Berenice Martnez Rivera, Gustavo Alfonso Rodrguez
Ayala, Guillermo Cisneros Gutierrez, Catalina Martnez Hernandez, Gustavo Salazar Monjaras, Omar Gallardo Martnez, Lizet Adriana Perez Cortes, Christoph
Schulze, Carlos Uriel Rodrguez Ramrez Salvador, Esmeralda Marisol Moreno
Yanez, Karla Elizabeth Gonzalez Sainz, Pablo Ortiz Casillas, Juan Pablo de Botton Falcon, Efran Garca Gonzalez, Sandra Thala Espana Gomez, Luis Antonio
Gomez Lara y Jean-Luc Demonsant.
Para mi desgracia, los errores que aun quedan son mi entera responsabilidad.

15

16

INDICE
DE CUADROS

Parte I
Econometra para primerizos

17

19
H ACER E CONOMETR I A ES COMO T RATAR DE E NTENDER LAS L EYES DE
LA E LECTRICIDAD U SANDO UN R ADIO DE T RANSISTORES . G. O RCUTT

M AL , PERO A LGUNOS SON M AS


UTILES

T ODOS LOS M ODELOS EST AN


QUE OTROS . G.E.P B OX

20

Captulo 1
Introduccion
Existen dificultades al aplicar la estadstica a fenomenos sociales o empresariales.
Realizar un experimento para despues analizar estadsticamente los resultados exige un elemento fundamental, que es el diseno de dicho experimento. Pero en economa,1 la experimentacion no solo resultara costosa, sino que en muchos casos
sera poco e tica o sencillamente imposible. Es por eso que la estadstica debe ser
utilizada con sumo cuidado cuando los datos no provienen de un experimento controlado. El hecho es que en muchas ocasiones tendremos que conformarnos con
registros publicos o privados de poca calidad estadstica. Es importante entonces
conocer tecnicas que permitan aminorar un poco las consecuencias de la naturaleza no-experimental de nuestro a mbito laboral. Una rama muy versada en ello es la
E CONOMETR I A. Esta u ltima constituye el brazo emprico de la economa.
El termino E CONOMETR I A fue creado originalmente para designar; (1) el desarrollo de teora economica pura con base en el herramental matematico y; (2) el
desarrollo de tecnicas de estimacion e inferencia emprica. Lo anterior quedo plasmado en el acta constitutiva de la sociedad econometrica (Econometric Society),
fundada el 29 de diciembre de 1930 cuyo objetivo primario era:

E L AVANCE DE LA TEOR I A ECON OMICA


EN LO RELATIVO A LA

ESTAD I STICA Y LAS MATEM ATICAS


. (F RISCH , 1933)
Actualmente, la ciencia econometrica incluye u nicamente a la segunda a rea; la que
corresponde a la estimacion y a la inferencia estadstica con datos economicos. En
este punto resulta muy conveniente resaltar el concepto de inferencia estadstica;2
1

As como en astronoma, en finanzas, en ecologa,. . .


Seccion inspirada de las notas del Curso Estadstica Matematica I impartido por el Dr. Miguel
Nakamura.
2

21

CAPITULO
1. INTRODUCCION

22

de igual forma, resulta muy u til diferenciar con claridad la estadstica y la probabilidad. La asociacion entre ambas es, virtualmente generalizada, dado el gran numero
de cursos que las mezclan. Resulta importante tener claras las diferencias considerando que la econometra se traslapa en numerosas ocasiones con la inferencia estadstica. Observe el diagrama (1.1). En e l se pretende establecer la diferencia entre
la teora de la Probabilidad [encargada de cuantificar posibilidades] y la estadstica
[que se ocupa de estudiar fenomenos aleatorios observados e inducir propiedades
probabilsticas]. La probabilidad es de caracter deductivo (va de lo general a lo particular) mientras que la estadstica es inductiva. En ese sentido, es posible considerar
al estadstico (o en nuestro caso, econometrista) como un detective que, con base en
evidencia (es decir, observaciones), puede descubrir al culpable (infiere cual es el
modelo probabilstico adecuado). Cuando se parte del estudio teorico del fenomeno
estadstico y se construyen resultados que posteriormente habran de cotejarse con
la observacion de dicho fenomeno (es nuestro diagrama, la flecha que va de izquierda a derecha), basicamente se esta llevando a cabo un ejercicio deductivo, mientras
que, cuando se parte de la observacion del fenomeno y se intenta llegar al modelo
teorico (la flecha que va de derecha a izquierda), el ejercicio es de naturaleza inductiva. Ambos procedimientos conllevan una parte de incertidumbre, solo que e sta es
diferente segun cual es. El procedimiento deductivo (en lo que nos ocupa) conlleva implcitamente una incertidumbre estocastica mientras que el inductivo conlleva
una incertidumbre que podramos denotar como inductiva. Ambas categoras seran
mejor comprendidas a lo largo de este curso.

Teora de la probabilidad
Deduccin

Observacin del
Fenmeno aleatorio

Fenmeno aleatorio

Induccin

Inferencia Estadstica

Figura 1.1: Estadstica y Probabilidad


Cuando se hace teora de probabilidad, no es necesario contar con datos. Se puede,
por ejemplo, imaginar que existe un dado justo (que no esta cargado) y deducir que


1.1. PARABOLA
DE LEAMER

23

cada faz del dado tiene una probabilidad de ocurrencia de 16 . En ningun momento
el dado existio. El camino del estadstico es el opuesto; partiendo de observaciones
debe llegar al modelo de probabilidad adecuado (por ejemplo, inferir con base en
las realizaciones de un dado si e ste esta o no cargado). Note que hacer el camino a
la inversa de la teora de probabilidad conlleva una incertidumbre que la primera no
tiene. Para lo que a nosotros nos interesa, conviene quedarnos con esta definicion
de la inferencia:
BASADA EN OBSERVACIONES
I NFERENCIA ESTAD I STICA : I NDUCCI ON

1.1.

Parabola de Leamer

En un artculo famoso,3 Leamer hace la comparacion de la ciencia economica con


otras ciencias llamadas duras (como la fsica). Acorde a la parabola con la que
inicia dicho artculo, la ciencia clasica puede representarse por un granjero que tiene interes en confirmar la efectividad de cierto tipo de abono en el rendimiento de su
cosecha. Para tal efecto, siembra su campo y anade en algunos surcos seleccionados
al azar el mentado abono ( para que creen que sirve la seleccion aleatoria?); hecho
esto, espera la maduracion de la cosecha y mide meticulosamente el rendimiento
surco por surco. Obtenidos los datos, procede a elaborar una prueba estadstica de
diferencia de medias y confirma que el abono efectivamente hace crecer mas a las
plantas. Escribe sus resultados y los presenta en el C ONGRESO ANUAL DE G RAN JEROS donde la comunidad de cultivadores asimila sin controversia sus resultados.
El economista es otro tipo de granjero, en otras latitudes. El tambien esta interesado en saber que factores afectan el rendimiento de sus tierras. Lo malo es que no
dispone de las mismas herramientas que el granjero anterior; de hecho, solo cuenta
con un a rbol perdido en la mitad de su campo en el cual se paran a descansar unos
pajaritos; mientras descansan, las aves defecan, vertiendo as guano en las cercanas
del a rbol. El guano es considerado un abono natural. Nuestro granjero procede entonces a sembrar, como siempre lo ha hecho y, al momento de recoger su cosecha,
mide el rendimiento de e sta distinguiendo arbitrariamente entre las zonas aledanas
al a rbol y las demas. Calcula medias, hace una prueba estadstica y constata diferencias en los rendimientos; escribe sus resultados y los presenta en otro congreso,

el C ONGRESO B I -A NUAL DE G RANJEROS E C ONOMOS


. La diferencia es que
al hacerlo, el auditorio se alborota y uno de los miembros del publico de plano se
3

Leamer (1983) Let s take the con out of Econometrics, American Economic Review, 73 (1), pp.
31-43.

CAPITULO
1. INTRODUCCION

24

levanta y manifiesta su inconformidad. Su argumento es que la diferencia de rendimientos no esta causado por el guano que arrojan las aves, sino por la sombra
que proyecta el a rbol; e l mismo tiene un arbusto en su jardn y sus calculos as lo
indican. A raz del comentario se gesta una agria discusion que solo es zanjada por
otro granjero, muy lucido que senala que no es posible discriminar entre las dos
hipotesis de trabajo: hay un problema de identificacion.

1.2.

Fisher tomando el te

Cuenta la leyenda que Fisher (que era ingles) se encontraba un da tomando el te a


las cinco de la tarde con sus colegas de trabajo, todos ellos sendos investigadores
en ciencias duras, tales como la qumica. A la mitad de la conversacion, una de las
damas presentes afirmo que el te no saba igual segun como lo prepararan. Verter
el azucar antes que el te le daba un sabor diferente al que se obtena invirtiendo
el orden. Todos se rieron e inclusive trataron de explicarle a la dama que la reaccion qumica en cualquier caso siempre era la misma, pero e sta insista en tener la
razon. Fisher, para zanjar la discusion propuso llevar a cabo un pequeno experimento. Preparo diez tasas de te. El orden de los ingredientes fue seleccionado al azar y
solo conocido por e l. Procedio posteriormente a darselos a probar a la dama quien
senalo en cada probada de que manera se haba preparado esa tasa. La dama supo
reconocer correctamente dicho orden en todos los casos. Cual es la probabilidad
10
de que su e xito sea debido al azar? 12
0.0009. Sera demasiado inverosmil
creer que diez aciertos fueron solo fruto del azar, por lo que el experimento constituye evidencia estadstica de que el sabor del te difiere segun el orden con que se
mezclen los ingredientes.
Ejemplo 1 El reto Pepsi. No hay que irse con la finta; hacer pruebas estadsticas,
que si bien estan basadas en una idea simple, requiere de una mente despejada. Hagamos un ejemplo practico, muy al estilo de Fisher. Hace unos anos, la compania
de bebidas Pepsi-Cola lanzo una agresiva campana de publicidad en la que ofreca
a la gente dos vasos; un vaso contena Coca Cola, mientras que el otro Pepsi Cola.
A los encuestados se les peda senalar el que mas les gustaba. La persona tena
que decidir. Tiempo despues, anunciaron que mas gente haba preferido la Pepsi
que la Coca. Esa conclusion es valida? S lo piensan bien, no. Probar un solo
vaso y luego escoger la marca del refresco de cola solo tiene dos conclusiones posibles...Coca o Pepsi. Imaginen a alguien que hace la prueba y descubre que no tiene
idea de lo que acaba de ingerir. Que hara? dira un nombre al azar. Nuevamente,

1.2. FISHER TOMANDO EL TE

25

si lo piensan bien, tiene una chance entre dos de atinarle de chiripa. Que pasara
si, en vez de probar un vaso servido al azar, probara S IETE vasos servidos al azar?
Cual sera la probabilidad de atinarle, por puro azar a la marca del refresco que
esta servido en cada vaso? Pues no es difcil calcularlo,
 7
1
= 0.0078125
2
Pero nuevamente, no se vayan con la finta de este sencillo calculo e infieran rapidamente que alguien que no le atina a ni un solo vaso tiene el paladar muy torpe. La
probabilidad de no atinarle, tambien por puro azar, a la bebida en los siete vasos
es:
 7
1
= 0.0078125
2
De hecho, lo mas probable es que alguien que no reconoce los sabores sea capaz
de atinarle a unos cuantos vasos, por mero azar. Lo que resulta difcil de creer es
que le atine a todos de chiripa (o la inversa, que no le atine a ninguno). Cuales
son las probabilidades de atinarle a un vaso? Puede que le atine al primero, pero
tambien es posible que le atine al segundo, o bien solo al tercero. Existen, si lo ven
7 casos en los que le atinara a alguno de los siete vasos.
Solo hay un caso en el que le atinara a todos y tambien, solo hay un caso en el
que no le atinara a ninguno. Cuantas posibilidades hay de que le atine a dos
vasos cualesquiera? Ya no es tan facil, puede atinarle al primero y al segundo, al
primero y al tercero, al segundo y al tercero,... Ya son muchos mas. Afortunadamente es facil saber cuantas combinaciones hay. Simplemente necesitamos calcular la
combinatoria de 7 tomados 2, es decir:
7
2
Hagamos todos los casos posibles (ver tabla 1.1).
Hay, de hecho, 128 casos posibles. Ahora s podemos empezar a tomar decisiones respecto al paladar de la gente. Lo primero es corroborar el primer calculo
que habamos hecho. Dijimos que la probabilidad de atinarle a todos los vasos de
chiripao no atinarle a ningunoera 0.0078125. Eso es lo que se obtiene tambien
al hacer el siguiente calculo:
1
= 0.0078125
128

CAPITULO
1. INTRODUCCION

26

0.35
0.3

Probabilidad

0.25
0.2
0.15
0.1
0.05
0

1
2
3
4
5
6
Nmero de xitos (cuantas veces le atin a la bebida del vaso)

Figura 1.2: Distribucion del reto Coca-Pepsi. Note como el a rea total es igual a uno.
Con base en lo anterior es facil ver que (i) la probabilidad de atinarle exclusivamente a un vaso es: 0.0546; (ii) atinarle a dos vasos: 0.1640; (ii) a tres: 0.2734; (iv)
a cuatro: 0.2734; y luego se invierten. Que caso nos parece ser probatorio de que
el individuo tiene un fino paladar? Si no le atina a ninguno, o bien le atina a todos,
parece inverosmil que ello se deba al azar. Si adoptamos una filosofa frecuentista,
veramos que son siete casos de cada mil. As pues, podemos tomar la decision, en
caso de encontrarnos con alguien as, de decidir que eso no pudo deberse al azar
y que esa persona realmente sabe distinguir la coca de la pepsi. El que falle una,
o bien que las hierre todas menos una, nuestros calculos muestran que se trata de
una probabilidad de 0.05, es decir una entre veinte. Eso no resulta tan inverosmil,
as es que, en caso de ocurrir, se lo atribuiremos al azar.
Ejercicio 1 Con objeto de hacer mas elocuente la presentacion del metodo de regresion, intentaremos hacer un ejemplo usando unos cuantos datos extrados de una
muestra sumamente informal. La informacion, de hecho, sera provista por ustedes
y, eventualmente, por sus familiares y amigos. El interes de este ejemplo radica en
que resalta algunos de los elementos mas importantes en todo estudio, sea e ste econometrico o no. En realidad, lo mas fundamental en un estudio es establecer con
claridad la pregunta a la que se le desea dar respuesta. En este caso, formularemos

1.2. FISHER TOMANDO EL TE


Atinarle a:
0

27

Combinatoria
 
7
0
 
7
1
 
7
2
 
7
3
 
7
4
 
7
5
 
7
6

Casos posibles
1

21

35

35

21

 
7
7

Total

128

Cuadro 1.1: Combinatorias del Reto Coca

una sumamente sencilla y, esperemos, algo controvertida:

I MPUNTUALES , LOS H OMBRES O LAS M UJERES ?


Q UI ENES
S ON M AS
Se trata de una pregunta en extremo trivial; al margen de si e sta le parece interesante o no, destaca el hecho de que el cuestionamiento es preciso. Para dar respuesta
al mismo, existen varias metodologas posibles. En este caso usaremos una que nos
permita ilustrar el metodo de estimacion que estudiaremos a lo largo del manual:

CAPITULO
1. INTRODUCCION

28

Mnimos Cuadrados Ordinarios. La idea es determinar si el genero tiene incidencia alguna en las costumbres de puntualidadde los individuos que conforman la
muestra (ya si la muestra fuera representativa de cierta poblacion, es otra historia).
No obstante la unicidad de nuestra pregunta (genero-puntualidad), existen muchos
otros factores que pueden explicar por que la gente es impuntual/puntual: acceso
a un medio de transporte eficaz, vivienda cercana al centro de estudio/trabajo, situacion familiar, etc. Si diera la casualidad que todos los hombres de la muestra
fueran solteros mientras que todas las mujeres estuvieran casadas con 7 hijos cada
una, muy posiblemente encontraramos evidencia de que las mujeres son mas impuntuales. Pero la conclusion sera erronea, pues sera la situacion de maternidad
la que provoca la impuntualidad. Si resultara que todos los hombres viven a 200
kilometros de su lugar trabajo y no dispusieran de un medio de transporte rapido
mientras que las mujeres viven al lado del centro de trabajo y encima de todo pueden llegar a e ste usando, por ejemplo, el metro, entonces encontraramos que son
los hombres los mas impuntuales. Ello tambien estara mal concludo, puesto que
las diferencias en puntualidad seran en realidad debidas a otros factores.
No tomar en cuenta otros factores ademas del que nos interesa (genero) para estudiar la puntualidad tendra la grave consecuencia de sesgar la inferencia estadstica. Por ello es importante tomar en cuenta tales factores, es decir, controlar los
resultados por tales factores. Si hacemos correctamente el control de otras caractersticas de los individuos, nuestro ejercicio estadstico tiene muchas mas posibilidades de arrojar resultados validos. As las cosas, se sugiere que se levante la
siguiente encuesta entre sus conocidos y familiares:
1. Que distancia tiene que recorrer para llegar a su centro de trabajo/estudio?
Estime la distancia en kilometros (podra usar Google Maps para ello).
2. Se desplaza en automovil, usa el transporte publico, camina, hace ronda
para llegar al centro de trabajo/estudio?
3. Que edad tiene?
4. Tiene hijos?
5. Por la manana, debe compartir el bano con mas de una persona?
6. En promedio, que tan puntual es? Responda senalando cuantos minutos suele llegar tarde/temprano.
7. Es usted hombre o mujer?

1.2. FISHER TOMANDO EL TE

29

En principio, debera juntar, como mnimo, unas 30 respuestas a semejante cuestionario para que el ejercicio tenga alguna oportunidad de arrojar resultados relevantes; podra usted usar un cuestionario en lnea como este:
https://docs.google.com/spreadsheet/viewform?formkey=dG95X212S2taNUFyX1l6MWV2TWFfR0E6MQ

Las respuestas de algunas personas aparecen ya en un formato de cuadro en la


siguiente liga:
https://docs.google.com/spreadsheet/ccc?key=0AjZR92LJVODOdG95X212S2taNUFyX1l6MWV2TWFfR0E#gid=0

Recuerde que la pregunta a la que daremos respuesta es: Quien es mas impuntual?
la mujer o el hombre?
Estimaremos por MCO la siguiente relacion lineal:
yi = + 1 x1i + 2 x2i + . . . + 10 x10i + ui
donde,
1. yi es la variable que mide la impuntualidad del i-esimo individuo,
2. , i , para i = 1, 2, . . . , 10 son los parametros que miden la relacion lineal
entre impuntualidad y cada una de las variables ( es solo la ordenada en el
origen de la recta),
3. x1i es la edad del i-esimo individuo,
4. x2i es la distancia entre el hogar y el trabajo/centro de estudio del i-esimo
individuo,
5. x3i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
tiene auto, 0 si no,
6. x4i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
usa transporte publico, 0 si no,
7. x5i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
se desplaza en taxi, 0 si no,
8. x6i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
hace ronda, 0 si no,
9. x7i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo comparte
bano por las mananas, 0 si no,

30

CAPITULO
1. INTRODUCCION

10. x8i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
tiene hijos, 0 si no,
11. x9i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
trabaja, 0 si estudia,
12. x10i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo es mujer, 0 si es hombre,
13. ui es un termino de error. No podemos esperar que estos factores antes enumerados puedan explicar completamente la impuntualidad; todo aquello que
no podamos explicar se ira a este termino de error. La idea es que las variables que s inclumos sean capaces de explicar la mayor parte del comportamiento de la gente, que lo poco que no pudimos explicar sea poco y por
ende inocuo.
Note que no inclumos una variable para la posibilidad de que el individuo camine.
La razon de ello se estudiara en en captulo destinado a la multicolinealidad;
por el momento, simplemente ignore la cuestion. Los resultados no los podemos
adelantar, puesto que es un ejercicio que depende de datos que aun no conocemos.
Para llevarlo a cabo la estimacion de la recta usaremos el modulo de regresion
del programa Excel 2007. Vea en el apendice G, en la pagina 515 de este manual
para saber como hacer funcionar dicho modulo. En principio, solo tiene que saber que y es la variable dependiente mientras que todas las demas, son variables
independientes/explicativas. MCO le proporcionara estimaciones numericas de los
parametros y i , para i = 1, 2, . . . , 10. Las formulas para obtener tales estimadores seran objeto de escrupuloso estudio mas adelante; de momento no se preocupe
por ello tampoco.
Asumamos que ya logro estimar la recta de regresion por MCO. Como debe interpretar los resultados y as, eventualmente, dar respuesta a la pregunta orginal?
Pues vera que es una mera cuestion de sentido comun. Con un par de ejemplos,
quedara esto muy claro:
Nos vamos a concentrar en el parametro estimado que acompana a la variable
Genero, x10i . Supongamos que dicho estimador es igual a 8; supongamos igualmente que el estimador de es igual a 5. Note como ello implicara que el i-esimo
individuo, si es mujer, debera ser, segun nuestro modelo, ocho minutos mas puntual. Para ver lo anterior, olvidemonos por un momento de todos los demas factores
(igualemos a cero todas las demas variables). La ecuacion se reducira a


1.3. PARA QUE HACER ECONOMETRIA?

31

yi = 5 8x10i ,
si nuestro individuo es mujer. Siendo que x10i = 1 en ese caso, obtendramos que
semejante individuo suele llegar, segun nuestro modelo, 3 minutos antes de las citas. Si el individuo es hombre, entonces llegara 5 minutos tarde en promedio, segun
nuestro modelo, no lo olvide. Ahora bien, el valor del parametro estimado es de
suma importancia para la interpretacion de los resultados, economica por lo general, pero no podemos dejar de lado la interpretacion estadstica. El estimador
de 10 es una variable aleatoria y, por lo mismo, esta sujeta a cierta incertidumbre/variabilidad. Podra ser estadsticamente indistinguible de cero. Si as fuera,
nuestra conclusion sera que el genero no influye en la puntualidad de los individuos. Afortunadamente, si el parametro realmente es cero, entonces una normalizacion del mismo tendra una distribucion normal estandar. Ello nos permite hacer
inferencia estadstica; en otras palabras, podemos hacer una prueba de significancia estadstica. Notara que el resultado ofrecido por el programa arroja en una
columna un estadstico denominado estadstico t. La hipotesis nula de dicho estadstico es que el parametro es igual a cero. No podremos rechazar dicha hipotesis
si el estadstico t esta entre 1.96 y 1.96.4 Con base en esta prueba, llegue a una
conclusion respecto a la relacion entre el genero y la impuntualidad.

1.3.

Para que hacer econometra?

En u ltima instancia, el objetivo de la ciencia en general consiste en el desarrollo de


instrumentos (modelos) que permitan realizar predicciones confiables de fenomenos futuros. Siguiendo una filosofa instrumentalista no se considera que el modelo sea verdadero o que la teora represente la verdad. Se considera mas bien que
los elementos y entidades que aparecen en las teoras son ficciones intelectuales valiosas (Poirier). A este respecto, cabe mencionar la siguiente anecdota (Pindyck):
LAS PERSONAS QUE PRETENDAN PREDECIR EL FUTURO SERAN

CONSIDERADAS ALBOROTADORAS BAJO LA SUBDIVISI ON

901 DEL
3, SECCI ON

ACREEDORAS A UNA MULTA DE 250


C ODIGO
COMUNAL , Y SE HAR AN

.
D OLARES
Y / O 6 MESES DE PRISI ON

No obstante los riesgos en los que aparentemente incurriremos, nosotros nos dedicaremos a utilizar el herramental estadstico tpico de los economistas para realizar
4

Las razones de ello y la teora detras de esta prueba sera detallada mas adelante.

CAPITULO
1. INTRODUCCION

32

predicciones. Antes de iniciar concretamente con el curso, es interesante comentar


un poco cuales son los orgenes de esta disciplina.

1.4.

Orgenes

La econometra fue considerada en un principio como una sntesis creativa de teora


y evidencia, con la cual casi todo poda lograrse: descubrir nuevas leyes economicas, desarrollo de las existentes, medicion y confirmacion de estas,....
Jevons, uno de los primeros economistas abocados al estudio sistematico de la disciplina, afirmo:
QUE LA E CONOM I A P OL I TICA SE
N O DUDO EN AFIRMAR TAMBI EN
CONVERTIR I A GRADUALMENTE EN UNA CIENCIA EXACTA , SI LA
COMPLETA Y PRECISA DE LO QUE
ESTAD I STICA COMERCIAL FUERA M AS
ES ACTUALMENTE . D E ESTA FORMA , LAS FORMULACIONES PODR I AN SER

RESPALDADAS CON GRAN FUERZA POR LOS DATOS ECON OMICOS


,
J EVONS (1871)

1.4.1. La trayectoria de los cometas


Si bien el uso de la estadstica en economa no comenzo a generalizarse hasta finales
del siglo XIX, vale la pena reparar en los orgenes del metodo que posteriormente
sera utilizado en infinidad de disciplinas cientficas, entre ellas, repetimos, la economa. Pues su origen es frances, si bien hay una ligera disputa con los alemanes
en lo que concierne a la paternidad. El metodo al que nos referimos, del que ha
blaremos las proximas 200 paginas, es nada menos que el famoso M ETODO
DE
M I NIMOS C UADRADOS O RDINARIOS, M CO por sus siglas en espanol o bien
OLS (Ordinary Least Squares) por sus siglas en ingles. El inventor de esta tecnica
es el Frances Adrien Marie LeGendre. Los detalles de dicha tecnica aparecen en

el apendice de su obra N OUVELLES M ETHODES


POUR L A D ETERMINATION
5
`
DES C OM ETES
. Como bien lo indica el ttulo, M CO fue empleado la primera vez
para ajustar las trayectorias de los cometas. Es un detalle curioso que vale la pena
conocer.
5

Nuevos Metodos para determinar cometas. (traduccion)


1.4. ORIGENES

33

1.4.2. Manchas solares y ciclos venusinos


Entre los economistas Jevons y Moore, se gesto un programa econometrico pionero para explicar los ciclos economicos, aunque su impacto en la comunidad cientfica exigio bastante tiempo para materializarse. La teora de las manchas solares de
Jevons ( 1870), por ejemplo, constituyo uno de los primeros intentos serios por
cuantificar y aportar evidencia emprica referida a una teora concreta. La idea fundamental de e sta es la siguiente: La actividad solar esta regida por un ciclo que dura
11.1 anos. Justamente en cada pico, dicha actividad se incrementa substancialmente. Jevons crea que tales picos tenan efectos sobre el clima de la tierra y, por ende,
sobre las cosechas y sus rendimientos. Estos efectos repercutiran en los precios de
los productos agrcolas y posteriormente en los demas precios [Jevons(1875)]. La
evidencia era escasa y el propio Jevons saba queaun siendo cierte su hipotesis
otros factores sociales, economicos y polticos podan perturbar igualmente el ciclo.

Figura 1.3: Ciclo de Comercio segun Jevons (1884)


La evidencia desgraciadamente nunca se materializo y los esfuerzos de Jevons solo
le valieron el rechazo de los colegas. No obstante, el intento marco una pauta: el
uso de la estadstica para identificar fenomenos economicos y sociales.6
Jevons eventualmente abandono sus practicas econometricas, pero Moore las retomo casi 40 anos despues. Desgraciadamente Moore lo hizo mediante una hipotesis aun mas descabellada para explicar los ciclos de negocios. Moore propuso estudiar la o rbita de Venus y su posicionamiento con respecto a la Luna y al Sol.
6

Galton y otros autores contemporaneos ya haban hechos sus pininos, pero ninguno de ellos era
economista

CAPITULO
1. INTRODUCCION

34

Utilizo tecnicas mucho mas sofisticadas como el analisis armonico (frecuencias)


sobre datos de pluviometra del Valle de Ohio (1839-1910); calculo periodogramas
con los que mostro que haba ciclos que sobresalan del ruido blanco; entre ellos
destacaba uno de ocho anos y otro mas de treinta y tres anos. Posteriormente elaboro correlaciones de la pluviometra de Illinois con la cosecha de grano del mismo
estado creyendo mostrar as que la lluvia y la cosecha estaban relacionadas causalmente (con un rezago de 2 anos).

Figura 1.4: Ciclo de Negocios segun Moore (Moore, 1914)

Posteriormente, Moore relaciono la produccion de grano con su precio y obtuvo


empricamenteuna demanda de grano con...pendiente positiva! Lo anterior fue
fruto, entre otras cosas, de un analisis de regresion con tres variables (considerando
la ausencia de computadoras, el merito no es poco). Aquello no fue una debacle.
Los resultados aparecieron en un libro (1914) y fueron refinados en otro que se
publico en 1923. En otro libro, Moore probo una hipotesis muy desafortunada; sugirio que el origen de los ciclos fuera la o rbita de Venus; dicho planeta se coloca
cada ocho anos en una posicion tal que e ste queda alineado con el Sol y la Tierra. Las repercusiones de estas afirmaciones no tuvieron demasiado eco sobre la
comunidad cientfica.7

El desarrollo de la econometra persistio. Esta


se consolido considerablemente con
la fundacion de la Sociedad Econometrica y se definio con mas precision con los trabajos de Timbergen en los anos treinta. La Comision Cowles aporto grandes avances
7

No obstante, Moore tuvo varios discpulos, menos destacados quiza individualmente, pero que
en conjunto coadyuvaron a la construccion del cuerpo cientfico de la econometra


1.4. ORIGENES

35

ya en las decadas de los cuarenta y cincuenta. Lo ocurrido posteriormente, si bien


es de gran trascendencia, es demasiado polifacetico para resumirlo en unos pocos
parrafos. La econometra clasica sufrio un gran descredito en los setenta debido
a sus limitaciones predictivas y explicativas ante un escenario de fuerte crisis. La
incorporacion y asimilacion de tecnicas de series de tiempo le permitieron salvar
muchos de los escollos senalados. Adicionalmente, el avance informatico y el acceso a bases de datos cada vez mas grandes y completas permitio el desarrollo de lo
que hoy se conoce como microeconometra.8

Ver, por ejemplo, la breve resena que al respecto hace Ventosa-Santaul`aria(2006) o, mejor aun,
la soberbia investigacion de Morgan(1994).

36

CAPITULO
1. INTRODUCCION

Captulo 2
El modelo de Regresion lineal simple
2.1.

Preambulo

La herramienta de analisis emprico mas comunmente utilizada (y probablemente


la mas importante) en economa lleva por nombre Mnimos Cuadrados Ordinarios
(analisis de regresion, MCO u OLS, por sus siglas en ingles). Al ser empleada, se
asume que la ecuacion a estimar es lineal en todos sus parametros. Antes de entrar
en mas detalles, cabe hacerse una serie de preguntas relevantes: Para que queremos
estimar una ecuacion? De que ecuacion estamos hablando? Como sabemos que
los calculos significan algo? A esas preguntas iremos respondiendo poco a poco,
pero importa mas asimilar correctamente desde un principio el interes de esta materia. Mediante el analisis de regresion lineal podremos establecer empricamente una
relacion (no necesariamente causal) entre dos o mas variables; por ejemplo entre ingreso y consumo; y podremos caracterizarla y estudiar algunas de sus propiedades.
Dichas relaciones nos son sugeridas por la teora economica. La que utilizamos de
ejemplo es subyacente a las ideas Keynesianas. Retomemosla durante un momento:
basicamente lo que sabemos acorde a dicha teora es que el consumo es una funcion
del ingreso, es decir:
C = f (y)
Por desgracia, a partir de este punto, las cosas se vuelven mas complicadas. Resulta obvio que existen otras variables que tambien explican el comportamiento del
consumo; entre ellas destacan los activos financieros, las preferencias del consumidor... En general, todo el mundo coincide al decir que la mas importante de todas
ellas es el ingreso (disponible), o en todo caso admite que algunas de las otras son
37

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

38

muy difciles de obtener (como las referidas a las preferencias). En u ltima instancia, resulta muy conveniente (y altamente recomendable) fundamentar el estudio
en teora economica que nos proporcione pistas respecto a las relaciones entre variables as como al sentido de causalidad. Consideremos brevemente las variables
que nos interesan. No solo existe una teora que nos senala la relacion entre ellas;
empricamente dicha relacion se antoja obvia, cuando menos estadsticamente.

2
1910

PIB real (EEUU)


M2 (EEUU)
1920

1930

1940

1950

1960

1970

1980

M2 (EEUU)

2
4.5

5.5

6
PIB real (EEUU)

6.5

7.5

Figura 2.1: Series de tiempo del PIB real y del Agregado Monetario M2 de E.E.U.U.
y Diagrama de Dispersion. Fuente: Base de datos historica de Nelson y Plosser
(1982).
Pero bueno, aqu nos estamos adelantando un poco. Hace un siglo le hubieramos
hecho diferente. Propuesto a finales del siglo antepasado, el coeficiente de correlacion ha probado ser un instrumento simple, pero a la vez poderoso. El coeficiente
de correlacion es una cantidad que permite medir el grado de asociacion entre 2
variables aleatorias.
Definicion 1 El coeficiente de correlacion entre dos variables aleatoria es:
x,y =
donde:

cov (x, y)
[V ar(x)]1/2 [V ar(y)]1/2


2.1. PREAMBULO

39

Cov(x, y) = E [(x x )(y y )]


V ar(x) = E [(x x )2 ]
El coeficiente de correlacion queda acotado entre 1 y 1.
1 x,y 1
El coeficiente de correlacion es una medida de intensidad de relacion lineal entre
dos variables. Tomemos como ejemplo la relacion entre Anos de Estudio y Salario.
Uno esperara que, conforme mas anos de estudio tenga un individuo, mas alto sea
su salario. Digamos que contamos con esa base de datos. Con base en la formula
anterior podemos calcular la correlacion entre ambas variables. Que opinaran si
saliera un coeficiente de correlacion de 0.94?, y si saliera 0.02?, peor aun -0.7? El
coeficiente de correlacion es un instrumento eficaz para indagar rapidamente la intensidad de las relaciones entre variables. Tiene, como todo instrumento, bondades
y defectos. Entre los defectos mas notorios esta su circunscripcion a la linealidad:

Variable y

Variable x

Figura 2.2: Relacion lineal entre las coordenadas de un crculo: Nula


El coeficiente de correlacion lineal sera incapaz de darnos la mas mnima pista de
la relacion entre las coordenadas x y y que obviamente es perfecta. Es importante
tomar en cuenta esto cuando se utilice el coeficiente.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

40

Por que el coeficiente de correlacion esta acotado entre 1 y 1? En realidad es


facil demostrarlo. Antes de continuar, haremos algunas aclaraciones. E(x) = x ,
E(x x )2 = var(x) = x2 , E(y) = y y E(y y )2 = var(y) = y2 . Definamos
ahora:

def

(x x )
(y y )
p
p
,
V ar(x)
V ar(y)
(x x ) (y y )

.
x
y

Resulta obvio que: z 2 0, y por lo tanto, aplicandole el operador esperanza a z 2 y


desarrollando:1
E(z 2 ) 0,

"

#
2
2
(x

)
(y

)
2
(x

)
(y

)
x
y
x
y
E(z 2 ) = E
+

0.
x2
y2
x y

Todos los denominadores en la expresion anterior son, para efectos del operador
esperanza, terminos constantes, por los que salen de dicho operador. Note ademas
que el tercer elemento corresponde a la definicion del coeficiente de correlacion:
Desarrollando,
var(x)

var(y)

z }| { z }| {
E(x x )2 E(y y )2
+
2
x2
y2
1 + 1 2x,y
2x,y
x,y

0,
0,
2,
1.

Ya tenemos un lado de la desigualdad; ahora solo falta obtener el otro lmite. Definamos, como anteriormente (aunque cambiando el signo):
1

Podra encontrar algunas explicaciones relativas al operador esperanza en el apendice B en la


pagina 499, aunque se recomienda, si las dudas persisten, consultar algun libro de probabilidad y
estadstica.


2.2. EL CONCEPTO DE LA REGRESION

z
E(z 2 ) 0

41

(x x ) (y y )
+
x
y

#
2
2
(y

)
2
(x

)
(y

)
(x

)
y
x
y
x
0
+
+
E(z 2 ) = E
x2
y2
x y
"

1 + 1 + 2x,y 0
2x,y 2
x,y 1
Con esto queda demostrado que:
1 x,y 1

2.2.

El concepto de la regresion

En la relacion mencionada al principio de este captulo, entre ingreso y gasto, sera


facil imaginar que existen otras variables que explican los niveles salariales: localizacion geografica (rural/urbana); antiguedad laboral; genero (lamentablemente);
etc. . . Es posible que existan muchas variables capaces de explicar parcialmente el
nivel salarial de los individuos. Si utilizamos el coeficiente de correlacion, para medir la relacion lineal entre este par de variables, nos quedaramos muy cortos. Es
ah que la regresion entra en juego, puesto que permite controlar por muchos otros
factores importantes (recuerde el ejercicio 1 de puntualidad, en la pagina 26).
No obstante lo anteior, de momento haremos el ejercicio con solo dos variables. Ello
permite introducir conceptos con suma facilidad; posteriormente generalizaremos el
metodo a K variables independientes.

2.2.1. El diagrama de dispersion


Desarrollemos un ejemplo sencillo para ver relaciones entre variables: Esperanza
de vida e Ingreso per capita (Datos de 2007).2 Veamos el caso de Mexico, Francia,
Japon y Nigeria:
2

El ingreso per capita esta medido en dolares PPC (paridad poder de Compra).

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

42

Pas
Mexico
Francia
Japon
Nigeria

Ingreso per capita


$12,500
$33,800
$33,800
$2,200

Esperanza de vida
75.63
80.59
82.02
47.44

Cuadro 2.1: Relacion Ingreso-Esperanza de vida. Fuente: CIA World Factbook:


https://www.cia.gov/library/publications/the-world-factbook/index.html

Resulta aparente una relacion directa entre nivel de ingreso y esperanza de vida. Los
dos pases mas ricos, Francia y Japon, tienen un ingreso alto y una elevada esperanza de vida; el pas pobre, Nigeria, tambien coincide con la esperanza de vida mas
reducida. Mexico, en tanto pas de ingreso medio, ofrece una esperanza de vida muy
superior a la de Nigeria, pero no tanto como la de las otras dos naciones. As pues,
todo indica que hay relacion. Note como no se ha mencionado la palabra C AU . Podramos representar este hallazgo
SALIDAD , sino simplemente R ELACI ON
graficamente:

Esperanza de Vida (aos)

85

Japn

Mxico

80
75

Francia

70
65
60
55
50

Nigeria

45
40
0

5,000

10,000

15,000

20,000

25,000

30,000

Nivel de ingreso (en dlares medidos en PPP)

Figura 2.3: Ingreso per capita y esperanza de vida en Mexico, Francia, Japon y
Nigeria. Fuente: CIA world factbook.
La relacion lineal, en todo caso, no es tan obvia. Podramos representar una funcion
creciente, pero no necesariamente lineal. De hecho, con tan pocos datos (cuatro ob-


2.2. EL CONCEPTO DE LA REGRESION

43

Esperanza de Vida (medida en aos)

servaciones), no es posible efectuar inferencia estadstica alguna. La figura anterior


y algunos autores se refieren a ella
se denomina D IAGRAMA DE D ISPERSI ON
como N UBE DE PUNTOS . El anterior es quiza una vision mas poetica (y tambien mas elocuente) de la figura. Para asimilar mejor el concepto, conviene repetir
el diagrama, esta vez con muchos mas pases.

85

80

75

70

65

60

10,000

20,000
30,000
Ingreso per cpita (medido en Dlares PPP)

40,000

50,000

Figura 2.4: Ingreso per capita y esperanza de vida en 220 pases (excepto algunos
en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook.
Note como la tendencia positiva en la relacion es ahora mas obvia. Tambien resulta
mucho mas obvio que la lnea es incapaz de pasar por todos los puntos (dejara de
ser una lnea, claro esta). Esto resulta de que nuestro analisis es, muy probablemente
incompleto y por lo tanto, no lo desarrollaremos mas en esta seccion; de momento,
basta con asimilar la utilidad del diagrama de dispersion.
La tecnica de Mnimos Cuadrados Ordinarios (MCO) consiste en encontrar los
parametros de la recta anaranjada de la figura. Lo primero es recordar la forma de la
ecuacion que genera una recta as; debe tener una O RDENADA EN EL O RIGEN y
una P ENDIENTE :
yt = + xt + ut
El termino ut corresponde al error; e ste es necesario dado que no podemos esperar
poder explicar todo con nuestra recta. Parte quedara como Error, o residual. Ello

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

44

corresponde a la fraccion no explicada del comportamiento de la variable explicada,


yt . Por cierto, dicho comportamiento lo estamos tratando de explicar con la variable
xt , a la que usualmente se denomina variable explicativa o independiente.

2.3.

Mnimos Cuadrados Ordinarios: MCO

Estudiaremos la tecnica OLS o MCO, mas comunmente referida como regresion.


Este u ltimo termino se lo debemos en buena medida a Sir Francis Galton por su
estudio Regresion a la mediocridad: las estaturas de los hijos de padres muy
altos o muy bajos tienden a ser menos extremas.
Definicion 2 MCO: es la tecnica que permite encontrar la lnea que mejor se ajusta
a los datos; minimiza la suma de las desviaciones al cuadrado entre cada observacion y dicha lnea. En otras palabras, la suma de las distancias entre los puntos del
diagrama de dispersion a la lnea de regresional cuadradoes la menor posible
(ver figura).
Donde, al numero de observaciones con que contamos, lo denominaremos, T (tamano de muestra). Para poder referirnos a una observacion en particular, agregamos
un subndice a las variables. As, por ejemplo, la t-esima observacion de la variable x es xt , donde t = 1, 2, 3, . . . , T Es posible sugerir distintas estrategias para
minimizar esas desviaciones.
P
1. De entrada podramos pensar en Tt=1 desvt , pero....
P
2. Podramos probar tambien minimizar Tt=1 | desvt |
No obstante el valor absoluto complicara despues los calculos.
P

3. Que tal minimizar desvt2 ? Esta


parece ser la mas adecuada.

Debemos primero tener clara la naturaleza de la funcion a estimar. Esta


debe ser
DE R E lineal en los parametros. A la siguiente expresion le llamaremos F UNCI ON

GRESI ON P OBLACIONAL I NOBSERVABLE .


yt = + xt + ut ,

donde:
yt : Variable explicada o dependiente o inclusive regresando,


2.3. MINIMOS
CUADRADOS ORDINARIOS: MCO

45

Diagrama de Dispersin
20
y10t
0
10
20
30

20

10

10xt

20

Figura 2.5: Diagrama de Dispersion o bien Nube de Puntos.


: Constante u ordenada en el origen,
: Pendiente,
xt : Variable explicativa, exogena, predeterminada o aun regresor,
ut : Termino de Error.
Dada su condicion de inobservable, tendremos que conformarnos con algo que se
le parezca lo mas posible:
t + ut
yt =
+ x

(2.1)

donde la notacion significa E STIMADO y a ut se le denomina R ESIDUAL.


As pues, que nos dice esta funcion sobre la variable que queremos explicar? Em t nos situa en la lnea, pero le falta
pecemos por una explicacion geometrica;
+ x
recorrer una cierta distancia para alcanzar a la observacion, ut .

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

46
Definamos

t
yt =
+ x

Retomando la ecuacion (2.1):


yt = yt + ut
ut = yt yt
t
ut = yt
x
Al cuadrado...


2
t
u2t = yt
x

Sumando...

2
X

=
yt
xt
P 2
ut
Y ahora s, optimizando arg mn,

P

X
u2t
t ,
= 2
yt
x

P

X
u2t
t xt .
= 2
yt
x

X

u2t

Igualamos a cero para obtener el mnimoo maximo:



X
t = 0
yt
x
1.

X

2.
yt
xt xt = 0

Desarrollamos:
1.


X

yt
xt = 0
X
X
X
yt


xt = 0
X
X
yt
T
xt = 0

(2.2)


2.3. MINIMOS
CUADRADOS ORDINARIOS: MCO
2.



xt yt
xt = 0
X
X
X
xt yt

xt
x2t = 0
X

A las ecuaciones resultantes de este desarrollo se les denomina:


E CUACIONES N ORMALES
X

X
yt
T
xt = 0
X
X
X
xt yt

xt
x2t = 0

Despejamos
de la primera...

P
P
P
P
yt xt
xt yt
=

=
T
T
...y reemplazamos en la segunda
P
P 

yt xt X
X
X
xt yt
xt
x2t = 0
T

Despejamos :
X

xt yt

P
yt xt X 2 X 2
+
xt
xt = 0
T
T

Reacomodamos los terminos,

#
" P
2
X
X
1X X
( xt )
=

x2t
yt
xt
xt yt

T
T
P
P P
1
yt xt xt yt
T

=
P
P
1
( xt )2 x2t
T
P P
P
yt xt
xt yt T1

=
P 2 1 P 2
xt T ( xt )

47

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

48

Ahora obtengamos
:
P
P
yt xt

T
T

= y x

Sustituyendo el valor de :

= y

P P 
xt yt T1
yt xt
P 2 1 P 2 x
xt T ( xt )

Al dividir arriba y abajo por 1 , obtenemos:


Retomemos un poco la expresion de .
T
P
P P 
1
x
y

yt xt
t
t
P 2 T1 P 2 
=
1
xt T ( xt )
T
cov(x,

y)
=
var(x)

1
T

Pero, que hemos obtenido? un mnimo o un maximo? Retomemos las derivadas...


P


X
u2t

= 2
yt
xt

P

X
u2t
t xt
= 2
yt
x

Construyamos la Hessiana, que es la matriz de Segundas Derivadas:


" 2 P u2 2 P u2 # 
P 
t
t
2T
2

P 2
P 2
P x2t
= P
2
u
t
2
u
t
2 xt 2 xt

Y veamos los determinantes de los menores:


1. Primero: 2 T
2. Segundo:
2T 2

x2t 4

X

xt

2

X 2
X
= 4T
x2t 4
xt
 X
X 2 
2
= 4 T
xt
xt

2.4. PROPIEDADES DE LOS ESTIMADORES

49

Si el determinante de ambos menores son positivos tendramos en nuestras manos


una M ATRIZ DEFINIDA - POSITIVA, lo que equivale a tener la certeza de que obtuvimos un mnimo.  P

P
Pero. . . es acaso 4 T
x2t ( xt )2 positivo? Podramos manipular la formula
de la varianza muestral para demostrarlo:3
0 var(x
t)
T var(x
t)
X

(xt x)2
X

(x2t + x2 2xt x
X
1 X 2

(x2t
xt
T
X 2
X
xt
T
(x2t
 X
X 2 
2
0 4 T
(xt
xt
La expresion obtenida no es otra cosa sino 4 V ar (xt ) T 2 , es decir la formula de la
varianza, que es positiva por definicion. As pues podemos concluir que la MATRIZ
H ESSIANA O D ISCRIMINANTE es definida-positiva y, por ende, al optimizar lo
que obtenemos es un mnimo.

2.4.

Propiedades de los estimadores

2.4.1. Los supuestos del metodo


Por medio de Mnimos Cuadrados Ordinarios hemos ajustado una lnea que pasa
cerca de las observaciones. Conviene ahora empezar a conocer las propiedades de
dicha lnea, es decir de los parametros estimados y del residual resultante. Para ello,
enunciaremos anticipadamente los supuestos que garantizansi se cumplenque
nuestro ejercicio de estimacion sea exitoso.4
3

Haremos caso omiso de los grados de libertad que se pierden al estimar la varianza.
Es importante mencionar que la regresion es como una esperanza condicional: E (yt /xt ) =
+ xt , al condicionar en x, i.e. al decir dado x asumimos, de una forma u otra, que conocemos
dicha variable. Si no fuera el caso, sacaramos la media, es decir, una esperanza incondicional.
4

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

50

L OS S UPUESTOS DE MCOa
La relacion entre las variables x y
1. C ORRECTA E SPECIFICACI ON
y es lineal y esta dada por:
yt = + xt + ut
2. O RTOGONALIDAD Usaremos dos versiones de este supuesto:
a) Las x s son variables no estocasticas cuyos valores son fijos
(no tienen propiedades probabilsticas).
b) la Covarianza entre x y el termino de error es cero:
Cov(xt , ut ) = 0 o bien xt ut ; de ah el nombre del supuesto.
3. El error, u, tiene una esperanza igual a cero E(u) = 0.
4. H OMOSCEDASTICIDAD La varianza del termino de error es la
misma para todas las observaciones:
E(u2 ) = 2
( INDEPENDENCIA ) El termino de error
5. N O AUTOCORRELACI ON
es una variable aleatoria iid:
E (ui uj ) = 0 i 6= j
6. El termino de error se distribuye como una variable normal: ut
N (0, 2 )
7. E STACIONARIEDAD ( D E BIL ) Las variables no tienen un componente de tendencia estocastico ni determinstico:
E (yt ) = para todo t
E (yt ) (ytj ) = j para todo t y cualquier j
a

Resulta de suma importancia conocerlos. Para efectos practicos, recomendamos


al lector que los memorice. Conforme avance el curso, la razon de tales supuestos se
volvera evidente y tal memorizacion ya no sera necesaria.

2.4. PROPIEDADES DE LOS ESTIMADORES

51

El supuesto mas importante es probablemente el primero, el de Correcta Especificacion. Resulta obvio que si suponemos un Proceso Generador de Datos, DGP ,
incorrecto para la variable y, el resto de nuestro esfuerzo sera perfectamente inutil
y la estimacion quedara viciada por construccion. Por desgracia, la relevancia de
este supuesto solo queda igualada con la dificultad intrnseca de validarlo.5 En lo
que concierne al segundo supuesto, el de Ortogonalidad, usaremos la primera version (variable xt no estocastica) salvo que se indique lo contrario. e sto se impone,
de momento, con fines didacticos; muchas demostraciones quedan en extremo simplificadas al asumir que la o las variables explicativas no pertenecen a la esfera
probabilstica. Levantar este supuesto y reemplazarlo por la segunda version, que
es mas laxa no es particularmente complicado; de hecho, tal accion se lleva a cabo en etapas ulteriores del curso (Econometra para segundones). El supuesto de
ortogonalidad es, al igual que el primero, en extremo importante. La satisfaccion
del mismo [en su version Cov(xt ut )] puede quedar en entredicho en una cantidad
considerable de circunstancias, mismas que abordaremos, claro esta; de hecho, su
importancia es tal que dedicaremos gran parte de este manual a su estudio. De momento, asumiremos que s se cumple y eso en su version mas sencilla [la variable
x no es estocastica]. Los supuestos 4 y 5 resultan de gran trascendencia tambien,
aunque menor que la de los dos primeros. El rompimiento de e stos (denominado
heteroscedasticidad y autocorrelacion, respectivamente) degrada considerablemente la calidad de la estimacion.

Conviene tener claro algunos aspectos del tercer supuesto. Asumir que el termino de
error tiene esperanza cero cobra mucho sentido si recordamos que, en dicha variable, echamos todo aquello que no incorporamos a la especificacion. Lo hacemos
porque creemos que los elementos no considerados tienen una importancia marginal
y no alteran la medicion del fenomeno que realmente nos importa. La equivalencia
con el diseno de un experimento estadstico quiza aclare las cosas. En este u ltimo,
incorporar el componente aleatorio a la seleccion de muestra permite anular los
efectos sobre la variable de interes de otras variables que no nos importan. Dicho
azar permite que todo aquello que queremos excluir
se cancele por s solo. Lo
P
1
que ocurre con su contrapartida emprica, T
ut , resulta obvio, si recordamos
la primera
ecuaci
o
n
normal
igualada
a
cero.
En
otras
palabras, por construccion,
P
1
T
ut = 0.
5

Una de las funciones mas importantes del econometristaAmerica Latinau Econometra


Espanaes justamente la de lograr una correcta especificacion de la ecuacion a estimar

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

52

Independencia y homoscedasticidad

20
10

10

10

10

20

20

10

Autocorrelacin

20

20

10

20

10

10

Heteroscedasticidad

20
10
0
10
20

20

10

10

Figura 2.6: (a) Supuestos de homoscesdasticidad y no-autocorrelacion; (b) Autocorrelacion; (c) Heteroscedasticidad
Existen otros resultados interesantes que vale la pena destacar. Desarrollando la
especificacion estimada, obtenemos:

yt =
+ xt + ut
X
X
yt =
T +
xt +
ut

Si dividimos de ambos lados por T :

T 1

y =
+ x + T 1

ut = y
x

ut
(2.3)

N ORMAL
Que nos recuerda eso? Pues simple y sencillamente a la 1a E CUACI ON
dividida por T , que igualamos a cero:
y
x = 0

2.4. PROPIEDADES DE LOS ESTIMADORES

53

Como ya dijimos, el metodo MCO hace que, por construccion, la media de los residuales sea cero inequvocamente. P OR ELLO , SEA CUAL SEA NUESTRA ESTIMA , TENGA LOS PROBLEMAS QUE TENGA , LA MEDIA DE LOS RESIDUALES
CI ON
CERO. No obstante, la expresion anterior
ESTIMADOS SIEMPRE , SIEMPRE SER A
hace evidente que las medias de las variables pasan exactamente por la recta de
regresion.
Resta comentar los supuestos 6 y 7. El primero, el de normalidad nos sirve para
introducir la probabilidad en el modelo de regresion. Con ello, es posible atribuir
propiedades probabilsticas a nuestros estimadores y, en u ltima instancia, llevar a
cabo inferencia estadstica. Su ausencia hace del metodo de MCO un simple ejercicio geometrico.6 Supongamos que ut iidN (0, u2 ); las implicaciones de ello
pueden esgrimirse graficamente:

yt

0
0
0
50

50

50
100 0 0.20.4

100 0 0.20.4

100 0 0.20.4

xt

Figura 2.7: Diagrama de Dispersion. Visualizacion de la normalidad en la distribucion de los errores.


H OMOSCEDASTICIDAD:
V ar(ut ) = E [ut E(ut )]2
= E(u2t )
= u2
6

Ver el papel que jugo la Comision Cowles en el desarrollo de la Econometra

54

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION
: Suponga 6= t
N O AUTOCORRELACI ON
Cov (ut , u ) = E [ut E(ut )] [u E(u )]
= E (ut ) (u )
= 0

Ya para terminar, haremos algunas anotaciones sobre el supuesto No. 7, la estacio


nariedad. T ODOS LOS M ETODOS
QUE VEREMOS EN ESTE CURSO Y EN EL QUE
SIGUE PIERDEN SU VALIDEZ SI LAS SERIES CON LAS QUE TRABAJAMOS PO SEEN UN ELEMENTO TENDENCIAL . E XISTEN PRUEBAS PARA DETERMINAR

LO ANTERIOR , PERO EL BAGAJE TE ORICO


NECESARIO PARA ENTENDERLAS

VISTO EN LA SEGUNDA PARTE DEL CURSO .


S OLO
SER A

2.4.2. Caractersticas Importantes del metodo MCO


Las caractersticas de Mnimos Cuadrados Ordinarios que a continuacion detallaremos resultan importantes pues serviran para apuntalar demostraciones ulteriores.
Sirven ademas para acabar el proceso de familiarizacion con MCO. En particular,
estudiaremos lo siguiente:
1. La estimacion de los parametros solo depende de valores muestrales (ya visto).
2. Los estimadores
y son puntuales (ya visto).
3. Las medias muestrales de los datos pasan por la recta de estimacion (ya visto).
4. La media de los residuales es cero (ya visto).
5. La correlacion entre residuales, ut y observaciones, xt , es cero:
u,x

P
(
ut u)(xt x)
p
= p
var(
ut ) var(x)

Nos concentramos en el numerador y tomaremos en consideracion el hecho


que:
1X
u =
ut = 0
T

2.4. PROPIEDADES DE LOS ESTIMADORES

55

Desarrollando la expresion:
X
X
X
u (xt x) =
ut xt x
ut
| {z }
cero
X
=
ut xt

X
t xt
=
yt
x
X
X
X
=
yt xt

xt
x2t

La u ltima lnea del desarrollo debera resultarnos familiar; en efecto, se trata


de la 2a ecuacion normal. Como bien sabemos, dicha expresion esta igualada
a cero:
X

yt xt

As pues, por construccion,

xt

x2t = 0

0
u,x = p
=0
var(
u)var(x)

6. La correlacion entre los residuales (


u) y los valores estimados (yt ) es cero.
Para mostrar lo anterior, partamos de la formula:

P
u yt y
u,y = p
var
(
u) var
(yt )

Nuevamente, nos ocuparemos solamente del numerador...


X

u yt yt

uy y

u
| {z }
cero

X 
t
=
u
+ x
X
X
ut xt
=

ut +
| {z }
| {z }
0

= 0

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

56

Por lo anterior, podemos decir que:


u,y = 0

2.4.3. Propiedades de los parametros estimados


En esta seccion veremos dos cuestiones fundamentales del metodo de MCO: su
capacidad de ofrecer estimadores (1) insesgados y (2) robustos. Es importante recordar a lo largo de las demostraciones el uso sistematico de los supuestos antes
expuestos puesto que debe quedar claro que al romperse e stos, en muchas ocasiones dicho insesgamiento y robustez quedan comprometidos. Antes de probar las
afirmaciones anteriores, necesitamos llevar a cabo un pequeno desarrollo que nos
sera u til a lo largo de este texto. Se trata de probar que el parametro es resultado
de una combinacion lineal de las observaciones muestrales: E L E STIMADOR ES
UNA

L INEAL
C OMBINACI ON

DE LAS

O BSERVACIONES M UESTRALES , xt .

Podemos partir de la formula antes desarrollada del estimador:


P
(xt x)(yt y)

=
P
(xt x)2
Definimos...

(xt x)
Kt P
(xt x)2

...Y lo sustituimos en la formula de


=

Kt (yt y)

Antes de continuar, veamos las propiedades de Kt


1.
X

Kt = P
= 0

X
1
(xt x)
(xt x)2

2.4. PROPIEDADES DE LOS ESTIMADORES

57

2.
X

Kt xt =
=
=
=

P
(xt x) xt
P
(x x)2
P 2t
P
xt x xt
P 2 1 P 2
xt ( xt )
P 2 T1 P 2
xt ( xt )
P 2 T1 P 2
xt T ( xt )
1

3.
X

Kt2

(xt x)2
= P
2
(xt x)2
X
1
(xt x)2
= P

2 2
(xt x)
1
= P
(xt x)2

Retomando el valor de y haciendo uso de las propiedades de Kt , obtenemos lo


siguiente:
=
=

Kt (yt y)
X
Kt yt y
Kt
| {z }
0

Si concebimos a Kt como un ponderador, entonces veremos que el estimador de


no es otra cosa sino una combinacionponderada, claro estade la variable
dependiente (y), como de hecho queda manifiesto en la primera lnea del siguiente

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

58
desarrollo:7
=
=

K t yt

Kt ( + xt + ut )
X
X
X
Kt xt +
K t ut
=
Kt +
| {z }
| {z }
0
1
X
= +
K t ut
Propiedad de No-Sesgo de los parametros estimados
Aqu veremos finalmente si nuestros estimadores son sesgados; si no lo son, ello
= . Dado que
implica E()
y dependen de la variable aleatoria yt , ellos
mismos son variables aleatorias:
yt = + xt + ut
|{z}
| {z }
determinista

aleatorio

recuperando la formula de estimaEmpecemos por el estimador de la pendiente, ;


cion de e ste.8
X
=
K t yt
(2.4)
X

= E
E()
K t yt
X
=
Kt E(yt )
X
=
Kt E( + xt + ut )
X
X
X
=
Kt +
Kt xt +
Kt E(ut )
| {z }
| {z }
| {z }
0

=
E()

Como se observa en la u ltima linea del desarrollo anterior, la esperanza del estimador de la pendiente es el verdadero valor de dicha pendiente. En otras palabras,
7

En lo que concierne a ,
el hecho de ser tambien una combinacion de las y quedara demostrado
colateralmente al estudiar su varianza.
8
Intente ver en el proximo desarrollo la relevancia del cumplimiento del supuesto de correcta
especificacion. Note que, de forma implcita, tal cumplimiento resulta condicion sine qua non para
la validez de la prueba.

2.4. PROPIEDADES DE LOS ESTIMADORES

59

M CO provee un estimador insesgado de . Ahora veamos que pasa con el estimador de :

= y x

K t yt .

Reinsertamos la media de y en la sumatoria,


P

X
x
K t yt ,
T

X yt
xKt yt .
=
T

yt

Factorizamos,

X1
T

xKt yt ,

(2.5)

Y ahora s, sacamos esperanza...



X1
xKt E(yt )
E(
) =
T

X1
=
xKt E( + xt + ut )
T

X1
=
xKt ( + xt )
T
X
X
1 X
1X
+
xt
x
Kt x
xt Kt
=
T
T
E(
) = + x x
E(
) =
Propiedad de consistencia de los parametros estimados
Ya vimos que los parametros son insesgados; esta propiedad es importante: incrementa nuestra confianza en la utilidad de nuestros estimadores. Ahora veamos que
puestan robustos son. Lo haremos primero con el estimador de la pendiente, ,
to que la consistencia del estimador de la ordenada en el origen,
, depende de la

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

60

consistencia del otro. Antes de continuar con el estudio de la consistencia, es importante hacer una aclaracion al respecto; e sta trata de las propiedades de los estimadores cuando el tamano de la muestra tiende a infinito, es decir, para fines practicos,
cuando la muestra es muy grande. Por que hacer esto? Pues simplemente porque
existen situaciones en las que los estimadores son sesgados, pero consistentes: el
estimador tiende a su verdadero valor si la muestra es suficientemente grande. Lo
anterior ampla la paleta de posibilidades; veremos mucho mas adelante que existen
estimadores en extremo u tiles que, pese a ser sesgados, son tambien consistentes;
su uso es por ende muy recomendable. Por eso, al momento de hacer estimaciones,
si sabemos que solo contamos con consistencia, debemos asegurarnos que nuestra
muestra sea grande.9
Definicion 3 Sea T un estimador de basado en una muestra de tamano T. T es
un estimador consistente si y solo si:


lm P | T |< = 1
T

Donde es un numero positivo arbitrariamente chico. Si la expresion es cierta, se


dice que T converge en probabilidad a la constante
 
plim T
=
p
T

Ahora s, retomemos:
= +

K t ut
P
(xt x)ut
= + P
(xt x)2

Para poder continuar esta demostracion, hemos de modificar uno de los supuestos
de manera importante. Nuestro segundo supuesto, el que dicta que las variables
explicativas no son estocasticas, ha resultado en extremo practico en muchos de los
desarrollos hasta aqu expuestos. No obstante, en este apartado, resulta mas sencillo
9

Desgraciadamente, la definicion de una muestra grande no genera un consenso tan absoluto


como quisieramos. Para efectos de este curso, consideremos que se requieren mas de 300 observaciones.

2.4. PROPIEDADES DE LOS ESTIMADORES

61

asumir que las variables explicativas s son estocasticas. Ello permite emplear Leyes
de Grandes Numeros sobre e stas.
Concretamente, utilizaremos los siguientes resultados:10

Teorema 1 (Kolmogorov) sea {xt } una secuencia de variables aleatorias i.i.d. que
satisface las siguientes condiciones:
1. E | xt |<
2. E(xt ) = x
entonces,
T
1X
P
xt x
T t=1

Nota: en realidad, la convergencia que dicta el teorema es casi segura (almost


sure) y no en probabilidad. No obstante, puesto que la primera implica la segunda,
nuestra disgresion no resulta tan grave.

Teorema 2 Si {xt } y {ut } son secuencias aleatorias i.i.d, entonces la secuencia


{xt ut } tambien es i.i.d..
Asumiremos por ende que la variable explicativa, xt es una variable aleatoria i.i.d..
P
P
Asumiremos ademas que T1 Tt=1 (xt x)2 x2 , algo que permite tambien una
sencilla Ley de Grandes Numeros. Es posible, dicho sea de paso, usar un supuesto
menos estricto en esta demostracion, pero no resulta fundamental a estas alturas del
partido. Cabe destacar que los restantes 6 supuestos antes establecidos se cumplen
tal y como los planteamos. Antes de proceder a la demostracion en s, vale senalar
algunas reglas practicas de los lmites en probabilidad:
10

Una explicacion y demostracion detallada de estos teoremas puede consultarse en el libro


Asymptotic Theory for Econometricians, de Halbert White. Vea la bibliografa.

62

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

L AS REGLAS DE LOS PLIM


1. El plim de una constante es esa misma constante:
plim () =
2. El plim de un producto (o cociente) de dos variables aleatorias es
igual al producto de los plim.
plim (y1 y2 ) = plim (y1 ) plim (y2 )
 
plim (y1 )
y1
=
plim
y2
plim (y2 )
3. Teorema de Slutsky:
Teorema 3 El plim de una funcion continua g de una variable
aleatoria y es igual a la funcion aplicada al plim de y.
plim [g(y)] = g [plim(y)]
Como se infiere de estas sencillas reglas, el plim es un operador mas flexible que
el operador esperanza. Ahora s, veamos lo que ocurre con nuestro estimador de
MCO:
P

(xt x)ut

plim() = plim() + plim P


(xt x)2
P
plim ( (xt x)ut )
P
= +
plim ( (xt x)2 )

P
plim T1 (xt x)ut

P
= +
plim T1 (xt x)2
El incorporar T1 permite asegurar la convergencia de ambos, el numerador y el denominador. Para tener las formulas exactas, dicha normalizacion debera ser (T 1),
pero, dado que T , ese detalle carece de importancia.
Ahora bien, podemos empezar a utilizar los teoremas antes expuestos:

2.4. PROPIEDADES DE LOS ESTIMADORES

= +
plim()

plim

(xt x)ut
x2

{
 X z
 }|X
 }|X {
1
1
1
xt ut plim
xt plim
ut
plim
T
T
T
{z
}
|

z
= +

1
T

63

x2

donde,
P
1.
xt ut es i.i.d. por el segundo teorema y, por ende, puede aplicarsele el primero.
P
2.
xt es i.i.d., por ende, puede aplicarsele el primer teorema; queda x .
P
3.
ut es i.i.d., por ende, puede aplicarsele el primer teorema; queda 0.

Probar la consistencia del estimador de la ordenada en el origen es, en realidad, muy


sencillo. Para demostrarla, nos aprovecharemos del hecho que las medias muestrales
pasan por la recta de regresion estimada.

= y x

(2.6)

Lo anterior no es completamente cierto cuando la especificacion es la verdadera,


puesto que la media de los errores no necesariamente es cero:

y = + x + u
No, obstante, en el lmite, s ocurre:

plim(
y ) = + plim(
x) + plim(
u)
= + x

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

64

Para lograr semejante simplificacion, basta recordar el Teorema (1) expuesto en la


pagina 61. Por un lado, seguimos asumiendo que la variable explicativa satisface
los supuestos del teorema por lo que la media tiende a x , y, por el otro, el termino
de error, de hecho, tambien los satisface, por lo que la media tiende a cero.
Sabiendo eso, retomemos la ecuacion (2.6) y apliquemos lmites en probabilidad.
Recuerde que el plim de es :
plim(
) =
=
=
=

y x
plim(
y ) x
+ x x

Varianza de los estimadores


Hemos visto ya que los parametros estimados son insesgados y consistentes. Faltara ver ahora como es la varianza de e stos. Ello permitira caracterizar mejor dichos estimadores. De hecho, todas estas demostraciones pueden considerarse el
preambulo al teorema de Gauss-Markov, que tipifica de manera elocuente a nuestros
estimadores de MCO.
Anteriormente,
Varianza de Empezaremos mostrando cual es la varianza de .
cuando estudiamos el no-sesgo de dicho parametro, llegamos a la siguiente ecuacion:
=
=
=
=
=
=
=

Kt (yt y)
X
K t yt
Kt y
X
X
Kt yt y
Kt
| {z }
0
X
K t yt
X
Kt ( + xt + ut )
X
X
X

Kt +
xt Kt +
K t ut
X
+
K t ut
X

2.4. PROPIEDADES DE LOS ESTIMADORES

65

2

E , podemos manipular la expresion de
Para calcular la varianza de ,
arriba y escribirla de la siguiente manera:
X
=
K t ut

2
X
2

=
K t ut

(2.7)

= (K1 u1 + K2 u2 + ... + KT uT )2
= K12 u21 + K22 u22 + ... + KT2 u2T + 2K1 K2 u1 u2

Los terminos cruzados, ui uj para i 6= j desapareceran al momento de aplicarles


la esperanza.11
2


E
= K12 E(u21 ) + K22 E(u22 ) + K32 E(u23 ) + ... + KT2 E(u2T )
Aprovechando el supuesto de homoscedasticidad, podemos reemplazar las esperanzas por 2 y luego factorizar:

= K 2 2 + K 2 2 + K 2 2 + ... + K 2 2
V ar()
1
2
3
T
X
2
2
=
Kt
2
= P
V ar()
(xt x)2

Para entender el u ltimo paso, es necesario recordar que


ya tenemos la primera varianza:

Kt2 =

 
2
V ar = P
(xt x)2

1
. As pues,
(xt
x)2

Comentario 1 Hay una forma aun mas facil de obtener la formula de la varianza
12 La prueba, ademas, nos permite usar el operador varianza, mismo que rara
de .
vez aprovechamos:
11
12

Ello ocurre debido al cumplimiento del supuesto de No autocorrelacion.


Cortesa de Pablo Ortz Casillas.

66

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

= +

K t ut
X

= 0 + var
var()
K t ut
X
=
Kt2 var(ut )
X
= 2
Kt2
= P

2
(xt x)2

Varianza de
El calculo de la varianza P
de
es un poco mas complicado. En secciones anteriores habamos visto que
= ( T1 xKt )yt . A partir de esta expresion
aplicabamos el operador esperanza, pero ahora no. En vez de eso, sustituimos el valor de yt :
X1

xKt ( + xt + ut )
T

X1
1
1
+ xt + ut
xKt xKt xt xKt ut

=
T
T
T
X
X
X
1X

= + xt +
ut
x
Kt x
Kt xt
x
K t ut
T
| {z }
| {z }

X
1X
x
K t ut
ut + x x

=
| {z }
T

El termino x se cancela; a los restantes, los reagrupamos en una sola sumatoria,


no sin antes factorizar T1 ...
1
T
1

=
T
1

=
T
1

=
T

ut x

K t ut
X 
X
1X
ut
K t ut
xt
T
X  
X
1
x t K t ut
X
R t ut

(2.8)

2.4. PROPIEDADES DE LOS ESTIMADORES


Donde Rt = 1 (
(
)

67

xt ) Kt .13 Elevando al cuadrado ambos lados y desarrollando:

1
=
T2
1
=
T2
1
=
T2

X

R t ut

2

(R1 u1 + R2 u2 + R3 u3 + ... + RT uT )2
R12 u21 + .... + RT2 u2T + 2R1 R2 u1 u2 + ...

Nuevamente, los terminos cruzados desapareceran al aplicar el operador esperanza:


E (
)2 =
=
=
=
=
=


1
2 2
2 2
E
R
u
+
....
+
R
u
+
2R
R
u
u
+
...
1
2
1
2
1 1
T T
T2

1
2 2
2 2
R

+
.....
+
R

1
T
T2
X
1
Rt2 2
T2
2 X 2
Rt
T2
X  2
2 X 
1
xt Kt
T2


X 
X 2
2 X
2
xt Kt +
12
xt Kt
T2

2
=
T2

X  X
X 2 X

2
xt
Kt +
xt
Kt
T 2

| {z }
| {z }
0

13

P
( xt ) 2
2
T+P
V ar(
) =
T2
(xt x)2
P
P


( xt ) ( xt )
1
2
P
+
=
T
T T (xt x)2


x2
2 1
V ar(
) =
+P
T
(xt x)2

P 1
(xt
x) 2

Note que la u ltima expresion establece que el estimador de es tambien, al igual que el de ,
una combinacion lineal de las y.

68

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Covarianza entre
y Unicamente
nos falta obtener la covarianza entre esti

madores, Cov(
, ). Esta, en realidad, exige un proceder muy sencillo. Basta tener
presentes, de los desarrollos anteriores, las siguientes expresiones:
1. Ecuacion (2.7):

 X

=
K t ut

2. Ecuacion (2.8):

X
1X
ut x
K t ut
T


= u x

Asimismo, conviene hacer estos dos sencillos calculos:


1. Esperanza de la media del termino de error:
1X
E (ut )
T
= 0

E (
u) =

2. Esperanza de la media del error multiplicada por ( ):


h 
i
E u
=

i
1 hX  X
E
ut
K t ut
T

1 
=
E K1 u21 + . . . KT u2T + t
erminos cruzados
T
= 0

Ahora s, desarrollamos la formula de la covarianza...


h
i

Cov(
, ) = E (
)( )
h

i
= E u x( ) ( )
h
i
= E ( )
u
x E( )2
| {z }
|
{z
}
var ()
0
2
= P x
Cov(
, )
(xt x)2

2.4. PROPIEDADES DE LOS ESTIMADORES

69

2.4.4. El Teorema de Gauss-Markov


En las secciones anteriores hemos obtenido resultados importantes y de hecho, tras
cendentales referentes a los estimadores de MCO. Estos
pueden resumirse en la
siguiente tabla:
E(
) =
=
E()

plim(
) =
=
plim()



2
V ar(
) = 2 T1 + P(xxt x)2
= P 2 2
V ar()

Insesgados

Robustos

V arianzas

(xt
x)

Vimos tambien que los estimadores de MCO son combinaciones lineales de la variable aleatoria y (y por tanto tambien son combinaciones lineales de la variable
aleatoria u):
1. Ecuacion 2.5:
=
2. Ecuacion 2.4: =

1
T


xKt yt ,

K t yt .

Los estimadores son insesgados y por ello pertenecen a la CLASE DE ESTIMADO RES LINEALES INSESGADOS . Su gran importancia te
orica y practica se debe a que

las varianzas muestrales de


y son las mas pequenas posibles en el mercado de
los estimadores lineales insesgados. Esta fortsima aseveracion esta sustentada en el
teorema de Gauss-Markov:
Teorema 4 Dados los Supuestos del Modelo Clasico de Regresion Lineal, los estimadores de Mnimos Cuadrados Ordinarios, dentro de la Clase de Estimadores
Lineales Insesgados, tienen Varianza Mnima, es decir son MELI (Mejores Estimadores Lineales Insesgados).
La demostracion de dicho teorema es, de hecho, bastante sencilla. Asuma, como
siempre, la especificacion:
yt = + xt + ut
Para poder proseguir, es necesario definir con claridad que es un estimador lineal e
insesgado:

70

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Definicion 4 Un estimador L INEAL e I NSESGADO14 debe satisfacer las siguientes


condiciones:
=

q t yt ,

= ,
E()
P
P
donde15
qt = 0,
qt xt = 1.
=

=
=
=
=
=
V ar()

q t yt

qt ( + xt + ut )
X
X
qt +
qt xt +
q t ut
X
X

qt + +
q t ut
| {z }
=0
X
+
q t ut
X
2 
X
qt2
E
= 2
q t ut

Ahora que ya conocemos las caractersticas de un estimador lineal e insesgado


genericoque no es el de MCOComparemos su varianza con la que nos ofrece MCO. Para ello, incorporamos artificialmente el ponderador de MCO, Kt en la
u ltima expresion:
qt = Kt + (qt Kt )
q 2 = Kt2 + (qt Kt )2 + 2Kt (qt Kt )
X t
X
X
X
qt2 =
Kt2 +
(qt Kt )2 + 2
Kt (qt Kt )
P
P
P 2
Tenemos un termino, Kt (qt Kt ) =
Kt qt Kt , cuyo valor aun no hemos
especificado. En realidad, dicho termino es cero. Por que? Primero, recordemos lo
que sabemos tanto de Kt como de qt :
14

Otro que no sea el de MCO.


Conviene destacar que las condiciones para calificar como lineal a un estimador tienen que ver
con un ponderador analogo al que encontramos para MCO, Kt . Las u ltimas dos condiciones, la
suma del ponderador y la suma del ponderador multiplicado por la variable explicativa, resultan
evidentes si reemplaza yt por la verdadera especificacion. Solo as puede el estimador ser insesgado.
En otras palabras, son condiciones necesarias, ligeramente redundantes con la segunda condicion.
15

2.4. PROPIEDADES DE LOS ESTIMADORES


1.
2.
3.
4.
5.

71

qt = 0
qt xt = 1
Kt = 0
Kt xt = 1
Kt2 =

1
(xt
x )2

Ahora s, procedamos a desarrollar la expresion:


P
X
X
(xt x) qt
1
2
Kt qt
Kt = P
2 P
(xt x)
(xt x)2
Ahora asumamos que dicha expresion es en verdad cero. Reacomodando los terminos...
P
1
(xt x)
P
2 qt = P
(xt x)
(xt x)2

X
1
1
X

x
qt = P
x
q
P

t
t
2
(xt x) | {z }
(xt x)2
| {z }
1

1
1
P
2 = P
(xt x)
(xt x)2

Retomando nuestra demostracion, acabemos de desarrollar la varianza del estimador alternativo:


X
= 2
qt2
V ar()

X
X
X
2
2
2
Kt +
(qt Kt ) + 2
Kt (qt Kt )
=
X
X
= V ar()
+ 2
(qt Kt )2 +2
V ar()
Kt (qt Ky )
|
|
{z
}
{z
}
>0

> V ar()

V ar()

Con esto, queda demostrado el teorema de Gauss Gauss-Markov.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

72

2.5.

Otros procedimientos de Estimacion

Existen otras formas de estimar parametros; en realidad, el metodo de MCO, si bien


es el mas exitoso, o cuando menos el mas conocido entre economistas, dista mucho de ser el u nico. En esta seccion daremos dos procedimientos alternativos. El
primero, Metodo de MomentosMOM, es en s muy sencillo, pero constituye el
preambulo a una de las tecnicas mas socorridas en la actualidad, Metodo de Momentos GeneralizadoGMM. El segundo, maxima verosimilitud, es tambien de
suma importancia en cuestiones econometricas. La intencion de esta seccion es sobre todo dejar claro que MCO no es el u nico metodo y que su competencia es capaz
de arrojar buenos resultados tambien.

2.5.1. El metodo de momentos (MOM)


En muchos ejercicios de estimacion, sin saberlo, nos interesamos en los momentos.
De hecho, para estimaciones lineales, Mnimos Cuadrados Ordinarios, el metodo
que hemos estudiado, puede ser visto como un problema de ajuste de momentos
muestrales a los momentos poblacionales:
Definicion 5 El Metodo de Momentos consiste en reemplazar los momentos poblacionales (o las funciones de momentos poblacionales) con los momentos muestrales
correspondientes (o con las funciones de momentos muestrales correspondientes).
Esta definicion senala que hay que cotejar momentos muestrales con momentos poblacionales. La intuicion es que cada cotejada correspondera a una ecuacion que
podemos resolver. En nuestro modelo de regresion tenemos que estimar dos parametros. Ello equivale a tener dos incognitas, por lo que presumiblemente requeriremos
de dos momentos teoricos a los cuales ajustar sus correspondencias muestrales. Los
supuestos requeridos en este caso son:
1. El supuesto de Ortogonalidad:16 E(xt ut ) = 0.
2. E(ut ) = 0
Tales supuestos, si lo pensamos con detenimiento, no son otra cosa mas que dos

momentos. Estos
podran ser cotejados con sus contrapartes empricas:
16

Es importante senalar que el supuesto de ortogonalidad aqu mencionado es el que reemplaza al


que hicimos respecto a las propiedades deterministas de la variable x. En resumen, dicho supuesto de
ortogonalidad es una version mas ligera que el de variables explicativas no-estocasticas (muy irrealista). Vale la pena tambien mencionar que usaremos el supuesto de ortogonalidad y abandonaremos
el otro mas adelante en el curso. De momento lo usamos por cuestiones pedagogicas.


2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
Teorico (poblacion)
E(ut ) = 0
E(ut xt ) = 0

1
T

73

Supuesto
P (muestral)
1
ut = 0
P T
(xt x)(
ut u) = 0

Retomando nuestra especificacion, que sigue siendo la misma. . .


C ORRECTA (P OBLACIONAL ): yt = + xt + ut
1. E SPECIFICACI ON
t + ut
A E STIMAR (M UESTRAL ): yt =
2. E SPECIFICACI ON
+ x
Ahora empleemos la version muestral del primer momento senalado en el cuadro.
Partiendo de e ste y conociendo la especificacion:
1X
ut
|T {z }

0
|{z}

momento te
orico

momento muestral


1 X

yt
xt = 0
T
P
xt
1X

= 0
yt

T
T
y
x = 0

Es el turno del segundo momento muestral. Cabe senalar que aprovecharemos lo


establecido por el primer momento muestral para desaparecer a la media de los
residuales estimados, u:
t
1X
(xt x)
ut = 0
T
1X
x X
xt ut
ut = 0
T
T | {z }
0

1X
xt ut = 0
T

1X 
t = 0
xt yt
x
T
1X 2
1X
xt yt
x
xt = 0
T
T

74

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Aquellos con buena memoria habran identificado en estos dos desarrollos a las
E CUACIONES N ORMALES:
1. yt
x = 0
P
P 2
2. T1
xt yt
x T1
xt = 0

De la primera ecuacion despejamos


. . .

= y x
. . . que reemplazamos en la segunda. . .


X 2
1X
xt yt y x x
xt
T
T
1X
X 2
xt yt yx + x2
xt
T
T
1X
xt yt yx
T
P
P P 
1
1
x
y

xt yt
t
t
T
P 2 T1 P 2 
1
xt T ( xt )
T

= 0
= 0
X 2 
X
1
1
2
xt
=
xt 2
T
T


P P
xt yt T1
xt yt
P 2 1 P 2
xt T ( xt )

Como era de suponer, la formula que obtuvimos es. . . identica a la de MCO!

2.5.2. El Metodo de Maxima Verosimilitud


Ya logramos estimar el modelo (1) minimizando la suma de residuales al cuadrado;
(2) igualando los momentos teoricos a los muestrales. Ahora es el turno de presentar

el enfoque de M AXIMA
V EROSIMILITUD. Esta u ltima escontrario a lo que se
podra pensar dada la extension de su tratamiento en este documento uno de los
metodos mas socorridos, tanto en estadstica como en econometra. Su fundamento
radica en el aprovechamiento de las propiedades probabilsticas asumidas en un
modelo. En nuestro caso en particular, conviene utilizar el supuesto (6), que estipula
un termino de error distribuido normalmente:


2.5. OTROS PROCEDIMIENTOS DE ESTIMACION

75

ut iidN (0, 2 )
Es importante tener en mente que la especificacion del modelo sigue siendo la misma:
yt = + xt + ut
As pues, nos concentraremos en encontrar estimadores de los parametros tratando de satisfacer al maximo el supuesto (6). Si el ruido, ut , es realmente normal,
entonces, la densidad probabilstica de yt nos podra servir de punto de partida. Obtengamos sus momentos:

E(yt ) = + xt
V ar(yt ) = E (yt xt )2
= E(u2t )
= 2
Conviene resaltar el uso del supuesto de homoscedasticidad en el u ltimo paso del
desarrollo anterior. Ahora bien, es facil constatar que al ser ut normal, yt tiene que
serlo tambien, puesto que dicha variable es simple y sencillamente la suma de una
variable normal y una constante. As, nos podemos centrar ya en la funcion de
densidad de probabilidad conjunta:
f (y1 , y2 , ....yT / + xt , 2 )
Para poder trabajar con esta u ltima, es necesario saber si existe independencia entre
las y s. Por ello, sacamos la covarianza. Asuma que k es un entero distinto de t:

Cov(yt , yk ) = E [(yt xt )(yk xk )]


= E(ut uk )
= 0
Nuevamente conviene senalar que el u ltimo paso se hizo recordando el supuesto de
independencia del termino de error (no autocorrelacion). Las y son independientes
entre s, por lo que la funcion de densidad de probabilidad puede separarse:

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

76




f y1 , y2 , ....yT / + xt , 2 = f y1 / + x1 , 2 f y2 / + x2 , 2 . . .

Observemos ahora a uno de estos elementos desglosados en particular:





1
1
2
2
f yt / + xt , =
exp 2 (yt xt ) .
2
2 2

Conociendo la formula, procedamos a desarrollar la funcion de densidad de probabilidad:


"

T
1 X
exp 2
f (y /)f (y2 /) . . . f (yT /) =
(yt xt )2
{z
} (2) T2 T
| 1
2

F uncion de verosimilitud, L

Procedamos ahora a dar una definicioninformaldel procedimiento de Maxima


Verosimilitud:
Definicion 6 El Metodo de Maxima Verosimilitud (MV) se lleva a cabo optimizando
la funcion L de tal suerte que, dada la la distribucion que se asumio (en este caso,
Normal), se maximiza la probabilidad de observar las variables y.

yt

xt

Figura 2.8: Distribucion Condicional de yt


2.5. OTROS PROCEDIMIENTOS DE ESTIMACION

77

En palabras aun mas llanas, Maxima Verosimilitud funciona jugando con los valores de
, y
2 de tal forma que la funcion normal cuadre lo mejor posible
con los datos observados. Ahora bien, la Funcion de Verosimilitud que tenemos
resulta ligeramente compleja, lo que dificulta su manipulacion. Al aplicarle logaritmos, el resultado es una gran simplificacion. Dado que se trata de una transformacion monotona, los parametros que optimizan L tambien maximizan al logaritmo,
def
ln (L) = l.

1 X
(yt xt )2
2
2
T
T
T
1 X
2
= ln(2) ln( ) 2
(yt xt )2
2
2
2
T

ln (L) = ln(1) ln(2) 2 ln( T )

Como siempre, optimizar requiere calcular las derivadas pertinentes e igualarlas a


cero:
1. Con respecto a (de la esperanza condicionada):

2 X
F ()
(yt xt ) = 0
= 2

2
X
X
yt
T
xt = 0
2. Con respecto a (tambien, de la esperanza condicionada):

F ()
2 X
t )xt = 0
(yt
x
=

2 2
X
X
X
yt xt

xt
x2t = 0
Como en el caso de MOM, constatamos sin demasiado asombro que las ecuaciones resultantes no son otras sino las E CUACIONES N ORMALES

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

78

3. Lo interesante de Maxima Verosimilitud, es que estamos ajustando una distribucion. En el caso de la distribucion Normal solo hacen falta dos momentos;
la esperanza y la varianza. En lo que concierne al ajuste de la esperanza
condicionada en x, ello corresponde a los parametros estimados de y .
Pero aun falta la varianza; queda todava por derivar con respecto a 2 :17

F ()
T 1
1 1 X
t )2 = 0
(yt
x
=

+
2
2 2 2 4
1 X
T
t )2 = 0
(yt
x
= 2+ 4
2
2 |
{z
}
P

u
2t

Nada mas falta manipular la expresion para obtener un estimador de la varianza:

2
1 X
T

yt
xt
= 0
2+ 4
2
2
T 2 1 X 2

+
u = 0
2
2X t
u2t = T
2
P 2
ut
2

=
T
Note como el estimador de 2 es sesgado, puesto que no esta ajustado por los
grados de libertad. Dicho ajuste tiene, por el momento,
 una explicaci
on intui t por ut .
tiva. En el segundo paso del desarrollo, sustituimos yt
x
Para ello, debimos recurrir a los estimadores de los parametros. Por cada estimacion empleada en el calculo de la varianza, se pierde un grado de libertad.
Esta cuestion quedara mas claraesperemosen la siguiente seccion.
17

recuerde que f (ln(x) = 1/x).

2.6. EL ESTIMADOR DE LA VARIANZA

2.6.

79

El estimador de la varianza

2.6.1. Los grados de libertad: breve preludio


Antes de obtener el estimador de la varianza del termino de error, 2 , conviene recordar brevemente la razon de ser de los grados de libertad. Los ajustes por e stos
en algunas normalizaciones, como es el caso de la varianza, son muy usuales. De
hecho, este u ltimo ejemplo sera desarrollado para entender de donde viene la necesidad de ajustar por grados de libertad. Posteriormente, se dara un ejemplo mas
cercano a nuestra vida cotidiana para as reforzar el concepto.
Supongamos que y es una variable aleatoria cualquiera iid. En cursos anteriores, se
aprendio que el estimador adecuadoinsesgadode la varianza de tal variable es:

"

1
T 1

X
T
t=1

(yt y)2 = y2

Pero, realmente lo es? Verifiquemos la sumatoria del lado izquierdo de la expresion:

(yt y)2 =
=
=
=

=
(yt y)2 =

[(yt ) (
y )]2
X

(yt )2 + (
y )2 2(yt )(
y )
X
X
(yt )2 + T (
y )2 2(
y )
(yt )
P


X
yt T
2
2
T
(yt ) + T (
y ) 2(
y )
T
X
(yt )2 + T (
y )2 2(
y )(
y )T
X
(yt )2 T (
y )2

Si normalizamos esta expresion por T 1 y le sacamos la esperanza, entonces:

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

80

1 X
E
(yt y)2
T 1

1 X
1
= E
T (
y )2
(yt )2
T 1
T 1
T
1 X
E(yt )2
E(
y )2
=
T 1|
T

1
{z
}

V arianza teorica

1 X 2
T
=
y
T 1
T 1

E(
y )2
| {z }

V arianza de la media

La expresion que denominamos Varianza de la media puede desarrollarse mas:


V ar(
y ) = E(
y )2
 X 
1
yt
= V ar
T

Del operador VARIANZA las constantes tambien salen, pero al cuadrado (por
que?):
 2
X 
1
V ar(
y) =
V ar
yt
T
La variable con la que trabajamos es iid y por ello es valido invertir el orden entre
la sumatoria y la varianza (por que?):

V ar(
y) =
=
=
=

 2 X
1
V ar(yt )
T
 2 X
1
y2
T
T y2
T2
y2
T

Entonces, retomando la formula donde estudiabamos la esperanza de nuestro estimador de la varianza...

2.6. EL ESTIMADOR DE LA VARIANZA

"

1 X
E
(yt y)2
T 1 t=1

81

T y2
T y2

T 1 T 1 T

T
1

)
T 1 T 1
T 1
)
= y2 (
T 1
= y2 (

"

1 X
(yt y)2
E
T 1 t=1

= y2

Queda pues demostrado formalmente que un estimador insesgado de la varianza


requiere forzosamente un ajuste por grados de libertad. No obstante, en el proceso
no ha sido establecida la intuicion de dicha necesidad; pero ello encuentra solucion
al explicitar un ejemplo sencillo.
Ejemplo 2 C ALIFICACIONES : Imagine a un alumno, llamado Equis Arriaga.

Este
recibe parcialmente sus calificaciones del semestre: curso 7 materias y solo
6 de los profesores le dieron calificaciones:
[10, 9, 10, 7, 10, 4, ?]
En Administracion Escolar, no obstante, le proporcionaron el promedio general:
x = 8
Cuanto se saco en la u ltima materia? En realidad, eso es muy facil de calcular; se
trata u nicamente de despejar la calificacion desconocida de la formula del promedio. Note como el hecho de conocer el promedio nos obliga a fijara congelar, si
autorizamos la expresionel valor de la u ltima observacion. Aqu lo que ha ocurrido es que se perdio un grado de libertad.

2.6.2. El estimador insesgado de la varianza en MCO


Ahora s, obtengamos la formula para estimar la varianza del error. Si se ha comprendido bien la seccion anterior, probablemente se pueda intuir que dicho estimador pierde necesariamente dos grados de libertad, puesto que antes de calcularlo
estimamos dos parametros ( y ). Ello implica que el normalizador de la varianza

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

82

debera ser T 2. Empezaremos por trabajar con variables centradas, pues eso nos
ahorra la manipulacion de todo lo relativo a la constante:
Retomemos la especificacion as como la expresion que muestra que las medias
pasan por ella y restemoslas:

yt = + xt + ut
X
X
yt = T +
xt +
ut
y = + x + u

Note como, al igual que con la especificacion estimada, las medias pasan por la
recta de regresion, con la salvedad de que la media de los residuales teoricos no necesariamente es cero (como de hecho s lo es, por construccion, la de los residuales
estimados):

yt = + xt + ut

y = ( + x + u)
yt = xt + ut u

(2.9)

Las variables centradas las denotamos inicialmente con prima. No obstante, para no
hacer tan recargada la notacion, denotamos, como antes, con letras minusculas a las
variables centradas. Esto eventualmente puede causar confusion, as es que, cada
vez que usemos variables centradas se advertira al lector. Ahora, hagamos el mismo
procedimiento de centrado con la especificacion estimada. Como era de suponerse,
en este caso no aparece ut .
yt = xt + ut

(2.10)

Despejando el residual estimado de (2.10):


t
ut = yt x
Sustituimos (2.9) en (2.11):

(2.11)

2.6. EL ESTIMADOR DE LA VARIANZA

83

t
ut = xt + (ut u) x
t + (ut u)
= ( )x
Elevamos al cuadrado:
2 x2 + (ut u)2 + 2( )x
t (ut u)
u2t = ( )
t

Cambiamos los signos (para as recuperar las expresiones ya trabajadas de ):


u2t = ( )2 x2t + (ut u)2 2( )xt (ut u)
Ahora sumamos:
X

u2t = ( )2

x2t +

(ut u)2 2( )

Y para terminar, saquemos esperanza:

X

u2t

xt (ut u)

hX
i
x2t E( )2 + E
(ut u)2
h
i
X
2E ( )
xt (ut u)
h
i
X
X
+ (T 1) 2 2E ( )
=
x2t V ar()
xt (u u)

P
Note que el segundo termino, E [ (ut u)2 ] corresponde a la varianza de una variable iid, como la que vimos en el ejemplo anterior. Es por ello que la reemplaza2
mos por (T 1) 2 . De igual manera, probamos con anterioridad que var = P x2 :
t
Reemplazando:

X

u2t

i
X

=
+ (T 1) 2E ( )
xt (u u)
h
i
X
= 2 + (T 1) 2 2E ( )
xt (ut u)
X

2
x2t P 2
xt

P
Ahora solo falta ver que pasa con el u ltimo termino,
xt (ut u). Para ello, conviene retomar una expresion desarrollada anteriormente:

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

84

K t yt ,

Kt (xt + (ut u)) ,


X
X
=
Kt xt +
Kt (ut u),
| {z }
=1
X
=
Kt (ut u),
P
xt (ut u)
P 2
=
.
xt
=

Reacomodando los terminos,


X

x2t
X



X
=
xt (ut u)
X
xt (ut u) =
x2t ( )

P
Ahora que ya tenemos una ecuacion equivalente a xt (ut u) pero expresada en
procedamos a obtener su esperanza:
terminos de y ,
h
i
h
i
X
X
2E ( )
xt (ut u) = 2E ( )
x2t ( )
X
= 2E( )2
x2t
2 X 2
xt
= 2 P 2
xt
= 2 2
Retomando todo desde el principio:
X

2 X 2
xt + (T 1) 2 2 2
= P 2
xt
2
2
2
2
X  = + T 2
= (T 2) 2
u2t
E
P 2
ut
= 2
E
T 2
E

u2t

2.6. EL ESTIMADOR DE LA VARIANZA

85

La u nica forma de obtener un estimador insegado de la varianza es dividiendo por el


tamano de muestra menos los grados de libertad perdidos al estimar y (ambos
necesarios para obtener la esperanza condicional, por cierto). As queda demostrado
que

P 2
ut
T 2

es un estimador insesgado de 2 .

2.6.3. Robustez del estimador de la varianza en MCO


Ya tenemos un estimador insesgado de la varianza del error. En lo que respecta a
su robustez, la demostracion puede ser omitida si se considera que ut es un ruido
iid; por ello, a su estimador de la varianza se le puede aplicar una Ley de Grandes Numeros (Law of Large Numbers, LLN , por sus siglas en ingles). Cuando la
muestra es muy grande, da lo mismo dividir entre T que entre T 2; ambos
arrojaran un estimador arbitrariamente cercano al verdadero valor de la varianza.
Si bien no entraremos en detalles, es importante saber que, cuando trabajamos con
un proceso i.i.d., e ste tiene las propiedades necesarias para asegurar que el estimador de su varianza converge a la verdadera varianza. Note que volveremos a asumir
que la variable explicativa es estocastica, como en el u ltimo desarrollo con lmites
en probabilidad que hicimos (regrese a la pagina 59).Para estudiar la robustez del
estimador de la varianza, retomemos una expresion de e ste antes obtenida:
2 X

X
X
2
2
2
2

x2t
(ut u) 2
xt +
ut = ( )
P 2
 
 X
2 X 

ut
1
1
2
plim
plim
= plim
x2t

(ut u)
T
T
T
{z
}
|
X

2 (LLN )



2 
1X 2
= plim
xt plim
T
{z
}
|
2

Converge

La consistencia del estimador quedara demostrada


 siel u ltimo elemento fuera cero.
La nulidad de e ste resulta intuitiva, ya que plim = . Es facil demostrar que

2 
el lmite es cero si desarrollamos el plim
:

 
 
2 


plim
= plim 2 + plim 2 2 plim
= 0

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

86

Ello nos permite afirmar que, de cumplirse los supuestos de MCO,


P 2
ut
= 2
plim
T

2.7.

Inferencia estadstica en MCO

En las anteriores secciones, hemos desarrollado detalladamente el metodo de Mnimos Cuadrados Ordinarios; tambien presentamos, ya mas someramente, tecnicas
alternativas de estimacion (MOM y MV). En los tres casos se ha puesto mucho e nfasis en la importancia del cumplimiento de los supuestos. Son e stos los que facultan
las propiedadestan deseablesde nuestros estimadores. Ya mas concretamente
disponemos, hasta ahora, de lo siguiente:
1. Desarrollamos los estimadores, determinamos que eran insesgados y robustos
y calculamos sus respectivas varianzas.
2. Establecimos que los estimadores
y son MELI, es decir, lineales, de mnima varianza e insesgados.
3. Encontramos un estimador insesgado de la varianza del termino de error:
P

u2t
2 =
T 2

2
E

= 2
4. A lo largo de todos los desarrollos, nos hemos topado sistematicamente con
el supuesto de O RTOGONALIDAD. De hecho, mas que toparnoslo, lo hemos
empleado una y otra vez. En el proximo curso de econometra confirmaremos que dicho supuesto es fundamental. Por ahora baste recordar que al ser
cumplirse, tenemos:

E (xt ut ) = 0


2.7. INFERENCIA ESTADISTICA
EN MCO

87

Resulta fundamental distinguir la importancia de la expresion y sobre todo,


la diferencia que hay entre e sta y su contraparte muestra, Cov (xt , ut ) = 0.
La primera constituye un supuesto, mientras que la segunda es resultado del
metodo de estimacion que usamos (MCO). La importancia radica en que, aun
si el supuesto es violado (eventualidad desgraciadamente muy frecuente), la
covarianza muestral seguira siendo siendo igual a cero. De ello se infiere que
no es posible detectar el rompimiento del supuesto con tan solo una mirada
a la covarianza entre residual estimado y variable explicativa. Toda esta explicacion constituye un mero avance de lo que se vera en la segunda parte de
este curso.
A partir de aqu nos concentraremos exclusivamente en las propiedades probabilsticas de nuestro modelo de regresion; las que se pueden derivar del sexto Supuesto,
el que establece la Normalidad en los errores. En la seccion destinada al metodo de
MV, explicamos como dicha normalidad se transmite a la variable yt . Dado que los
estimadores no son otra cosa sino
Pcombinaciones
Plineales de las observaciones de
las variables dependientes (
=
Rt yt y =
Kt yt ), e stos tambien adquiriran
la normalidad a traves de la variable dependiente:
yt = algo no estoc
astico +

ut
|{z}

N ormal(0, 2 )

En MV ello nos permitio deducir con facilidad que:


yt N ( + xt , 2 )

Al
P estudiar al parametro estimado , recurrimos constantemente a la formula =
Kt yt que es de hecho la prueba de que dicho estimador es una combinacion de las
observaciones de la variable dependiente. Lo mismo se puede decir de la ordenada
en el origen,
. Al ser los estimadores una funcion lineal de yt , es decir una suma
ponderada de las y, la normalidad se les transmite:



1
x2

N ,
+P
T
(xt x)2


2

N , P
(xt x)2
2

Con base en lo anterior es posible construir intervalos de confianza y contrastar


hipotesis sobre dichos parametros. Quiza la prueba mas importante o cuando menos

88

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

la mas socorrida, es la que evalua si los parametros son estadsticamente distintos


de cero:
yt = |{z}

+ xt + ut
|{z}
=0

=0

Si es estadsticamente igual a cero, entonces nuestra especificacion no requiere de


una ordenada en el origen. Tal eventualidad no resulta particularmente importante.
No obstante, si es estadsticamente igual a cero, entonces las consecuencias son
mucho mas relevantes: los datos de que disponemos no brindan evidencia de que
nuestra especificacion, la que relaciona a y con x, sea adecuada. Como en todo
trabajo que involucre al herramental estadstico, sobra decir que tanto el diseno
como la ejecucion de la estimacion debe hacerse con sumo cuidado. Con el paso del
tiempo esta prueba se ha vuelto usual entre economistas aplicados y econometristas
empricos, y por ello vale la pena recordar toda la teora que esta detras:


2
1. La Normalidad de los Estimadores: N , P (x x)2
t

2. El Teorema del Lmite Central (TLC):

Teorema 5 Conforme el tamano de muestra crece, la secuencia T (yT )


converge en distribucion a una variable gaussiana. Si yt es iid con media
cero y varianza 2 , entonces:

d
T (
yT ) N (0, 2 )
3. Las propiedades de nuestro estimador de la varianza:
P 2
u
= 2
E
T 2
P 2
u
p
2
T 2
Como ya senalamos, esta prueba es utilizada muy frecuentemente en econometra.
Si bien dicha utilizacion es sencilla y su lectura no requiere de mas de unos cuantos
segundos, conviene entender como funciona. La demostracion la haremos para el estimador de la pendiente, que es el caso interesante. Vamos a partir de la normalidad
de dicho estimador; N (0, 2 ). A tal variable normal es posible transformarla
para obtener una distribucion Normal Estandar:


2.7. INFERENCIA ESTADISTICA
EN MCO

Z =

89

N (0, 1)

donde es la raz de la varianza de .


Nuestra prueba debera tener, como toda prueba decente en estadstica, una hipotesis
nula y otra alternativa:
Ho : = 0
Ha : 6= 0
Situemonos momentaneamente bajo la hipotesis nula; es decir, asumamos que el
verdadero parametro, , es igual a cero. En ese caso, la variable transformada, Z,
sera:

Z =

N (0, 1)

0.5

Otra distribucion, vlida


bajo Ha

Normal Estndard, cierta


bajo Ho

0.4
0.3
Nivel

0.2
0.1
0
5

10

Figura 2.9: Distribucion bajo la hipotesis nula y la alternativa

90

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Es importante tener plena conciencia de que estamos asumiendo que la hipotesis


nula es cierta. Debido a ello, nuestro calculo de la variable Z se simplifica en extre PROBABLE es que el resultado numerico
mo. De ser cierta dicha hipotesis, LO M AS
de calcular Z caiga en la zona central de la distribucion. Ahora bien, cambiemos de
escenario e imaginemos que, pese a haber supuesto que Ho se cumpla, la verdad es
que Ha es la hipotesis correcta. En ese caso, nuestro calculo de Z resultara erroneo
PROBABLE es que tal calculo se salga de la parte gorda de la distribuy LO M AS
cion siendo e sta muy distinta a cero.
La parte fundamentaly quiza la mas difcilde la prueba radica en decidir a partir de donde nos parece improbable que el calculo de Z se aleje demasiado de lo que
hubiera tenido que ser si en realidad fuera normal estandar. Obviamente, las zonas
alejadas se situan en las colas de la distribucion. La regla para separar la zona en
la que nos resulta razonable pensar que Z es normal estandar o no, es arbitraria. El
consenso, al menos en econometra es dejar como a rea probable para Ho el 95 %
de la superficie abajo de la campana, mientras que el restante 5 % (distribuido equitativamente en ambas colas) lo dejamos para las Zs que nos parezcan demasiado
grandes, es decir, que nos resulte inverosmil que una Z tan grande haya sido generada por una distribucion normal estandar. Bajo esta u ltima, los valores crticos que
distinguen al 5 % mas alejado del centro (2.5 % de cada lado) son: 1.96 y 1.96.

2.7.1. Inferencia usando una distribucion de t de student


Toda la inferencia sugerida anteriormente esta muy bonita y es muy interesante18
pero existe un problema grave que nos impide llevar a cabo satisfactoriamente la
prueba: desconocemos el valor de la varianza de nuestro estimador, . Afortunadamente, ese es un problema que sabemos resolver; de hecho, conocemos dos
formas de resolver el problema. La primera exige el uso de la distribucion T DE
STUDENT .19 A juicio del autor de estas paginas, este camino no es el que conviene
recordar, no obstante, es importante conocerlo. Veamos primero cual es esta distribucion t de student:
18

Al menos para algunos.


William sealy Gosset (19876-1937) fue un qumico y estadstico, mejor conocido por su sobrenombre literario, student. Nacido en Canterbury, Inglaterra, asistio a la famosa escuela privada Winchester College, antes de estudiar qumica y matematicas en el New College Oxford. Tras graduarse
en 1899, se incorporo a la destilera de Arthur Guinness e Hijo, en Dubln. Para evitar la divulgacion de informacion confidencial, Guinness prohibio a sus empleados la publicacion de artculos
independientemente de la informacion que contuviesen. De ah el uso, por parte de Gosset, de un
pseudonimo literario en sus publicaciones.
19


2.7. INFERENCIA ESTADISTICA
EN MCO

91

Definicion 7 Sea Z una variable Normal con esperanza 0 y varianza 1, Z


N (0, 1) y x una variable independiente de Z y distribuida 2 con T grados de
libertad, x 2T g.l , entonces:

Z
tT g.l. = p x
T

Si queremos aplicar esta definicion a nuestro problema, debemos empezar por en2
contrar a la distribucion normal estandar y luego
 del denominador. Asu a la
miendo que la hipotesis nula es cierta, N 0, 2 . Solo hace falta dividir por
2 para obtener una varianza unitaria:

2
P
(xt
x )2

N (0, 1)

Ya tenemos pues, el numerador. Sin realizar la demostracion momentaneamente, establecemos que nuestro estimador de la varianza, ligeramente adaptado, del parametro se distribuye como una 2 ;

2 (T 2)
2T 2 g.l.
2

Tomando por cierto este u ltimo resultado,20 se antoja la idea de reemplazar a 2 por

2 en nuestra formula de Z. De hecho, teniendo una normal estandar y una 2 , ya


podemos construir nuestra t de student:
20

El resultado lo demostraremos en la seccion correspondiente a la prueba F.

92

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

q
2

P
/
(xt
x)2
p
p
=
[
2 (T 2) / 2 ] / (T 2)
[
2 / 2 ]
P
(xt
x )2

2
P
(xt
x )2

=
=
=

qP

qP

(xt x)2

(xt x)2

= q

(xt
x)2

2
P
(xt
x )2

= q

2
Para resumir todas las operaciones pasadas, basta senalar que primero obtuvimos
luego colocamos la raz
una distribucion normal en el numerador al transformar a ;
2
cuadrada de una dividida por sus grados de libertad en el denominador. Eso, por
la definicion (7), sabemos que es una t de student. Lo malo es que, a priori parece
no ser calculable, puesto que involucra parametros que desconocemos. Afortunadamente, al desarrollar la expresion, vemos como dichos parametros desconocidos
desaparecen. Al final, nuestro estadstico de prueba es:
Z=

Todo parece haber salido bien. No obstante, los mas detallistas habran notado que
no respetamos al 100 % la definicion (7). En efecto, para realmente obtener una distribucion t de student falta asegurar la independencia entre la normal del numerador
y la 2 del denominador. Esto, lo establecemos en el siguiente teorema:


2.7. INFERENCIA ESTADISTICA
EN MCO

93

Teorema 6 Si el termino de error de la especificacion lineal de la regresion, ut


son estadsticamente
se distribuye normalmente, los estimadores de MCO,
y ,
independientes delPresidual estimado, ut y de todas las funciones de dicho residual,
u
2
incluyendo
2 = T 2t .
La prueba de este teorema es un poco laboriosa, por lo que la reportamos al apendice
E.
As pues, nuestro estadstico de prueba, llamado habitualmente estadstico t, se
distribuye como una t de student. Esta distribucion se parece mucho a la Normal
Estandar. La diferencia estriba en que sus colas son mas pesadas; su uso es relevante cuando el numero de observaciones es pequeno.21 La mayor pesadez de las colas
queda manifiesta al comparar los valores crticos, puesto que, en vez de usar 1.96
y 1.96, la t de estudent sugiere usar, para una muestra de tamano 20, 2.1 y 2.1.

2.7.2. Inferencia asintotica


Existe una solucion que, nuevamente a juicio del autor, resulta mas apropiada; exige
trabajar con muestras de tamano mayor. En econometra, dicho sea de paso, siempre
conviene recopilar la mayor cantidad de datos posibles. Estudios con menos de 50
datos no resultan demasiado atractivos. Para explicar en que consiste, necesitaremos
un teorema que ya habamos presentado antes, pero que conviene recordar:
Teorema 7 Sea L una funcion continua y Kt una expresion tales que:
d

L (xT ) L (x) ,
p

KT K,

donde K es una constante; entonces,

L (KT xT ) L (K x) ,
d

L (KT + xT ) L (K + x) .
21

Digamos, menor a 30 observaciones.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

94

Vimos anteriormente que

)
(

se distribuye como una Normal estandar. Incurrire-

mos en una redundancia sumamente u til22 escribir entonces lo siguiente:





N (0, 1)

(2.12)
p

Como antes, desconocemos , no obstante, sabemos que


, lo que nos
permite escribir:
!

p
1
plim

Retomando la ecuacion (2.12), multipliquemos por





, lo cual no cambia nada:




Reacomodemos los terminos:





Ahora apliquemos la teora asintotica. El primer elemento, cuando el tamano de


muestra sea suficientemente grande, se distribuira Normalmente, con media cero y
varianza 1. El segundo (la razon entre varianzas) convergira en probabilidad a 1. El
Teorema de Slutsky permite asintotear al mismo tiempo ambos elementos, por lo
que:



22

N (0, 1)

Si bien aqu es un oxmoron, al ir levantando supuestospara hacer mas incluyente al metodo


deja de serlo.


2.7. INFERENCIA ESTADISTICA
EN MCO
As, calcular

)
(

equivale a calcular

)
(

95

que a su vez, manipulando, po-

(
demos dejar como . Acabamos de demostrar que esta u ltima expresion

converge a una normal estandar. Es por el razonamiento anterior que podemos usar
la expresion con puros estimados confiando en que asintoticamente la distribucion
sera la normal estandar. Nos quedamos entonces con el primero, cuyos elementos
s tenemos. Este resultado nos permite hacer la prueba de significancia estadstica
de los parametros de manera individual (es decir sobre cada parametro); la distribucion bajo la hipotesis nula es una Normal Estandar, por lo que los valores crticos,
con un nivel de 5 % seran los ya antes mencionados: 1.96 y 1.96. Es importante
tener siempre presente que el resultado solo es valido para tamanos de muestra grandes. Lo anterior se presta a muchas arbitrariedades; se sugiere que T tenga cuando
menos mas de 100 observaciones.

2.7.3. Addendum: el p-valor


El p valor constituye una forma alternativa de leer las pruebas estadsticas y
facilita grandemente su interpretacion. Supongamos que corremos una regresion
con la especificacion de siempre, yt = + xt + ut . Calculamos, como siempre
(a partir de ahora), los estadsticos t correspondientes. Supongamos ademas que el
valor del estadstico t de la pendiente y nos sale un estadstico de prueba igual a
27.7.

0.5

0.4

Normal Estndar

0.3

0.2
t de Student, 4 g.l.
0.1

0.0

1.96

1.96

Figura 2.10: Distribucion de t de student (4 grados de libertad) comparada con una


normal estandar

96

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Obviamente, se rechaza la hipotesis nula, pero de hecho, tambien es evidente que el


nivel, de ese lado de la curva (2.5 %), esta muy sobrado. En realidad, el a rea detras
del valor del estadstico de prueba es apenas 0.0001. Es decir que, en esta ocasion,
con un nivel inferior al 1/10, 000 Ho hubiera sido rechazada. Justamente eso es el
p-valor; el a rea detras del estadstico de prueba bajo la hipotesis nula. Si dicha a rea
es menor al nivel que escogimos (por ejemplo, 5 %), entonces, sabremos que Ho
debera rechazarse. La definicion formal del p-valor (p-value, en ingles), usando el
estadstico t, es la siguiente. Definamos como tvc al estadstico t que obtuvimos
con nuestra muestra particular:23




p valor = Pr t tvc / = 0 + Pr t tvc / = 0

2.8.

Analisis de varianza y bondad de ajuste

Lo visto en las secciones anteriores nos ha permitido caracterizar en detalle al metodo de MCO. Sabemos ahora que nuestros estimadores pueden ser en extremo apropiados siy solosi los supuestos que yacen atras se cumplen. Vimos tambien
que es posible empezar a verificar, al menos parcialmente, la pertinencia de nuestra
especificacion por medio de la significancia de los parametros. Es momento ya de
incorporar en nuestro haber, una serie de herramientas que nos permitan saber si el
ajuste de nuestro modelo a los datos es correcto, adecuado y/o mejorable. Dicho herramental podra ser ajustado y adaptado para realizar pruebas con una significancia
economica. De momento, iniciaremos con los instrumentos mas basicos. Para medir
la calidad del ajuste de la regresion, tenemos que evaluar si la recta que estimamos
es una representacion adecuada de la nube de puntos que aparece en el diagrama de
dispersion.

2.8.1. La medicion de la bondad del ajuste


Hemos de encontrar alguna forma de medir el ajuste, o mas tpicamente denominado
la bondad de ajuste. Si fueramos mas naives,24 en vez de correr una regresion para
23

Note que definimos el p-valor en funcion de una prueba de dos colas. Si se tratara de una prueba
con una sola cola, como la 2 o bien la F, entonces no es necesario hacer la suma de las dos
probabilidades; basta con la primera probabilidad.
24
Ingenuos.

20

25

15

20
Variable Dependiente

Variable Dependiente

2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

10
5
0
5
10
15
20

97

15
10
5
0
5
10

10
0
10
Variable Explicativa

20

15
20

10
0
10
Variable Explicativa

20

Figura 2.11: Comparacion del ajuste entre dos regresiones


explicar el comportamiento de yt , podramos calcular una media ramplona.25 Lo
interesante, para el caso que nos ocupa, es que con dicha media, podemos calcular
la variacion total de yt , es decir su variabilidad: la dispersion de la variable con
respecto a un momento central (la media); para ello, basta medir la distancia de
cada punto con respecto a la media: (yt ) = yt y.

yt
Variacion no explicada

Variacion explicada

xt

Figura 2.12: Analisis de la Variacion


Ejemplo 3 OTRA VEZ LAS CALIFICACIONES : Imagine nuevamente a nuestro
alumno, Equis Arriaga. Desea saber que determina el nivel de sus calificaciones.
25

La media es de hecho un estimador de la esperanza incondicional mientras que la regresion lo


es, pero de una esperanza condicionada en las variables explicativas. Al fin y al cabo, todo lo visto
resulta en versiones mas o menos sofisticadas de una media

98

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

El hecho es que, de momento, nada se le ocurre; lo u nico que tiene es su boleta de


calificaciones: en ella aparecen algunos nueves, otros dieces y bastantes sietes. Le
resulta confuso, con solo verlas, tener idea de como va. Lo primero que le viene a la
mente es sacar el promedio. A eso se dedica la estadstica: a resumir informacion
que permite tener una vista panoramica del fenomeno bajo estudio. La media es,
podramos decir, un resumidor de informacion que si bien algo nos indica, no
nos aporta tanta luz sobre el fenomeno como lo hace el conjunto completo de los
datos. Es una esperanza incondicional. A Equis Arriaga se le ocurre que quiza sus
calificaciones dependan del numero de horas de estudio que les dedique. Puede
entonces condicionar su promedio al numero de horas destinadas a estudiar cada
una de las materias. Estimara entonces otro promedio, pero esta vez sera un promedio condicionado a las horas de estudio. Como se llama esta estimacion? Pues
no estan ustedes para saberlo, pero s nosotros para contarlo; es una regresion. En
efecto, una regresion no es mas que un promedio, solo que condicionado a informacion adicional que nos permita entender mejor lo que pasa con la variable que
nos interesa. La regresiono esperanza condicionalnos permite ordenar mejor
los datos, entenderlos mejor. Si el estudio de la regresion esta bien hecho, cuantificaremos con aceptable precision el efecto de estudiar sobre nuestras calificaciones. Ahora bien, existen otras razones, quiza mas triviales que afectan a nuestro
desempeno academico. Ello conlleva una inevitable incapacidad de explicar completamente el porque de nuestras calificaciones. Lo que haremos a continuacion
es separar la variabilidad de las calificacionespara ponerlo en terminos de este
ejemploen dos partes: (1) la que podemos explicar con las horas de estudio y, (2)
la que no podemos explicar.
Podramos tener una medida que nos indique que tan bueno es el ajuste de nuestra
lnea de regresion. En el dibujo se capta que la variabilidad total es susceptible de
ser desagregada en 2 partes; (1) la parte que el modelo de regresion puede explicar
y, (2) la parte que quedo sin poder ser explicada. Visto eso, procedamos a medir
cada parte de esa variacion:

yt y = yt y + (yt yt )
= (yt yt ) + (yt yt )
Fijemonos con mas detenimiento en el primer termino:


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

99

t
yt yt = yt
x
t + ut
t
=
+ x
x
yt yt = ut
Del anterior resultado se constata que dicho elemento no es otra cosa sino el residual
estimado de nuestra regresion. Ahora bien, lo anterior fue desarrollado para una sola
observacion; si lo que queremos es tener en cuenta a todas, habra que sumarlas. No
obstante, ya sabemos el resultado de sumar a una variable centrada:
X

(yt y) =

(y y)

= yT yT
= 0

As, para evitar una obviedad, mejor elevamos al cuadrado:


(yt y)2 = (yt yt )2 + (yt y)2 2 (yt yt ) (yt y)
Sumamos...
X
X
X
X
(yt y)2 =
(yt yt )2 +
(yt y)2 2
(yt yt ) (yt y)
|
{z
}

* : Este termino nos estorba. En los dos anteriores, aislamos la variabilidad explicada y la no explicada. Conviene deshacernos del tercero; desarrollandolo:26
X

(yt yt ) (yt y)


t y
(
ut )
x

X
t ut yut

ut x
X
X
X

ut
xt ut y
ut
X

Ya hemos demostrado con anterioridad que


cero, por lo que:
26

ut y

xt ut son ambos iguales a

Demostracion simplificada por Lilia Guadalupe Lopez Rentera.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

100

(yt yt ) (yt y) = 0

Nuestra expresion inicial se reduce a:


X

(yt y)2 =

(yt yt )2 +

(yt y)2

(2.13)

V ariacion T otal = V ar. residual + V ar. explicada


SCT = SCE + SCR
T SS = ESS + RSS
Las u ltimas dos lneas corresponden a los acronimos (en espanol y en ingles respectivamente) de los distintos elementos de esta expresion. SCT (TSS) es la Suma de
Cuadrados Total; SCE (ESS) es la Suma de Cuadrados del Error, y; SCR (RSS) es
la Suma de Cuadrados de la Regresion. Pues ya desglosamos la variabilidad de y.
Ahora bien, Que podemos hacer con eso? Como ya senalamos al principio de este
curso, las varianzas no tienen unidades.27 Podramos interesarnos quiza en medir
u nicamente la proporcion de la variabilidad total explicada por la regresion. Ello
implica una normalizacion, de hecho, muy intuitiva. Dividiendo todo por SCT (o
SCT), obtenemos:
1=

SCE SCR
+
SCT
SCT

Si definimos R2 , una medida de la bondad de ajuste de nuestra regresion, como la


proporcion de varianza explicada, su formula sera:
R2 =

SCR
SCE
=1
SCT
SCT

Reiteramos que la R2 es la proporcion de la variacion total en y explicada por la


regresion de y sobre x. Todos los terminos que la componen son sumas cuadraticas,
0, por lo que
por lo que son, sin excepcion, positivos. Ello implica que SCE
SCT
nuestra medida, R2 , no puede ser mayor a uno. Por otra parte,
27

A menos que se acepten conceptos tales como pesos al cuadrado, dolares al cuadrado y cantidad de manzanas producidas al cuadrado.


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

101

SCT = SCE + SCR


SCT SCE
SCE
1
SCT
SCE
1
0
SCT
Con ello, debe quedar claro que la R2 esta acotada entre 0 y 1. Ahora que ya sabemos de donde sale esta medida de ajuste, propondremos otra manera de formularla
que es, claro esta, equivalente. Recordemos que al centrar los datos (restarles su
media) la especificacion queda as:
t + ut
yt =
+ x
Restando las medias:28
yt =

+
x
ut
|{z}t
yt

yt = yt + ut

Elevamos al cuadrado:
yt2 = yt2 + u2t + 2yt ut
X
X
X
yt2 +
u2t +
yt ut
yt2 =
| {z } | {z }
| {z }
X

SCT

SCE


2
Reemplazamos yt2 por la expresion que lo genera, xt :
X

28

2

xt + SCE
SCT =
X
SCT = 2
x2t + SCE

Ver desarrollos anteriores.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

102

Y manipulamos la expresion para as recuperar la expresion de la R2 :


2

x2t = SCT SCE

Dividimos de ambos lados por SCT =


P 2
x
SCE
2

P 2t = 1
SCT}
yt
| {z

(2.14)
P

yt2 :

R2

Con ello, obtenemos una formulacion alternativa para la R2 :


P
(xt x)2
2
2

R = P
(yt y)2

Note, que de la ecuacion (2.14), se infiere un resultado que nos sera u til posteriormente:
SCR = 2

x2t

(2.15)

La R2 representa nuestra primera medida de bondad de ajuste. Existen todava muchas mas medidas de ajuste y sobre todo, pruebas sobre la calidad estadstica de la
regresion. En esta seccion veremos dos mas: los intervalos de confianza y la prueba
F.

2.8.2. Intervalos de confianza


Al construir las pruebas de significancia, descubrimos la naturaleza de la distribu la Normal. Con base en ello, podemos
cion de los parametros estimados,
y :
ahora construir intervalos de confianza; e stos nos proporcionan un rango de valores
entre los que es probable esten los verdaderos parametros. A cada intervalo le asignamos un nivel de significancia estadstica. Los intervalos de confianza, como ya se
sabe, se construyen de tal forma que la probabilidad de que dicho intervalo contenga
el verdadero parametro, sea uno menos el nivel de significancia (95 % o 99 %, por
ejemplo). En este momento, no esta de mas recalcar que es esta parte, la inferencia
sobre los parametros, el meollo del trabajo de un econometrista. Dada la tecnologa


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

103

actual, correr regresiones es trivial. Lo importante es el analisis que se haga de los


resultados.
Para iniciar el desarrollo, hay que retomar lo que obtuvimos al desarrollar las pruebas de significancia:
0

tstudent, T 2 g.l

t =
a

N (0, 1)

Con las pruebas de significancia, tenamos que escoger un nivel de confianza; ello
nos permita determinar los valores crticos. El nivel de confianza basicamente
senala la probabilidad de equivocarnos.29 Si la hipotesis nula es cierta, tenemos
un 95 % de probabilidad de que el estadstico t cae adentro del intervalo.
Como se lee nuestra prueba de significancia? Pues de hecho, la expresion explcita
de e sta es:

Pr 2.05
2.05 = 0.95
| {z } < t < |{z}
V C95 %

V C95 %

Reescribiendo, para hacerlo mas claro:



Pr V C95 % < t < V C95 % = 0.95

Reemplazando al estadstico t por su formula30 :

Pr V C95 %
29


< V C95 %
<

= 0.95

Al descartar las puntas extremas de la distribucion, incurrimos en el riesgo de que nuestro estadstico de prueba si pertenezca a Ho pero haya cado ah. Nosotros lo descartaremos erroneamente
(asumiremos que no fue engendrado por el proceso estipulado en Ho ). Es lo que se llama N IVEL o
bien E RROR T IPO I.
30
Recuerde que en la formula del estadstico t primigenea, restabamos 0 . Despues, como lo que
nos interesaba es que e ste u ltimo fuera cero, lo obviamos en las expresiones. A partir de aqu, lo
volvemos a dejar explcito.

104

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Ahora Manipulamos al interior del parentesis con la intencion de aislar el verdadero


parametro:


Pr V C95 %
< < V C95 %
= 0.95



Pr V C95 %
< < V C95 %
= 0.95
Multiplicamos por 1:


> > V C95 %
= 0.95
Pr + V C95 %

Lo que tenemos al interior del parentesis puede interpretarse como un intervalo de


confianza; e ste correspondera a un nivel de confianza de 95 %.
Su lectura sera la siguiente:
DEBE ESTAR INCLUIDO CON UN NIVEL DE CONFIANZA DE 95 %.
i
h


Pr + / V C95 %
= 0.95

De forma analoga, al estimador de se le puede construir tambien un intervalo con


un nivel de confianza de 95 %:
Pr [ (
+ / V C95 %
)] = 0.95

En esta seccion calculamos intervalos de 95 %. Al decidir la extension de dicho


intervalo, (95 %, 99 %, . . .), es imperativo ajustar los Valores Crticos correspondientes. Tambien vale la pena recordar que todo esto lo hicimos usando la distribucion de t de student; bien hubiera podido hacerse con el resultado asintotico de
Normalidad.

2.8.3. La prueba de significancia conjunta de la regresion


Una parte importante del quehacer econometrico radica en el analisis del valor de
los parametros y su interpretacion economica. El hecho es que, para tales acciones,
existe una manera relativamente sencilla de proceder: la prueba de Fisher. La distribucion F fue encontrada o derivada, como su nombre lo indica, por Fisher en
los albores del siglo XX. Su forma se deriva de una transformacion de variables
normales, como se indica en las siguientes definiciones:


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

105

Definicion 8 La suma de los cuadrados de T variables aleatorias iidN (0, 1) se


distribuye como una 2T g.l. : Sea xt iidN (0, 1) para t = 1, 2, . . . , T , entonces,
T
X

x2t 2T g.l.

x
T1
z
T2

FT1 ,T2 g.l.

t=1

Definicion 9 Sean x y z dos variables aleatorias independientes distribuidas ambas como 2 con T1 y T2 grados de libertad respectivamente, entonces:

La comprension del funcionamiento de la prueba de Fisher, pasa por la correcta


asimilacion de la distribucion 2 . Suponga, como anteriormente que:

xt iidN 0, 2 ,

donde la variable xt es, por cierto, una variable centrada. Entonces, al estandarizar,
xt
iidN (0, 1).

Si elevaramos al cuadrado y sumaramos, obtendramos una variable distribuida 2 :


PT
2
t=1 xt
2
2

Construyamos pues, una variable con distribucion 2 . Partimos del estimador de la


varianza:
P

x2t
=
2
T 1
X
x2t = (T 1)
2

Multiplicamos de ambos lados por 1/ 2 :


1 X 2

2
x
=
(T

1)
t
2
2


X xt 2

2
= (T 1) 2

{z }
|
[N (0,1)]2

2T 1 g.l.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

106

Pero mas importante es destacar que el lado derecho se distribuye como una 2 :

(T 1)

2
2T 1 g.l.
2

(2.16)

Para que sirve este resultado? Pues aun nos faltan algunos elementos para poder
responder a esta pregunta (si bien es e ste el que usamos para mostrar la distribucion
de los estadsticos t anteriormente). Ahora suponga que tenemos dos procesos como
el anterior; dos variables aleatorias independientes entre s x, z, ambas N (0, i2 )
para i = z, x. Del resultado obtenido, podemos deducir lo siguiente:

x2
(T1 1) 2 2T1 1 g.l.
x

2
(T2 1) z2 2T2 1 g.l.
z
Teniendo dos 2 y fundamentados en la definicion (9) podemos construir una distribucion F:
h

i
2
(T1 1) x2 /(T1 1)
x
h
i
FT1 1,T2 1

z2
(T2 1) 2 /(T2 1)
z

x2 /x2
FT1 1,T2 1

z2 /z2

Este resultado es, al menos potencialmente, muy interesante. Pero el hecho es que
no lo podramos calcular, puesto que desconocemos las verdaderas varianzas de
ambas variables. No obstante, podramos formular una hipotesis, la hipotesis nula
de hecho, que estipulara que las varianzas de ambos procesos son iguales. Con
ello estaramos creando una prueba estadstica de igualdad de varianzas entre dos
procesos:
Que pasa si x2 = z2 ?


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

107

x2 /x2

x2
=

z2 /x2

z2

x2
FT1 1 g.l.,T2 1 g.l.

z2

(2.17)

De ser cierta H0 , el2 calculo resultado de dividir los estimadores de las varianzas de
ambos procesos, x2 no solo debera distribuirse como una F de Fisher, sino que
z
ademas debera ser cercano a la unidad. Es importante entender que si la hipotesis
nula no es cierta, entonces la simplificacion que hicimos en la ecuacion (2.17) resultara erronea, por lo que nuestro estadstico de prueba ya no se distribuira como
F. Cabe destacar que la F se calcula por convencion con el estimador de varianza
mayor arriba y el menor abajo, de tal forma que el coeficiente quede siempre mayor
a 1, mucho mayor si la hipotesis nula no es cierta.

0.7
0.6
0.5
0.4

Distribucin F4,7,g.l.

0.3
0.2
0.1
0
0

Figura 2.13: Distribucion de Fisher

Hasta aqu, sabemos hacer ya una prueba de igualdad de varianzas, pero...para


que nos puede servir e sta? Pues ahora veremos como aplicarla a nuestro modelo de
regresion estimado. Al derivar la R2 , partimos de la siguiente expresion:
X

(yt y)2 =

SCT =

(yt yt )2 +
SCE

(yt y)2
SCR

108

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Dicha expresion nos puede servir para asignar los grados de libertad a cada suma
cuadratica. Los elementos que aparecen en ella constituyen, en cada caso, un preludio de calculo de varianza.
1. Al primero, SCT , resulta facil asignarle los g.l. correspondientes; Para su
elaboracion se emplean las T observaciones de yt , por lo que hay T grados
de libertad. No obstante, como empleamos en dicho calculo un estimador de
la media, se pierde uno. As pues, al final solo nos quedan T 1 grados de
libertad (ver demostracion en la seccion anterior).
2. Ya tenemos los grados de libertad del lado izquierdo de la expresion. Del lado
derecho, en conjunto, debe haber el mismo numero de g.l. Podemos empezar
con el primer termino de la expresion, SCE. e ste no es otra cosa mas que la
formulaincompletadel estimador de la varianza; por lo mismo, ya sabemos cuantos grados de libertad tiene: T g.l. menos los dos que se pierden por
haber estimado y . Nos quedan pues T 2 grados de libertad.
3. En cuanto al tercer elemento, SCR, es difcil indagar cuales son sus grados de
libertad directamente. No obstante, dado que tales grados deben ser iguales
a la izquierda y a la derecha del signo de igualdad, sabemos que T 1 =
g.l.SCR + T 2. As, resolviendo tan sencilla expresion, descubrimos que
SCR tiene 1 grado de libertad.

SCT = SCR + SCE


T 1 g.l. = 1 g.l. + T 2 g.l.
Ahora bien, para acercarnos mas a la distribucion F debemos encontrar, en primer
lugar, variables que se distribuyan como 2 . Empecemos con SCE, la Suma de
Cuadrados del Error. Al estudiar la R2 anteriormente, habamos visto que:
X
SCE =
u2t

Dividiendo por los grados de libertad...


P 2
SCE
ut
=
T 2
T 2
=
2


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

109

Manipulando un poco mas,


SCE =
2 (T 2)
SCE

2
=
(T 2)
2
2
Y por lo que demostramos en la seccion anterior:
SCE
2T 2, g.l.
2

Ya tenemos nuestra primera 2 . Nada mas falta la otra. Veamos ahora SCR, la Suma de Cuadrados de la Regresion. Recordemos la ecuaci
Pon (2.15); con base en
ella, podemos aprovecharnos del hecho que SCR = 2 (xt x)2 . Ahora bien,
que representa esta ecuacion? Calculemos su esperanza:31
Necesitaremos, para ello:
P
1. = + Kt ut
P 2
2.
Kt = P (x1x)2
t

El segundo termino, lo manipulamos un poco para hacer mas evidente su uso en las
operaciones ulteriores:
X

1
(xt x)2 = P 2
Kt
Ahora s, retomando la expresion cuya esperanza queremos calcular y reemplazando
sus elementos por lo arriba explicitado:
2

(xt x)2 =

Desarrollandolo:


K t ut

2


2 1
X
+
K t ut P 2
Kt

P
P
2
2 Kt ut [ Kt ut ]2
1
P 2 = P 2+ P 2 + P 2
Kt
Kt
Kt
Kt

Ahora s, apliquemos el operador esperanza a cada uno de los tres terminos que
aparecen.
31

Cortesa de Adriana del Roco Montelongo Jaime.

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

110
2

1. En PK 2 solo aparecen el parametro verdadero y las Xs que son no estocastit


cas, por lo que todo sale del operador esperanza:

2
2
E P 2 =P 2
Kt
Kt


2. En el segundo termino, pasa igual, con la excepcion de ut cuya esperanza es


nula, por lo que:


P
P

2 Kt E (ut )
2 Kt ut
P 2
P 2
=
Kt
Kt
= 0

3. El tercer elemento requiere mas trabajo. Primero, hay que sacar a lo no estocastico del operador esperanza:
"P
#
X
2 
[ K t ut ] 2
1
P 2
E
= P 2E
K t ut
Kt
Kt

La esperanza sobrante, la podemos desarrollar:


E

X

K t ut

2 



= E K12 u21 + K22 u22 + . . . + KT2 u2T + T erminos Cruzados

Usando el supuesto de Homoscedasticidad as como el de No-autocorrelacion,


vemos que:

X

K t ut

2 



= E K12 2 + K22 2 + . . . + KT2 2
X
Kt2
= 2

Ya podemos reagruparlos. De hecho, nos queda la siguiente expresion:


2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE

E 2

111


X
X
2
1
2
2
P
P
(xt x)
=
Kt2
+

2
2
Kt
Kt
2

= P 2 + 2
K
Xt
2
(xt x)2 + 2
=

Lo sorprendente es que esta u ltima expresion no es otra cosa sino un estimador


sesgado, eso sde la varianza. Supongamos ahora que el parametro es igual a
cero; eso nos coloca bajo lo que denominaremos la hipotesis nula de esta prueba. Si
dicho parametro es cero, entonces:

 X
E 2
(xt x)2 = 2 ,

lo que convierte a la expresion en un estimador I NSESGADO , D ISTINTO E I NDE ;32


PENDIENTE DEL OTRO E STIMADOR DE L A VARIANZA DE LA R EGRESI ON
lo denominaremos, para distinguirlo del clasico,
a2 . Si a la expresion la multiplicamos por sus grados de libertad (que son iguales a 1) y la dividimos por la verdadera
varianza, obtenemos:

X
2
(xt x)
=
a2
 1
 X

2
(xt x)2 2 = a2 1
2

Ya sabemos, como en el caso anterior, que eso tiene una distribucion 2 :




 1
(xt x)2 2 21, g.l.

Ya solo resta construir nuestra distribucion F. Es importante recordar que la segunda 2 solo es cierta bajo Ho : = 0. Dividamos pues nuestras distribuciones 2 ,
32

Ver Teorema 6, 93.

112

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

no sin antes normalizarlas por sus grados de libertad, como senala la definicion de
la distribucion F:33
(SCR/ 2 ) /1
SCR
=
2
(SCE/ ) / (T 2)
SCE/ (T 2)
SCR
=

2
F1, T 2, g.l.
Todo esto de que nos sirve?, que prueba estamos haciendo? La distribucion F
solo se producira si, en la 2 del numerador la hipotesis nula es cierta. Dicho esto,
podemos establecer ya formalmente la prueba:
Ho : = 0
Ha : 6= 0
P
SCR
2 (xt x)2
F =
=
F1, T 2 g.l.

2
Resumiendo, y tambien abusando de la pobre lengua espanola, la prueba F nos dice
que tanto explicamos la variabilidad de la variable dependiente con nuestra regresion; puede ser vista como una prueba de pertinencia del modelo. Mas adelante, este
mismo enfoque nos servira para disenar pruebas mas complejas, que involucren a
mas parametros simultaneamente.

2.8.4. Analisis de Varianza o ANOVA


Esta seccion sera muy corta. En realidad nos serviremos de todos los resultados anteriores para llenar una tabla en la que estudiamos a fondo nuestro modelo. A dicho
cuadro se le denomina comunmente ANOVA; sus componentes son los siguientes:
Esta tabla, como ya dijimos resume gran parte de los desarrollos anteriores. Es importante tener claro todo lo que en ella aparece, pues eso nos permitira leer practicamente toda la informacion que aparece al correr una regresion en cualquier paquete
estandar de econometra, como lo es el G RETL.
33

Al lector inquieto le habra llamado la atencion el orden en que se dispuso el quebrado. Se


coloco SCR en el numerador y no en el denominador porque, en caso de ser falsa la hipotesis nula,
e esto es siempre cierto?
SCR > SCE
T 2 . Por qu


2.9. LA FALACIA DE LA REGRESION
Fuente de
Variacion
Regresion (SCR)
No explicada (SCE)

Total SCT

113

Suma de
Cuadrados, SC

grados de
libertad, gl

(yt y)2

k1

(yt y)2

P 2
Ut

T 2
T 1

SC
gl

P
2 (xt x)2

y2

Cuadro 2.2: Analisis de Varianza (ANOVA). Entiendase k como el numero de


parametros en la especificacion, includa la constante.

2.9.

La Falacia de la regresion
N ON C AUSA P RO C AUSA

La falacia de la regresion es el resultado de un fenomeno estadstico conocido co A LA M EDIA. Por media se entiende el promedio de alguna
mo R EGRESI ON
variable en una poblacion determinada. Regresion en este contexto indica la tendencia de los valores o realizacion de la variable a acercarse a la media, o tender
hacia la media, alejandose de valores extremos. Por ende, regresion a la media indica la tendencia que tienen algunas variables a desplazarse hacia la media, alejandose
de tales valores extremos.34 Algunos ejemplos reveladores pueden ser:
M AS
SOBRE LAS CALIFICACIONES : Recuerde a nuestro ilustre
Ejemplo 4 A UN
alumno, Equis Arriaga. Finalmente obtuvo todas sus calificaciones del 7o semestre.
Descubrio que le haba ido especialmente mal (reprobo cuatro de siete materias y
en las que aprobo lo hizo con calificacion apenas aprobatoria de siete). Cuando fue
a enterar a sus padres adoptivos, el Sr. Ye y la Senora Zeta de Ye, e stos lo reprendieron, le quitaron el coche y el dinero para el transporte publico (que se desplazara a
pie, para que meditara profundamente), le prohibieron ir a fiestas y le quitaron su
I-pod. En octavo semestre, Equis obtuvo calificaciones muy parecidas a las que
haba obtenido en los primeros 6 semestres (paso 1 materia en extraordinario y las
34

Fuente: Tim van Gelder, Critical Reflections y Thomas Gilovich, How We Know What Isnt So:
The Fallibility of Human Reason in Everyday Life

114

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

demas las volvio a cursar, aprobandolas, en el peor de los casos, con 8, siendo su
promedio general de 8.5). Los padres, al enterarse, se felicitaron mucho de haber
impuesto un castigo tan ejemplar a su hijo, creyendo que fue e ste el que provoco la
mejora de sus calificaciones. Si asumimos que las calificaciones obedecen a las leyes de la probabilidad, entonces habra que advertir a tales padres que el castigo
impuesto nada tuvo que ver con la mejora en las calificaciones. En realidad, lo que
ocurrio fue que septimo semestre fue un realizacion mala atpica y ya despues, por
la consabida Regresion a la Media, todo volvio a la normalidad en el 8o semestre.
La tendencia de la gente a ver relaciones entre sus acciones y supuestas reacciones es, en muchas ocasiones, resultado de la falacia de la regresion. Es importante
tomar esto en cuenta antes de saltar a conclusiones precipitadamente.
Ejemplo 5 C HARLATANES Y CURAS MILAGROSAS : Uno de los campos donde
el fenomeno de la falacia de la regresion es mas fertil, es en el de la enfermedad.
Quien no ha escuchado a personas jurar y perjurar que, estando gravsimos, acudieron a un medico brujo o a una terapia nada ortodoxa (ingesta de orina, intervencion quirurgica psquica-es decir, sin bistur) y sintieron en consecuencia un
gran alivio en sus sntomas? La explicacion a este fenomeno obedece nuevamente
a la regresion a la media. Cuando las personas acuden a tales extremos (como ir a
hacerse una limpia) suele coincidir con la etapa mas crtica de la enfermedad. En
dicha etapa, los sntomas son mas virulentos, y, en tiempos posteriores, se atenuan
por su regresion a los sntomas medios. La gente, al ver la atenuacion, la atribuye
injusta y erroneamente al curandero.
Ejemplo 6 G ALTON Y LA ESTATURAS EN LA SOCIEDAD : El concepto de regresion a la media proviene de Galton, quien, en un estudio descubrio que los
hijos de padres altos (chaparros) no lo eran tanto como dichos padres. Es decir que
las generaciones mas jovenes tendan a la media. A esto le llamo la regresion a la
mediocridad.

2.10.

Problemas de la Econometra

2.10.1. El problema de la agregacion


Una cuestion espinosa en econometra es la de la agregacion. Generalmente, en los
modelos economicos se trabaja usando un agente representativo de vida infinita. Lo
anterior se hace debido a obvias cuestiones de simplificacion y a que se puede interpretar la vida infinita como una dinasta (una familia cuyos miembros muertos


2.10. PROBLEMAS DE LA ECONOMETRIA

115

se van sustituyendo por otros que nacen). Tal estrategia ha resultado adecuada para
poder llevar a cabo un analisis u til de la dinamica economica; no obstante, como ya
lo habamos senalado desde el principio del curso, tarde o temprano es necesario cotejar lo dicho por la teora con los datos recolectados en la practica. La econometra
es un vehculo para llevar a cabo tal escrutinio de la teora, pero...Que tan facil
es hacerlo? Las tecnicas son, en parte, las que hemos estado estudiando a lo largo
del curso, y si bien no son elementales, su dominio tampoco resulta tan difcil. El
problema que aqu desarrollamos estriba en los datos. Hasta ahora los ejemplos que
hemos puesto los hemos llevado a la practica mediante ecuaciones macroeconomicas cuyas variables son agregadas. Imaginemos por ejemplo una sencilla funcion de
consumo elaborada por un economista algo pasado de moda...
Cit = i + i yit + uit
La razon del doble subndice obedece a la inspiracion microeconomica de la ecuacion. Se trata del consumo del individuo i en el tiempo t; e ste tiene su propio Consumo Mnimo as como su propia Propension Marginal a Consumir. Cuando le
muestra a su colega econometrista la funcion que invento y le pide que se cerciore
de su validez mediante una estimacion, empiezan los problemas. El econometrista
tiene en mente estimar Ct = + yt + ut ; se dirigira rapidamente a la pagina de
internet del servicio de informacion estadstica y descargara los datos de consumo
e ingreso de la economa que le interese. Quiza ni se detenga a pensar que los datos
que ha obtenido corresponden a variables macroeconomicas o agregadas. No tiene
el consumo de un individuo en el tiempo t, sino la suma de los consumos de todas
las personas en el tiempo t. Lo mismo ocurre con el ingreso. Lo grave del asunto es
que, para pasar del individuo a la sociedad en su conjunto sin que la ecuacion del
economista pierda validez, es necesario incluir mas supuestos que no resultan faciles de digerir. Si sumamos los datos para tener la version agregada de las variables,
I
X

def

Cit = Ct

i=1

donde I es el numeros de individuos que componen a la sociedad... aprovechando


la especificacion, podemos ver que pasa del lado derecho de la expresion:

Ct =

I
X
i=1

i +

I
X
i=1

i yit +

I
X
i=1

uit

116

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Esta expresion no se parece tanto a la que el econometrista pensaba estimar; para


que s sea parecida, tendra que asumir, implcitamente lo siguiente:
1. i = i = 1, 2, . . . , I
2. i = i = 1, 2, . . . , I
Expresado en palabras mas sencillas, el econometrista asumira implcitamente (y a
veces sin pensarlo) que todos los individuos tienen un consumo mnimo (supuesto
no tan descabellado) as como una misma propension marginal a consumir , lo que
resulta mas difcil de sostener. Es grave este problema? En realidad depende del
escenario. En algunos casos, los supuestos adicionales requeridos para llevar a cabo
la estimacion son razonables, pero en todo caso merman la capacidad de validacion
que tiene la econometra. Aclaramos que esto ocurre en TODAS LAS DISCIPLINAS
CIENT I FICAS ; los instrumentos de medici
on usados para verificar teoras en biologa, fsica, qumica,etc... son a su vez productos derivados de alguna teora que,
como siempre, usa axiomaspor definicion no demostrables. Si el resultado de la
medicion no es favorable a la teora postulada, siempre se le puede echar la culpa a
los instrumentos de medicion. Claro esta, en algun momento hay que ser razonables
y aceptar que una teora no sirve, pero lo difcil es saber distinguir ese momento. El economista siempre podra arguir que la tecnica econometrica es la causante
del fallo de la evidencia, pero si los intentos por apoyar su idea recaen reiteradamente en fracasos, tendra que regresar y pensarle mas a su teora. En todo caso, el
problema concreto aqu senalado ha encontrado una solucion fantastica gracias al
advenimiento de la tecnologa. Hoy en da es posible encontrar datos desagregados
hasta el nivel individual. Se emplea entonces una serie de tecnicas econometricas
particularizadas para la naturaleza de estos datos: estamos hablando de microeconometra y para fortuna de ustedes, la podran estudiar en la parte mas avanzada del
curso.

2.10.2. Una intuicion sobre el ultimo


supuesto: estacionariedad
Poco hemos hablado hasta ahora del u ltimo supuesto, el de estacionariedad. El hecho es que, en series temporales, es decir, en series en las que se tiene una observacion particular del proceso en cada momento del tiempo, la no-estacionariedad
resulta muy frecuente. Primero, recordemos en que consiste dicho supuesto:


2.10. PROBLEMAS DE LA ECONOMETRIA

117

E STACIONARIEDAD ( D EBIL
): Las variables no tienen un componente de tendencia estocastico ni determinista:
E (yt ) = para todo t
E (yt ) (ytj ) = j para todo t y cualquier j
Si leemos con cuidado las expresiones de arriba, podremos ver que la estacionariedad debil basicamente estipula que una serie siempre tiene la misma media, ya sea
que se tomen los datos del principio de la muestra, los de en medio o los del final.
Lo mismo ocurre con la varianza (tomese el subndice j = 0); e sta no debe depender del tiempo. Pero es facil imaginar casos en los que esto no ocurre en economa.
Suponga que usted quiere estimar una especificacion en la que la variable riqueza este involucrada. tiene datos de dicha riqueza por habitante desde 1900 hasta el
2000. Vea dicha variable en el siguiente grafico:

PIB per cpita en Mxico

Dlares PPC base 1970

1400

Y = 253. 0.232t + 0.114t^2

1200
1000
800
600
400
200
1900

1920

1940

1960

1980

2000

Ao

Figura 2.14: PIB per capita en Mexico, 1900-2000. Fuente: The


Montevideo-Oxford
Latin
American
Economic
History
Database
(http://oxlad.qeh.ox.ac.uk).

Notara cuan obvio es que la esperanza de dicho proceso no es la misma a lo largo


del tiempo. Esa serie no respeta lo establecido en la definicion de estacionariedad
debil; no es, por tanto, una variable estacionaria. Nuevamente, los detalles respecto

118

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

a las consecuencias de este problema se veran en Analisis de Series de Tiempo,


pero es importante retener que si las series con las que queremos trabajar tienen
una naturaleza parecida a la que inventamos ahora, T ODA LA E CONOMETR I A

C L ASICA
N O S IRVE. La solucion al problema, porque la hay!, tambien se estudia
en series de tiempo. En la segunda parte este manual se aborda, no obstante, con un
poco mas de detalle esta cuestion (vea la pagina 371).

2.10.3. Algunas observaciones al respecto


La intencion al mostrarles estos dos problemas ya clasicos en econometra es motivarlos a profundizar sus conocimientos en la materia. El hecho es que, antes de
acceder a las tecnicas mas avanzadas de la disciplina, es necesario conocer y entender las basicas. No se puede correr antes de aprender a caminar. La econometra es
un metodo emprico importante en economa. Todo aquel que desee llevar sus conocimientos a la practica debera sopesar seriamente la posibilidad de estudiar mucha
econometra.

2.11.

Formas funcionales y especificacion

Nuestra atencion ha sido puesta hasta ahora en las propiedades del modelo de regresion y en algunos metodos de inferencia estadstica que de e l se derivan. Dicha
informacion nos puede parecer un tanto a rida, pero resulta fundamental si queremos ser capaces de examinar con pericia nuestras estimaciones. El objetivo es formar un criterio verdaderamente informado y no solo a un usuario cuya u nica virtud sea saber apretar botones. Vamos a darnos un pequeno respiro e introducirnos
mas en el terreno de la econometra aplicada. Hemos hecho un uso extensivoy
quiza podramos decir abusivodel primer supuesto. e ste nos senala que si queremos que todo salga bien, es imprescindible que la especificacion sea correcta. Es
ya de por s difcil saber cuales son las variables pertinentes al momento de disenar
nuestra especificacion, pero si a eso le agregamos elmuy restrictivosupuesto
de linealidad, entonces nuestro campo de accion queda verdaderamente restringido.
Pocos fenomenos en la naturaleza son lineales.35 Que hacer con nuestro pobre modelo lineal?,36 que nos asegura que la relacion entre x y y es lineal?, Que pasa si
eso no es cierto? Algunas situaciones son franqueables; es posible seguir respetando
35

La naturaleza incluye, claro esta, a los fenomenos socio-economicos.


No obstante, es importante senalar que muchos de los fenomenos de interes s que pueden
aproximarse adecuadamente con especificaciones lineales; no se trata tampoco de un caso perdido.
36


2.11. FORMAS FUNCIONALES Y ESPECIFICACION

119

nuestro primer supuesto mientras los parametros permanezcan lineales, aun si las
variables y y x ya no lo son. Otra solucion es utilizar metodos de estimacion NoLineales; pero esa solucion la estudiaremos mas tarde. En esta seccion hablaremos
mejor de algunos trucos de que disponen los econometristas para tratar fenomenos
que se resisten a MCO por su no-linealidad. Concretamente, hablaremos de cuatro
modelos distintos:
1. El modelo Log-Log
2. El modelo Log-Lin
3. El modelo Lin-Log
4. El modelo Recproco

2.11.1. El Modelo Log-Log


Los logaritmos constituyen una herramienta matematica muy frecuentemente utilizada en ciencias aplicadas; la economa no es la excepcion. De hecho, ya para
cuestiones econometricas, su cercana con el importantsimo concepto de elasticidad, hace de las especificaciones logartmicas, un arma muy usada en este campo.
Considerese ahora la siguiente especificacion,
yt = o xt exp (ut )
Bajo esta forma, no es posible usar MCO. Mas si le aplicamos logaritmos:

ln (yt ) = ln(o ) + ln (xt ) + ut


ln (yt ) = + ln (xt ) + ut
donde = ln (o ) es una simple reparametrizacion. Obtenemos una nueva especificacion, que es lineal en los parametros (pero no en las variables, por cierto) y por
ende puede ser estimada por MCO. La popularidad de esta transformacion se debe
a que, al llevarla a cabo, el parametro estimado, se convierte automaticamente en
un estimador de la elasticidad de la variable y con respecto a la variable x. Vale la
pena recordar como se calcula una elasticidad:
y/x =

y x
x y

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

120

Pero nosotros transformamos los datos al aplicarles el logaritmo; podramos intentar


sacar la derivada con lo que tenemos:37
ln y
( + ln x)

=
=
x
x
x
Si usamos una regla de la cadena, podramos desarrollar de forma distinta a esta
derivada:
ln y
ln y y
=
x
y x
1 y
=
y x
Igualando con el resultado anterior...
1 y

=
y x
x
... y reacomodando los terminos, obtenemos:
y x
x y
y/x

Queda claro as que es la elasticidad de y/x y que por ende se convierte en


un estimador de dicha elasticidad. e sta es asumida constante a lo largo de toda la
muestra.38 Como podramos identificar esta especificacion? Si bien hay metodos
mas sofisticados, se sugieren dos muy faciles de poner en obra:
1. Visualmente, a traves de diagramas de dispersion
2. Cuantitativamente, mediante comparacion de medidas de bondad del ajuste,
como la R2
37

En esta seccion aplicamos la tecnica de diferenciacion logartmica, misma que resulta muy
comoda cuando la expresion a derivar es complicada.
38
Lo anterior puede, de hecho, constituir un problema


2.11. FORMAS FUNCIONALES Y ESPECIFICACION

121

2.11.2. El Modelo Log-Lin


Es posible que la transformacion adecuada para hacer lineal la relacion entre las variables no incluya a todas las variables. Ante esta eventualidad, nace la idea de solo
transformar una de las series. Empezaremos transformando u nicamente a la variable dependientemodelo log-lin. Teniendo en cuenta lo visto en la seccion anterior,
resulta muy facil intuir la forma del modelo Log-lin. Su justificacion obedecera a
especificaciones de la forma:
yt = exp ( + xt + ut )
Resulta obvio que, al aplicar logaritmos a esta u ltima, obtenemos:
ln (yt ) = + xt + ut
Una vez mas, intentemos extraer de esta especificacion una formula para la elasticidad entre y y x. Empecemos con la derivada:
ln yt
=
xt
Y completemos con la regla de la cadena:
ln y
ln y y
=
x
y x
1 y
=
y x
Al igualarlo con el resultado anterior, obtenemos
1 yt
=
y xt
Dicha expresion, no corresponde aun a la formula de la elasticidad; para ello, habra
que multiplicar por x. Se nos presentan dos opciones:
1. Multiplicar por xt :

xt yt
= xt
y xt
xt y/x

122

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION
En este caso obtendramos una elasticidad que se va modificando conforme
la variable x evoluciona.

2. Multiplicar por x:

x yt
= x
y xt
x y/x
Con ello obtendramos un promedio para todo el perodo de la elasticidad.
xt yt
yt xt
Podemos encontrar una elasticidad para cada observacion.
xt =

t
yt /xt = x

2.11.3. El Modelo Lin-Log


se derivara de un modelo de la
La transformacion opuesta tambien es factible. Esta
siguiente naturaleza:
exp (yt ) = 0 0 exp (ln xt ) exp (ut )
ln exp (yt ) = ln [0 0 exp (ln xt ) exp (ut )]
yt = ln 0 + ln 0 ln xt + ut
| {z } |{z}

= + ln xt + ut

Se calcula, otra vez, la derivada y se iguala con el resultado de aplicar la regla de la


cadena y se obtiene:
x

yt
=
xt

En esta ocasion, para obtener la elasticidad, hay que multiplicar, ya sea por y1t o bien
por y1 segun se desee una elasticidad cambiante o en promedio, respectivamente.


2.11. FORMAS FUNCIONALES Y ESPECIFICACION

y/x =

yt

123

V ariante
P romedio

2.11.4. El Modelo Recproco


El modelo recproco, como su nombre lo indica, se especifica de la siguiente manera:
1
+ ut
xt
Si bien la relacion entre las variables x y y no es lineal, el modelo que las une
s lo es y por consiguiente, se vuelve susceptible de ser estimado por MCO. Una
caracterstica importante de este modelo es que, conforme la variable independiente
aumente, el termino x1t tendera a cero. Lo anterior implica que, para valores sua
ficientemente grandes39 de xt , yt = . La utilidad de este tipo de especificacion
quiza no sea evidente, no obstante, no resulta muy difcil pensar en relaciones de
variables que funcionen as. Un extraordinario ejemplo de tal tipo de relacion puede encontrarse en la relacion que parecen guardar el PIB per capita por un lado y
la esperanza de vida (lo mismo pordra decirse si sustituimos esta u ltima variable
por mortalidad infantil, tasa de fertilidad, numero de telefono por cada 100 habitantes. . . ).40
Desarrollemos un ejemplo sencillo para ver esta relacion. aprovecharemos dicho
ejemplo para hablar un poco mas de la cuestion relativa a la modelizacion econometrica: Esperanza de vida e Ingreso per capita (Datos de 2007).41 Retomemos
nuestro ejemplo (visto al principio) referente a la relacion entre ingreso per capita y esperanza de vida. Obtuvimos evidencia grafica de tal relacion. Recordamos
asimismo que no se ha mencionado la palabra C AUSALIDAD , sino simplemente
. Nuestro diagrama de dispersion era:
R ELACI ON
yt = +

Note como la tendencia positiva en la relacion es ahora mas obvia. Tambien resulta
mucho mas obvio que la lnea es incapaz de pasar por todos los puntos (dejara de
39

Hacemos caso omiso del termino de error por un momento.


Otro ejemplo tpico de relaciones inversas puede encontrarse en la literatura de relativa a la
Curva de Phillips.
41
Medida en Paridad Poder de Compra, PPC.
40

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

Esperanza de Vida (medida en aos)

124
85

80

75

70

65

60

10,000

20,000
30,000
Ingreso per cpita (medido en Dlares PPP)

40,000

50,000

Figura 2.15: Ingreso per capita y esperanza de vida en 220 pases (excepto algunos
en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook.
ser una lnea, claro esta). Esto resulta de que nuestro analisis es, muy probablemente, incompleto. La educacion y el presupuesto de cada gobierno destinado a salud
podran ser otras dos variables de suma importancia que valdra la pena considerar.
No obstante, aun incorporandolas el ajuste no sera perfecto, ni mucho menos. Las
causas que explican la esperanza de vida son, si bien no infinitas, s muchas. No
podemos esperar incorporarlas todas. Ademas, no todas son tan importantes; la incidencia de algunas de ellas es marginal. Podramos tratar de encontrar un equilibrio
en el que el grueso del comportamiento de la esperanza de vida este:
explicado con relativamente pocas variables (3 o 4)y que lo que falte incida
poco:
ligeras desviaciones de la recta, unas arriba otras abajo, de manera balanceada;
todas a mas o menos la misma distancia de dicha recta;
errores sin ningun patron particular.
Estas tres caractersticas son, de hecho, objeto de mucho estudio. Sus nombres tecnicos ya los conocemos, de hecho; son: (i) Correcta especificacion del modelo; (ii)


2.11. FORMAS FUNCIONALES Y ESPECIFICACION

125

Esperanza nula del termino de error; (iii) Homoscedasticidad, e; (iv) independencia.


yt = + xt + ut
El hecho es que con datos disponibles obtenemos lo siguiente:
t + ut
yt =
+ x
Los resultados numericos de dicha estimacion son:
yt = 62.78 + 0.0004xt
Note que no se incluye el termino de error, dado que hay uno distinto para cada
observacion y no es relevante indicar alguno en particular. Que nos dice esta ecuacion? Pues basicamente que, cuando el ingreso es muy bajo, la esperanza de vida
sera de aproximadamente 63 anos. De igual forma, por cada dolar adicional que se
obtenga de ingreso, la esperanza de vida aumenta en 0.0004 anos, es decir: 3 horas
con 30 minutos. Ello permite inferencia muy interesante: Si el ingreso de Mexico
aumentara de 12, 500 dolares a 15, 000, podramos esperar que la esperanza de vida
creciera en un ano, para situarse en 76.63 anos.
Todo este analisis, si bien es sencillo, parece adecuado. Pero tiene deficiencias obvias. As como esta planteado el modelo, existen implicaciones completamente inverosmiles. Por ejemplo, un pas con un ingreso per capita de 150, 000 dolares
debera tener una esperanza de vida cercana a... 122.78 anos! Resulta obvio que,
al menos actualmente, un pas no puede esperar que su poblacion sea tan longeva.
El aumento del ingreso per capita no puede tener siempre el mismo efecto sobre la
edad esperada. Al contrario: entre mas rica sea una poblacion, un aumento de su
ingreso incidira cada vez menos sobre su esperanza de vida: a esto le podramos
llamar:
R ENDIMIENTOS D ECRECIENTES M ARGINALES
Podramos tratar de arreglar eso Que les parece la siguiente especificacion?
yt = +

1
+ ut
xt

Supongan que < 0. Cuando aumenta el ingreso, x1t disminuye; al multiplicarlo


por nuestro parametro negativo, la resta se hara mas chica. Si lo estimamos as,
obtendramos, de hecho:

LINEAL SIMPLE

CAPITULO
2. EL MODELO DE REGRESION

126

1
xt
Esto nos da resultados mas logicos. Por ejemplo, segun nuestro modelo, un pas
como Mexico debera tener una esperanza de vida cercana a 72.6 anos, mientras
que un pas con un ingreso muy alto no podra esperar a tener una esperanza de
vida mayor a 74 anos. Evidentemente este modelo tambien tiene limitaciones; hay
muchos pases con esperanzas superiores a esos 74 anos; no obstante, es posible
que esos anos adicionales no provengan de un alto ingreso, sino mas bien de otras
cuestiones, tales como el sistema de salud, la condicion de equidad de genero, la
educacion, etc...
He aqu otro ejemplo sencillo de relacion inversa. Se trata de Argentina, con datos
de 1989 al ano 2000.42
yt = 73.92 16, 400

2.5

3.5
0.22

0.23

0.24

0.25

0.26

0.27

0.28

0.29

0.3

0.31

0.32

Figura 2.16: Tasa de analfabetismo vs PIB per capita (invertido) en Argentina.


Note que es posible hacer combinaciones del modelo inverso con las especificaciones logartmicas. Lo anterior da pie a relacionesentre variablesen extremo
no-lineales, pero susceptibles de ser modeladas mediante MCO.

42

Fuente: Oxford Latin American Economic History Database.

Captulo 3

El Modelo de Regresion Multiple


La primera parte del curso ha sido desarrollada mediante un modelo de regresion
con una sola variable explicativa. Este u ltimo permite presentar los resultados mas
importantes en un marco sumamente sencillo. Tenemos una idea clara de las propiedades del metodo de estimacion, as como de sus caractersticas y sus ventajas y
del uso que le podemos dar. No obstante, resulta evidente que las especificaciones
susceptibles de ser u tiles en economa aplicada rara vez son tan sencillas. A partir de
aqu iniciaremos la generalizacion de MCO al permitir mas variables explicativas.
As podremos usar MCO para estimar relaciones mas complejas y/o especificaciones mas sofisticadas. Conviene aclarar desde un principio que T ODOS los resultados
antes vistos siguen siendo validos en el modelo general.

3.1.

La especificacion del modelo de regresion multiple

Cuando se presento el modelo con una sola variable explicativa quiza se pudo vislumbrar que hacer lo mismo en un modelo mas grande sera, si bien no mas complicado, s exageradamente mas tedioso de resolver. Por eso, habremos de continuar
nuestros desarrollos cambiando la notacion, de tal suerte que todo quede expresado
en terminos de matrices. Como veremos paulatinamente, ello facilita enormemente
algunas operaciones. Sea el modelo de regresion multiple:
yt = 1 + 2 x2t + 3 x3t + ... + K xKt + ut
Donde, como siempre:
127

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

128

1. yt es la variable explicada.
2. 1 es el intercepto u ordenada en el origen.
3. xit son variables explicativas, i = 1, 2, 3, . . . , K.
4. i son los parametros asociados a tales variables, i = 2, 3, 4, . . . , K.
5. ut es el termino de error.
Los supuestos tambien son los mismos; no obstante, uno de ellos requiere una aclaracion adicional, una clausula tecnica adicional:
:La relacion entre las variables explicativas,
1. C ORRECTA E SPECIFICACI ON
Xs, y la dependiente, Y , es lineal y esta dada por la especificacion.
, NO EXIS 2. O RTOGONALIDAD :Las x son variables no-estocasticas.1 A DEM AS

TE UNA R ELACI ON L INEAL ENTRE D OS O M AS VARIABLES E XPLICATI VAS ..2


3. La esperanza del termino de error es nula.3
4. H OMOSCEDASTICIDAD :El termino de error tiene varianza constante.
:Los errores son independientes entre s.
5. N O - AUTOCORRELACI ON
6. N ORMALIDAD :El termino de error esta distribuido Normalmente.
7. E STACIONARIEDAD :Todas las variables son estacionarias.
La obtencion de los parametros requiere el mismo proceder que antes, a saber, minimizar la suma de residuales al cuadrado.4
ut = yt 1 2 x2t . . . Kt xKt
2
X
X
u2 =
yt 1 2 x2t . . . Kt xKt
t

Sobre este supuesto aplica la misma advertencia que en el modelo univariado; se trata de una
version didactica del supuesto Cov(xt , ut ) = 0.
2
Esta es la clausula tecnica referida anteriormente. No se trata propiamente de un supuesto, sino
de una caracterstica que deben poseer las variables explicativas.
3
De ello se deriva que: E(X U ) = X E(U ) = 0.
4
Todas las sumatorias van desde 1 hasta T excepto si se indica lo contrario.

DEL MODELO DE REGRESION


MULTIPLE

3.1. LA ESPECIFICACION
129
Tendramos que calcular K derivadas5 y resolver, en consecuencia, un sistema con
K incognitas. Lo anterior, hecho con esta notacion escalar resultara muy tedioso,
y francamente difcil si el numero de parametros, K, es muy grande. De ah la
conveniencia de pasar todo a notacion matricial.6

y1 = 1 1 + 2 x21 + . . . + K xK1 + u1
y2 = 1 1 + 2 x22 + . . . + K xK2 + u2
y3 = 1 1 + 2 x23 + . . . + K xK3 + u3
..
.
yT = 1 1 + 2 x2T + . . . + K xKT + uT
Usando notacion matricial, esto se vera as:
Y = X + U
Donde:

y1
y2

Y = ..
1. La variable explicada |{z}
.
T 1

yT

1 x12
1 x22

2. Las variables explicativas |{z}


X = ..
..
.
.
T K
1 xT 2

1
2

3. Los parametros = ..
|{z} .
K1

5
6

. . . x1K
. . . x2K

..
...
.
. . . xT K

Una con respecto a cada parametro, incluyendo la constante.


Note que x1t es un vector-columna de T 1; eso autoriza la presencia de una constante.

130

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

u1
u2

4. El termino de error |{z}
U = ..
.
T 1

uT

3.1.1. Reglas del calculo matricial y la manipulacion de matrices


Si bien esto no pretende ser un formulario exhaustivo respecto a las operaciones matriciales, ni mucho menos, s mostraremos aquellas cuya utilizacion sera frecuente
en las proximas paginas:
1. Matrices traspuestas: sean A, B, y C tres matrices o vectores tales que el
siguiente calculo sea posible: (A BC) = A C B
2. Sumas cuadraticas: sea D un vector T 1; si queremos la suma de los elementos de D al cuadrado, debemos premultiplicarlo por la traspuesta:

D1

 D2


D D = D1 D2 . . DT .. Lo anterior equivale a:
.
DT
X
D12 + D22 + ... + DT2 =
Dt2

3. Calculo infinitesimal: sea X una matriz (T K), A un vector (K 1) y Y


un vector (T 1), entonces:
A X Y
= X Y
A
A X XA
= 2X XA
A

4. Matrices inversas: la matriz (X X)1 existe si y solo si X X es una matriz


cuadrada definida positiva: X X tiene rango completoen nuestro caso es
K 7 y su determinante es distinto de cero.
7

Todas las columnas y todos los renglones son linealmente independientes entre s. Lo anterior
se vera con mas detalle en la seccion dedicada al problema de multicolinealidad.

DEL MODELO DE REGRESION


MULTIPLE

3.1. LA ESPECIFICACION
131

3.1.2. Optimizacion
Ahora s, volviendo a nuestro problema de minimizacion de cuadrados, es necesario
definir la suma de los errores:

U = Y X
U U = (Y X) (Y X)

Teniendo ya la suma del termino de error al cuadrado definida, podemos proceder a


su minimizacion. Derivemos partiendo de la expresion que vamos a estimar:

Y = X + U
U = Y X

 

U U = Y X
Y X

= Y
Y Y X X Y + X X
|{z}
| {z } | {z } | {z }
11

11

11

11

= Y Y 2 X Y + X X

Y .8 Ahora ya podemos optimiEn el u ltimo paso, asumimos que Y X = X


zar: basta con utilizar las reglas antes explicitadas para obtener nuestras derivadas
parciales:

U U

Y Y 2 X Y + X X


= 2X Y + 2X X

Ya solo falta igualar a cero (as, nos deshacemos del 2, que podemos factorizar):
8

Cortesa de Laura Gasca Tovar: tanto Y X como X Y son escalares, por lo que se infie
re que estamos lidiando con matrices de 1 1. Observamos tambien que (Y X) = X Y ;
as pues, una expresion es la traspuesta de la otra. Sabiendo que se trata de un escalar (simetrico por
definicion), resulta obvio que arrojan lo mismo.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

132

X Y + X X = 0
(X X) = X Y
= (X X)1 X Y
Esta u ltima formula es tan importante y recurrente, que bien vale la pena recordarla.
Muchos estimadores, que estudiaremos posteriormente, estan derivados de e sta.
= (X X)1 X Y

Un primer resultado, copia del que ya habamos inferido para el caso univariado,
puede ser obtenido facilmente:
X U =
=
=
=
=

X (Y X )
X Y X X
X Y (X X)(X X)1 X Y
X Y X Y
0

Al igual que antes, el metodo de MCO hace de los residuales estimados una variable
sin relacion con las explicativas. Aqu conviene recordar el segundo supuesto, el de

ortogonalidad. Este
implica que el termino de error debe ser independiente de las
explicativas. Justamente, como MCO fuerza los residuales estimados a ser independientes con respecto a las variables explicativas, no es posible probar directamente
si la especificacion es la correcta.

3.1.3. Propiedad de No-Sesgo de los estimadores y Varianza


Esperanza de los residuales
Utilizando la notacion matricial, demostrar que los parametros estimados son insesgados es sumamente facil; tan solo requerimos dos expresiones, la especificacion y
la formula de los estimadores:

DEL MODELO DE REGRESION


MULTIPLE

3.1. LA ESPECIFICACION
133
1. Y = X + U
2. = (X X)1 X Y
As pues, tomando la segunda y reemplazando Y por la especificacion:9
= (X X)1 X (X + U )
= (X X)1 X X + (X X)1 X U
= + (X X)1 X U
Empleamos el operador esperanza...
= + (X X)1 X E(U )
E()
= +0

E() =
Para calcular las varianzas de los estimados, se requiere un pequeno apartado:
La Matriz de Varianza Covarianza de los residuales
Obtener la matriz senalada en el ttulo de esta subseccion requiere, en primera instancia, saber como construirla. Como bien indica su nombre, en esta matriz deben
aparecer las varianzas de todo ut para todo t = 1, 2, . . . T as como todas las covarianzas posibles:

u1
u2 


E(U U ) = E .. u1 u2 . . . uT
.

uT

u21
u1 u 2 . . . u 1 u T
u2 u 1
u21 . . . u2 uT

= E ..
..
..
.
.
.
.
.
.
uT u1 uT u2 . . . u2T

Que asumimos correcta.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

134

Si aplicamos los supuestos Numero Cuatro y Cinco, las esperanzas a calcular resultan obvias:

2 0
0 2

E(U U ) = E ..
..
.
.
0 0

...
...
...

0
0

..
.

. . . 2

= 2 IT

donde IT es una matriz identidad de dimension T T .


La Varianza de los Estimadores
Los dos apartados anteriores nos permiten obtener la varianza de los estimadores
rapidamente. Del calculo de la esperanza de e stos, retomamos = +(X X)1 X U .
Manipulando... = (X X)1 X U . Ahora bien, anteriormente habamos calculado las varianzas de
y de as como la covarianza entre ambos. Ahora que
tenemos K parametros estimados, habra K varianzas y... un gran numero de covarianzas:10

K1
X
i=1

K i = K (K 1)


1
(K 1)2 + K 1
2


1 2
K +12K +K 1
2


1
= K2 K K2 K
2

1
=
K2 K
2
= K2 K

Nuevamente conviene dejarlas todas en una matriz: M ATRIZ DE VARIANZA -C OVARIANZA


DE LOS E STIMADORES .
PT
El desarrollo de la suma i=1 i se debe a Carl Friedrich Gauss (1777-1855), quien la presento
a los ocho anos, a su maestro. Este u ltimo haba encargado sumar todos los numeros del uno al cien.
10

DEL MODELO DE REGRESION


MULTIPLE

3.1. LA ESPECIFICACION
135

i
h
= E ( )( )
V ar()
h
i
= E (X X)1 X U (X X)1 X U
V ar()
=
=
=

V ar() =

(X X)1 X E(U U )X(X X)1


(X X)1 X 2 IX(X X)1
2 (X X)1 (X X)(X X)1
2 (X X)1

Por que la inversa de una matriz simetrica tambien es simetrica? En este


apartado mostraremos que si una matrizcuadradaes igual a su traspuesta, A =
A , entonces la inversa de dicha matriz tambien posee esa propiedad:
A1 = (A1 )
Para hacer mas u til esta demostracion, utilizaremos la matriz cuya inversa aparece
recurrentemente; de hecho, vamos a mostrar primero que (X X) siempre es simetrica y luego que su inversa tambien lo es. Lo primero es familiarizarse con la estructura de dicha matriz:

(X X)

def

... 1
1 x12 . . .
1 x22 . . .
. . . xT 2

1 x32 . . .
. . . xT 3

..
...

...
. 1 ...
.
1 xT 2 . . .
x1K x2K . . xT K

P
P
T
x
.
.
.
x
2t
Kt
P 2
P
P x2t
x
.
.
.
x2t xKt
2t

P
P
P

x3t
x
x
.
.
.
x
x
2t
3t
3t
Kt

..
..
..
...

.
.
.
P
P 2
P
x2t xKt . . .
xKt
xKt

1
x12

x13
.
.
.

1
x22
x23
..
.

x1K
x2K

x3K

..
.
xT K

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

136

Tan solo con ver como esta conformada la matriz X X, resulta facil adivinar su
simetra. La demostracion, de hecho, es trivial. En primera instancia, definamos lo
que se entiende por simetra. Una matrizcuadradaA es simetrica s:
A = A
En el caso que nos interesa, X X, veremos que la simetra se da por construccion.
Recordemos que X es una matriz de T K. Entonces, X X sera de K K. Si la
trasponemos...

= (X) (X )
= X X

X X = (X X)

(X X)

As queda demostrada la simetra de la matriz X X. Sabiendolo, ahora podemos


proceder a mostrar que la inversa tambien es simetrica.
Como es sabido una matriz, multiplicada por su inversa, nos arroja una matriz identidad:
A A1 = Ik

Si tomamos traspuestas de la expresion anterior:


(A1 ) A = Ik

Pasando al elemento que esta postmultiplicando del otro lado y recordando que la
matriz A s es simetrica...
(A1 ) = (A )1
(A1 ) = A1
queda la simetra de dicha matriz demostrada.

3.2.

Teorema de Gauss-Markov

El estimador de MCO, = (X X)1 X Y es MELI, es decir: M EJOR ESTIMA DOR L INEAL E I NSESGADO . Lo anterior quiere decir que la diferencia
entre la ma 
triz de varianza-covarianza de los estimadores de MCO, var y la de cualquier
 
otro estimador lineal e insesgado, var resultara en una matriz semi-definida
positiva, que es, en notacion matricial, el equivalente a una suma mayor o igual a
cero en nuestra notacion anterior.

3.2. TEOREMA DE GAUSS-MARKOV

137

3.2.1. Demostracion
Dado que debe ser un estimador lineal
Imaginemos un estimador alternativo, .
e insesgado, tambien debe ser, como en el caso del estimador de MCO, una combinacion de la variable Y :
= AY
Donde A es, como anteriormente, una matriz compuesta de elementos no-estocasticos. Para poder hacer comparaciones con el estimador de MCO, debemos incorporar de alguna manera a e ste en la formula anterior. Lo mas facil, como siempre, es
sumarlo y luego restarlo:
i
h
1
1
= (X X) X Y + A (X X) X Y
|
{z
}
C

= (X X) X Y + CY
h
i
1
= (X X) X + C Y

(3.1)

Comentario 2 Resulta relevante constatar que los terminos que aparecen en la


parte derecha de la ecuacion (3.1) son independientes entre s:
h

E (X X)

X YY C

= E

h

+ (X X)

XU Y C

Reemplazando Y por la especificacion11 y desarrollando:

h
1
= E X C + U C + (X X) X U X C + . . .
i
1


. . . (X X) X U U C
Mas adelante se demuestra que CX = 0 (y que por tanto X C = 0); ademas, como
que E(U ) = 0, podemos eliminar los terminos que son cero y tambien los que de
11

.
Implcitamente estamos haciendo uso del primer supuesto: C ORRECTA E SPECIFICACI ON

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

138

todas formas se iran al aplicar el operador esperanza. En realidad, no queda gran


cosa:
h

E (X X)

X YY C

= (X X)

X E (U U ) C

= 2 (X X)


|X{zC}
=0

= 0

(tengan en mente la ecuacion


Este resultado indica que nuestro nuevo estimador ,
mas un componente aleato3.1) no es otra cosa sino el estimador de MCO ()
rio, CY , no relacionado con e ste u ltimo. Lo anterior practicamente demuestra el
teorema de Gauss-Markov, dada una de sus implicaciones sobre la varianza del
estimador: cualquier estimador lineal e insesgado es igual al de MCO mas un elemento cuya esperanza evidentemente es cero (si no, no podra ser insesgado) pero
no as su varianza (y es lo que lo hace mas ineficiente).
Si retomamos la ecuacion (3.1) y reemplazamos Y por la verdadera especificacion
(y desarrollamos):
=

(X X)

i
X + C (X + U )

= + CX + (X X)

X U + CU

Recordemos que el teorema de Gauss-Markov estipula que los estimadores deben


e ste resulte justamente insesgado,
ser insesgados. Para que al sacarle esperanza a ,
es necesario que CX = 0. Lo anterior nos deja con:
1
= + (X X) X U + CU

(3.2)

Que, al sacarle esperanza,12


 
1
E = + (X X) X E (U ) + C E (U )
=

12

Es posible sacar a C del operador esperanza puesto que esta compuesto por X, que es no estocastica y por A, que es la matriz de ponderadores; e sta tambien debe ser no-estocastica, como en
MCO.

3.2. TEOREMA DE GAUSS-MARKOV

139

Queda claro que el estimador alternativo es insesgado (as se requiere). Ahora s toca
el turno a su varianza:

 
 
 

var = E
Reemplazamos por la expresion (3.2) convenientemente reacomodada:

 

 
1
1

V ar = E (X X) X U + CU (X X) X U + CU
= 2 (X X)

+ 2 CC

(3.3)

En el caso anterior (regresion univariada), nos habamos topado con que la varianza
del estimador alternativo tambien era igual a la de MCO mas un elemento mayor o
igual a cero, con lo que quedaba demostrado que no exista un estimador de menor
varianza que el de MCO. En este caso, habra que demostrar que CC siempre es
positiva o igual a cero. Al tratar con matrices, esta propiedad es referida como
matriz semidefinida positiva. Si CC es, en efecto, una matriz semidefinida positiva, el teorema estara demostrado. De hecho, afortunadamente, dicho resultado ya
existe, y esta plasmado en el siguiente teorema.
Teorema 8 Sea C una matriz de rango completo, de dimensiones T K. Entonces
C C es una matriz definida positiva y CC es una matriz semidefinida positiva.
El teorema anterior nos dice que la matriz se sumara a la varianza del estimador de
MCO (o en el peor de los casos, no agregara nada, pero tampoco restara) por lo
que queda demostrado que MCO provee los estimadores mas eficientes, como en el
caso de una sola variable explicativa.
Para entender mejor la demostracion, es importante primero recordar algunas cuestiones sobre las matrices.13 En muchos problemas de optimizacion, la funcion objetivo a maximizar (minimizar) tiene la siguiente forma:

q =

T X
T
X

xi xj aij

i=1 j=1

13

Esta explicacion esta basada en la provista por el libro Econometric Analysis de William H.
Greene (1997), 3a edicion.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

140

La ecuacion anterior es lo que se denomina una F ORMA C UADR ATICA


y puede
expresarse en forma matricial:

q = x Ax

donde A es una matriz simetrica (y por ende, cuadrada). Es posible que q sea positivo, negativo o nulo, todo depende de los valores de la matriz A y de x. No obstante,
existen matrices A tales que, independientemente de x 6= 0, hacen que el valor de q
siempre sea negativo (o siempre sea positivo, o siempre sea no negativo). De hecho,
existe una clasificacion:

1. Si x Ax > 0 para todo x 6= 0, entonces se dice que A es definida positiva


2. Si x Ax < 0 para todo x 6= 0, entonces se dice que A es definida negativa
3. Si x Ax 0 para todo x 6= 0, entonces se dice que A es semi-definida positiva
4. Si x Ax 0 para todo x 6= 0, entonces se dice que A es semi-definida
negativa

3.2.2. Intuicion
Recuerdese que las varianzas quedan definidas en la diagonal de la matriz. En el
caso de la formula expresada en la ecuacion (3.3), las varianzas del nuevo estimador,
seran, al final de cuentas, el resultado de sumar los elementos de la diagonal
de 2 (CC )1 con los de la matriz 2 (X X)1 . La varianza de tales estimadores
solo podra ser menor a la de los de MCO si los elementos de la diagonal fueran
negativos. Ahora bien, es facil ver que la matriz C tiene las dimensiones K T .
Independientemente de cual es el valor de los elementos que la componen, su forma
sera la siguiente:

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR

C11
C21

C = ..
.
C

C12
C22

141

. . . . . . C1T
C2T

..
...
.

CK1 CK2 . . .

CKT

C11 C21 . . . CK1


C12 C22
CK2
.
..
...

.
= ..
.
..
..
.
C1T C2T . . . CKT

Al multiplicarlas, CC , no es difcil adivinar como son los elementos diagonales:

CCii

T
X

Cij2

j=1

donde i = 1, . . . , K. Todo esto redunda en lo siguiente: sean cuales sean los valores
que conforman la matriz C, los elementos de la diagonal de la matriz CC son
el resultado de una suma de cuadrados. Dichas sumas solo pueden ser positivas o
biensi los elementos que la componen son todos nulosiguales a cero. De lo
son iguales
anterior se deriva que las varianzas de los estimadores alternativos ()
a las varianzas de los estimadores de MCO mas algo que solo puede ser positivo o
nulo. Por ende,
 
 
var i var i i = i, . . . , K

3.3.

Estimador Insesgado de la Varianza del Error

Como en la primera parte del curso, uno de los elementos mas importantes a desarrollar es el estimador de la varianza del error,
2 . Al igual que antes, una vez obtenida su formula, procederemos
a verificar que el estimador es insesgado. Recordemos
P 2
Ut
que en el modelo simple T 2 = 2 y tambien que E(
2) = 2.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

142

Para obtener el equivalente de estas expresiones en el modelo multivariado, requeriremos de algunas expresiones de referencia. Para empezar, identificaremos en nuestros calculos una matriz que nos resultara sumamente u til. Recordemos lo visto
hasta ahora:

3.3.1. Una matriz idempotente muy util


1. El estimador:
1
= (X X) X Y

2. El residual estimado:
U = Y X
3. combinando estas u ltimas dos expresiones:
U = Y X(X X)1 X Y
4. Factorizando Y:
U =


I X(X X)1 X Y
|
{z
}
Mx

La matriz Mx = I X(X X)1 X pronto lo veremosresulta ser una matriz en


extremo interesante. Entre sus propiedades destacan las siguientes:
1. Simetra:
Mx = Mx

I X(X X)1 X = I X(X X)1 X
= I X (X X)

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR

143

2. Idempotencia:
Mx Mx = (I X(X X)1 X )(I X(X X)1 X )
= I X(X X)1 X X(X X)1 X + . . .
. . . X(X X)1 X X(X X)1 X
= I 2X(X X)1 X + X(X X)1 X
= I X(X X)1 X
= Mx

3. Ortogonalidad con las columnas de la matriz X:


Mx X = 0

= I X(X X)1 X X
= X X
= 0

4. Presentacion de algunos resultados:


U = Mx Y
U X = Y Mx X
= 0
Lo primero que haremos con esta nueva matriz es identificar la relacion existente
entre los residuales estimados y los verdaderos. Esto, nuevamente, nos sera u til
posteriormente:
U
U
U
U

=
=
=
=

Mx Y
Mx (X + U )
Mx X + Mx U
Mx U

(3.4)

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

144

3.3.2. La varianza del error


Por fin podemos dedicarnos a lo que interesa,
2 . Para empezar, construiremos la
variable relevante, que no es otra sino la suma de los errores estimados al cuadrado.
Como quiza algunos han intudo, haremos uso de nuestra nueva matriz Mx :
X

u2t = U U
= U Mx Mx U

Aprovechando el resultado expuesto en la ecuacion (3.4) y tambien de la indempotencia de la matriz Mx , podemos simplificar la expresion y posteriormente calcular
su esperanza:
E(U U ) = E(U Mx U )
Lamentablemente, los pasos siguientes exigen el conocimiento de algunas propiedades adicionales de las matrices. En particular, necesitamos saber que es la traza
de una matriz y cuales son sus propiedades.
La traza de la matriz Lo primero es definir que es la traza:
Definicion 10 Traza: es la suma de todos los elementos diagonales de una matriz cuadrada. Sea A una matriz K K cuyo elemento n-esimo renglon, m-esima
columna sea anm . Entonces, su traza es:
tr (A) =

K
X

aii

i=1

Las propiedades de la traza pueden llegar a ser bastante sorprendentes. Sea c una
constante y A, B, C, D matrices tales que dim (AB) = K K, dim (AC) = K
K, dim (AD) = K K y b un vector T 1. Entonces:
1. tr (cA) = c tr (A)
2. tr (A ) = tr (A)
3. tr (A + B) = tr (A) + tr (B)
4. tr (IK ) = K

3.3. ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR

145

5. tr (AB) = tr (BA)
6. Generalizando:
tr (ABCD) = tr (BCDA)
= tr (CDAB)
= tr (DABC)

7. b b = tr (b b) = tr (bb )
Ahora s, ya podemos retomar nuestro calculo de la varianza del error. Recordemos
que U es un vector T 1:


U U = tr U U
Podemos aprovechar lo anterior,



E U U
= E (U Mx U )
h
i

E UU
= E [tr (U Mx U )]
As expresada la varianza, no podemos sacar esperanza, puesto que los vectores U
del termino de error no estan juntos. Por eso, tomando ventaja de las propiedades
de la traza, permutamos y calculamos esperanza...
E(U U ) =
=
=
E(U U ) =

E [tr (Mx U U )]
tr [Mx E (U U )]

tr Mx 2
2 tr (Mx )

Si sacamos del operador esperanza a la matriz Mx es porque e sta se compone de


variables xi , que por supuesto no son estocasticas. Reemplazamos Mx por lo que
vale y simplificamos:

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

146

h
i
1
tr (Mx ) = tr IT X (X X) X
i
h
1

= tr (IT ) tr X (X X) X
h
i
1
= T tr (X X) X X
= T tr [Ik ]
= T K

Retomando la expresion original de la varianza...

E(U U ) = 2 (T K)
Nos damos cuenta que, para que el estimador de la varianza sea insesgado, debe ser
normalizado por T K.

U U
T K

= 2

Con esto queda demostrado que


2 =

U U
T K

es un estimador insesgado de 2 :


E
2 = 2

3.4.

Bondad del ajuste

Las medidas de bondad del ajuste no varan de manera importante al generalizar


el modelo y por lo mismo, nos limitaremos a expresar las formulas importantes en
la notacion matricial que ya ahora nos debe resultar familiar. No obstante, al haber
mas parametros con base en los cuales hacer inferencia, se abre una perspectiva
halaguena en lo que concierne a las pruebas de hipotesis. Esto se vera hasta el final
de la seccion. De momento, repasaremos los conceptos ya vistos antes con objeto
de confirmar lo aprendido.

3.4. BONDAD DEL AJUSTE

147

3.4.1. La R cuadrada
Empecemos recordando lo que vimos anteriormente:
Definicion 11 La formula que conocamos de la R2 es:
SCR
SCT
SCE
= 1
SCT
P 2
Ut
= 1 P
(yt Y )2

R2 =

Pasar las formulas anteriores a notacion matricial nos resultara mas facil si definimos el siguiente vector:
Sea

y1 y
y2 y

Yc = y3 y
..
.
yT y

Entonces, la formula de la R2 se convierte en:


R2 = 1

U U
Yc Yc

3.4.2. Inflacion de la R cuadrada y su version ajustada


La R cuadrada y la adicion de variables
Ahora bien, que ocurre si decidimos agregarle mas variables a la especificacion?
En el peor de los casos, las nuevas variables no tendran poder explicativo sobre
la variable dependiente; su inclusion sera poco mas que inutil. Al no agregar mas
poder explicativo, la R2 no debera cambiar. No obstante, recordemos que nuestro
metodo es estadstico y tiene un sustento probabilstico. Existe la posibilidad de que
las nuevas variables, aunque sea por azar, pueden explicar algunos movimientos de
Y ;en ese caso, por cuestiones meramente azarosas, que no economicas, podramos
obtener una R2 mas alta al incluir variables nuevas, aunque e stas no vengan al caso.
Jugando con esa posibilidad, una estrategiapoco atinada, aclaremossera la de

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

148

incluir muchsimas variables explicativas en la regresion; al final, lograramos mejorar la bondad del ajuste, aunque sea artificialmente.14 Incluir un numero grande
de variables explicativas terminara eventualmente subiendo la R2 , pero el modelo
dejara de ser parsimonioso y se convertira en un gigante con pies de barro y sobre
todo, en una herramienta sumamente inutil.
Intuicion En realidad, mostrar que la R2 crece, o se infla, a medida que le agregamos variables explicativas puede hacerse con relativa sencillez. Recuerde que el
metodo de Mnimos Cuadrados se obtiene de minimizar la Suma de Residuales al
Cuadrado, SCE:

mn SCE = mn

(yt Xt )2

(3.5)

donde Xt corresponde al vector-renglon que agrupa a las t-esimas observaciones


de las explicativas, Xt = [x1 , x2 , . . . , xk ]. Ahora imagine dos posibles regresiones.
Una de ellas A NIDA a la otra, es decir, incluye sus variables y otras mas:
1. Regresion anidada o restringida, K1 = 2: yt = + xt + ut
2. Regresion sin restricciones, K2 = 3: yt = + xt + zt + t
La primera regresion es, de hecho igual a la segunda, solo que incluye una restriccion: = 0. Al momento de obtener los estimadores, en ambos casos se minimizara
la SCE. Podramos escribir dicha minimizacion en la ecuacion (3.5). La matriz de
variables explicativas y el vector de parametros seran de dimensiones T K2 y
K2 1 respectivamente. Para trabajar con la especificacion restringida, solo habra
que senalar que 3 = 0 (es decir, lo restringiramos a ser cero) mientras que para
estimar la especificacion no-restringida, dejaramos libre dicho parametro. El valor
o ptimo de la funcion objetivo es debilmente menor conforme aumenta el numero de
variables explicativas puesto que, con estas nuevas variables se levantan restricciones y existe la posibilidad de encontrar un mnimo mas chico. En la formula de la

R2 , R2 = 1 YU UY , podramos entonces reducir U U , dejando inalterado todo lo


demas; la fraccion disminuira y por ende, la R2 aumentara.
14

Hay que recordar, no obstante, que las pruebas de significancia individuales limitaran en gran
medida dicha estrategia.

3.4. BONDAD DEL AJUSTE

149

Demostracion formal La demostracion formal de lo anterior es, hay que admitirlo, mucho mas elaborada. Trataremos de evitar las cuestiones demasiado tecnicas y
de hacerla lo mas fluida posible. Nuestra regresion multivariada se especifica y se
estima de la siguiente manera:
Y
Y

= X + U
= X + U

En dicha especificacion, hay K variables. El hecho es que podramos particionar


esas K variables de tal suerte que haya dos grupos, el primero incluyendo K1 variables y el segundo K2 , respetando obviamente la igualdad K1 + K2 = K. Al primer
grupo de variables lo representaremos en la matriz X1 (T K1 ) y al segundo X2
(T K2 ). Los parametros asociados a cada grupo seran 1 y 2 . Podramos entonces
especificar la siguiente ecuacion:
Y

= X1 1 + X2 2 + U,

(3.6)

cuya version estimada sera:


Y

= X1 1 + X2 2 + U .

(3.7)

El objetivo de hacer esta particion es representar la disyuntiva del econometrista al


decidir cuantas variables explicativas usar. Lo representado por esta u ltima ecuacion conlleva el mensaje siguiente: ajustar la regresion de Y en funcion solamente
de X1 o bien en funcion de X1 y X2 . Si nos inclinaramos por la primera opcion, ya
podramos elucidar los resultados, pues son los mismos de siempre; basta reemplazar 1 por y X1 por X. Dado que estamos corriendo una especificacion distinta a
por lo que le pondremos
la ecuacion (3.6), el estimador no sera necesariamente ,
Las formulas clasicas seran las siguientes...
otro nombre: .
Y = X1 1 +
1
= (X1 X1 ) X1 Y
= Y X1
i
h
1
= I X1 (X1 X1 ) X1 Y
= M1 Y

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

150

donde M1 es nuestra famosa matriz simetrica e idempotente. Dicha matriz tena una
serie de propiedades que nos resultaran u tiles. La primera, solo basta recordarla:
M1 X 1 = 0
La otra que utilizaremos resulta ser una propiedad muy curiosa, pues aplica, no a la
regresion restringida, sino a la no-restringida:
M1 U =

I X1 (X1 X1 )

i
X1 U

1
= U X1 (X1 X1 ) X1 U
|{z}
=0

= U

Si el u ltimo termino se hace cero, ello se lo debemos a la ortogonalidadya demostrada anteriormenteentre variables explicativas y residual estimado. As pues,
tenemos que:
M1 U = U
Retomemos ahora nuestra especificacion particionada (3.7) y multipliquemosla por
M1 :
M1 Y

= M1 X1 1 + M1 X2 2 + M1 U
| {z }
| {z }
=0

=U

= M1 X2 2 + U

Elevemos esta u ltima expresion al cuadrado (al estilo matricial):


(M1 Y ) (M1 Y ) =

M1 X2 2 + U

 

M1 X2 2 + U

Lo primero es recordar que M1 Y = 15 y que por tanto (M1 Y ) = . De ello


deducimos que,
(M1 Y ) (M1 Y ) = .
15

Los residuales estimados de la regresion restringida.

3.4. BONDAD DEL AJUSTE

151

Pero no es otra cosa sino la suma cuadratica de los residuales de la regresion


restringida, a la que podramos definir como:
def

= SCEY /X1
Ahora podemos continuar con el desarrollo:
SCEY /X1 = 2 X2 M1 X2 2 + 2 X2 M1 U + U M1 X2 2 + U U



= 2 X2 M1 X2 2 + 2 X2 U + 2 X2 U + U U
Nuevamente, la ortogonalidad entre explicativas y residual estimado simplifica la
expresion:
SCEY /X1 = 2 X2 M1 X2 2 + U U
Tambien, podemos deducir que U U no es otra cosa sino la Suma de Residuales al
Cuadrado de la regresion con todas las explicativas; la denominaremos:
def
U U = SCEY /X1 ,X2

retomando la expresion, tenemos lo siguiente:


SCEY /X1 = 2 X2 M1 X2 2 + SCEY /X1 ,X2
As, finalmente hemos obtenido una expresion que relaciona la Suma de Residuales
al Cuadrado de la regresion restringida con la SCE de la regresion no-restringida.
Cual es mas grande? Pues todo depende del signo del primer elemento en la parte
derecha de la ecuacion. supongamos que es mayor o igual a ceroporque de hecho
lo es. En ese caso, quedara muy claro que:
SCEY /X1 SCEY /X1 ,X2
Para mostrar lo anterior, hemos de concentrarnos en nuestra recurrente matriz simetrica e idemptotente, M1 . Tal matriz es un dechado de propiedades, entre las que destaca la siguiente:

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

152

Teorema 9 Sea M1 una matriz simetrica e idempotente y x un vector cualquiera


no-nulo. Entonces, M1 es semidefinida-positiva:
x M1 x 0
P RUEBA :16 recordemos que una matriz cuadrada, M1 , es idempotente si;
M1 = M12
Usemos pues nuestra matriz idempotente M1 de dimensiones K K. Como bien
sabemos, M1 es una matriz simetrica, porque es posible diagonalizarla:17
= P M1 P
donde P es la matriz de vectores caractersticoso eigenvectores de M1 y es,
claro esta, diagonal cuyos elementos son los eigenvalores de M1 :
P P = I
Si a la multiplicamos por ella misma:

2 =
=
=
=
=
=

(P M1 P ) (P M1 P )
P M1 P P M 1 P
P M1 IM1 P
P M12 P
P M1 P

Este desarrollo nos permite ver que si M1 es una matriz idempotente tambien lo es
. Pero sabemos que , es una matriz diagonal cuyos elementos son los eigenvalores
16

Cortesa de Fatima Castro.


Si acaso no lo recuerda, puede acudir a un libro de algebra matricial o encontrarlo en los apendices de los libros de econometra, como en el Hamilton(1994).
17

3.4. BONDAD DEL AJUSTE

11 0 . . .
0 22

= ..
...
.
0

153

0
0
..
.

. . . KK

Por lo tanto, 2 , es igual a:

211 0 . . .
0
0 2
0
22

= ..
..
...
.
.
2
0
0 . . . KK

No obstante, dado que es idempotente, 2 = . Ello implica que 11 = 211 , 22 =


222 , . . . , KK = 2KK . Los u nicos valores capaces de satisfacer: ii = 2ii i =
1, . . . , K son: ii = 0 o ii = 1 para toda i. Es sabido que U NA M ATRIZ CU YOS E IGENVALORES SON T ODOS M AYORES O I GUALES A C ERO ES S EMI D EFINIDA P OSITIVA. Entonces, dado que:
ii = 2ii

0
ii =
1
Dado que , es semi-definida positiva M1 tambien lo es puesto que comparten los
eigenvalores.
La aplicacion del teorema solo necesita reparametrizar momentaneamente X2 2
|{z} |{z}
T K2 K21

como x. Queda entonces claro, si empleamos el teorema 9, que el escalar...


2 X2 M1 X2 2 0
Ya nada mas queda recordar la formula de la R2 ,
R2 = 1

U U
Yc Yc

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

154

Es claro que, independientemente de la especificacion de la regresion, Yc Yc queda


inalterada. No obstante, si una especificacion incluye mas variables que otra, entonces, U U eventualmente se reducira; la fraccion tambien disminuira y, finalmente,
la R2 aumentara.
La R2 ajustada o centrada
Sera conveniente encontrar una prueba de bondad de ajuste sensible al numero
2 , ya
de parametros, de tal forma que penalice si hay demasiados; es la famosa R
comentada anteriormente:

2 = 1
R

U U
T K
P
(yt Y )
T 1

Es importante notar como, al incluir mas parametros, el numerador se hace mas


grande, lo que incrementa el cociente. El efecto final no tan claro, puesto que depende del cambio en U U . En este sentido, nos permitimos presentar un resultado
en extremo interesante:18
2 cuando se incluye una variable adicional a la regreTeorema 10 Cambio en R
2 disminuira (aumentara) cuando la variable x
sion: En una regresion multiple, la R
sea borrada de la especificacion s el estadstico t asociado a ella es mayor (menor),
en valor absoluto, a la unidad.
Este resultado implica que incluir variables estadsticamente significativas a la
regresion sera la u nica forma de aumentar la bondad del ajuste. Incluir variables
estadsticamente insignificantes, o mejor dicho, no venidas al caso disminuiran
2.
a la R

3.4.3. Descomposicion de la varianza por variable explicativa


La R2 es, pese a todas las crticas, una medida de bondad del ajuste global muy
socorrida. En textos de econometra mas viejos era mas comun encontrar lo que
DE LA VARIANZA POR VARIABLE E XPLI aqu llamaremos D ESCOMPOSICI ON
CATIVA . Como lo indica este nombre, se trata de cuantificar la aportaci
on de cada
18

Resultado no demostrado. Nuevamente, para una demostracion formal, buscar en Econometric


Analysis de William H. Greene (1997), 3a edicion.

3.4. BONDAD DEL AJUSTE

155

variable a la explicacion de la varianza de la dependiente. En otras palabras, si se


corre una regresion de y contra x1 y x2 , por ejemplo, y obtenemos una R2 de 0.9,
podramos saber que de ese 90 % de variabilidad explicada de y, el 35 % lo hace
x1 mientras que el restante 55 % corresponde a x2 . Si las variables explicativas fueran perfectamente ortogonales, es decir, perfectamente independientes la una de la
otra, entonces, calcular tales porcentajes sera en extremo facil. Podriamos correr
dos regresiones:
1. yt = 1 x1t + u1t
2. yt = 2 x2t + u2t
y recuperar en cada una la R2 , R12 y R22 . Si corrieramos una tercera regresion con
ambas variables explicativas, descubriramos que la R2 correspondiente sera la suma de las otras dos: R32 = R12 + R22 . Desgraciadamente esto no ocurre casi nunca en
la practica, puesto que las variables explicativas comparten parte de la informacion
que conllevan y no son perfectamente ortogonales entre s. Lo mas facil es verlo con
un D IAGRAMA DE V ENN. Si bien dicho Diagrama no es la manera mas correcta
de representar lo que ocurre en una regresion, si constituye una forma practica de
entender lo que ocurre (ver figura 3.1).
El problema radica en que parte del poder explicativo de las variables independientes es compartido entre ellas. Por esa simple razon, no es posible correr una
regresion con cada variable, recuperar la correspondiente R2 y lograr que la suma
de e stas sea igual a la medida de bondad de ajuste global. Es necesario acotar el poder explicativo de cada variable, aislarlo del de las otras. Si bien la demostracion no
es especialmente complicada, exige conocer la teoria relativa a los coeficientes de
correlacion parciales, que no hemos abordado. Por lo mismo, y dado que e ste no es
un tema fundamental, nos limitaremos a enunciar la forma de obtener la aportacion
individual a la bondad del ajuste sin entrar en explicaciones demasiado profundas.
Lo primero es incorporar una serie de conceptos nuevos.

Estandarizacion de los parametros


En muchas ciencias sociales y afines a la medicina, donde el analisis estadstico de
datos es tan frecuente como en economa, tambien se ensena el metodo de M CO.
Por lo general, el matiz es distinto. En muchos casos, los datos tienen su origen en
experimentos disenados19 por lo que el cumplimiento de los supuestos no resulta
19

Sobre todo en lo que concierne a la medicina.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

156

Varianza de y
Varianza de y
Varianza de x2

Varianza de x1

Varianza comun
de x1 y x2 que no

Varianza de x2.
Una parte explica a y

explica la de y
Varianza comun
de x1 y x2 que

Varianza de x1.

explica la de y

Una parte explica a y


0

0.2

0.4

0.6

0.8

Figura 3.1: Diagramas de Venn


una cuestion tan crtica como en econometra.20 Por lo mismo, se pone mas e nfasis,
desde un principio, en la interpretacion de los resultados. Claro que en econometra
tambien se hace, pero a la par que el cuidado por la satisfaccion de los supuestos. Algo que preocupa mucho a estos cientficos sociales es la interpretacion de
los parametros estimados; la preocupacion estriba en las unidades de medicion de
las variables utilizadas. Los economistas no se preocupan demasiado al respecto,
puesto que, por lo general, si vamos a utilizar los parametros estimados, solemos
aplicar los calculos necesarios para que nuestros parametros ya no midan cambios
en las unidades de las variables, sino en terminos porcentuales: calculamos elasticidades, pues. Digamos, por ejemplo, que estimamos la siguiente especificacion,
yt = + M M xt + ut , donde las unidades de x son miles de millones. Que pasara
con nuestro estimador de la pendiente si cambiamos las unidades de x a millones?
Bueno, cambiar la escala es muy facil, requiere multiplicar todos los datos por mil.
Hagamos que = 1000 y recuperemos momentaneamente nuestro estimador de la
pendiente de la seccion pasada:
Cov (xt , yt )
M M =
V ar (xt )
PT
) (yt y)
t=1 (xt x
=
PT
)2
t=1 (xt x

Es muy facil insertar nuestro cambio de escala en la expresion anterior para entender
20

En este sentido, pronto descubriremos que gran parte del esfuerzo en Econometra de destina a
proponer metodos para identificar y corregir los rompimientos de los supuestos.

3.4. BONDAD DEL AJUSTE

157

las consecuencias:

M =

PT

(xt x) (yt y)
PT
2
)2
t=1 (xt x

t=1

Dado que se trata de una constante, es posible sacarla de las sumatorias; al final,
quedara:
P
1 Tt=1 (xt x) (yt y)

M =
PT

)2
t=1 (xt x

= MM

En otras palabras, aumentarle tres ceros a las variables simplemente dividio el


parametro estimado por 1, 000. Evidentemente, las unidades en las que estan medidas las variables afectan el valor de los estimadores. Es por ello que, para evitarle
confusiones a un econometrista novel, conviene hacer que dichas unidades pierdan
relevancia. Una solucion, la de los economistas, es calcular elasticidades; la de otros
investigadores sociales es calcular C OEFICIENTES E STANDARIZADOS. Para esto,
es necesario saber que esos mismos investigadores llaman a los parametros estimados que hemos estado utilizando C OEFICIENTES EN B RUTO o R AW E STIMATES
en ingles. En una regresion multivariada, si i es el parametro asociado a la variable
explicativa xi , entonces, dicho estimado es llamado Coeficiente en Bruto, mientras

que a su transformacion xyi i se le denomina coeficiente estandarizado. El coeficiente en bruto mide el cambio en la variable yen unidades de e staante un
cambio unitario en xi , mientras que el coeficiente estandarizado mide el cambio en
y medido en desviaciones estandar ante el cambio de una desviacion estandar en xi .
Descomposicion de la R2
Esta transformacion lineal de los parametros no nos interesa en s gran cosa, pero
es el preambulo para descomponer la R2 y obtener la aportacion de cada variable
a e sta. En realidad, ya no hay mucho que hacer; basta con tomar los coeficientes
estandarizados y multiplicarlos por la correlacion entre la variable dependiente y
la explicativa que corresponda. Definamos Ri2 como la contribucion de la i-esima
variable explicativa a la R2 global; definamos tambien ryi como la correlacion entre
y y xi . Entonces:

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

158

Ri2

xi
=
i ryi

Para rematar esta seccion, pondremos un pequeno ejemplo para asentar este concepto. Suponga que estimamos la siguiente especificacion:
yt = + 1 xt1 + 2 xt2 + 3 xt3 + ut
La siguiente tabla resume toda la informacion que necesitamos:
Variable
Constante
x1
x2
x3
y

Desv. estandar

1.01
1.10
0.99
13.14

Correlacion con y

0.18
0.30
0, 53
1.00

Estimado
3.17
2.34
4.52
7.64

Estandarizado

0.18
0.38
0.57

Suma
2
R Global

Ri2

0.03
0.11
0.30

0.44
0.44

Como habran visto, la suma de las Ri2 s individuales coincide con nuestra R2 de
siempre. Se trata de un instrumento francamente u til, que vale la pena emplear a la
hora de evaluar una especificacion.
Otros Criterios
Recientemente (es decir, hace mas o menos 20 anos) han aparecido nuevos criterios
para evaluar el ajuste de un modelo; especficamente, son criterios que permiten
comparar el ajuste de distintas especificaciones. En esta seccion presentaremos dos
en extremo populares.
1. Criterio de Informacion de Schwarz:

SIC = ln

U U
K
+ ln T
T
T

(3.8)


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

159

2. Criterio de Informacion de Akaike:

U U
2K
AIC = ln
+
T
T

(3.9)

Note como es posible optimizar (minimizar) ambos criterios mediante especificaciones que reduzcan la Suma de Residuales al Cuadrado, U U . No obstante, los dos
ejercen una penalizacion considerable si tales especificaciones incluyen demasiados
parametros.

3.5.

Pruebas de Hipotesis, Conjuntas e Individuales

3.5.1. Los estadsticos t


En la derivacion de los estadsticos t en el modelo multivariado, seguiremos la misma filosofa con la que presentamos la nueva formula de la R2 , es decir: no incurriremos en demasiados detalles. Los estadsticos t, u tiles para realizar pruebas de
hipotesis individuales sobre cada uno de los parametros, se derivan de la misma
manera que antes:

t i =

i i
q

2i

La interrogante se versa en la formula de la varianza del estimador,


2 . Recordemos
i
que la matriz de varianza-covarianza de los estimadores es:
= 2 (X X)1
V ar()
| {z }
KK

Al estudiar el Teorema de Gauss-Gauss-Markov ha quedado claro que las varianzas


de cada uno de los estimadores se situan en la diagonal de dicha matriz, por lo que:
V ar(i ) = 2 (X X)1
ii

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

160

donde el subndice ii indica que extraemos el elemento del i-esimo renglon, ie sima columna de la matriz de varianza covarianza. La formula del estadstico t se
convierte entonces en:

t i = p

i i

i = 1, 2, 3, . . . , K

2 (X X)1
ii

Ya solo falta recordar que la hipotesis mas comun que se prueba con el estadstico
t es la de nulidad del estimador: H0 : = = 0. No obstante, es importante tener
claro que la hipotesis nula la establece el econometrista segun la pregunta a la que
desea dar respuesta; la hipotesis no necesariamente es de nulidad.

3.5.2. Pruebas conjuntas


Planteamiento de la prueba
Incurriendo en el riesgo de ser repetitivos, resaltamos una vez mas las ventajas
de una regresion multivariada. Al contar con los efectos aislados de cada variable
sobre aquella cuyo comportamiento queremos explicar, resulta tentador probar
estadsticamentehipotesis sobre los parametros. Esta claro que si dicha hipotesis
concierne a uno solo de tales parametros, entonces podremos recurrir a nuestros
famosos estadsticos t. No obstante, si la hipotesis que nos interesa involucra a
variospor ejemplo, implica una relacion lineal entre varios de ellos del estilo:
1 = 4 (3 2 ), entonces, necesitaremos otra forma de probarla. Es a eso a lo
que nos avocaremos en esta seccion. Dichas hipotesis, deberan plasmarse como una
serie de restricciones lineales. Estas hipotesis quedaran reflejadas en una serie de
restricciones sobre los parametros. Asumiremos que dichas restricciones son validas
bajo la hipotesis nula y las acomodaremos en una matriz a la que denominamos R:
H0 : |{z}
R = r
M K

Donde M es el numero de restricciones que queremos someter a prueba. Esta presentacion, reiteramos, resulta poco intuitiva. Para entenderla, presentaremos una
serie de ejemplos de pruebas de hipotesis:
Ejemplo 7 R ESTRICCIONES SENCILLAS : Suponga que se estima la siguiente
especificacion:


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

yt = + 1 x1t + 2 x2t + 3 x3t + 4 x4t + ut

161

(3.10)

Se desea someter a prueba dos hipotesis sencillas:


H0 :

1 = 0
2 = 1

Como bien se puede ver, cada una de las hipotesis podra ponerse a prueba de
forma individual mediante un estadstico t. Resulta conveniente, en algunos casos,
probarlas conjuntamente y no solo por separado. Es por ello que vamos a plantear
la matriz de restricciones antes propuesta: R = r. Empecemos definiendo cada
uno de los elementos

=
2
3
4
Las dimensiones de este vector son harto conocidas: K 1. Ahora pasemos a las
otras matrices. M , el numero de restricciones, es igual a 2, M = 2. Ahora s ya
podemos pasar al formato propuesto R = r. La u nica dificultad estriba en el
diseno de R y r:

 1

 

0 1 0 0 0
0

2 =
0 0 1 0 0
1
3
4

Note como, al llevar a cabo operacion matricial, recuperamos las dos restricciones
que deseamos someter a prueba; las que estan especificadas bajo la hipotesis nula,
H0 .
ELABORADAS : Suponga que se estima la esEjemplo 8 R ESTRICCIONES M AS
pecificacion estipulada en la ecuacion (3.10). En esta ocasion, se desea someter a
prueba dos hipotesis en las que dos parametros esten involucrados simultaneamente:

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

162

H0 :

1 + 2 = 1,
3
= 4 ,

en donde, nuevamente, el numero de restricciones es dos, M = 2. Ahora hay que


definir R y r. Aclaremos de una vez que en ninguna de esas dos matrices deben aparecer los parametros explcitamente; solo pueden incluirse en ellas valores numericos concretos:

 
 1


1
0 1 1 0 0

2 =
0
0 0 0 1 1
3
4
Note como se reformulo la segunda hipotesis y en el planteamiento matricial, quedo establecida como 3 4 = 0.
Ejemplo 9 R ESTRICCIONES PUNTUALES : Con afan de presentar el mayor numero de eventuales hipotesis, presentamos aqu una hipotesis similar a la que se podra
resolver con un estadstico t. Es importante recordar que, la metodologa aqu expuesta permite probar muchas hipotesis a la vez, por lo que no debe pensarse que
esto resulta un ejercicio inutil. Suponga otra vez que se estima la especificacion
estipulada en la ecuacion (3.10). En esta ocasion, la hipotesis a probar es :
H0 : 2 = 0.7
En este caso, el numero de restricciones es uno, M = 1. El planteamiento matricial,
quiza un poco excesivo para nuestras necesidades, sera:

1
 


= 0.7

0 0 1 0 0
2

3
4


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

163

Distribucion de la prueba
Realizar la prueba redunda en un ejercicio muy sencillo en la mayor parte de los paquetes de computo que se usan habitualmente. No obstante, es importante conocer
el funcionamiento de la prueba puesto que al hacerlo, restamos preponderancia a la
necesidad de memorizar dicho funcionamiento ya que se reemplaza por un elemento
de logica. En primera instancia, recordaremos la transmision de la normalidad que
inicia en los residuales y termina en los parametros. Retomemos nuestro modelo de
siempre, Y = X + U . Sabiendo que U iidN (0, 2 ) y que las variables explicativas son no-estocasticas, la normalidad se transmite sin trabas hasta la variable
dependiente. Solo es cuestion de conocer su media y varianza:21
Y N X, y2

Recordemos tambien que el estimador no es otra cosa sino una combinacion lineal
de la variable dependiente:
= (X X)1 X Y
Por ello, los estimadores tambien tendran una distribucion normal, con la media y
varianzas que calculamos antes:
N , 2 (X X)1

Si se distribuye Normalmente, entonces, al multiplicarlo por constantes, dicha


Normalidad persistira. Como vimos antes, Las restricciones, fruto de las hipotesis
que queremos probar y plasmadas en la matriz R, estan conformadas por constantes;
por ello, R tambien se distribuira como una Normal:
R N r, 2 R(X X)1 R

La esperanza y la varianza arriba explicitadas son faciles de obtener. Para la primera


la esperanzausaremos la parte derecha de la ecuacion, mientras que para la segunda
la varianzaaprovecharemos el lado izquierdo:
1. Esperanza:

21



E R = E(r)

Puesto que con eso basta para caracterizar a una distribucion Normal.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

164

No obstante, r es, bajo la hipotesis nula, un vector de constantes sin propiedades probabilsticas, por lo que:


E R = r

2. Varianza: En este caso, R es una matriz tambien compuesta por constantes.


distribuido normalmente, la nueSi R fuera un escalar, al multiplicarlo
por ,
 
va varianza sera R2 var . Como R no suele ser escalar, el cuadrado se
denota como una premultiplicacion y postmultiplicacion de la varianza del
estimador:


var R

 
= R var R

= 2 R(X X)1 R

As, con el resultado anterior podramos realizar una prueba estadstica, puesto que,
bajo la hipotesis nula, R se distribuye normalmente; es de suponer que si H0
no es cierta, el calculo que ah hagamos no sera normal y saldra de nuestro clasico
intervalo 2, 2. El problema es que no conocemos uno de los parametros que intervienen en la formula: 2 . Tendremos que manipular las expresiones para sortear esa
dificultad. Para ello, sera necesario demostrar el siguiente resultado:
Teorema 11 Sea un vector Z(T 1) tal que Z N (0, ), siendo una matriz
no-singular. Entonces:
Z 1 Z 2T g.l.
Prueba 1 : La matriz , que es una matriz de Varianza-covarianza, tambien es
simetrica. Para demostrar su distribucion procederemos como sigue. Si todos los
Eigenvectores de la matriz son distintos,22 entonces admite la siguiente representacion:
= |{z}
P |{z}
P ,
T T T T

22

Esto no lo demostraremos puesto que son elementos de a lgebra matricial que en teora ya deben
conocer; no obstante, cabe senalar que ello siempre ocurre con las matrices de Varianza-Covarianza.


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

165

donde, como vimos en la seccion anterior, P es una matriz compuesta por los
eigenvectoresvectores propiosde , P P = IT y es una matriz diagonal cuyos elementos son los valores propioso eigenvalores. Retomemos nuestra matriz
e invirtamosla:
1 = (P P )

Ahora procedamos a multiplicarla (premultiplicar y postmultiplicar) por un vector


Z no nulo de dimensiones T 1:
Z 1 Z = Z (P P )

La inversion de la matriz entre parentesis puede separarse en tres elementos:23


Z 1 Z = Z (P )1 1 P 1 Z
Definamos W = P 1 Z
Z 1 Z = Z (P )1 1 W
Note que no podemos reemplazar (momentaneamente) Z (P )1 por W puesto

que W = Z (P 1 ) . Para sortear esta dificultad, imagine una matriz cuadrada A

invertible. Entonces AA1 = I; pero, trasponiendo, obtendramos: (A1 ) A =

I. Postmultiplicando por (A )1 a la expresion anterior, nos dara (A1 ) = (A )1 .


Esto nos permite intercambiar el orden de la operacion de transposicion con la de
inversion:
(P )

= P 1

Retomamos...

Z 1 Z = W 1 W
Ahora imaginemos como es este calculo:
23

Se invierte el orden de las matrices al interior del parentesis.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

166


1
W1
11
0 ... 0
W1
W2 0 1 . . . 0 W2
22


Z 1 Z = .. ..
.. ..
..
...
. .
. .
.
1
0
0
0 T T
WT
WT
| {z } |
{z
}
1T
T T

W1


 W2

1
1
1
W

.
.
.
W

=
1 11
2 22
T T T ..
|
{z
} .
1T
WT
| {z }

T 1

Z 1 Z =

T
X

Wi2

ii
|i=1{z }
escalar
1

= W W
Pues hasta ahora lo que tenemos es una matriz que potencialmente podra ser,
cuando menos semi-definida positiva. En realidad, veremos dentro de poco que es
definida-positiva. Pero eso de hecho importa poco. Lo que realmente nos interesa
es conocer sus propiedades probabilsticas. Como hacemos esto?
Si los elementos del vector W , es decir los elementos Wi i = 1, . . . , T , fueran
N (0, 2ii ), entonces la expresion a la que llegamos resultara ser una suma de
normales estandarizadas y elevadas al cuadrado. Esto debera recordarnos a la
definicion de una 2T g.l. . Solo nos resta averiguar que es W .
Sabemos que W = P 1 Z. Si queremos utilizar lo establecido en el teorema 11,
entonces deberemos asumir que el vector Z que introducimos hace un momento se
distribuye normalmente con media cero y varianza .
Por otra parte, conviene recordar que la matriz P esta construida con los eigenvectores de la matriz de Varianza-Covarianza de . As, para construir W multiplicamos algo que se distribuye como una normal centrada por otra cosa que esta compuesta de elementos sin propiedades probabilsticas.24 El resultado sigue teniendo
distribucion normal y tambien esta centrado en cero. Pero cual es su varianza? La
podemos calcular...
24

Debe quedar claro que los eigenvectores/eigenvalores no se estiman si no que se calculan.


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

167

i
h
1
V ar(W ) = E P 1 ZZ (P )

En la matriz P no hay elementos estocasticos, por lo que lo podemos extraer del


operador esperanza:
V ar(W ) = P 1 E (ZZ ) (P )

Debido al supuesto concerniente a la normalidad de Z sabemos que E (ZZ ) = :


V ar(W ) = P 1 (P )

Ahora podemos aprovecharnos de la descomposicion de la matriz , que es con la


que empezamos la demostracion:
V ar(W ) = P 1 P P [P ]1
La matriz P multiplicada por su inversa arroja a la matriz identidad, que podemos
obviar...
V ar(W ) =
As, es la matriz de Varianza-Covarianza de W :

11 0 . . . 0
0 22 . . . 0

= ..
..
..
...
.
.
.
0
0 . . . T T
P W2
Retomando nuestro calculo de arriba, Z 1 Z = Ti=1 iii , pues ahora s ya sabemos que se trata de variables normales estandar al cuadrado, por lo que, aplicando
la definicion de una 2 y sabiendo que...
W iidN (0, )

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

168

La distribucion de la expresion que nos interesa es:


1
Z 1 Z = W
P 2 W
Wi
=
ii
2
T g.l.

Por desgracia, aun no terminamos (pero ya merito). Nosotros lo que tenemos es:


1
2

R N r, R (X X) R

Si centramos...



1
(R r) N 0, 2 R (X X) R

...y definiendo a Z de manera que sea normal estandar...


def

Z = R r
| {z }
M 1

... as como :

def

= 2 R (X X)

...ahora s podemos aplicar el Teorema 11:


Z 1 Z =


 h
i1 

1
R r 2 R (X X) R
R r

2M g.l.

Cuando desarrollamos la prueba F en el contexto de la regresion simple (recuerde


la ecuacion (2.16) en la pagina 106) habamos mostrado que:

(T K)

2
2T K g.l.
2


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

169

Con el resultado anterior ya tenemos dos distribuciones 2 independientes.25 Las


podramos utilizar para construir una F:

F =
=

21 /g.l.1
22 /g.l.2




1 1
2

R r /M
R r R (X X) R

2 / 2

Fg.l.1 ,g.l.2
Esta afortunada division permite que se cancele el elemento desconocido, 2 :

F =




1 
1

R r R (X X) R
R r /M

FM g.l., (T K) g.l.

Es muy importante recordar que todo este ejercicio solo es valido si y solamente si
la hipotesis nula, H0 es cierta. Si no lo es, el calculo de la expresion de arriba no
tendra distribucion F.
Ahora bien, esta presentacion de la prueba se antoja muy compleja como para ponerla en marcha facilmente. Existe por fortuna una manera mas sencilla de llevarla
a cabo:
Teorema 12 Sea:
1. el estimador de MCO No-Restringido (es decir, sin imponer nada a los
parametros a estimar) y SCE1 , la suma de residuales al cuadrado correspondiente:

SCE1 = U1 U1
25

En este caso tambien aplica el Teorema 6.

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

170
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

0.5

1.5

2.5

3.5

4.5

Figura 3.2: Distribucion de Fisher


2. el estimador de MCO Restringido (es decir, imponiendo las hipotesis de
H0 ) y SCE2 la suma de residuales al cuadrado correspondiente:
SCE2 = U2 U2
Entonces, el estadstico de prueba F antes desarrollado puede expresarse de forma
equivalente como:
F=

(SCE2 SCE1 ) /M
SCE1 / (T K)

Es facil llevar a cabo este calculo. Basta con correr dos regresiones y recuperar las
sumas de residuales al cuadrado, tanto te la regresion restringida como de la no
restringida.

3.5.3. Pruebas de desigualdad


Las pruebas que hemos realizado hasta este momento siempre se han planteado en
tanto igualdades, es decir: la hipotesis nula se formula mediante una relacion de
igualdad...


3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES

171

H0 : par
ametro(s) = constante(s)
Ello obedece a que, en muchas ocasiones, las hipotesis que se requiere formular pueden hacerse as; no obstante, es bastante razonable considerar que en otras tantas la
pregunta de interes tendra una interpretacion matematica de desigualdad. Podramos
plantear, a manera de ejemplo, la estimacion de la elasticidad-ingreso de un impuesto (es decir, su recaudacion). Tomemos el Impuesto al Valor Agregado (IVA) con
respecto al ingreso del pas, ambos transformados en logaritmos:
IV At = + P IBt + ut
Como ya vimos anteriormente, correr la especificacion anterior nos brinda parametros que corresponden a una estimacion de la elasticidad, en este caso ingreso. Un
estudio de esta naturaleza debe ir acompanado, como bien mandan los canones de
los economistas, de una elucidacion del grado de elasticidad: muy elastica ( > 1),
poco elastica ( < 1). Huelga decir que la prueba de hipotesis en este caso se
debera construir en tanto desigualdad.
Como hacer tal prueba? Pues la propuesta consiste en una prueba de desigualdad
conjunta. En primera instancia, como siempre, hay que plantear la hipotesis nula y
la alternativa:
H0 : c r
donde c es un vector renglon y r es una constante (un escalar). Note que, al establecer c, debe seguir un procedimiento analogo al de las pruebas de igualdad; la
diferencia estriba en que aqu solo puede probar una hipotesis a la vez. Ello, huelga
decir, no impide que dicha hipotesis sea elaborada.26 El estadstico que hemos de
utilizar se construye con base en la siguiente formula:
c r
T =p

2 c(X X)1 c

Dicho estadstico tiene una distribucion, bajo la hipotesis nula, t de Student no centrada:27
26

Por ejemplo, se puede plantear la hipotesis nula siguiente: H0 : 1 + 23 4 2


La distribucion de t con la que habamos trabajado hasta ahora era una t de student centrada;
esta u ltima es un caso especial de la version no centrada.
27

172

MULTIPLE

CAPITULO
3. EL MODELO DE REGRESION

T tT K,
donde es el parametro de no-centralidad, cuya formula es =

cr

2 c(X X)1 c

La region crtica de la prueba, C, es C = [t1 , ); la regla de decision es muy


sencilla; se rechaza H0 : c r s y solo s T t1 . Cabe resaltar que el valor
crtico se obtiene de la distribucion t de student centrada (la que siempre hemos
usado); solo recuerde que la prueba tiene nada mas una cola.
Ejercicio 2 Recupere de las bases de datos del Banco de Mexico, del INEGI y de
SHCP el la recaudacion de IV A y el P IB, conviertalos ambos a precios constantes, aplique logartmos y estime la especificacion antes mencionada; con base en
sus resultados ejecute una prueba conjunta de desigualdad donde la hipotesis nula
sea que la relacion entre el ingreso y el impuesto es inelastica.
Para cerrar el estudio estandar del modelo multivariado, procedemos ahora a (i) estudiar con mas detenimiento una cuestion tecnica relativa a las variables explicativas
(Multicolinealidad), y; (ii) proponer un metodo para tomar en cuenta aspectos cualtitativos, o bien difcilmente cuantificables en nuestras especificaciones (Variables
Binarias).

Captulo 4
La multicolinealidad
La cuestion que esta en la palestra es el addendum que le hicimos al segundo supuesto cuando atacamos el modelo general. Los supuestos de dicho modelo resultaron
ser los mismos que los del de regresion simple con una notable diferencia.
L INEAL E XACTA ENTRE CUALQUIERA DE LAS
N O EXISTE R ELACI ON
VARIABLES INDEPENDIENTES DEL MODELO .
Lo anterior corresponde, no tanto a un rompimiento de supuesto, sino mas bien a
una cuestion tecnica relativa especficamente a los datos. Esa es la razon por la que
no se estudia en la siguiente parte (no se trata, formalmente hablando, de un rompimiento de supuesto). Cuando no queda satisfecha esta clausula (es decir que existe
relacion lineal entre explicativas) se dice que dichas variables son colineales perfectas o bien que hay un problema de colinealidad perfecta. Ahora bien, una relacion
lineal entre variables explicativas puede sonar un tanto extrano. Que se entiende al
respecto? Como de hecho pretende explicar el ejemplo siguiente, en muchas ocasiones dicha relacion obedece a una cuestion de construccion de las variables que
puede pasar desapercibida por los econometristas incautos o bien ajenos al procedimiento que genero los datos. Dicho ejemplo esta inspirado en uno dado en el libro
de Econometra escrito por Pyndick y Rubinfied:1
Ejemplo 10 Un investigador lleva a cabo un estudio sobre el desempeno escolar.
La variable de interes es Calificaciones. La hipotesis del investigador es que las
calificaciones de los alumnos dependen de cuatro variables; el ingreso familiar, el
La edicion que usamos de este libro es: Econometric Models and Economic Forecasts, 4a edicion, 1998.
1

173


CAPITULO
4. LA MULTICOLINEALIDAD

174

genero, el numero de horas de estudios al da y la dedicacion a cuestiones escolares


(medida en horas) por parte de los alumnos a la semana. Se plantea la siguiente
especificacion:

Calif icacionesi = + 1 Y fi + 2 Si + 3 H1i + 4 H2i + ui


donde,
1. Y fi es el ingreso familiar del i-esimo estudiante.
2. Si es el genero del i-esimo estudiante (1 si es mujer; 0 si es hombre)
3. H1i es el numero de horas que estudia diariamente el i-esimo estudiante.
4. H2i es el numero de horas que dedica a la escuela semanalmente el i-esimo
estudiante.
Dicho investigador, despues de levantar una encuesta entre sus alumnos, construye en primera instancia su matriz de variables explicativas, que llamaremos, como
siempre, X. Las columnas correspondientes a las dos u ltimas variables las dejaremos explcitamente senaladas:

1
1

X = 1
..
.
0

Y f1 S1 0.5 3.5
Y f 2 S2 2
14

Y f3 S3 1.5 10.5

..
..
..
..
.
.
.
.
Y f i Si 3
21

Que ocurre con estas dos columnas? pues existe una relacion lineal muy obvia
entre ambas:
H2i = 7 H1i
Nuestro investigador tiene un problema de multicolinealidad perfecta. Una interpretacion perfectamente aceptable de su error es la siguiente: las u ltimas dos variables que propuso como explicativas corresponden a la misma informacion. Con
una de ellas bastara, puesto que la otra no aporta nada mas.

4.1. MULTICOLINEALIDAD PERFECTA

175

Cuando no hay independencia lineal entre todas las columnas de la matriz, se dice
que dicha matriz no tiene rango completo. Si denotamos al rango de la matriz con
la letra , podemos definirlo como:

(X) = mn (# columnas independientes, # renglones independientes)


Que tan grave es la multicolinealidad? Podra aducirse que no demasiado, puesto
que tan solo estamos repitiendo la informacion. El hecho es que la multicolinealidad, en su modalidad perfecta, imposibilita el calculo de la regresion; El hecho
es que las variables explicativas rara vez mantienen una relacion lineal perfecta;
la multicolinealidad imperfecta degrada sensiblemente la calidad de la estimacion e imposibilita la inferencia correcta. La multicolinealidad es, en realidad, un
fenomeno gradual. Estudiaremos ambos casos, multicolinealidad perfecta e imperfecta.

4.1.

Multicolinealidad perfecta

La multicolinealidad perfecta ocurre cuando existen dos o mas variables explicativas que mantienen entre s una relacion lineal. Como ya fue mencionado, en ese
caso se dice que la matriz de variables explicativas no tiene rango completo. La colinealidad entre dos o mas variables se transmite de la matriz X a la matriz X X.
La forma mas facil de entender esto es ver un simple ejemplo. Sea una matriz de
variables explicativas de dimensiones T K. Imagine una relacion lineal entre las
primeras dos variables, x2 = x1 :

x11
x21

x31

..
.
xT 1

x11
x21
x31
..
.
xT 1

x13 . . .
x23 . . .
x33 . . .
..
..
.
.
xT 3 . . .

x1K
x2K

x3K

..
.
xT K

Ahora procedamos a calcular la matriz X X:


CAPITULO
4. LA MULTICOLINEALIDAD

176

x11 x21 x31


x11 x21 x31

x13 x23 x33

..
..
..
.
.
.
x1K x2K x3K


. . . xT 1
x11
x21
. . . xT 1

. . . xT 3
x31
..
.. ..
.
. .
. . . xT K
xT 1

x11
x21
x31
..
.
xT 1

x13 . . .
x23 . . .
x33 . . .
..
..
.
.
xT 3 . . .

x1K
x2K

x3K

..
.
xT K

El resultado de la operacion es:


P 2
P
P 2
x

x
1t
1t
P 2
P 2
Px1t x3t
2

x1t x3t
1t
1t
P
P 2
P

x3t
x1t x3t
x1t x3t

.
.
.
.
.
..

P .
P .
x1t xKt
x1t xKt
...

...
Px1t xKt
...
x1t xKt

..

...
.

..
...

.
P 2
...
xKt

Observe como tanto las dos primeras columnas son linealmente dependientes, as como los dos primeros renglones. Por que es importante esto? Lo es porque la formula de los estimadores involucra a una matriz inversa,
1
= (X X) X Y,

y el calculo de dicha inversa se lleva a cabo de la siguiente manera:


(X X)

1
AdjX X
|X X|

donde |X X| es el determinante de la matriz X X y AdjX X es la matriz adjunta de


X X.2 La relacion lineal entre dos columnas tiene un efecto muy particular sobre
el determinante. Para poderlo establecer, debemos conocer primero una interesante
propiedad del determinante:
El determinante de una matrizcuadradaes el mismo que el determinante de
esa misma matriz donde una de sus columnas es multiplicada por una constante y
sumada a otra columna.
2

La matriz adjunta es igual a la matriz de cofactores traspuesta. La matriz adjuntade la matriz


X X, por ejemplo- es tal que el elemento en el i-esimo renglon, j-esima columna se obtiene calculando (1)i+j | (X X)(j,i) |, donde (X X)(j,i) es igual a la matriz X X, solo que habiendole
borrado el renglon j y la columna i.

4.1. MULTICOLINEALIDAD PERFECTA

177

Lo anterior lo podemos ilustrar en un caso sencillo. Sea una matriz A tal que:

A =

a b
c d

Entonces el determinante es: |A| = a d c b. Ahora multipliquemos la segunda


columna por y sumemos el resultado a la primera:

A =

a+b b
c+d d

Calculemos el determinante de esta nueva matriz:




A = a d |+b d {z b d } c b
=0

= adcb

Apliquemos esta propiedad en la matriz que nos interesa a sabiendas que la formula
general del determinante es:

|X X| =
| {z }
KK

K
X
i=1



(1)j+i (X X)(i,j) (X X)(i,j) ,

donde la matriz (X X)(i,j) es igual a la matriz X X solo que habiendo borrado el ie simo renglon y la j-esima columna. Retomemos nuestra matriz X X y obtengamos
el determinante. La formula general que nos permite obtenerlo es:
Note que los sumandos en la formula van multiplicados por los elementos de una
columna de la matriz original (con los signos alternados). Note tambien que esta
formula permite seleccionar dicha columna al momento de realizar el calculo (es
necesario definir el valor de j). Conviene entonces aprovechar alguna columna que
tenga muchos ceros, para agilizar el calculo. La nuestra, de momento, no tiene,
necesariamente columnas donde haya ceros. No obstante, aprovechando el problema de colinealidad y usando la propiedad mencionada hace un momento, podemos
crear una columna donde sus elementos sean todos iguales a cero; tomemos la 1a
columna y multipliquemosla por ; despues, sumemosla a la 2a columna:


CAPITULO
4. LA MULTICOLINEALIDAD

178

P
P
P 2
P x21t Px21t
Px1t2

2 x21t 2 x21t
P x1t
P
P

x1t x3t
x1t x3t
x1t x3t

.
.
.
..

P .
P
P
x1t xKt
x1t xKt
x1t xKt

Nos queda lo siguiente:


P 2
Px1t2

P x1t

x1t x3t

..

P .
x1t xKt

P
0
Px1t x3t
0
x1t x3t
P 2
0
x3t
..
..
.
.

...

...
Px1t xKt
...
x1t xKt

..

.
...

..
...

.
P 2
...
xKt

...
x
x
1t
Kt
P
...
x1t xKt

..

...
.

..
...

.
P 2
...
xKt

Sabiendo que el determinante de esta matriz es el mismo que el de la que nos interesa, podemos calcularlo. Con esta matriz es muy facil; definimos, para efectos de
la formula, i = 2, lo que nos quedara

|X X| = 0 |X X12 | + 0 |X X22 | 0 |X X32 | + . . .


= 0
S I EL DETERMINANTE ES NULO , LA MATRIZ INVERSA NO EXISTE NO SE
PUEDE CALCULAR ; SE DICE QUE LA MATRIZ X X ES SINGULAR ; DADO QUE

LA F ORMULA
DE LOS ESTIMADORES REQUIERE DICHA INVERSA , ESTOS
TAMPOCO SE PUEDE CALCULAR .
Si existe un problema de multicolinealidad perfecta nos daremos cuenta muy rapido; simple y sencillamente el programa que usemos (sea cual sea) senalara que no
es posible realizar los calculos o marcara error o indicara que la matriz X X es singular. En realidad, e ste es un problema facil de identificar y por lo mismo, facil de
corregir (se puede eliminar la variable que este causando la multicolinealidad).

4.2. MULTICOLINEALIDAD IMPERFECTA

4.2.

179

Multicolinealidad imperfecta

Como vimos en la seccion anterior, la multicolinealidad, en caso de ser perfecta,


impide el calculo de los estimadores. Pero, que tal si nuestro fenomeno de multicolinealidad es del tipo:
x1t = 2x2t + vt
Donde Vt es un ruido centrado en cero. Aqu se decanta la importancia de lo dicho
al inicio de la seccion. La multicolinealidad es un fenomeno gradual. En su maxima
expresion (multicolinealidad perfecta), las consecuencias son evidentes, pero todo
otro caso, quiza no sea tan obvio poner en evidencia el fenomeno. Una forma muy
elocuente de ilustrar lo que se acaba de decir es mediante el diagrama de Ballentine
o de Venn.3

Varianza de y
Varianza de y
Varianza de x2

Varianza de x1

Varianza comun
de x1 y x2 que no

Varianza de x2.
Una parte explica a y

explica la de y
Varianza comun
de x1 y x2 que

Varianza de x1.

explica la de y

Una parte explica a y


0

0.2

0.4

0.6

0.8

Figura 4.1: Diagramas de Venn

Es posible obviar los calculos a la luz de los obtenidos en la seccion anterior; de


repetirse e stos, podramos ver que la relacion lineal entre dos o mas variables explicativas no sera perfecta; el grado de imperfeccion dependera de la intensidad
del ruido blanco que le incorporamos a dicha relacion. Si la varianza de vt es muy
grande, practicamente no se resentira en los calculos la relacion lineal; no obstante,
si dicha variable es muy chica, habra problemas para obtener el determinante de la
matriz y por ende la inversa.
3

Extrado del Libro: Econometra, escrito por Damodar Gujarati, 4a edicion, 2003.


CAPITULO
4. LA MULTICOLINEALIDAD

180

En caso de haber multicolinealidad de grado, el determinante no sera exactamente


igual a cero,4 aunque quizas s muy chico. En tales circunstancias, las consecuencias
se dejaran sentir en las varianzas estimadas de los estimadores
K
2 , . . . ,

1 ,
Para entender lo anterior, ilustremoslo con una regresion concreta, en la que trabajaremos con variables centradas y por ende, sin constante:
yt = 1 x1t + 2 x2t + ut
En ese caso, la matriz de variables explicativas sera:

x11
x21

X = ..
.

x12
x22

..
.

xT 1 xT 2

Mientras que la matriz X X sera:



 P 2
P
x
x
x
1t
2t
1t
P 2
XX = P
x2t
x1t x2t

Al invertirla, obtendremos:

(X X)

= D


P 2
P
P x1t x2t
P x2t
x21t
x1t x2t

P 2 P 2
P
donde el determinante es: D =
x1t x2t ( x1t x2t )2 .
Para esta ilustracion requeriremos incorporar o asociar el coeficiente de correlacion
entre variables explicativas. Lo anterior es debido a que e ste representa una forma
de medir que tan buena es la relacion lineal entre dichas variables explicativas y
4

Hay que recordar, no obstante, que las computadores trabajan una precision especfica. Si el
determinante es demasiado chico, aun si no es nulo, es posible que no se pueda calcular.

4.2. MULTICOLINEALIDAD IMPERFECTA

181

nos puede dar indicios de la relacion entre el grado de colinealidad y la varianza


estimada de los parametros.5 La formula del coeficiente de correlacion es:
P

x1t x2t
x1 x2 = pP
P
x1t 2 x2t 2
P
( x1t x2t )2
2
x 1 x 2 = P 2 P 2
x1t
x2t

Ahora retomemos nuestro estimador de la varianza de 1 :


21 = 2 (X X)1
11
2

= P

x22t
P
P
x21t x22t ( x1t x2t )2

Lo volteamos (manipulacion que nos acerca a la formula de la correlacion):

21 = 2

"P

x21t

#1
P
x22t ( x1t x2t )2
P 2
x2t

Multiplicamos toda la expresion por

21

P 2
x
P 21t
x1t

(que no altera nada):

#
" P
P 2
P 2 P
2 1
2 2
( x1t )
x x ( x1t x2t )
P2t 2 P 1t
= 2
x1t x22t

Las expresiones marcadas en tinta gris corresponden a lo que definimos como el


coeficiente de correlacion al cuadrado, 2x1 x2 . Podemos reemplazarlo:
5

Para proceder con este calculo, tendramos que cambiar por un momento nuestro segundo supuesto; las variables x s son estocasticas, pero no estan correlacionadas con el termino de error,
Cov(xit , ut ) = 0 para i = 1, 2, . . . , K. Recuerde que ambos supuestos apuntan en la misma direccion (aunque el segundo es mas creble mientras que el primero solo es comodo para sacar algunos
resultados). Lo anterior nos permite calcular la formula del coeficiente de correlacion sin complicaciones de orden epistemologico.


CAPITULO
4. LA MULTICOLINEALIDAD

182

21

#1
" P
P 2
2 2
X
(
x
)
x
x21t
= 2 P 1t2 P 2 2t 2x1 x2
x1t x2t
X
X 1
2
2
2
x21t
x1t x1 x2
=
= P

x21t

2

1 2x1 x2

Un procedimiento analogo puede llevarse acabo con la varianza del otro estimador,
2 ; de hecho, este fenomeno ocurre tambien cuando hay mas variables explicativas.
Lo interesante de este u ltimo resultado es que facilita la compresion del efecto de la
colinealidad entre dos de las variables independientes:
1. Si la relacion lineal entre x1 y x2 es pobre, esto debera quedar senalado por
una correlacion baja: x1 x2 pequeno. Si dicha correlacion es pequena, su cuadrado lo es aun mas. El denominador se incrementa y la varianza 1 disminuye.
2. Si la relacion lineal entre x1 y x2 es muy precisa, esto debera quedar
senalado por una correlacion alta: x1 x2 grande. Si dicha correlacion es grande, el denominador se reduce y la varianza de 1 aumenta.
Es esto u ltimo lo importante a retener en cuestiones de multicolinealidad; e sta tiende a hacer mas grandes las varianzas de los parametros estimados. Se dice que la

multicolinealidad I NFLA LAS VARIANZAS DE LOS PAR AMETROS


E STIMADOS.

4.3.

Deteccion de la multicolinealidad

A la luz de las dos secciones inmediatamente anteriores, ha quedado claro que multicolinealidad es en esencia un problema de grado; si llega a haber multicolinealidad
perfecta, sera facil darnos cuenta, debido a que no sera posible estimar los parametros; el analisis se concentrara por ende en la averiguacion de un posible grado de
colinealidad entre variables y si e ste es lo suficientemente importante como para
que la calidad de los estimadores y de la inferencia realmente se degrade.

DE LA MULTICOLINEALIDAD
4.3. DETECCION

183

4.3.1. Analisis informal


Lo primero que se debe advertir al lector es que, al momento de disenar su especificacion sea cauteloso al anadir variables explicativas y sea consciente de la
definicion de cada una de ellas; algunos errores burdos de colinealidad perfecta pueden ser as evitados. En otros casos, cuando la colinealidad no es perfecta,
detectarla no resulta tan evidente. Es importante tomar en cuenta que los problemas de multicolinealidadde gradoa los que se suele enfrentar uno obedecen,
o bien a deficiencias muestrales o a problemas en nuestra especificacion. En aras
de su deteccion, proveemos en la siguiente lista los sntomas clasicos de un problema de multicolinealidadde gradoserio. Dichos sntomas deben presentarse
simultaneamente para que sea susceptibles de ser interpretados correctamente como
evidencia de multicolinealidad:
1. R2 cercana a la unidad y estadsticos-t no-significativos.
2. Alta correlacion lineal entre variables explicativas.
Lo anterior compagina con lo que vimos en las secciones anteriores. Por una parte, sabemos que la colinealidad entre variables infla las varianzas de los parametros asociados en la especificacion. El calculo del estadstico-t implica dividir al
estimador entre la raz cuadrada de su varianza. Si e sta es grande (debido a la colinealidad), es logico suponer que los estadsticos-t salgan pequenos. Dado que la
multicolinealidad es un problema meramente algebraico, e sta no degrada el ajuste
del modelo; Por eso mismo, un buen ajuste no suele ser compatible con variables
explicativas no significativas. Idealmente, las variables explicativas son ortogonales entre s, es decir que cada una provee de informacion diferente al modelo sin
que haya redundancia. Al observarse ese comportamiento, se puede sospechar que
hay multicolinealidad. Con respecto al calculo de correlaciones entre explicativas,
pues no queda mucho por decir. Si alguna correlacion sale demasiado alta, se vuelve indicio de colinealidad entre esas variables. Estos metodos, as como resultan
de sencilla aplicacion, tambien son muy falibles. Si realmente se sospecha de la
presencia de multicolinealidad, conviene aplicar estrategias mas formales.

4.3.2. Metodos mas formales


Mediante regresiones auxiliares
Se propone a continuacion, a manera de receta de cocina, una prueba que hace uso
de unas regresiones auxiliares:


CAPITULO
4. LA MULTICOLINEALIDAD

184

1. Correr cada variable explicativa X contra las demas explicativas. recuperar la


R2 . Tendremos entonces tantas regresiones auxiliares como variables explicativas, es decir K.
2. Con cada medida de bondad de ajuste, Ri2 i = 1, 2, 3....K calcular el siguiente estadstico de prueba:

Ri2 /K 1
(1 Ri2 ) / (T K)
FK1 g.l., T K g.l.

Li =

Donde:
H0 : No existe relacion lineal entre xi y las demas variables explicativas.
Ha : S existe relacion lineal entre xi y las demas variables explicativas.

La forma de lectura de la prueba es la misma que en ocasiones anteriores, por


lo que ya no nos detendremos a explicarla.

Mediante el Numero
de condicion
El problema de la multicolinealidad se refiere a la existencia de relaciones aproximadamente lineales entre las variables explicativas del modelo,6 lo que afecta
considerablemente la estimacion de la varianza de los estimadores al usar MCO. El
numero de Condicion permite no solo detectar una posible presencia de la multicolinealidad, sino tambien evaluar la gravedad del asunto. El Numero de Condicion se
define como sigue:
Definicion 12 El Numero de Condicion, denotado se construye con base en los
valores propioso eigenvaloresde la matriz de variables explicativas X X. La
formula precisa es:
=
6

Ma
ximo eigenvalor
Minimo eigenvalor

Seccion realizada por Laura Xochitl Velazquez Fernandez, Alma Aurelia Vega Aguilar, Fermn
Omar Reveles Gurrola y Marco Tulio Mosqueda.

DE LA MULTICOLINEALIDAD
4.3. DETECCION

185

Alternativamente se propone usar la raz cuadrada de que es conocida como el

Indice
de Condicion;
IC =

La regla estandar para interpretar ambas medidas es la que sigue:


1. Si esta entre 100 y 1, 000, existe multicolinealidad que se caracteriza como
moderada a fuerte; si > 1, 000, entonces se dice que hay multicolinealidad
severa.
2. Alternativamente, si el IC esta entre 10 y 30, hay multicolinealidad que va de
moderada a fuerte y si el IC > 30, entonces se dice que hay multicolinealidad
severa.
Es necesario tomar en cuenta algunas cuestiones para calcular el numero de condicion. En primera instancia es necesario conocer un par de resultados de a lgebra
matricial:
Teorema 13 Resultados de a lgebra matricial:
Los eigenvalores de una matriz simetrica con elementos reales tambien son
reales.
El determinante de una matriz es igual al producto de sus eigenvalores.
La matriz X X es simetrica y semi positiva-definida, por lo que, por definicion, sus eigenvalores son mayores o iguales a cero.
El rango de una matriz simetrica corresponde al numero de eigenvalores distintos de cero que e sta contiene.
Con base en lo anterior es facil entender que si nuestra matriz no tiene rango completo, uno de sus eigenvalores (el mas chico) sera cero. En ese caso, nuestro numero
de condicion debera ser infinito (puesto que dividiramos por cero). Claro esta, si
existe una relacion lineal imperfecta entre las variables explicativas, entonces, como
ya vimos, el determinante sera muy cercano a cero o bien el eigenvalor mas chico
sera casi cero. Nuestro numero de condicion correspondera a algo dividido por un
numero muy cercano a cero, por lo que sera muy grande.
Existe otra cuestion a considerar: Si cambiamos las unidades de medicion de las
variables obtendramos valores distintos en los eigenvalores. Ello merma la utilidad


CAPITULO
4. LA MULTICOLINEALIDAD

186

de la prueba puesto que siempre podramos cambiar dichas unidades para asegurar un eigenvalor mnimo mas grande y por ende un numero de condicion menor.
Para evitar ese problema es conveniente eliminar las unidades de medidas mediante una estandarizacion. Esta u ltima consiste simplemente en dividir cada variable
explicativa entre la raz cuadrada de la sumatoria de las observaciones al cuadrado:
xit
xit = pP

x2it

Entonces, los eigenvalores se obtienen de la matriz X X formada por las variables


estandarizadas.

4.4.

Analisis de Componentes Principales

En todo estudio emprico, el investigador busca (o debera buscar) trabajar con el


mayor numero de variables posibles. Lo anterior hace sentido, no solo intuitivamente, si no tambien por el simple hecho de que a mayor numero de variables, mayor
el el acerbo de que se dispone para modelar el fenomeno de interes. No obstante,
conforme recopilamos mas informacion, aumenta tambien la posibilidad de que algunas variables provean informacion ya disponible en otras. Siguiendo la jerga hasta
ahora empleada, podramos deicr que aumenta el riesgo de que dos o mas variables
esten altamente correlacionadas. Hemos visto algunas soluciones si bien ninguna es
completamente convincente. la que a continuacion vamos a desarrollar, regresion
por componentes principales. es una alternativa mas: Tiene limitaciones obvias pero tambien ventajas innegables. En palabras de Jollife:7 , el analisis de componentes
principales (ACP) es:
La idea central del ACP es reducir la dimensionalidad de un conjunto de datos,
consistente e ste en un numero grande de variables interelacionadas, manteniendo la mayor proporcion posible de la variabilidad de dicho conjunto. Esto se logra transformandolo a un nuevo conjunto de variables, denominadas Componentes
Principales, que tienen la virtud de ser ortogonales entre s y suelen estar ordenados de mayor a menor en lo que respecta a su capacidad de retener la variacion
presente en las variables originales.
Este nuevo conjunto de variables o componentes principales se obtiene mediante
un metodo analogo a MCO (es decir, mediante la optimizacion (maximizacion) de
una funcion cuadratica). En primera instancia, se busca una funcion lineal de las
7

Jollife, I. (2005) Principal Components Analysis. Traduccion ma.


4.4. ANALISIS
DE COMPONENTES PRINCIPALES

187

variables que tenga varianza maxima.


a1 x1t + a2 x2t + . . . + ak xkt
Posteriormente, se busca otra combinacion lineal de las variables, que tambien maximice la varianza pero que ademas sea ortogonal a la primera combinacion:
b1 x1t + b2 x2t + . . . + bk xkt
donde, si denotamos a = (a1 . . . ak ) y b = (b1 . . . bk ) , ab. Sucesivamente, podramos
buscar K combinaciones lineales, todas ortogonales. Al conjunto de tales pesos de
combinaciones lo denotaremos , donde k es la k-esima coleccion de pesos para
realizar una combinacion lineal. Cabe aclarar, de una vez, que axt y bxt son los
famosos componentes principales.
Ahora bien, maximizar esta funcion, as como se presenta, resulta ligeramente problematico. De momento nos concentraremos en la primera combinacion, a. Si queremos aumentar la varianza de la combinacion, basta con incrementar el valor de los
pesos o ponderadores ai infinitamente y as crecera, tambien infinitamente, la varianza. Si queremos poder llevar a cabo nuestro ejercicio de maximizacion, tendremos que poner alguna restriccion. La mas intuitiva en un inicio, podra ser restringir
la maximizacion a que la suma de los pesos sea igual a uno. Pero esa no sirve, pues
podramos hacer, por ejemplo, que a1 fuera arbitrariamente grande, que a2 fuera
fuera igual a a1 1 y con eso cumpliramos la restriccion. Tendramos entonces
el mismo problema, es decir, no podramos encontrar un maximo al momento de
optimizar. Una restriccion mas efectiva es:
K
X

ai = 1

i=1

De esta manera, ningun peso podra aumentar (diminuir) infinitamente, puesto que
no podra haber un contrapeso de signo contrario que permita satisfacer la restriccion.
Llamemos ademas xt el t-esimo renglon de la matriz X, xt = (x1t . . . xkt ). Suponga, finalmente, que la matriz de varianza-covarianza de las variables xi es x que
x ). Ahora
es estimable (el estimador de esta se denominara, de aqu en adelante,
s, nuestro objetivo es encontrar un k que maximice la varianza:
argm
axk V ar(k x)


CAPITULO
4. LA MULTICOLINEALIDAD

188

No obstante, V ar(k x) = E(k xx ) = k x k . As pues, nuestro ejercicio de


optimizacion se queda, de momento, en:
argm
axk k x k
Ahora bien, ya vimos que esta optimizacion no puede lograrse sin poner una restriccion, que ya habamos definido: la suma de los pesos al cuadrado debe ser igual
a uno:
argm
axk k x k

sujeto a : k k = 1

Quien dice optimizacion con restriccion, piensa en la tecnica de los multiplicadores


de Lagrange.8 El primer paso de dicha tecnica consiste en plantear la funcion a optimizar, que denotaremos H: H = k x k (k k 1) La siguiente etapa consiste
en derivar la funcion H en terminos de k . Se puede llevar a cabo el calculo matricialmente, recordando, como no, los que empleamos muy al principio del manual,
cuando encontramos la fomula de MCO para una regresion multivariada (ver 3.1.1
en la pagina 130). As, nuestra derivada queda:
H
= x k k
k
Igualando a cero, como siempre:
x k k = 0

(4.1)

Podemos factorizar, sin olvidar la matriz identidad, para que la resta haga sentido:9
(x Ik )k = 0
8

(4.2)

En los problemas de optimizacion, el metodo de los multiplicadores de Lagrange, llamados


as en honor a Joseph Louis Lagrange, es un procedimiento para encontrar los maximos y mnimos
de funciones de varias variables sujetas a restricciones. Este metodo reduce el problema restringido
con n variables a uno sin restricciones de n + k variables, donde k es igual al numero de restricciones, y cuyas ecuaciones pueden ser resueltas mas facilmente. Estas nuevas variables escalares
desconocidas, una para cada restriccion, son llamadas multiplicadores de Lagrange. Wikipedia,
consultada en noviembre 2012.
9
, es decir, una matriz menos un escalar, suele interpretarse como U , donde U es una
matriz cuyos elementos son todos iguales a uno. No obstante, eso altera la expresion original de la
que partimos: x k k 6= x k U k . Reemplazando U por la identidad, no alteramos nada


4.4. ANALISIS
DE COMPONENTES PRINCIPALES

189

Si se desea que este conjunto de ecuaciones tenga soluciones no-nulas, la matriz


(x Ik ) no debe ser invertible y por ende su determinante debe ser igual a cero:10
| x Ik | = 0

Las K soluciones a la ecuacion de grado K resultante se llaman eigenvalores o


valores propios o races caractersticas. Asociado a cada raz caracterstica, hay un
es llamado eigenvector,
vector que da solucion a la ecuacion (x Ik )k = 0. Este
o vector caracterstico. Lo mas facil es verlo en un ejemplo.
Ejemplo 11 Para iniciar este ejemplo, solo necesitamos declarar una matriz de
varianza-covarianza. Hagamos una sencilla, de 2 2:


4 2
x =
2 1

Primero hemos de encontrar los valores que hace que | x Ik |= 0. En este


caso, el determinante es simplemente el producto de los elementos de la diagonal
principal (donde van las varianzas) menos el producto de los elementos de la otra
diagonal:
(4 )(1 ) 4
4 4 + 2 4
2 5
( 5)

=
=
=
=

0
0
0
0

De la u ltima expresion es facil notar que las dos soluciones (los dos eigenvalores)
son 1 = 5 y 2 = 0.11 . Cada una de estas dos soluciones tiene asociado un
vector caracterstico/eigenvector. Dichos eigenvectores, recuerdelo, corresponden
a los pesos de nuestras combinaciones lineales. En este caso, hay dos variables,
y por lo mismo hay dos combinaciones lineales obtenidas a traves de este metodo.
Cada combinacion lineal debe tener dos pesos, los correspondientes a x1 y x2 . Para
obtenerlos, basta con (1) reemplazar, por 5 en la ecuacion (4.2), despejar para
a1 y a2 ; (2) hacer lo mismo, solo que reemplazando por 0 en la misma ecuacion
y despejar, en este caso, b1 y b2 .
10

Si la matriz tuviera inversa, podramos multiplicar la ecuacion de ambos lados por dicha matriz
y llegaramos a la solucion trivial de que k = 0. Puesto que esa no nos interesa, la descartamos. Los
valores de que hacen que el determinante sea cero, son los eigenvalores. Los k correspondientes
son los eigenvectores, ademas de nuestros pesos.
11
Note como la razon entre el eigenvalor mas grande y el mas chico es una singularidad; ello se
debe a que la matriz original no tiene rango completo. Recuerda alguna prueba de multicolinealidad
que aprovechara esta particularidad?


CAPITULO
4. LA MULTICOLINEALIDAD

190

Ejercicio 3 Calcule los eigenvectores y muestre que e stos son ortogonales.


Lo importante es tener claro que los eigenvectores son ortogonales. Esto es sorprendentemente facil de demostrar: acabamos de obtener los eigenvectores como
solucion al sistema (x Ik )k . En nuestro pequeno ejemplo, los dos eigenvectores corresponderan a a y b. Lo que vamos a demostrar es que los K eigenvectores
son ortogonales.
Teorema 14 Si dos eigenvalores, 1 y 2 son distintos, entonces sus eigenvectores
asociados, a y b, son ortogonales; a b = 0 o bien ab.
La prueba es sencilla. Manipulando la ecuacion (4.1), tenemos:
x k = k
Sabemos que tanto a como b pueden sustituir a k y constituir una solucion, por
tanto: a = 1 a, podemos premultiplicar por b , b a = b 1 a. Lo mismo podemos
hacer con la otra solucion: a b = a 2 b. Ahora bien, a b = b a, puesto que
se trata de un escalar (un escalar y su transpuesto son lo mismo). As, podemos
transponer uno, digamos el segundo, b a = b 2 a, y restarselo al primero:
0 = b 1 a b 2 a
Puesto que los eigenvalores son escalares, los ponemos hasta delante y factorizamos:
0 = (1 2 )b a
Esta operacion debe dar cero. Sabiendo que los eigenvalores son distintos, lo u nico
que puede hacer cero la expresion es que: b a = 0.
Ahora bien, sabiendo esto, podemos premultiplicar la u ltima expresion, b a = 0 por
x y posteriormente postmultiplicarla por x:

x b ax = 0.
Separando por pares es posible darse cuenta que obtuvimos los los componentes
principales, z2 z1 = 0 as es que, resulta facil ver que todos los componnentes principales tambien son ortogonales entre s.

USANDO COMPONENTES PRINCIPALES


4.5. REGRESION

4.5.

191

Regresion usando componentes principales

Ante el problema de multicolinealidad imperfecta, la regresion por componentes


principales se antoja como otra solucion relativamente popular, o cuando menos
conocida. El problema de la multicolinealidad imperfecta estriba en que dos o mas
variables aportan, esencialmente, la misma informacion; eso las hace altamente colineales y dificulta enormemente la inversion de la matriz que las contiene. Considerando lo visto en la seccion anterior, es intuitiva la idea de reemplazar las variables
(con problemas de colinealidad) con los vectores que podemos construir con base
en los correspondientes eigenvectores (los s). Eso podra hacerse; no obstante,
conviene conocer bien las limitaciones. Para ello, primero tenemos que construir
los nuevos vectores, que denominamos componentes:
z1t = a1 x1t + a2 x2t + . . . + ak xkt
y as sucesivamente hasta tener z1 , . . . , zk . Cada uno de ellos es capaz de reproducir
una parte de la variabilidad de las variables originales. Suponga que ordenamos
las zs de mayor a menor en funcion de ese criterio. Debemos dar, ademas, dos
propiedades del metodo:
1. var(x
PK 1 ) + var(x2 ) + . . . + var(xk ) = var(z1 ) + var(z2 ) + . . . + var(zk ) =
i=1 i ,
2. i j para i 6= j y i 6= j.

La segunda la demostramos en la seccion anterior. De la la primera, que senala que


la varianza total de las K variables es igual a la varianza total de los K componentes
principales, podemos inferir que cada eigenvalor, dividido entre la suma de todos los
eigenvalores, representa la proporcion de variablididad explicada por el componente
principal asociado.
Sabiendo esto, lo primero que debemos tener claro es que, reemplazar todas las x
por los vectores ortogonales, es una mala idea. Es la misma variabilidad acomodada
de otra forma. Por ello, los resultados de la nueva regresion no habran cambiado
nada. En realidad, lo idoneo sera utilizar solo algunas de las nuevas variables ortogonales, pero no todas. Podramos ordenarlos de mayor a menor en terminos de
varianza y procurar utilizar los primeros. Las limitaciones de esta estrategia no son
pocas:
1. el que una de las variables z tenga la mayor varianza, no necesariamente
quiere decir que tenga la mayor correlacion con la variable dependiente (que
es lo que interesa),

192

CAPITULO
4. LA MULTICOLINEALIDAD

2. Debido a lo anterior, uno podra entonces sugerir calcular las correlaciones


entre las variables ortogonales y la variable dependiente y solo conservar las
que estan mas relacionadas con e sta. Pero hacer esto equivale a descartar las
variables explicativas menos significativas, lo que en todo caso, sera preferible, pues el modelo tiene una interpretacion mas obvia. De hecho,...
3. Las combinaciones lineales con que estan construidas las variables z no suelen tener interpretacion economica obvia.
4. Modificar las unidades de medida de las variables altera los componentes
principales. Por lo general, se estandarizan las variables (se les resta la media
y se divide por la desviacion estandar).
No obstante, todo esto lejos esta ser una perdida de tiempo. El metodo tambien tiene
virtudes:
1. La compresion de informacion puede llegar a ser en extremo u til. Suponga
una tpica regresion de demanda por dinero. Si usted dispone de una buena
base de datos, es muy posible que, entre otras cosas, tenga varias tasas de interes, mismas que tienden a padecer de problemas de colinealidad. La teora
sugiere que hay efectos de corto y largo plazo relativos a dichas tasas. Eventualmente, un ACP sobre las variables de tasa de interes podra reflejar en
el primer componente principal, tasas cuyos efectos son de corto plazo (tasa
interbancaria, por ejemplo), y en el segundo, tasas cuyos efectos son de largo
plazo (como podra ser la tasa hipotecaria). En ese caso, las combinaciones
lineales entre componentes podra tener una interpretacion interesante y, sobre todo explotable. Huelga decir que esta eventualidad exige leer con sumo
cuidado los valores de los eigenvectores.
2. El usar algunos de los componentes principales en sustitucion de algunas de
las variables originales implica una restriccion parametrica y podra dar pistas
respecto a que tipo de pruebas conjuntas hacer. Por ejemplo, suponga que
el primer componente principal en un estudio con tres variables respresenta
el 70 % de la varianza total y sugiere, aproximadamente, combinar 50 % la
primera variable, 50 % la segunda y nada la tercera. Suponga ademas que el
segundo componente se compone casi exclusivamente de la tercera variable
y representa el 28 % de la varianza, mientras que el terver componente tiene
ponderadores indescifrables, pero tan solo recupera el 2 % de la varianza... En
ese caso, una eventual regresion podra incluir al primer componente (o a las
otras dos variables pero restringidas) y a la tercera variable sola.

USANDO COMPONENTES PRINCIPALES


4.5. REGRESION

193

3. Otra bondad del metodo estriba en la construccion de ndices. Suponga que


tiene usted cincuenta variables que miden riqueza patrimonial de una u otra
forma. Suponga ademas que emplea dichas variables en un ACP y obtiene que
el primer componente representa el 85 % de la variabilidad de tales indicadores. Usted dispone en el eigenvector de los pesos de ese ndice. Sera solo
cuestion de normalizarlo para presentarlo como un ndice de pobreza. Los pesos as obtenidos haran por lo mismo sentido, pues maximizaran la varianza,
es decir, la cantidad de informacion contenida en la combinacion lineal. Dichos pesos seran, al menos a los ojos de un estadstico, menos arbitrarios que
los que a veces se suelen usar en la practica como cuando asignamos pesos
iguales a todos los elementos.
Si bien usamos la matriz de varianza-covarianza para explicitar el metodo, cabe
resaltar que tambien puede hacerse con la matriz de correlaciones. La decision entre
usar una matriz u otra estriba en el grado de homogeneidad entre las variables. Si
los datos tienen valores homogeneos, se puede usar x , si no, se puede estandarizar
las series y usar x o bien usar a matriz de correlaciones. Otra cosa importante
radica en que no es creble que podremos usar la matriz de varianza-covarianza o
bien la matriz de correlaciones poblacionales. Por esa obvia razon, se emplean los
equivalentes muestrales.

194

CAPITULO
4. LA MULTICOLINEALIDAD

Captulo 5
Variables Binarias y regresion por
pedazos
5.1.

Variables dicotomicas

5.1.1. Solucion discontinua


En la practica de la econometra, algunos aspectos relevantes del fenomeno estudiado suelen ser difcilmente cuantificables.1 Ello dificulta enormemente la puesta en
marcha de la investigacion. De hecho, cuando carecemos de informacion respecto
al fenomeno estudiado o a las variables que presuntamente lo explican, a veces no
queda mas remedio que abandonar el asunto en espera de que la situacion cambie y
dispongamos de dichos datos. Afortunadamente, no siempre es necesario rendirse
ante ese tipo de dificultades. Es posible estudiar situaciones en las que la informacion faltante puede ser reemplazada. Mas interesante aun, hay situaciones en las
que es justamente ese aspecto ignoto el que nos interesa. A continuacion, damos
algunos ejemplos...
1. Cual es el efecto sobre el Consumo/Ingreso/Inversion/Exportacion de Mexico de la Segunda Guerra Mundial?
2. Es cierto que el mercado laboral ejerce una discriminacion por genero? Y si
lo es, que tan grave es dicha discriminacion?
3. Que efectos tuvo sobre la inversion la crisis de 1994?
1

Piense por ejemplo en las preferencias, o en la inflacion esperada.

195

196

POR PEDAZOS

CAPITULO
5. VARIABLES BINARIAS Y REGRESION

4. Fue el Tratado de Libre Comercio un detonante del proceso de convergencia


entre regiones de Mexico? y entre Mexico y Estados Unidos?
5. Aumenta realmente la demanda de dinero en Navidad (efecto estacional)?
6. La medicion de una variable en particular (numero de ninos nacidos vivos en
la Ciudad de Aguascalientes) para una fecha especfica (julio de 1997) resulta
atpica, tres o cuatro veces mas grande que las realizaciones circundantes.
Realmente nacieron tantos ninos en ese mes? o, acaso se trata de un error
de captura? Es el problema de datos aberrantes.
7. Hay discriminacion racial en el mercado laboral de Estados Unidos?
Las preguntas anteriormente planteadas son muy frecuentes entre economistas y
por lo mismo, las tecnicas de cuantificacion han hecho grandes esfuerzos por proponer metodologas especficas para tratarlas. En esta seccion presentamos una de
ellas, especialmente sencilla, pero aun as, en extremo poderosa: L AS VARIABLES

DICOT OMICAS
.2
Ejemplo 12 Aprovechando el primer ejemplo dado justo arriba, supongamos la
siguiente especificacion. Sea:
It la Inversion medida en pesos de 1980.
Rt la Tasa de Interes Real.
Asumiendo que tenemos datos desde 1935 hasta 1970, una especificacion estandar
para explicar el comportamiento de la inversion podra ser:
It = 1 + 1 Rt + ut
It = 2 + 2 Rt + ut

para 1935 1938 y 1946 1970,


para 1939 1945.

Lo establecido en esta especificacion es que la relacion entre tasa de interes e Inversion se vio alterada durante los anos de la Segunda Guerra Mundial. Al final
de cuentas, lo que queremos estimar es un par de especificaciones y no solo una
para todo el perodo. La solucion mas obvia sera correr dos regresiones; pero las
variables dicotomicas nos permitiran hacer uso de toda la muestra y estimar ambos
escenarios en una sola corrida.
2

Encontraran en los textos muchos y muy diversos nombres que hacen alusion a tales variables;
entre los que destacan, estan: variables dummy, variables binarias, funciones indicatrices,. . .


5.1. VARIABLES DICOTOMICAS

197

No todas las variables explicativas deben estar necesariamente definidas en un rango


continuo; es posible usar variables dicotomicas/binarias/indicatrices. Estas variables
solo adoptan valores 0 o 1. Para ilustrarlas, planteemos otro ejemplo.
Ejemplo 13 Suponga que se tiene acceso al desempeno de algunos ex-alumnos de
Econometra referente a sus habitos de estudio, el genero as como al salario de su
primer trabajo formal. La informacion, la podemos resumir en el siguiente cuadro.
Ex-alumno No.
1
2
3
4
5
..
.

Promedio
7.0
8.0
8.5
9.5
10.0
..
.

Primer Salario
100
125
79
140
120
..
.

Dedicacion escolar
3.0
3.5
4.0
7.0
6.5
..
.

sexo
H
H
H
M
M
..
.

Como podramos, por ejemplo, estudiar la discriminacion por genero con estos
datos? Lo primero que hay que tomar en cuenta es que las razones por las que
uno recibe un salario alto o bajo son muy variadas. La que expone con fervor casi
religioso la economa es la productividad. Dicha productividad no siempre es tan
facilmente medible y pueden utilizarse algunas alternativas, o variables aproximadas (variables proxy); dos muy obvias en este caso seran el desempeno escolar
(promedio) y la dedicacion escolar. En principio, una persona con un buen promedio en la escuela suele ser una persona responsable y trabajadora y es posible
presumir que eso le allanara el camino en su trayectoria profesional. Ahora que hemos controlado por productividad historica3 y que podemos confiar en que eso
no sesgara nuestro estudio de discriminacion, podemos atacar esto u ltimo. Pero
para incluir la informacion del sexo en la especificacion, algo tendremos que hacer
con la u ltima columna de datos; no podemos poner Hs ni Ms, puesto que no
sabramos sumar letras a la hora de calcular nuestros estimadores. Una solucion
sencilla es crear nuevas variables: De momento disenaremos dos; una que se llame
Mujer y que valdra 1 si el ex-alumno es mujer y 0 si es hombre; la otra variable
se llamara Hombre y adoptara el valor de 1 si se trata de un hombre y 0 si es
mujer. Planteemos ahora la especificacion:
3

Levitt ha hecho estudios de discriminacion de genero para el caso norteamericano en los que
controla por poblacion urbana o rural, educacion, estado civil,etc. y encontro el sorprendente resultado de que la discriminacion no es tal. Que quiere decir eso?

198

POR PEDAZOS

CAPITULO
5. VARIABLES BINARIAS Y REGRESION

Salarioi = + 1 P romedioi + 2 DedEscolari + . . .


3 M ujeri + 4 Hombrei + ui
donde el subndice i se refiere al i-esimo ex-alumno. Nuestra matriz de variables
explicativas quedara como sigue :

1
1

..
.

P romedio1
P romedio2
P romedio3
P romedio4
P romedio5
..
.

DedEcolar1
DedEcolar2
DedEcolar3
DedEcolar4
DedEcolar5
..
.

1
1
1
0
0
..
.

0
0

..
.

Pero existe un problema con la estructura de los datos en esa matriz. Note como la
columna que representa a la constante (que desde ahora llamaremos ) y nuestras
variables binarias mantienen una relacion lineal perfecta:
= Hombre + M ujer
Estas tres columnas son linealmente dependientes. Vimos en la seccion anterior los
problemas que dicha relacion engendra: no es posible invertir la matriz X X, por
lo que tampoco resulta factible calcular los estimadores. As especificado el problema, obtenemos una matriz que no es de rango completo. Como tambien vimos
en la seccion anteriores, el problema estriba en que una de las variables no aporta informacion adicional. Veamos que pasa cuando se activan y se desactivan las
variables binarias en la especificacion:
1. Si se trata de un individuo de genero masculino:

Salarioi = ( + 4 ) + 1 P romedioi + 2 DedEscolari + ui


2. Si se trata de un individuo de genero femenino:

Salarioi = ( + 3 ) + 1 P romedioi + 2 DedEscolari + ui


5.1. VARIABLES DICOTOMICAS

199

3. Si se trata de un orangutan:

Salarioi = + 1 P romedioi + 2 DedEscolari + ui


Este u ltimo caso fue incluido para obviar el problema. La forma en la que especificamos la regresion basicamente senala que la condicion de genero afecta al
emplazamiento de la ordenada en el origen. Esta u ltima sera + 4 si se trata de
un hombre y + 3 si se trata de una mujer. Bajo ningun caso, la constante permanecera inalterada (excepto en el caso que el individuo no sea ni hombre o mujer,
cosa que no ocurrira nunca). En realidad, basta con tener una constante que sea
asimilable a un caso (si se trata de un hombre, que la constante sea y si se trata
de una mujer, que sea + 3 ). No es necesario poner dos variables indicatrices,
con una basta:

Salarioi = + 1 P romedioi + 2 DedEscolari + . . . +


3 M ujeri + ui
As, las dos especificaciones quedaran:
1. Si se trata de un individuo de genero masculino:

Salarioi = + 1 P romedioi + 2 DedEscolari + ui


2. Si se trata de un individuo de genero femenino:

Salarioi = ( + 3 ) + 1 P romedioi + 2 DedEscolari + ui


Esta especificacion ya no padece del problema de la multicolinealidad y permite
todava distinguir entre genero masculino y femenino.

200

POR PEDAZOS

CAPITULO
5. VARIABLES BINARIAS Y REGRESION

Hasta aqu hemos logrado, mediante el u ltimo ejemplo, modificar la ordenada en el


origen de una regresion. No obstante, es posible que creamos que lo que se altera es
la pendiente. Como le haramos?
Ejemplo 14 Retomemos nuestro problema de la guerra. Sera posible, en un marco keynesiano, pensar que la propension marginal a consumir esta alterada en tiempo de guerra? Considerando el gran numero de personas que se van a luchar y a
las restricciones al consumo habitualmente impuestas por los gobiernos en caso
de guerras importantes, no solo es posible sino que resulta razonable pensarlo.
Definamos primero la especificacion:

Ct = + yt + ut
Donde Ct es el Consumo privado y yt el Ingreso Neto Disponible. Que efectos
tendra una guerra en el consumo? De entrada, podemos pensar que el consumo
disminuira, independientemente del ingreso; ademas, podemos asumir que la propension caera tambien. En otras palabras, ni la ordenada en el origen ni la pendiente deberan ser las mismas segun nos situemos en un perodo de Paz o en uno
de Guerra. Alterar la ordenada es algo que ya sabemos hacer desde el ejemplo
anterior. Creamos la siguiente variable:

Ipaz,t =

1 si hay paz
0 e.o.c.

Incluir esta nueva variable en la especificacion nos permitira ver los efectos sobre
la constante de la guerra; para ver tales efectos, pero esta vez en la pendiente,
sera necesario incluir otra vez la variable binaria, pero ahora multiplicada por el
ingreso:
Ct = + 1 Ipaz,t + yt + 2 Ipaz,t yt + ut
Veamos que ocurre con esta especificacion en cada caso:
En tiempo de Guerra:
Ct = + yt + ut


5.1. VARIABLES DICOTOMICAS

201

En tiempo de Paz:
Ct = ( + 1 ) + ( + 2 ) yt + ut
Como veran, este sencillo truco permite alterar los parametros estimados acorde a
la presenciao ausenciade algun evento que nos intereses. La linea de regresion,
en este caso, se parecera a lo siguiente:

Consumo

Relacin en tiempos de paz

Relacin en tiempos de guerra


Ingreso

Figura 5.1: Efectos de las variables dicotomicas en la lnea de regresion

Pero recuerden que la alteracion de los parametros en tiempo de guerra es tan solo
una hipotesis de trabajo. Como en todo estudio de caracter cientfico, es necesario que nuestras hipotesis sean falsables. Como rechazaramos o aceptaramos
la hipotesis de alteracion por guerra? Pues en este caso, realizando pruebas de
hipotesis, individuales o bien conjuntas, sobre los parametros que miden dicha discriminacion. Nos referimos, claro esta a las s. Bastara, para efectos del presente ejemplo, evaluar la hipotesis de nulidad de dichos parametros mediante el
estadstico t de student.
Dejamos al lector la responsabilidad de evaluar una observacion aberrante. Como
construira la variable dicotomica pertinente? tambien convendra pensar en un cambio permanente. Si la crisis mexicana de 1994 altero definitivamente la funcion de
inversion, cual sera la variable dicotomica adecuada?

202

POR PEDAZOS

CAPITULO
5. VARIABLES BINARIAS Y REGRESION

5.1.2. Regresion por pedazos


El u ltimo ejemplo visto en la seccion anterior levanta una pequena inquietud. Al
incluir quiebres estructurales en la especificacion mediante variables indicatrices,
la funcion de regresion estimada se vuelve discontinua. Existe alguna manera de
evitar dicha discontinuidad? Graficamente al menos? S, y la solucion se llama
POR PEDAZOS .4 Considerese la siguiente especificacion en la que se
R EGRESI ON
sospecha de un cambio de tendencia en la fecha t0 :
Ct = + 1 yt + 2 It (t t0 )(yt yt0 ) + ut
Donde It () es una variable indicatriz, igual a uno si se cumple la condicion entre
parentesis, t t0 y cero si no. Cual es el interes de restar yt0 ? Para averiguarlo, lo
mas facil es ver que le ocurre a la regresion en cada momento del tiempo:
1. Especificacion antes del quiebre estructural (la variable indicatriz no se activa,
t < t0 ):

Ct = + 1 yt + ut
2. Especificacion despues del quiebre estructural (la variable indicatriz esta activada, t > t0 ):

Ct = + 1 yt + 2 (yt yt0 ) + ut
= ( 2 yt0 ) + (1 + 2 )yt + ut
3. Especificacion en el quiebre estructural (la variable indicatriz se activa, t =
t0 ):

Ct0 = 2 yt0 + 1 yt0 + 2 yt0 + ut0


= + 1 yt0 + ut0
4

Ridge Regression en ingles.


5.1. VARIABLES DICOTOMICAS

203

Note como esta u ltima especificacion es igual a la que obtenamos cuando no


se haba activado aun el rompimiento estructural. No cambia la ordenada en
el origen ni la pendiente. Ya en las observaciones siguientes, la pendiente se
vera alterada, pero partira del mismo punto donde se quedo la primera.

yt

xt

Figura 5.2: Ejemplo de Regresion por pedazos

Ejercicio 4 Con la finalidad de disipar cualquier duda, lo recomendable es construir la recta de regresion quebrada con un ejemplo numerico concreto. Suponga
que estima la regresion:
yt = + 1 xt + 2 It (t t0 )(xt xt0 ) + ut
donde el quiebre esta en la observacion x3 = 2 y obtiene lo siguiente:
1.
= 4,
2. 1 = 0.5,
3. 2 = 0.5,
Lo u nico que necesita hacer es graficar las dos rectas de regresion (no olvide omitir
el residual) y constatar que ambas justamente se cruzan cuando xt = 2. Valores de
la variable explicativa superiores a dos corresponden a valoresajustadosde la
variable dependiente en la nueva regresion.

204

POR PEDAZOS

CAPITULO
5. VARIABLES BINARIAS Y REGRESION

Ejercicio 5 Generalizar esto a multiples quiebres estructurales resulta trivial, por


lo que se queda como un ejercicio para el lector.
Con esto terminamos la presentacion del modelo general de MCO. Hasta este punto
hemos hecho uso extensivo de los 7 supuestos establecidos anteriormente. Lo que
ahora procede es indagar las consecuencias del rompimiento de algunos de ellos.

Captulo 6
Autocorrelacion y
Heteroscedasticidad
A lo largo de los primeros captulos hemos llevado a cabo una serie de demostraciones que nos han ilustrado sobre la potencia del metodo de estimacion de Mnimos
Cuadrados Ordinarios. Este u ltimo provee estimadores insesgados (la esperanza de
los estimadores MCO es el verdadero valor de los parametros), consistentes (dichos
estimadores se aproximan a los verdaderos valores cuando el tamano de muestra
crece) y eficientes (son de mnima varianza en la clase de estimadores lineales insesgados). Inclusive hemos visto la forma de llevar a cabo inferencia estadstica con
ellos. No obstante, todas y cada una de las demostraciones anteriores ha requerido,
en su ejecucion, el uso de supuestos. Efectivamente, nos referimos a los famosos
siete supuestos esbozados al principio. Las esperanzas que hemos calculado se resuelven muy facilmente puesto que asumimos que las variables x, las explicativas,
no son estocasticas; otras esperanzas se han simplificado al extremo gracias a las
propiedades que le atribuimos al termino de error (homoscedasticidad e independencia); en infinidad de ocasiones reemplazamos a la variable dependiente por la
especificacion para avanzar en la prueba, todo el edificio de pruebas de hipotesis
descansa sobre una normalidad que le atribuimos al termino de error... Una pregunta debera emerger de esta breve sinopsis:
Q U E PASA SI UNO DE ESTOS SUPUESTOS NO SE CUMPLE ?
Buena parte del programa de investigacion en econometra se ha volcado sobre la
cuestion. Una primera respuesta, a manera de intuicion, es que las tecnicas estudiadas hasta aqu dejan de funcionar. La intuicion es atinada pero yerra en detalles
205

206

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

no triviales. Por ejemplo, la no satisfaccion del supuesto de homoscedasticidad o el


de independencia de los errores no sesga a nuestros estimadores; los vuelve menos
eficientes, pero siguen siendo insesgados y consistentes. Es acaso este problema
devastador? Pues definitivamente resulta engorroso tener estimadores poco eficientes; la inferencia que sobre ellos se puede hacer es menos precisa, pero al menos
se puede seguir haciendo... Que hay de la naturaleza de las variables explicativas?
Sera un problema si e stas s resultan ser estocasticas? En cierta medida s, s lo es,
puesto que complica los calculos y merma la potencia de algunos resultados, pero el
rompimiento de este supuesto tampoco representa el fin de la inferencia en modelos
econometricos.
En realidad, elposiblerompimiento de muchos de los supuestos obliga al econometrista a emplear tecnicas de prevencion y/o correccion elaboradas, pero no le impide hacer su trabajo. Hay tres excepciones notables: el rompimiento del supuesto
de ortogonalidad, el de correcta especificacion y el de estacionariedad. Las consecuencias de los primeros son tan trascendentales que, de hecho, ocupan gran parte
del segundo curso de econometra al que pronto ingresaran. En cuanto a la noestacionariedad de las series, e sta tambien afecta gravemente la validez de la inferencia econometrica, pero es posible detectarla y, en muchos casos corregirla o
tomarla en cuenta. Los elementos teoricos para entender esta cuestion seran estudiados en el curso de Series de Tiempo, una vez madurado el edificio basico de la
econometra. En lo que resta de esta parte nos concentraremos en estudiar tanto la
autocorrelacion como la heteroscedasticidad.
Los nombres que enarbola el ttulo de este apartado, autocorrelacion y Heteroscedasticidad, corresponden al rompimiento de dos supuestos del modelo de regresion
lineal:

E(u2t ) = 2
E(ut u ) = 0 t 6=
Dichos supuestos establecen que el termino de error que acompana a la especificacion debe ser independiente y de varianza constante. Ambos los hemos utilizado en
un sinfn de ocasiones para avanzar en demostraciones (uno de los casos mas ilustrativos es en el de la esperanza de los estimadores). Historicamente se consideraba
que el rompimiento de tales supuestos representaba un serio problema y que era indispensable corregir. Mucha tinta se verso al respecto durante decadas; no obstante,
en la actualidad la autocorrelacion as como la heteroscedasticidad son mas bien

Y HETEROSCEDASTICIDAD
6.1. AUTOCORRELACION

207

considerados como sntomas de una especificacion incorrecta o inacabada.1 Lo


importante es considerar, al enfrentarse a la autocorrelacion y a la heteroscedasticidad, que nuestra especificacion no logra retener adecuadamente toda la informacion
pertinente para explicar el comportamiento de la variable dependiente. Algo nos
esta faltando. En principio, podramos incorporar mas informacion al modelo; mas
informacion relativa a la variable que pretendemos explicar. Si bien es importante
entender las tecnicas clasicas de correccion, le daremos a este captulo un e nfasis
que consideramos mas moderno y, sobre todo, mas adecuado. La presentacion del
tema es por ende heterodoxa, pero, finalmente, facilita enormemente el tratamiento
de estos problemas. El plan basico es el siguiente:
1. Entender las consecuencias de una autocorrelacion/heteroscedasticidad no
corregidas en MCO.
2. Conocer algunas tecnicas para identificar dicha autocorrelacion/heteroscedasticidad.
3. Conocer algunos metodosclasicospara corregir y presentar otras alternativas para lidiar con el problema.
El orden no sera estrictamente el senalado en la lista anterior; daremos indicios de
cada seccion entremezclados a lo largo del captulo.

6.1.

Autocorrelacion y Heteroscedasticidad

Lo primero que hay que saber respecto al rompimiento de estos supuestos es donde
se materializan sus consecuencias. Lo anterior representa una interrogante a la que
es facil responder: Todos los efectos de la autocorrelacion y la heteroscedasticidad
quedan plasmados en la matriz de Varianza-Covarianza del termino de error:
def

E (U U ) =
Usualmente, al calcular E (U U ), asumiendo que se cumplen los supuestos, obtenamos 2 IT . Los elementos de la diagonal eran todos iguales (cumplimiento de
la homoscedasticidad) mientras que los elementos de los triangulos eran todos
iguales a cero (cumplimiento de la no-autocorrelacion o independencia). Es facil
1

Sus efectos sobre los estimadores, si bien no son tan inocuos, tampoco invalidan completamente
los resultados.

208

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

adivinar que pasara en caso de no cumplirse alguno de los supuestos mencionados.


Empecemos con una matriz afectada por HETEROSCEDASTICIDAD:

u1
u2 


E (U U ) = E .. u1 u2 . . . uT

.
uT

u21
u1 u 2 . . . u 1 u T
u2 u 1
u22 . . . u2 uT

= E ..
..
..
.
.
.
.
.
.
uT u1 uT u2 . . . u2T

En presencia de heteroscedasticidad, E(u2t ) = t2 . Asumimos que no hay autocorrelacion, por lo que los triangulos quedan todos con elementos nulos.

E(U U )

def

12 0
0 2
2

..
..
.
.
0 0

...
...
...

0
0
..
.

. . . T2

:
Ahora veamos una matriz afectada por AUTOCORRELACI ON

E(U U )

2
a12

..
.
a1T

def

a21 . . . aT 1
2 . . . aT 2

..
..
...
.
.
a2T . . . 2

donde los elementos ai,j para i, j = 1, . . . , T y i 6= j son elementos no nulos


(no todos, al menos.). Conviene tener muy claro cual es la matriz de VarianzaCovarianza ideal (la que resulta de la satisfaccion de ambos supuestos):


6.2. MINIMOS
CUADRADOS GENERALIZADOS

1
0

= 2 ..
.

0 ...
1 ...
.. . .
.
.
0 0 ...

= 2 IT

6.2.

209

0
0

..
.
1

Mnimos Cuadrados Generalizados

Aqu introduciremos lo que se conoce en la literatura como Mnimos Cuadrados


Generalizados, M CG. Dicho metodo es la respuesta a la siguiente pregunta: Como
corregir la matriz de Varianza-Covarianza2 asumiendo que realmente conocemos la
matriz ? Sabemos, por desarrollos anteriores que es una matriz definida positiva.
Existe entonces una matriz no-singular, que denotamos |{z}
P tal que:
T T

P P = IT
1
= P 1 (P )
= (P P )1
1 = P P

Transformemos ahora la especificacion multiplicandola por la matriz P . Denotaremos con un tilde a las variables as transformadas:
P Y = P X + P U
+ U
Y = X

Ahora verifiquemos nuevamente nuestra matriz con y sin transformacion de los


datos:
1. Especificacion original: E(U U ) = (hay dos supuestos invalidos)
2

Es decir, como pasar de cualquiera de las versiones afectadas por autocorrelacion/heteroscedasticidad a la forma ideal 2 IT ?

210

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

2. Nueva especificacion:


E U U = E (P U U P )
= P P
= IT

Esta simple transformacion nos hace recuperar todo lo perdido por autocorrelacion o heteroscedasticidad al dejar una matriz de Varianza-Covarianza diagonal.
Veamos ahora cuales son las nuevas formulas de los estimadores:
=

1

Y
X

1
= (P X) (P X)
(P X) (P Y )
1

= (X P P X) X P P Y
1 1
= X 1 X
X Y

Tales estimadores seran insesgados; para ver esto, reemplazamos Y por la especificacion original:
1 1
= X 1 X
X (X + U )
1
= + (X X)1 X 1 U
|
{z
}
N o Estoc
astico
 
E =

En lo que respecta a su varianza, e sta sera la siguiente:3


= E
V ar()

=
V ar()
3

 


1 1
1 i
X 1 X
X U U 1 X X 1 X
1 1 1
1
X 1 X
X X X 1 X
1 1
1
X 1 X
X X X 1 X
1
X 1 X

= E
=



Recuerde que ni X ni son estocasticos.


6.2. MINIMOS
CUADRADOS GENERALIZADOS

211

Note que en el segundo paso, escribimos (X 1 X)1 en vez de [(X 1 X)1 ] ,


como en principio corresponde. Lo anterior obedece a que (X 1 X)1 es una
matriz simetrica y por ello podemos obviar la trasposicion. Para que esto quede
claro, recuerde que si una matriz es simetrica, su inversa tambien lo es (vea la demostracion en la pagina 136). Sabiendo eso, solo falta constatar que (X 1 X) =
X 1 X (siendo una matriz de varianza-covarianza, es obvio que es simetrica).
Ahora bien, esta transformacion tan extraordinaria y curiosamente adecuada de la
especificacion nos permite obtener resultados tan satisfactorios como en la primera
parte del curso; ello era de esperar, puesto que dicha transformacion nos permite
seguir satisfaciendo los supuestos del modelo. Imaginemos por un momento que no
fuimos nosotros los que transformamos los datos mediante la matriz P , que alguien
y apliya nos los entrego as. As, habramos partido directamente con Y y con X
cado MCO. Al satisfacer dichos datos todos los supuestos, lo visto en la primera
parte del curso permanece valido, en particular el Teorema de Gauss-Markov. Por
lo mismo, estos parametros son MELI. Al recordar magicamente lo de la transformacion, nos damos cuenta que fue gracias a ella que obtuvimos tales propiedades.
Esta tecnica de transformacion anadida al ya tradicional metodo de MCO , se llama,
como ya habamos senalado, M CG (GLS, por sus siglas en ingles).

6.2.1. Ejemplos de aplicacion de MCG


En esta seccion vamos a dar dos ejemplos ilustrativos muy sencillos. Recuerde que
estamos asumiendo que conocemos la naturaleza del problema, es decir, que conocemos .
Ejemplo 15 Presencia de Heteroscedasticidad:
Recuerde nuestro modelo:
Y = X + U
yt = 1 x1t + 2 x2t + ... + K xKt + ut
Imagine que la varianza del termino de error es proporcional a una de las variables
explicativas, digamos x21t . Esto se podra representar de la siguiente manera:
V ar(ut ) = 2 x21t

De esta manera, hemos incorporado heterocedasticidad en el modelo. Su forma,


reiteramos, nos es conocida. Dicha heteroscedasticidad repercutira en la matriz
de Varianza-Covarianza del termino de error de la siguiente manera:

212

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

V ar(U U ) = 2

x211

0
..
.

x212

...

0
..
.

...
0
0 x21t

...

Ahora que ya visualizamos , como la transformaramos (es decir, como aplicaramos M CG?) la especificacion si deseamos recuperar la validez de los supuestos? Dicho de forma mas prosaica, cual es la matriz P ? Pues en este caso, es
muy facil responder; la matriz P ha de adoptar la siguiente forma:

P =

1
x11

0
..
.

1
x12

...

...

0
..
.
..
.

...

1
x1T

...
...

Dejamos al lector la tarea de comprobar que dicha matriz es la respuesta adecuada


para transformar la especificacion:
P P = 2 IT
Este ejemplo, particularmente sencillo, indica que lo u nico que hay que hacer es
dividir todas las variables, yt , xit para i = 1, . . . , K por x1t . Note como, en caso
de haber una constante, e sta dejara de serlo para ir acompanada de la variable
inversa x11t y el parametro que originalmente acompanaba a x1t se convertira en la
nueva constante de la regresion.
Ejemplo 16 autocorrelacion en la especificacion: Este ejemplo de autocorrelacion es un poco mas complejo. Cuando hay autocorrelacion en los residuales,
E (ut u ) 6= 0 donde t 6= . La estructura de dicha autocorrelacion puede variar
mucho. Para fines practicos, usaremos la que se denomina F ORMA AUTOREGRE se estudiara con mucho detalle en Analisis
SIVA DE PRIMER ORDEN , AR(1). Esta
de Series de Tiempo. De momento, nos conformaremos con dar la especificacion de
un termino de error AR(1):


6.2. MINIMOS
CUADRADOS GENERALIZADOS

213

ut = ut1 + t
donde iidN (0, 2 ) y || < 1.4 Empezaremos entendiendo algunas propiedades
del proceso AR(1). Nos conformaremos con conocer su esperanza y su varianza;
la primera es muy facil de obtener; la segunda,. . . tambien.
1. Esperanza:

E (ut ) = E (ut1 ) + E(t )


Si ut es un proceso estacionario, E (ut ) = E (ut1 ), por lo que, conociendo
ademas las propiedades del ruido , podemos decir que:

E (ut ) = E (ut ) + 0
(1 ) E (ut ) = 0
E (ut ) = 0
2. Varianza:

E u2t

= E (ut1 + t )2

= E 2 u2t1 + 2t + 2 ut1 t
| {z }
var. indep.

E(u2t1 )

Dado que se cumple el supuesto de homoscedasticidad,


E(u2t ) = E(u2t1 )
4

La importancia de este u ltimo supuesto quedara manifiesta en la seccion de Analisis de Series


de Tiempo.

214

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION
Lo anterior lo podemos aprovechar para acabar se simplificar la expresion
de la varianza:



1 2 E u2t = 2
E(u2t ) =

2
(1 2 )

En esta u ltima expresion se puede entender la importancia de || < 1. De ser


igual a uno, dividiramos entre cero, lo que dara paso a una singularidad
(una varianza infinita). El caso en que | |> 1 es ligeramente mas complejo y
se relegara a la segunda parte de este manual. Baste decir por ahora que las
operaciones realizadas (igualar esperanzas y varianzas para distintas realizaciones (en t y t 1) ya no son validas. Si el parametro fuera superior a
la unidad (en valor absoluto), tendramos un proceso no-estacionario (lo que
ya no corresponde al ruido blanco que definimos al principio).
Construyamos ahora la matriz de Varianza-Covarianza del error, :
= E(U U )

E(u21 ) E(u1 u2 )
E(u2 u1 ) E(u2 )
1

=
..
..

.
.
E(uT u1 ) E(uT u2 )

. . . E(u1 uT )
. . . E(u2 uT )

..
...

.
2
. . . E(uT )

Para facilitar la construccion de dicha matriz, definamos


i = E (ut uti )
Esta notacion nos proporciona un vehculo muy comodo para apuntar la varianza
y todas las autocovarianzas (es decir, covarianzas entre la variable y sus propios
rezagos). Veamos justamente dichas expresiones:
1. La varianza, 0 : La varianza del ruido ya la habamos calculado; es solo
cuestion de asociarla a su nuevo nombre.


6.2. MINIMOS
CUADRADOS GENERALIZADOS

215


0 = E u2t
2
=
1 2
2. La primera autocovarianza, 1 : Se trata de la relacion que hay entre ut y
ut1 .

1 = E(ut ut1 )
= E [(ut1 + t ) ut1 ]

E u2t1 + E (t ut1 )
0
3. La segunda autocovarianza, 2 : Se trata de la relacion que hay entre ut y
ut2 .

2 =
=
=
=

E (ut ut2 )
E [(ut1 + t ) ut2 ]
1
2 0

4. La k-esima autocovarianza, k : Se trata de la relacion que hay entre ut y


utk . Aqu nos aprovecharemos de una argucia recursiva puesta en evidencia
en los calculos anteriores:

k = k 0
donde k = 0, 1, 2, ...T .

216

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Ya con esta informacion podemos rellenar con facilidad la matriz : 5

. . . T
. . . T 1
..

...
.
..
0
.
0

1 2 . . . T 1
1 . . . T 2

..

1
.
= 0

..
...

.
1

0 1 2

0 1

0
=

Ahora que ya conocemos la forma de , podemos proceder a su descomposicion


con objeto de obtener la matriz P . Es esta u ltima la que usaremos para transformar
la especificacion y as poder aplicar M CG. Conviene recordar que P es una matriz
tal que P P = 1 . La obtencion de P suele llevarse a cabo numericamente6
usando el metodo de Choleski. Vamos a ilustrar este metodo usando un ejemplo
muy sencillo con T = 2. Retomando nuestra matriz en este caso muy reducida...


2
1
=
1 2 1
" 2
#
2
=

12
2
12

12
2
12

A esta matriz tan sencilla se le puede calcular rapidamente su inversa. Empecemos


por el determinante:

|| =
=
5
6

1 2
(1 2 )2

4
(1 2 )

Dado que la matriz es simetrica, solo presentamos uno de sus triangulos y la diagonal.
Es decir, lo hace un programa de computadora.


6.2. MINIMOS
CUADRADOS GENERALIZADOS

217

Ahora s, calculemos la inversa:

#
" 2
2

(1 2 ) 1
2
2
1
=
2
4
4
12
12


1 1
=
2 1

 2

2
=
2
2

Es con esta matriz que ilustraremos la obtencion de la matriz P . Como ya habamos


senalado, se utiliza el metodo de Choleski, mas precisamente el metodo de descomposicion de Choleski. Recordemos que nuestro objetivo es encontrar una P tal que
P P = 1 . La matriz de Choleskique sera en u ltima instancia la matriz P de
hecho es triangular.7 Esto nos permite escribir lo siguiente:



 2
a11 a21 a11 0

2
=
0 a22 a21 a22
2
2
| {z } | {z }
{z
}
|

Ya nada mas falta saber que valen los elementos a11 , a21 y a22 . En cuanto los conozcamos, sabremos como esta compuesta la matriz P . Como obtenerlos? Pues
en este caso es muy facil. Podemos establecer los calculos matriciales elemento por
elemento del producto P P que permiten obtener los elementos de la matriz :
1. a211 + a221 = 2
2. a21 a22 = 2
3. a222 = 2
Esto, como podran ver, constituye un sistema de tres ecuaciones con tres incognitas.
Lo podemos resolver; manipulando adecuadamente, obtenemos:8
7

Es decir, uno de sus triangulos esta compuesto por ceros. Dicha caracterstica es en realidad la
argucia que permite obtener la descomposicion
8
Note que este desarrollo tambien nos brinda una matriz P si nos quedamos con las races negativas. Gracias a Luis Antonio Gomez Lara por este comentario.

218

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

1. a22 = 1
2. a21 = 1
p
3. a11 = 1 1 2

Ahora colocamos los elementos en su lugar y obtenemos la matriz P :


p

(1 2 ) 0
1
P =

1
Como bien dijimos al principio, lo anterior es nada mas una ilustracion de la descomposicion de Choleski. Cuando la matriz es mas grande, (T > 2), tendremos que
resignarnos a que una computadora haga el calculo. Cuando el termino de error es
AR(1), pero T > 2, la matriz P es la siguiente:
p
(1 2 ) 0 . . . . . .

...

...
P = 1
0
1

..
...

1
.
0
. . . 0

0
..
.
..
.

0
1

Pues hemos obtenido por fin la matriz que nos permite transformar la especificacion
y recuperar el supuesto de independencia de los errores. Dejamos al cuidado del
lector la comprobacion de los calculos. Sugerimos, para este efecto, pensar en una
matriz de 3 3.
Y es aqu donde vale la pena hacer una anotacion trascendental. M CG padece de
una pequena complicacion:

E N LA P R ACTICA
N O C ONOCEMOS .
Sin conocimiento de la matriz , resulta imposible calcular la otra matriz, con la
que transformaremos toda la especificacion (P ). Es cierto que podramos estimarla,
por lo que al metodo se le agrega una sigla y se transforma en Feasible GLS (FGLS),
o bien M CG Factibles (MCGF). Pero entonces la magia de la transformacion ya
no opera con tanta fluidez y sobre todo, es necesario preocuparse por estimar . En
caso de equivocarnos, o de proveer un estimador inapropiado, es muy probable que
el remedio resulte peor que la enfermedad.

6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO219

6.3.

Consecuencias del rompimiento de supuestos sobre MCO

Para dimensionar adecuadamente la magnitud del problema, es necesario conocer


los efectos de la autocorrelacion y la heteroscedasticidad sobre nuestros ya conocidos estimadores de MCO. Esto lo llevaremos a cabo recordando que todos los
demas supuestos s se cumplen; los u nicos que no son los siguientes:
E (u2t ) = 2
E (ut u ) = 0
Recordemos tambien que habamos definido la matriz de Varianza-Covarianza del
termino de error como:
def

E (U U ) =

6.3.1. Sesgo bajo autocorrelacion o heteroscedasticidad?


Estudiemos primero si la propiedad de no-sesgo en los parametros estimados de
MCO se ve alterada cuando hay autocorrelacion y/o heteroscedasticidad. En realidad, se trata de la misma demostracion que cuando presentamos en modelo generalizado de MCO. Partamos de la formula de los estimadores:
1
= (X X) X Y
1
= (X X) X (X + U )
1
= + (X X) X
U
|{z}
|
{z
}
N o Estoc
astico Esperanza nula
 
E =

Es importante tener claro que para obtener la esperanza de los estimadores no fue
necesario tener en cuenta ni la independencia del termino de error ni su homoscedasticidad; por lo mismo de concluye que el rompimiento de dichos supuestos no
afecta a la propiedad de Estimadores insesgados de MCO:
EN
L OS E STIMADORES DE MCO P ERMANECEN I NSESGADOS A UN

P RESENCIA DE AUTOCORRELACI ON Y / O H ETEROSCEDASTICIDAD .

220

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

6.3.2. Varianza bajo autocorrelacion o heteroscedasticidad


En realidad estos supuestos, cuando no se cumplen, inciden particularmente en la

varianza de los estimadores. Estos,


adelantandonos un poco, pierden su condicion
de eficiencia. Mas grave aun, invalidan las formulas que conocemos para estimar
dichas varianzas. Para ver todo esto, retomemos el modelo de regresion simple,
pues resulta mucho mas esclarecedor:
yt = + xt + ut
Recuperemos una de las expresiones que habamos desarrollado para dicho modelo:

2
= E
V ar()
X
2
= E
K t ut

= E (K1 u1 + K2 u2 + . . . KT uT )2
= E K12 u21 + K22 u22 + . . .
KT2 u2T + 2K1 K2 u1 u2 + 2K1 K3 u1 u3 + . . .
+2Ki Kj ui uj + . . . + 2KT 1 KT uT 1 uT )

Acabemos de desarrollar esta expresion, solo que bajo diversos escenarios. Empezaremos asumiendo que se cumplen los supuestos, despues relajaremos uno (heteroscedasticidad), luego relajaremos otro (independencia) y remataremos relajando
ambos.
1. No hay ni Heteroscedasticidad, ni autocorrelacion:

 
X
V ar = 2
Kt 2
= P

2
(xt x)2

6.3. CONSECUENCIAS DEL ROMPIMIENTO DE SUPUESTOS SOBRE MCO221


2. Hay heteroscedasticidad, pero no autocorrelacion:

= E K 2 u 2 + . . . + K 2 u2
V ar()
1 1
T T
= K12 12 + . . . + KT2 T2
X
=
Kt2 t2
P 2
t
= P
(xt x)2

3. Hay autocorrelacion, pero no heteroscedasticidad:


2
= P
+ 2K1 K2 12 + 2K1 K3 13 + . . .
V ar()
{z
}
(xt x)2 |
6=0

(x1 x)(x2 x)

2 12 +
2 + 2 P
(xt x)
(xt x)2
(x1 x)(x3 x)
2 P
2 13 + . . .
(xt x)2

= P

donde ij = E(ui uj ).

4. Hay heteroscedasticidad y autocorrelacion:

= P
V ar()

t2
(x1 x)(x2 x)
2 12 +
2 + 2 P
(xt x)
(xt x)2

(x1 x)(x3 x)
2 P
2 13 + . . .
(xt x)2
P 2
2
t
= P
2 [(x1 x)(x2 x)12 +
2 + P
(xt x)
(xt x)2
(x1 x)(x3 x)13 + . . .]

222

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

En los casos de 2-4, la formula de la varianza de los parametros difiere de la que


conocamos, que es la que aparece en el primer inciso. Ahora bien, cuando nosotros
ejecutemos la regresion, no sabremos si los supuestos de independencia y homoscedasticidad se cumplen; implcitamente asumiremos que s; por ello, utilizaremos la
2
primera formula,9 P(xt x)2 . Pero si hay heteroscedasticidad y/o autocorrelacion, dicha formula es perfectamente erronea. El calculo que hagamos con ella sera espurio
y no representara un buen estimadorni de lejosde las varianzas y covarianzas
de los estimadores.
Anteriormente, habamos visto que al usar MCG, recuperabamos la validez de nuestros supuestos; al transformar la especificacion, podamos seguir usando MCO y
obtener estimadores MELI.
No obstante, conviene recalcar que en los casos 2-4, la demostracion que hicimos
del Teorema de Gauss-Markov pierde validez.10 Por ende, los estimadores bajo los
casos 2,3,y 4 dejan de ser MELI, en contraste con los de M CG. Es importante
rescatar que tales estimadores siguen siendolineales einsesgados, pero ya no
son eficientes (de mnima varianza).
Y / O H ETEROSCEDASTICIDAD , LOS
E N P RESENCIA DE AUTOCORRELACI ON
E FICIENTES ; YA N O S ON DE
E STIMADORES DEJAN DE SER LOS M AS
M I NIMA VARIANZA .

6.4.

Pruebas de Deteccion

Hasta ahora, hemos definido la autocorrelacion y la heteroscedasticidad; descubrimos tambien en el Metodo de Mnimos Cuadrados Generalizados una tecnica
fantastica para corregir de forma idonea esos problemas. Como bien se ha dicho,
M CG requiere el conocimiento de ,la matriz de Varianza-Covarianza del termino
de error. Dicha matriz, de hecho rara vez es conocida. Nosotros usualmente tomamos datos, corremos nuestra regresion inocentemente y ya luego nos empezamos a
preocupar por la satisfaccion de los supuestos. Existen formas de estimar y corregir por M CG, pero primero nos concentraremos en conocer algunas de las tecnicas
de deteccion de rompimiento de supuestos. N OTE QUE CADA P RUEBA ASUME
S UPUESTOS M UY E STRICTOS R ESPECTO A LA E STRUCTURA DEL E RROR.
9

Reemplazando la varianza del error por su estimador, claro esta.


En esa demostracion, usamos los supuestos que ahora estamos rompiendo. Vea dicha demostracion en las paginas 69 (modelo lineal simple) y 137 (modelo multivariado).
10


6.4. PRUEBAS DE DETECCION

223

6.4.1. Deteccion de la Heteroscedasticidad


Existen muchas pruebas de heteroscedasticidad en el mercado. Cada una de ellas
puede resultar mas o menos adecuada segun el contexto. En realidad, ahora que
entendemos cual es la filosofa estandar detras de una prueba de hipotesis, nos conformaremos con proponer algunas sin entrar en detalles ni demostraciones. En particular expondremos dos; la Prueba de Goldfeld-Quandt y la Prueba de White. En
todas ellas, la hipotesis nula, H0 , es H OMOSCEDASTICIDAD mientras que la alternativa sera H ETEROSCEDASTICIDAD.
La Prueba de Goldfeld-Quandt
Retomando un poco lo dicho en la u ltima frase del parrafo anterior, definimos la
hipotesis nula y la alternativa, en este caso, de la prueba Goldfeld-Quandt. La heteroscedasticidad que sugiere esta prueba es una en la que la varianza del error es
proporcional a alguna de las variables explicativas:
1. H0 : t2 = 2 para todo t = 1, 2, . . . , T ,
2. Ha : t = xi .
De ser valida la hipotesis alternativa, podemos esperar que la varianza del error
sea grande cuando la variable xi es grande y sea chica en caso contrario. Con base en esto u ltimo, es razonable pensar que un estimador de la varianza del error
usando u nicamente los estimados del residual correspondientes a valores grandes
(pequenos) de la variable xi sea tambien grande (pequeno).
I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA G OLDFELD -Q UANDT:
Ordenar los datos yt , x1t , ...xkt segun el orden creciente de la variable explicativa xi que supuestamente afecta a la varianza del error.
Borrar un numero arbitrario de observaciones pertenecientes a la parte central
de la muestra, digamos d = 51 . Se recomiendo hacer lo anterior con objeto de
exacerbar la diferencia entre las varianza del principio de la muestra y la del
final de la muestra.
Correr dos regresiones: una para cada submuestra (las cuales son de tamano:
(T dT )
). La primera regresion se hace bajo el supuesto de que debera estar
2
asociada a una varianza de error chica mientras que la segunda debera estar
asociada a una varianza de error grande.

224

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION
Calcular para cada regresion la SCE:
Varianza Chica: SCE1

Varianza Grande: SCE2

Es posible demostrar que, si se cumple los supuestos de no-autocorrelacion y


normalidad del termino de error bajo la hipotesis nula de homoscedasticidad,
el estadstico de Goldeld-Quandt (GF) se distribuye como una F:
SCE2
F(T dT 2K)/2, (T dT 2K)/2 g.l.
SCE1
Note que los grados de libertad corresponden a los de la suma de cuadrados
del error de una regresion normal. Se asume que, en total, se restaron dT
datos del centro de la muestra, por lo que solo quedan T (1d) observaciones.
Ambas submuestras son del mismo tamano, por lo que la muestra en ambos
casos incluye T (1 d)/2 observaciones; en ambas regresiones se estima el
mismo numero de parametros, es decir, K, por lo que al final solo quedan
T (1d)/2K = T dT 2K)/2 grados de libertad, tanto para el numerador
como para el denominador.11
Como veran, el procedimiento es bastante sencillo. La lectura de la prueba F ya ha
sido estudiado con anterioridad y por lo mismo, no lo detallaremos.
Ejercicio 6 Como ya se senalo, existe un sinfin de pruebas en econometra. Las relativas a heteroscedasticidad son bastante numerosas. En este ejercicio, se le pide
que busque informacion relativa a la que propuso H. Glejser en 1969.12 Ya documentada, programela en el lenguaje de su preferencia (aunque se recomienda
ampliamente hacerlo en Matlab.)
La prueba de White
La prueba de White, como dijimos al principio, establece que la hipotesis nula es
cohomoscedasticidad, mientras que en la alternativa hay heteroscedasticidad. Esta
bra una forma funcional que la hace dependiente de algunas variables explicativas
11

Con agradecimientos para Sandra Thala Gomez Espana, quien noto un error en los grados de libertad (en una version anterior). Mas informacion sobre esta prueba puede obtenerse en
http://en.wikipedia.org/wiki/Goldfeld%E2%80%93Quandt_test, o bien en el
artculo original (ver bibliografa).
12
H. Glejser (1969) A New Test for Heteroskedasticity. Journal of the American Statistical Association, vol. 64, pp. 316-323.


6.4. PRUEBAS DE DETECCION

225

(o incluso exogenas a nuestra especificacion) al cuadrado o multiplicadas entre s.


Suponga la siguiente especificacion:
Yt = X + U
En caso de haber heteroscedasticidad tal y como la define White, tendramos:13
2
2
u2t = + 1 Z1t + 2 Z1t
+ 3 Z2t + 4 Z2t
+ . . . + t

Como ya se senalo, las variables Zi,t pueden ser algunas de las variables xi , un
subconjunto de ellas o inclusive otras variables distintas. Las hipotesis relevantes
son:
1. H0 : E (u2t ) = 2 para todo t = 1, 2, . . . , T
2
2. Ha : E (u2t ) = + 1 Z1t + 2 Z1t
+ . . . + t

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE W HITE :


Estimar la especificacion por MCO
Obtener los residuales estimados, ut
Estimar, tambien por MCO, la siguiente regresion:

ut 2 = t + 1 x1t + 2 x21t + 3 x1t x2t + . . .


4 x2t + 4 x22t + 5 x1t x2t + K x2Kt + t
Calcular el siguiente estadistico de prueba:
d

W = T R2 2Pg.l
Donde P es el numero de parametros incluidos en la regresion
auxiliar sin tomar en cuenta la constante.
13

No se exponen en la especificacion, pero de hecho tambien es posible incluir los productos


cruzados de las variables.

226

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Existen muchas mas pruebas de heteroscedasticidad. Su funcionamiento puede considerarse analogo a las aqu presentadas en el sentido siguiente. Llevar a cabo una
prueba de hipotesis requiere del usuario, conocimiento de la hipotesis nula as como
de la distribucion del estadstico de prueba en caso de ser cierta. Si se entiendio bien
como funcionan las pruebas expuestas en las primeras paginas de este documento,
interpretar otras que no aparecen aqu debera resultar relativamente facil.

6.4.2. Deteccion de la autocorrelacion


Si se revisa un poco la literatura concerniente a las pruebas de hipotesis en econometra, se descubre con asombro la fenomenal cantidad de esfuerzos dedicados a
la deteccion de autocorrelacion. Hace ya mas de 30 anos, un estudio sobre la cuestion cobro gran importancia y es hoy en da utilizado: se trata de la famosa prueba
de autocorrelacion de orden uno, la Durbin-Watson; posteriormente, muchas otras
mas han salido; e stas son mas sofisticadas, mas flexibles y eventualmente, mas poderosas. Pero tambien son mas estandar. Por otra parte, la autocorrelacion tiene
una franca conexion con el analisis de tiempo y e ste ha aportado mucho a su deteccion as como a su control. Por estas razones presentaremos tres pruebas: la Durbin
Watson, la Breuch-Godfrey y el autocorrelograma/Estadstico Q.
La prueba Durbin-Watson
La prueba Durbin-Watson es ya clasica. Actualmente todava se le toma en cuenta para estudiar un posible problema de autocorrelacion de primer orden14 aunque
E SPURIA.15
tambien se usa para detectar un posible problema de R EGRESI ON
Justamente, Durbin y Watson asumen que, en caso de haber un problema de autocorrelacion, e ste adoptara la siguiente estructuracion:
ut = ut1 + Vt
donde Vt es un ruido blanco (independiente y homoscedastico).
Las hipotesis que manejan son las siguientes:
1. Independencia: H0 : = 0
2. autocorrelacion de primer orden, AR(1): Ha : 6= 1 (|| < 1)
14
15

es importante recordar siempre que la DW solo sirve para autocorrelacion de primer orden.
La regresion espuria sera estudiada en la seccion de Series de Tiempo.


6.4. PRUEBAS DE DETECCION

227

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE D URBIN WATSON :


Estimar la especificacion de interes por MCO y recuperar los residuales estimados, ut
Calcular el estadstico de prueba siguiente:
DW =

PT

(
ut ut1 )2
PT
2t
t=1 u

t=2

Discriminar entre la hipotesis nula y la alternativa utilizando la


tabla de valores crticos provista por Durbin y Watson. En ella
aparecen los valores DL y DU necesarios:a
1. Si el Estadstico DW < DL : se rechaza H0 : evidencia de
autocorrelacion positiva.
2. Si el Estadstico DL < DW < DU o bien 4 dU < DW <
4 DL : no hay evidencia suficiente para aceptar o rechazar
H0 : sin decision.

3. Si el Estadstico DW > 4 DL : se rechaza H0 : evidencia


de autocorrelacion negativa.

Dichos valores son funcion del numero de observaciones, T as como del numero
de parametros excluyendo a la constante.

La figura (6.1) explica de forma mas elocuente esta regla de decision:


Es facil entender porque el estadstico DW suele caer entre cero y cuatro. Retomemos la formula y desarrollemosla un poco...
P

(
ut ut1 )2
P 2
DW =
ut
P
P 2 P
ut + u2t1 2 ut ut1
=
P 2
Ut

Las primeras dos sumas en el numerador (en gris) son virtualmente iguales. Si nos
autorizamos una pequena imprecision, podramos tomarlas como iguales, en cuyo

228

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Se acepta H0

Indecisin

Indecisin

Se rechaza
H0

Se rechaza
H0

dL

dU

4dU

4dL

>4

Figura 6.1: Regla de decision de la Durbin-Watson

caso sera facil seguir el desarrollo:


P
u2t 2 ut ut1
P 2
DW
ut
P 2
P
ut
ut ut1
2P 2 2 P 2
ut
ut
P
ut ut1
22 P 2
ut
2

La parte de la expresion que aparece en tinta gris no es otra cosa sino la correlacion entre ut y ut1 . Esto es facil de entender si recordamos que, por construccion,
el termino de error estimado tiene media cero. Llamando 1 a dicha correlacion,
podemos expresar la u ltima ecuacion de la siguiente manera:
DW 2 (1 1 )
Aqu ya nada mas resta recordar que una correlacion cobra valores cernidos entre
1 y 1. Note que si la correlacion entre Ut yUt es cercana a la unidad en valor ab-


6.4. PRUEBAS DE DETECCION

229

soluto, tendramos el problema de autocorrelacion. Supongamos entonces los casos


extremos relevantes:
1. Si 1 = 1: autocorrelacion negativa y DW 4
2. Si 1 = 1: autocorrelacion positiva y DW 0
3. Si 1 = 0: No-autocorrelacion y DW 2
La prueba de Durbin-Watson constituyo un gran avance en su tiempo; no obtante,
con el paso de e ste, sus limitaciones se hicieron mas evidentes; entre ellas destaca
su medicion exclusiva de la autocorrelacion de primer orden. Si bien este orden es
probablemente el mas pertinente en estudios empricos, otros mas elaborados (por
ejemplo, relacionados con cuestiones estacionales, por ejemplo) tambien pueden ser
importantes.
La prueba Breuch-Godfrey
La prueba de Breuch-Godfrey (BF ) se ha convertido con el tiempo en uno de los
instrumentos mas socorridos para probar correlacion serial16 entre los residuales.
Su popularidad obedece, no solo a la robustez de la prueba sino tambien a que aparece pre-programada un programa de estimacion muy popular. No es, reiteramos, la
u nica prueba, pero s una muy usada. Suponga, como siempre, la siguiente especificacion:
Yt = X + U
En caso de haber autocorrelacion tal y como la supone la prueba Breuch-Godfrey,
tendramos:
ut = + 1 x1t + 2 x2t + . . . + K xKt + 1 ut1 + . . . + q utq + t
Las hipotesis relevantes son:
1. H0 : E (ut u ) = 0 para todo t 6=
2. Ha : E (ut u ) 6= 0 para al menos un t 6=
16

Correlacion Serial es otro nombre que se le da a la autocorrelacion.

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

230

I NSTRUCCIONES PARA E JECUTAR UNA P RUEBA DE B REUCH G ODFREY:


Estimar la especificacion por MCO
Obtener los residuales estimados, ut
Estimar, tambien por MCO, la siguiente regresion:

ut

+ 1 x1t + 2 x2t + . . . + K xKt + 1 ut1 + . . . +

q utq + t
Calcular el siguiente estadstico de prueba:a
d

BG = T R2 2Lg.l
Donde L es el numero de parametros incluidos en la regresion
auxiliar; la R2 es la asociada a la regresion auxiliar.
a

La distribucion es valida bajo la hipotesis nula.

La advertencia hecha en la seccion correspondiente a las pruebas de heteroscedasticidad aplica tambien aqu as que, corriendo un grave riesgo de ser criticados por
repetitivos, reiteramos lo siguiente: existen muchas mas pruebas de autocorrelacion.
Su funcionamiento suele ser analogo al de las pruebas aqu presentadas. Llevar a cabo una prueba de hipotesis requiere del usuario, conocimiento de la hipotesis nula
as como de la distribucion del estadstico de prueba en caso de ser cierta. Si se
entendio bien como funcionan las pruebas expuestas en las primeras paginas de este documento, interpretar otras que no aparecen aqu debera resultar relativamente
facil.
El correlograma y la Q de Ljung-Box
El Correlograma En la seccion relativa a la aplicacion de M CG, e sta se ejemplifico asumiendo que los residuales se rigen por un proceso que denominamos
AR(1): Autoregresivo de Primer Orden. Para poder llenar la matriz calculamos
DE AUTOCOVARIANZA de dicho proceso. Ahora bien, si procedela F UNCI ON


6.4. PRUEBAS DE DETECCION

231

mos por analoga, podremos intuir que la existencia de Autocovarianzas autoriza la

existencia de autocorrelaciones. Estas


no seran otra cosa sino las Autocovarianzas
divididas por la Varianza. Recordemos primero la formula clasica de la correlacion,
usando la letra r para definirla:
Cov(x, y)
x y

rxy =

Si esa es la manera de obtener la correlacion entre dos variables, x y y, entonces, la


autocorrelacion del ruido sera:
Cov(ut , uti )
u u
Cov(ut , uti )
=
V aru

ri =

para i = 1, 2, . . . Ahora bien, ya habamos hecho el calculo de las autocovarianzas;


las expresiones obtenidas las habamos definido en funcion de el parametro del
AR(1), , as como de la varianza, que denotamos 0 . Podemos aprovecharnos de
esos resultados para ver mejor el comportamiento de la Funcion de autocorrelacion.
Empecemos con la autocorrelacion entre ut y ut , la cual, segun nuestra notacion
sera r0 :
r0 =

0
=1
0

Lo mismo puede hacerse con r1 y r2 :


r1 =
r2 =

0
=
0

2 0
= 2
0

Siguiendo un razonamiento recursivo, podemos obtener la Funcion de autocorrelacion, que denominaremos F AC:

ri =

1
i

si i = 0
e.o.c.

232

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Figura 6.2: Correlograma de un AR(1)

Donde e.o.c. quiere decir En otro caso. La forma mas elocuente de comprender la
F AC es graficandola; la figura en s se llama C ORRELOGRAMA:
Es claro que si el proceso no solo no obedece a un AR(1), sino que ademas es iid, no
solo el supuesto de M CO se vera cumplido, sino que ademas esto se reflejara en
una F AC sin picos; es decir que todas las autocorrelaciones deberan ser iguales
a cero:
La simple observacion de la F AC nos permitiria percibir la presencia de autocorrelacion. En este caso, el ejemplo fue un AR(1) pero lo cierto es que si el ruido no
es iid, su estructura debera reflejarse en el correlograma: deberan aparecer picos
reflejando la relacion de ruido con su propio pasado. No es incorrecto pensar que el
correlograma es una fotografa de la memoria de los datos.
Es aqu donde conviene hacer una aclaracion. Las F AC con las que hemos trabajado hasta ahora son teoricas, estan calculadas asumiendo que el ruido tiene una
estructura particular, en este caso un AR(1). El hecho es que la estructura de los
residuales tambien nos sera desconocida al momento de estimar nuestra regresion.
No tiene sentido trabajar con F ACs teoricas, puesto que no sabramos cual usar.17
17

Quiza el lector adivino, al estudiar el AR(1), que e ste puede generalizarse a AR(p) con p =
1, 2, . . .; cada uno de ellos tendra una F AC distinta. De hecho, el chiste es calcular la version
muestral de la F AC y tratar de aparejarla con una F AC teorica, con el objeto de aproximar la
estructura del residual. Todo esto sera visto con detalle en Analisis de Series de Tiempo. No conviene


6.4. PRUEBAS DE DETECCION

233

Figura 6.3: Correlograma de un ruido blanco iid

Por lo mismo, necesitamos estimar dicha F AC; la formula para hacer esto es:
PT
ut uti
ri = t=i+1
PT
2t
t=1 u
Aqu podemos confiar en la convergenciaen probabilidaddel estimador de la
autocorrelacion estimada a su verdadero valor, sea este cero o no. De hecho, se ha
demostrado que si las verdaderas autocorrelaciones son cero, el estimador de e stas
se distribuye como una normal:


1
ri N 0,
T
Ello permite construir intervalos de confianza, al interior de los cuales, dicha autocorrelacion es cero. La formula de tales intervalos se puede aproximar de la siguiente
manera:
2
Iconf. +/
T
En las graficas siguientes se puede observar el calculo de la F AC muestral tanto
de un ruido blanco (que satisface los supuestos la regresion) como de un proceso
AR(1) y de otro proceso AR(p) cuya memoria, p dejaremos sin aclarar:
aqu adelantar demasiado puesto que se correr el riesgo de confundir conceptos.

234

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION
(a)

1.0
0.5
0.0
0.5
1.0

10

11

12

13

14

10

11

12

13

14

10

11

12

13

14

(b)

1.0
0.5
1.0
0.5

7
(c)

1.0
0.5
0.0
0.5
1.0

Figura 6.4: Correlogramas muestrales de: (a) un ruido blanco iid, (b) un proceso
AR(1), (c) un proceso AR(p)

Note como, aun si no logramos identificar el proceso AR(1) en la tercera figura,


si queda claro que no se trata de un ruido iid. Esta evaluacion visual es, de hecho, bastante certera en lo que respecta a capacidad de diagnostico. Para aquellos
escepticos de la inspeccion grafica, queda la formalizacion mediante el estadstico
Q de Ljung-Box.
Estadstico Q de Ljung-Box El estadstico Q, tal y como fue referido en la seccion anterior, es obra de Ljung y Box. Se trata de una prueba estadstica cuya hipotesis nula es que no hay autocorrelacion de orden k, donde k se refiere al rezago
utilizado;18 su formula es la siguiente:
QLB,k = T (T + 2)

k
X
j=1

rj2
T j

Bajo la hipotesis nula, H0 , hay evidencia de que el ruido en cuestion es blanco hasta
18

Siguiendo con nuestra analoga, k se refiere a la extension de la memoria de la serie

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

235

el kesimo rezago y QKB,k 2k g.l. .19 El problema principal de la prueba es el mismo que el del correlograma (que no habiamos mencionado aun): Como definimos
k? Si nuestra k es demasiado pequena, puede que pasemos por alto alguna autocorrelacion importante de orden grande, pero si k es grande, quiza disminuyamos la
importancia de alguna autocorrelacion alta debido a que esta es promediada con las
otras correlaciones, algunas de ellas muy bajas. En pocas palabras, escoger una k
grande hace que la prueba pierda potencia y sea mas facil aceptar erroneamente la
hipotesis nula. Recuerda el nombre de este tipo de error?

6.5.

Matrices de Varianza-covarianza Robustas

Hasta el momento, hemos explicado en que consiste tanto la heteroscedasticidad


como la autocorrelacion; hemos expuesto tambien las consecuencias sobre la regresion del rompimiento de los supuestos correspondientes; hemos, finalmente, propuesto algunas pruebas para detectar dichos rompimientos y un metodo, M CG,
para resolver la cuestion. Retomemos justamente ah, en la u ltima lnea dedicada a M CG. Para poder utilizar esta tecnica de estimacion es necesario conocer
exactamente cual es la naturaleza del problema que aqueja a nuestra regresion. En
pocas palabras, necesitamos conocer . Esto, a menos que se trate de datos simulados, nunca va a estar a nuestro alcance. Evidentemente, podemos formular algun
pero esto conlleva riesgos. Si nuessupuesto heroico y construir un estimador, ,
tro heroico supuesto esta muy alejado de los que realmente ocurre, es posible que
nuestro estimador de la matriz de varianza-covarianza diste mucho del verdadero
y, por consiguiente, el remedio que le apliquemos a la especificacion resulte mas
danino que la enfermedad misma. Ya sabemos, por otra parte, que tanto la heteroscedasticidad como la autocorrelacion no sesgan nuestros estimadores, ni los hacen
inconsistentes; su u nico efecto es volverlos ineficientes (es decir que ya no son de
mnima varianza). Debe quedar claro que esto no es tan nimio como parece, pero
tampoco es el fin del mundo. Personalmente creo que mas nos valdra conformarnos
con las propiedades de no-sesgo y consistencia y buscarle una solucion mas pasiva
a la ineficiencia. Casi todas la inferencia estadstica sobre el modelo aqu expuesta
se fundamenta en derivaciones probabilsticas de la varianza. Lo anterior quiere decir, en otros terminos, que la validez de la inferencia hecha con las pruebas depende
de que el calculo de la varianza de los estimadores sea el correcto. En presencia de
heteroscedasticidad y/o autocorrelacion esto ya no ocurre. Quiza lo mas facil sera
19

El numero de grados de libertad debe ajustarse si se trata de residuales de un modelo


ARIM A(p, 1, q); para mas detalles, esperar al curso de series de tiempo.

236

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

modificar la formula de la varianza de los parametros estimados de tal suerte que


fuera robusta a ambos fenomenos. Esto es basicamente lo que propusieron White
(estimacion robusta ante heteroscedasticidad u nicamente) y posteriormente Newey
y West (estimacion robusta ante ambos fenomenos, heteroscedasticidad y autocorrelacion). El nivel de este curso permite solo explicar la propuesta de White, pero
confiamos en que, una vez entendida e sta, la utilizacion de la otra resulte natural.
As pues, en vez de tratar ciegamente de corregir el rompimiento del supuesto de
homoscedasticidad, nos hemos de resignar y calcular varianzas que tomen en cuenta
la heteroscedasticidad. Como decamos en el parrafo anterior, ante heteroscedasticidad, las formulas de las varianzas de los estimadores ya no son validas. Suponga
el siguiente modelo:
Y = X + U

12 0 0
0 22 0

...

32
=0
.
...
..
0 ... ...

E(U ) = 0

...
...
...
...
0

0
0
..
.

E(U U ) = (T T )

0
T2

donde, como hasta ahora, asumiremos que las variables explicativas no son estocasticas. Aqu es importante recordar que, en presencia de heteroscedasticidad:
 
E =
 
V ar = (X X)1 X X (X X)1

La formula de la varianza que obtuvimos es muy diferente a la que solemos usar


cuando asumimos que hay homoscedasticidad. La solucion mas obvia es reemplazarla por la que acabamos de poner; el problema es que para calcular dicha expresion, necesitaramos un estimador de . Eso espara todo fin practicoimposible
dado que implica estimar T elementos (12 , 22 , . . . , T2 ) con u nicamente T observaciones disponibles. Cualquier intento de estimacion simple y sencillamente no sera
robusto. Afortunadamente, White(1980) encontro una manera de evitar este problema tecnico, un artilugio por as llamarlo. En vez de estimar los T elementos de ,

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

237

podramos concentrarnos en estimar X X, cuyas dimensiones son muy inferiores: K K. Como siempre, en esta vida todo se compra, todo se paga o dicho de
otra manera there is no free lunch. Para poder hacer este calculo, necesitaremos
hacer un supuesto, que es el que a continuacion expresamos:
Supuesto 1 Sea X la matriz de dimensiones T K de variables explicativas no
estocasticas; entonces se asume que:
1
XX=Q
T T
donde Q es una matriz no singular.
lm

En realidad, este supuesto no es particularmente restrictivo. Si nuestras variables


explicativas fueran estocasticas, el lmite arriba expuesto solo implicara que dichas
variables tuvieran varianza finita, algo bastante plausible, excepto en el caso en que
dichas variables no fueran estacionarias.
Ahora
 s, retomemos nuestra nueva formula de la matriz de varianza-covarianza,
V ar = (X X)1 X X (X X)1 y manipulemosla de tal forma que el nor-

malizador T aparezca en todas partes.20 Dividamos la expresion del lado derecho


en tres partes:
(X X)

X X (X X)

Por razones que ahora parecen misteriosas, digamos que deseamos normalizar los
elementos en tinta gris, mediante una division por T ; hagamoslo pero de tal forma
que dejemos inalterada la expresion:
T 1 T 1 X X

1

T T 1 X XT 1 T 1 X X

1

Note como, por cada T normalizadora que insertamos, anadimos tambien un factor
T que la elimina. Ahora reagrupemos estos u ltimos:
T 1 X X

20

1

1 1
T 1 X X T 1 X X
T T T 1
1 1
1 1
T 1 X X
T X X T 1 X X
T

El objetivo de hacer esto es poner en evidencia una expresion en la que aparezca la formula del
supuesto. Con ello, al sacar lmites, podremos obtener Q.

238

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Nos sobra un T 1 ! Eso quiere decir que al normalizar cada elemento de la expresion, acabamos dividiendola sin querer por T , si queremos que el signo de igualdad
siga siendo valido, hay que multiplicar ambos lados por T . Para efectos de notacion,
la parte izquierda de la expresion incluye al operador Varianza; como sabemos, todo lo que entra en el, opera al cuadrado; por ello, siqueremos multiplicar por T , al
interior del operador solo es necesario hacerlo por T :
V ar

T =

T 1 X X

1

T 1 X X T 1 X X

Si aplicamos el lmite a esta expresion, obtendramos:


lm V ar

1




T = Q1 lm T 1 X X Q1
T

Como veran, ya casi tenemos resuelto el lmite. Tan solo con la matriz de explicativas, que s tenemos, podemos contar con poder calcular dos tercios de la expresion.
El problema, claro esta, es el tercio restante: lmT [T 1 X X]. Si conocieramos
dicho lmite convergera a algo, a una matriz especfica cuyos valores en s no
nos interesan. Podramos denominarla :


lm T 1 X X =

Pero como no conocemos , habremos de darle la vuelta al problema. Concentremonos pues en esta expresion, la cual, si la desarrollaramos se vera as:

x11
x12

X X = ..
.
|

x1K

x11
x21

..
.
xT 1
|


..
. . . xT 1
12 0
.
0

. . . xT 2
2 ...

0
0

2
..
...

.
.
.

.
. . . . . . . ..
x2K . . . xT K
2
{z
} | 0 0 {z 0 T }
(KT )
T T

x12 . . . x1K
x22 . . . x2K

..
..
...
.
.
xT 2 . . . xT K
{z
}
x21
x22
..
.

(T K)

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

239

La matriz resultante es K K y un elemento tpico de e sta, que denotaremos ,


es:21

ij =

T
X

t2 xit xjt

(6.1)

t=1

Note que esta matriz es simetrica (Por que? Demuestrelo!),22 lo que reduce el
numero de elementos a calcular:

11
21

X X = ..
.

22
..
.

...

K1 K2 . . . KK

De hecho, el numero total de elementos a calcular es:23


K
X
k=1

k=

K2 + K
2

As, tenemos que calcular K 2+K expresiones como (6.1). El problema es que no
conocemos las varianzas, t2 para t = 1, 2, . . . , T . White propuso reemplazarlas
de la siguiente manera: cambiar t2 por u2t . La idea no es tan intuitiva como podra
parecer, puesto que se trata, de reemplazar un parametro con una u nica observacion.
En realidad, el truco estriba en que no es eso lo que se calcula, sino una suma:
1X 2
1X 2
a
ut xit xjt =
t xit xjt
T
T

Hace falta primero ver que, aun si ut no es un estimador consistente de ut , s es,


al menos, un estimador insesgado. Retomemos desde el principio y desarrollemos
para ver esto; empecemos por la especificacion estimada:24
21

Note que, al volver a la notacion escalar, invertimos el orden de los subndices. Esta pequena
incongruencia entre la notacion matricial y la escalar, se hace en aras de una lectura mas comoda.
22
Sabemos que es simetrica, es decir, = . Por lo mismo, (X X) = X X.
23
Nuevamente. . . Por que? Demuestrelo!
24
Recuerde que todos los supuestos menos el de homoscedasticidad se cumplen.

240

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Y = X + U
U = Y X

 

U U = Y X Y X

Reemplazamos Y por la verdadera especificacion,


U U =


 

X + U X X + U X ,

y, desarrollando la expresion y sacando esperanza de ambos lados obtenemos:25




E U U = E (U U )
=

Ahora s, ya sabemos que u2t es un estimador insesgado de t2 . Para continuar la demostracion, creemos una nueva variable, , que permita relacionar a nuestro residual
estimadoconvenientemente elevado al cuadradocon la varianza en el periodo t:
t = u2t t2

(6.2)

El resultado anterior, as como la no aleatoriedad de las variables explicativas, nos


permite hacer las siguientes dos afirmaciones:
1. E (t ) = 0
2. E (t xit xjt ) = 0
Manipulando la expresion (6.2), tendramos (
u2t ) = t + t2 . Si reemplazamos t2
por u2t en la expresion (6.1), convenientemente normalizada por T , tendramos:

25

1X 2
1X
ut xit xjt =
(t + t2 )xit xjt
T
T
1X
1X 2
=
t xit xjt +
t xit xjt
T
T

 
Hay que tomar en cuenta que E = .

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

241

La normalizacion es conveniente puesto que nos permite ahora sacarle el lmite a la


expresion:
1X 2
ut xij xjt =
T T

1X
1X 2
(t xij xjt ) + lm
(t xij xjt )
T T
T T
P
Sabiendo que E(t xij xjt ) = 0 y que T1 (t xij xjt ) es un estimador consistente
(Gracias a la Ley de los Grandes Numeros; revise la pagina 61), sabemos que el
primer lmite es cero:
lm

lm

T 1

(t xij xjt ) = 0

mientras que el segundo lmite corresponde a la expresion que necesitabamos; inclusive incluye el termino de normalizacion que nos sala. Ya solo es cuestion de
Para que esto quede mas claro, retomemos dicha expresion:
reemplazar por .

lm V ar

h
i


Q1
T = Q1 lm T 1 X X
T

h
i

Como ahora sabemos que el calculo lmT T 1 X X


tiene como mismo lmite

la expresion [T 1 X X] (que por cierto denominamos ), ya disponemos de un


estimador consistente de la matriz de varianza-covarianza de los parametros:
 
1 1
1
1
1

T X X T X X
= lm V ar
lm T X X
T
T

donde,

u21

0
=

.
..
0

0
..
.
u22

... ...
0
. . . 0 u2T
0

...
...

Ya con esto, podemos resumir todo en un pequeno teorema:


Teorema 15 Si en una regresion por M CO hay heteroscedasticidad de forma desconocida y si e sta satisface los supuestos:
la matriz de explicativas, X, es no-estocastica,

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

242

lmT T1 X X = Q (Matriz no singular).


h
i
1
1

1 1

T X X [T 1 X X] , es un estimador consistente
Entonces,[T (X X) ]
de la expresion:

lm V ar( T )

donde,

u21

0
=

.
..
0

0
..
.
u22

... ...
0
. . . 0 u2T
0

...
...

En la practica, no necesitamos V ar
suma facilidad:26


 
T sino V ar . Esto lo resolvemos con

 
1 1
1
1
1
T =
V ar
T 1 X X
T X X T 1 X X
T
T
 
1
1
1
V ar =
T (X X) T 1 X X T (X X)
T
 
1
1

V ar = (X X) X X (X X)
As es que la formula que realmente utilizaremos en la practica es:


 
1
1

X X
(X X)
V ar = (X X)

Que no es otra cosa sino el estimador robusto de la matriz de Varianza-Covarianza


de los parametros en presencia de Heteroscedasticidad (mas conocido por sus siglas
en ingles HCCM E, Heteroskedasticity Consistent Covarianza Matriz Estimator).
Posteriormente, Newey y West desarrollaron un estimador de dicha matriz que de
hecho es robusto en presencia tanto de heteroscedasticidad como de autocorrelacion. Si bien el principio es analogo al usado por White, el desarrollo es considerablemente mas complejo, por lo que no lo expondremos aqu. El nombre de la matriz
de Newey West es HAC, tambien, debido a sus siglas en ingles. Baste con saber
26

La utilizacion de las T obedeca a la necesidad de mostrar que la expresion converga.

6.5. MATRICES DE VARIANZA-COVARIANZA ROBUSTAS

243

que es posible utilizarlo facilmente, ya que esta implementado en muchos paquetes


de econometra. Lo importante, lo que hay que retener es lo siguiente:

S I LAS P RUEBAS E STAD I STICAS S E NALAN


LA P RESENCIA DE H ETEROS , UNA S OLUCI ON
S ATISFACTORIA
CEDASTICIDAD Y / O AUTOCORRELACI ON
PUEDE SER EL EMPLEO DE LA M ATRIZ HCCM E O BIEN LA M ATRIZ HAC.

SUS VARIAN L OS E STIMADORES P UNTUALES NO CAMBIAN, S I NO S OLO


ZAS E STIMADAS , P UESTO QUE N O E STAMOS C ORRIGIENDO N ADA :

S OLO
LO E STAMOS T OMANDO EN C UENTA . AUNQUE YA N O T ENDREMOS
I NSESGADOS Y C ONSISTEN E STIMADORES E FICIENTES , E STOS S I S ER AN
A S ER V ALIDA

TES Y L A I NFERENCIA E STAD I STICA VOLVER A


. R ECUERDE

TAMBI EN QUE TALES E STIMADORES DE VARIANZA S OLO S ON V ALIDOS


EN
M UESTRAS G RANDES .

244

Y HETEROSCEDASTICIDAD

CAPITULO
6. AUTOCORRELACION

Captulo 7
Ejercicios (i)
P REGUNTA # 1
Considere el siguiente modelo de regresion lineal multivariado:
yt = 1+ 2 x2t + . . . + k xkt + ut,
para t = 1, 2, . . . , T .
1. Enumere los supuestos del metodo de Mnimos Cuadrados Ordinarios.
2. Muestre que es un estimador insesgado de .
3. Explique el problema de Multicolinealidad as como sus consecuencias cuando e sta se presenta.
4. Sabiendo que todos los supuestos de MCO se cumplen en este caso, demuestre que las medias muestrales de todas las variables pasan por la recta de la
regresion.
2?
5. Que toma en cuenta la R
P REGUNTA # 2
Como se descompone la R2 por variable explicativa?
P REGUNTA # 3
245


CAPITULO
7. EJERCICIOS (I)

246

Se dispone de varias series: el Indice de actividad Industrial (y) y la tasa de desempleo (x). Se sabe ademas que:
y = 64.5 V ar(Y ) = 0.7
x = 7.4 V ar(X) = 1.6
T = 50
Covar(X, Y ) = 0.04
1. Estime el modelo yt = + xt + ut
2. Estudie la significancia estadstica y el significado economico de los parametros estimados. En especfico, comente las implicaciones economicas de lo
anterior.
P REGUNTA # 4
Sea el modelo yt = + x + ut , donde se impone la restriccion = 5 al momento
de estimar la regresion. Cual es la formula que nos dara facilmente el valor del
estimador de ? En caso de no haber restriccion, cual sera esa formula?
P REGUNTA # 5
Responda a las siguientes preguntas:
1. Que es la R2 ? Especifique la formula y explique para que sirve.
2. Suponga que se estima la regresion yt = +xt +ut . Los resultados de dicha
estimacion pueden apreciarse en la siguiente figura:

Usando la observacion A marcada dicha figura, complete el grafico explicitando la descomposicion de la variabilidad de y vista en el analisis de varian2?
za. Que toma en cuenta la R
P REGUNTA # 6
Considere el siguiente modelo de regresion:yt = + (xt x) + ut donde x = 3
y y = 7. Cuanto vale el estimador de la ordenada en el origen,
?
P REGUNTA # 7

247

Observacion A
yt

xt

Figura 7.1: Diagrama de dispersion


Sabiendo que la prueba de F y la R2 , en un modelo de regresion multiple, se obtienen mediante las siguientes formulas...
F=

ESS
RSS

R2 = 1

T k
k1

RSS
T SS

[donde RSS es la suma de residuales al cuadrado, ESS es la suma explicada de


cuadrados y T SS suma total de cuadrados], ...obtenga la relacion que existe entre
el estadstico F y la R2 .
P REGUNTA # 8
Se estima la regresion yt = + 1 x1t + 2 x2t + 3 x3t + 4 x4t + ut y se obtienen
los siguientes resultados:

yt =

4.02 +0.96x1t 0.48x2t +0.20x3t +8.97x4t +ut


(2.03) (0.07)
(0.03)
(0.06)
(5.45)

Ademas, se sabe que (i) RSS = 427.54, y (ii) T = 150. Las cifras entre parentesis
corresponden a la desviacion estandar el parametro que esta arriba.
1. Calcule los estadsticos t de cada parametro. Que concluye usted con base
en ellos?


CAPITULO
7. EJERCICIOS (I)

248

2. El perspicaz econometrista, al comparar su modelo con lo establecido en cierta teora economica se da cuenta de lo siguiente:
No debera haber constante.
El parametro 1 debera ser igual a uno.
El parametro 2 debera ser igual a 0.01 + 23
Como probara usted lo anterior?
3. (Continuacion del inciso anterior) El mismo econometrista perspicaz corrio la
regresion tomando en cuenta las hipotesis senaladas arriba. Al hacerlo, retuvo
la RSS que ahora es de 445.12.
a) Que nombre se le da a la regresion que corrio?
b) Sabiendo que el valor crtico pertinente es V.C. 2.68, diga si se acepta
o rechaza la hipotesis nula (especifique tambien cual es dicha hipotesis
nula).
c) Si desea hacer una prueba de hipotesis conjunta basada en lo dicho en
el segundo inciso, que prueba usara? Escriba las restricciones.
P REGUNTA # 9
Considere el modelo de regresion lineal multivariado:
yt = 1+ 2 x2t + . . . + k xkt + ut
donde t = 1, 2, . . . , T y ut
simN (0, 2 ).
1. Exprese este modelo en forma matricial, indicando las dimensiones de cada
matriz o vector.
2. Derive el estimador de MCO (con la notacion matricial) del vector de parametros .
3. Muestre que es un estimador insesgado de .
P REGUNTA # 10

249
Una agencia de viajes sabe por experiencia que las ventas de paquetes VTP Acapulco es considerablemente alta durante el verano. En un intento por modelar las
ventas de estos paquetes, el director de ventas de dicha agencia propone estimar el
siguiente modelo. . .
vt = 1+ 2 Pt + 3 P St + 4 Yt + 5 GPt + ut,
. . . con datos trimestrales de cada variable de 1993 a 2005 en donde: (i) vt representa
las las ventas del VTP Acapulco; (ii) Pt es el precio del VTP; (iii) P St es el precio de
un VTP a Puerto Vallarta (bien sustituto); (iv) Yt es el ingreso personal disponible,
y; (v) GPt es el gasto en publicidad de los VTP.
1. El director de ventas cree que solo el gasto en publicidad y el precio de los
VTP a Acapulco explican las ventas. Como confirmara esta hipotesis?
2. Como probara que el efecto precio total (es decir de ambos VTP) es igual a
uno (versus la hipotesis alternativa de que es distinto a uno)?
3. Explique como estimara el efecto estacional del perodo vacacional sobre el
nivel de ventas.
4. Si quisiera estimar el efecto sobre las ventas de cada estaciontrimestre
Como lo hara? Que es lo que no hay que hacer para evitar el problema de
multicolinealidad?
P REGUNTA # 11
Suponga el siguiente modelo no lineal en la variable x :
yt = + x2t + ut
Es factible utilizar el metodo de MCO? Justifique su respuesta.
P REGUNTA # 12
Que garantiza que, al utilizar adecuadamente el metodo de MCO, obtengamos
buenos estimadores?
P REGUNTA # 13
La heteroscedasticidad y la autocorrelacion hacen que los estimadores de MCO sean
sesgados e ineficientes Cierto, falso o incierto? justifique su respuesta.

250

CAPITULO
7. EJERCICIOS (I)
P REGUNTA # 14

Explique detalladamente como se corrige la heteroscedasticidad en el modelo de


regresion yt = + xt + ut cuando sabemos que las varianzas de los errores varan
de forma proporcional a la variable explicativa.
P REGUNTA # 15
Como bien saben, el PIB (Producto Interno Bruto) se construye con base en la
identidad contable siguiente:
P IBt = Ct + It + Gt + Xt Mt
En donde C es Consumo, I es Inversion, G es Gasto de Gobierno, X representa a las
Exportaciones y M a las Importaciones. Que cree usted que pasara si trataramos
de correr la siguiente regresion?
P IBt = 0 + 1 Ct + 2 It + 3 Gt + 4 Xt + 5 Mt + ut
P REGUNTA # 16
Enumere y explique los supuestos del modelo de regresion multivariado.
P REGUNTA # 17
1. Que es el estadstico Durbin-Watson? Especifique la formula, diga para que sirve y que valores debe adoptaraproximadamentebajo la hipotesis nula y
bajo la hipotesis alternativa.
2. Cual es el objetivo de llevar a cabo una estimacion robusta de la matriz de
Varianza-Covarianza de los residuales?
P REGUNTA # 18
Un investigador tiene dos variables y no sabe si correr,
yt = + xt + ut
o bien
xt = + yt + vt

251
Antes de probar ambas especificaciones, el investigador tiene una epifana y declara:
La relacion entre las dos pendientes estimadas es = 1 . Demuestre que solo en
un caso especfico semejante especificacion es cierta.1
P REGUNTA # 19

1. Usted que entiende por econometra?


2. Al ver la notacion: iid N (0, 2 ) Que entiende usted?
3. En que consiste el metodo de Maxima Verosimilitud?
4. Defina una ecuacion lineal entre las variables y y x.
5. Dibujela (invente el valor de los parametros)
6. Que es el coeficiente de correlacion?
7. Conoce usted la crtica de Lucas?
8. Que es un diagrama de dispersion?
9. Dos variables aleatorias, x y y son independientes. Eso que quiere decir que?
P
10. Calcule 500
t=1 t
P REGUNTA # 20

En el curso se explico la tecnica de MCO utilizando la especificacion siguiente:


yt = + xt + ut
Con base en ella, se minimizo la suma de residuales al cuadrado y se encontraron los
En este ejercicio, se pide que lleve a cabo dicha minimizacion
estimadores
y .
pero para otra especificacion:
yt = + xt + zt + yt
En especfico, se le solicita lo siguiente:
1

Ayuda: =

cov(xt, yt )
var(xt ) ,

cov(xt, yt )
var(yt ) ,

rxy =

Cov(xt, yt )
var(xt )var(yt )


CAPITULO
7. EJERCICIOS (I)

252

1. Encuentre las ecuaciones normales en este caso.


2. Sabiendo que todos los supuestos vistos en el curso tambien se cumplen para
esta especificacion, demuestre que las medias muestrales de las variables y, x
y z pasan por la recta de regresion.
P REGUNTA # 21
Imagine una variable aleatoria y iidN (0, 2 ) as como dos variables no estocasticas x y z. Calcule las siguientes esperanzas:
E(xt )
E(yt )
E(yt xt )
P
E[ TT =1 yt2 zt ]

P REGUNTA # 22

Al calcular en clase la esperanza de xt ut , que supuestos usamos para poder obtener


el resultado?
P REGUNTA # 23
Se sabe que la relacion entre xt y yt obedece a la siguiente especificacion:
yt = 0 xt exp[ut ]
Esta relacion no es lineal.
1. Como la transformara para que si lo fuera?
2. Como se llama el modelo que obtuvo?
3. Demuestre que es un estimador de la elasticidad de y con respecto a x.
P REGUNTA # 24
Que establece el Teorema de Gauss-Markov?

253
P REGUNTA # 25
Un microeconomista angustiado y poco respetuoso de la teora economica desea
probar que el numero de accidentes automovilsticos del individuo i, (Ai ), depende
del numero de horas que trabaja al da (Hi ), de la edad (Ei ) y del tipo de vehculo
que conduce. Al ver sus datos se da cuenta que e stos estan clasificados u nicamente
en tres categoras; automovil, pesera y motocicleta. Con base en esos datos corre la
siguiente regresion:
Ai = + 1 Hi + 2 Ei + 3 P Ei + 4 AUi + 5 M Oi + ui
Donde M O, AU y P E son las variables dummy o indicatrices siguientes:

P Ei =

M Oi =

AUi =

1 si conduce pecera
0 en otro caso

1 si conduce motocicleta
0 en otro caso

1 si conduce automovil
0 en otro caso

1. Que le dira usted a este joven y novato econometrista?


2. Un misogino amigo suyo le afirma con mucha autoridad que el numero de
accidentes vara segun el sexo del conductor Como incorporara usted esa
idea en la regresion?
P REGUNTA # 26
Suponga que es usted el director del Banco Central de la Republica Bananera. Cuenta usted con los siguientes datos historicos relativos a la cantidad de dinero y al
ingreso nacional (medidos en millones de Pesares Bananeros):


CAPITULO
7. EJERCICIOS (I)

254
Ano
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004

Cantidad de dinero
4.0
5.0
6.4
7.2
6.6
8.0
8.4
9.2
9.6
10.0

Ingreso Nacional
5.0
5.5
6.0
7.0
7.2
7.7
8.4
9.0
9.7
10.0

1. Dibuje la nube puntos (o diagrama de dispersion).


2. Estime una especificacion de la demanda de dinero:
mt = + yt + ut
3. Proporcione una interpretacion de la ordenada en el origen y de la pendiente
de caracter economico.
4. El primer ministro vitalicio de la Republica bananera le informa que el objetivo de Ingreso Nacional para el 2005 (esto ocurrio en el pasado) es de 14.0
Millones de pesares bananeros. En que nivel fijara usted el suministro de
dinero (Dar explicaciones).
5. Su asesor le informa que hubo un problema con la captura de los datos que
recibio y que hay que multiplicar por 10 los datos relativos a la cantidad de
dinero. Explique teoricamente que efecto tiene esto sobre el estimador de la
pendiente.
6. Generalice el inciso anterior para cualquier modificacion de los valores:
ytM = k1 yt
xM
= k2 yt
t
P REGUNTA # 27
Explique que es la estacionariedad.

255
P REGUNTA # 28
En que consiste la Falacia de la Regresion?
P REGUNTA # 29
Una funcion de produccion Cobb-Douglas relaciona la produccion,Q , a los factores
de produccion, capital, K, trabajo,L , materia prima, M as como un termino de
error, u. Concretamente, la forma funcional es:
Q = K 1 L2 M 3 [exp u]
Donde , 1 , 2 y 3 son parametros de produccion. Suponga que tiene usted los
datos de la produccion as como de los factores de produccion en una muestra de
empresas que, se sospecha, comparten la funcion estipulada. Como utilizara usted
el analisis de regresion para estimar tales parametros?
P REGUNTA # 30
Si la matrix (X, X), donde X es la matriz de variables explicativas de dimensiones
T K, no tiene rango completo, que ocurre con los estimadores de MCO?
P REGUNTA # 31
1. Es correcto estimar la siguiente especificacion?
yt = 1+ 2 x2t + ... + 17 x17t + ut,
donde t = 1, 2, . . . , 17
2. Al dibujar la nube de puntos correspondiente, se obtuvo lo siguiente:

Trace la lnea de regresion.


P REGUNTA # 32
Cual es la diferencia entre ut y ut ?


CAPITULO
7. EJERCICIOS (I)

256

yt

Tiempo

Figura 7.2: Variable yt


P REGUNTA # 33
Imagine que tiene dos estimadores distintos, el de MCO, M CO , y el de Juan Colorado, JU AN . Pretende emplear uno de ello para estimar la especificacion siguiente:
yt = + xt + ut
JuanColoradosenala que V ar(M CO ) > V ar(JU AN ).
1. Comente tal afirmacion.
2. Por otra parte, Pepe Lucas invento otro estimador para la misma especifica afirma que:
cion:P EP E . El
E(M CO ) 6= E(P EP E )
Que opina usted al respecto?
P REGUNTA # 34
Se pretende estimar la especificacion yt = + xt + ut mediante MCO. De hecho,
se conocen los siguientes resultados:
x = 8
y = 2.5

PT
x2 = 2000
PTt=1 2t
t=1 yt = 15000

PT

yt xt = 0.25
T = 15
t=1

257

1. Calcule los estimadores


y .
2. Calcule
2.
3. Calcule la R2 .
4. Resulta que los datos que utilizamos son en realidad transformaciones logartmicas de dos variables:
y es el logaritmo del numero de accidentes automovilsticos de un individuo en 10 anos.
x es el logaritmo del numero de litros de cerveza consumido por ese
individuo en esos mismos 10 anos.
Como interpretara en este caso al estimador de la pendiente?
5. Ahora resulta que se tiene informacion respecto al genero (sexo) de los automovilistas de la muestra. Como averiguara usted si el genero del conductor
tiene efectos sobre el numero de accidentes?
P REGUNTA # 35
1. Que medidas conoce de bondad del ajuste?
2. Que efecto tiene sobre la bondad del ajuste el aumentar el numero de variables explicativas?
P REGUNTA # 36
Suponga que dispone de una muestra de 20 observaciones correspondientes al modelo:
yt = + xt + ut
donde las us estan normalmente distribuidas con esperanza cero y varianza constante y son iid. Ademas, se sabe lo siguiente:
P
P
(
y

y
)(x

)
=
106.4
y yt )2 = 86.9
t
t
P
P(
2
yt = 21.9
P(xt x) = 215.4
xt = 186.2


CAPITULO
7. EJERCICIOS (I)

258
1. Calcule los estimadores de y .
2. Calcule el estimador de 2 .

3. Calcule la varianza del estimador de la pendiente.


P REGUNTA # 37
Indique cuales son los supuestos bajo los cuales funciona MCO y explique que
quiere decir cada uno (maximo 3 renglones por supuesto; no se acepta mas).
P REGUNTA # 38
Suponga que W y R son dos variables independientes distribuidas ambas como
normal estandar, que G es una variable no estocastica, que F es una constante y
que T = 20. Con base en lo anterior, calcule hasta donde sea posible las siguientes
expresiones:
E(W )
PN
F Wt
Pt=1
N
t=1 Gt Wt

PN

t=1

1
2

E(G)
E(T W R)

PN

T
E(F W G)
E(F )
t=1

P REGUNTA # 39

Imagine que la verdadera relacion (es decir, el verdadero Proceso Generador de


Datos) entre x y y es la siguiente:
yt = xt
donde = 7. El econometrista aplicado no esta seguro como estimar lo anterior
(el no conoce dicho Proceso Generador de Datos) y duda entre las dos siguientes
especificaciones:
t + ut
yt = x
xt =
yt + wt
1. Olvide por un momento las las especificaciones a estimar y explique: como
es la nube de puntos de esta relacion?

259
2. Ahora s, retome las especificaciones y responda. Si se estima la primera es Y el de la R2 ?
pecificacion, cual es el valor de ?
3. Derive la formula del estimador de
4. Derive la formula del estimador de

5. Cual es la relacion entre


y ?
P REGUNTA # 40
1. Describa, en 7 renglones maximo, en que consiste el Metodo de Maxima
Verosimilitud en el contexto de la regresion.
2. Misma pregunta para el Metodo de Momentos. Ademas, plantear el problema.
P REGUNTA # 41
Imagine 15 vasos servidos al azar con Coca cola, Pepsi Cola y Big Cola. La bebida
que se sirve en cada vaso depende de un procesador de numeros aleatorios que
asigna a cada marca la misma probabilidad de ocurrencia. Con base en ello diga:
1. Cual es la probabilidad de que una persona pruebe los 15 vasos y acierte a la
marca en todos ellos?
2. Cual es la filosofa detras de este experimento? Es decir Cual es la pregunta
que se puede formular (y responder) con este tipo de experimento?
P REGUNTA # 42
En el marco de la regresion, explique la diferencia entre Cov(xt , ut ) y Cov(xt , ut ).
P REGUNTA # 43
1. En unos antiguos papiros egipcios se encontro la formula de un estimador:
=

(
y yt )(xt x)
P
+
(xt x)2

P
(
yy )
P 2t
xt

Es este estimador insesgado (asuma que todos los supuestos se cumplen)?


CAPITULO
7. EJERCICIOS (I)

260

2. En una estela maya encontrada en Yucatan se encontro un segundo estimador:


=

(
y yt )(xt x) +
P
(xt x)2

400
T

Es este estimador consistente (asuma que todos los supuestos se cumplen)?


P REGUNTA # 44
Suponga que tiene observaciones de dos variables, xt y yt . Con base en ellos usted
elabora tres estimaciones:
El coeficiente de correlacion entre xt y yt , x,y .
La regresion: yt = + xt + ut .
La regresion: xt = + yt + et .
Pruebe que:
= (x,y )2
P REGUNTA # 45
Transforme las siguientes funciones de tal suerte que e stas sean lineales.
x
e+x
e+x
y =
1 + e+x

y =

P REGUNTA # 46
Imagine que la verdadera relacion (es decir, el verdadero Proceso Generador de
Datos) entre x y y es la siguiente:
yt = + xt
= 0. El econometrista aplicado no esta seguro como
donde = 4, = 7 y X
estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre
las dos siguientes especificaciones:

261
t + ut
yt =
+ x
xt = + yt + wt
1. Olvdese de las especificaciones a estimar. Como es la nube de puntos de
esta relacion?
2. Calcule el valor de los estimadores de
y
3. Calcule el valor de los estimadores de y
y ?

4. Cual es la relacion entre


, ,
P REGUNTA # 47
Suponga la siguiente especificacion: yt = + xt + zt + ut y obtenga el estimador
de usando la notacion escalar; dicha formula debera ser expresada en terminos de
varianzas y covarianzas.
P REGUNTA # 48
Suponga la siguiente variable:

zT =

0 con probabilidad (T 1)/T


T 2 con probabilidad 1/T

1. Calcule E(ZT ),
2. Calcule lmT E(ZT ).
P REGUNTA # 48
Suponga el modelo de regresion siguiente:
Y = X + U.
Donde la variable dependiente es la demanda por dinero (agregado monetario real
M 1) y las variables explicativas son, Ingreso real, It , y Tasa de interes real, rt ,
todas en logaritmos. El tamano de la muestra es T . Suponga ademas que las K
variables explicativas (menos la correspondiente a la constante) son aleatorias pero
no son independientes al termino de error, E(X U ) 6= 0. En otras palabras, no se


CAPITULO
7. EJERCICIOS (I)

262

cumple el supuesto de ortogonalidad, pero s todos los demas. Usted todava no sabe
porque eso es grave, pero s sabe que lo es. Por lo mismo, decide no estimar este
modelo. Afortunadamente llega un colega y le dice que dispone de dos variables
sumamente interesantes (tambien en logaritmos): (i) Ingreso disponible ecologico
y reciclable, Itbis , y, (ii) Costo de intermediacion financiero sin enganos, rtbis .
Ambas variables tambien tienen T observaciones as como unas propiedades en
extremo convenientes:
1. Itbis esta muy relacionado con It ,
2. rtbis esta muy relacionado con rt ,
3. Ninguna de las dos variables tiene relacion alguna con el termino de error de
su especificacion, U .
Su colega le sugiere que estime una especificacion distinta; construye primero una
nueva matriz de variables, Z = (1 Itbis rtbis ) (donde la primera columna de puros unos; note que Z tiene las mismas dimensiones que la matriz de explicativas
original) y le propone estimar Y = Z + U . Le demuestra ademas que:
1. plim T1 (Z U ) = 0,
2. plim T1 (Z X) = .
Donde existe y no es singular. Usted rechaza la sugerencia (y hace bien) argumentando que esa no es la especificacion que senala su libro de Demandas de Dinero; ademas, senala usted, el profesor penalizara mucho el cambiar las variables
puesto que la interpretacion economica ya no sera valida. De todas formas a usted
se le antojara poder usar esa informacion en su proceso de estimacion, sin quitar
las variables originales y por lo mismo, sin modificar la especificacion. Como hacerle? Pues tiene usted una epifana y decide transformar las variables originales,
premultiplicando la nueva matriz, Z de ambos lados de la especificacion original2 .
Dicha transformacion modifica, no solo las variables, sino tambien el tamano de los
vectores y las matrices. Ya transformadas las variables, estima la nueva regresion
con la formula de MCO de siempre y obtiene un estimador de .
1. Haga explcita la transformacion de Y , X y U al premultiplicar por Z; tenga
cuidado con las dimensiones.

2. A las variables Y y X tranformadas llameles Y y X.


2

Cuidado con las dimensiones!!!

263
+ V . Para empe3. Podra estimar por MCO la regresion que resulta: Y = X

1
zar, que es V ? La formula de MCO es (X X) X Y ; Como queda dicha
formula con estas variables transformadas (no se conforme con ponerle tildes
a las variables, por favor)? Recuerde que (AB)1 = B 1 A1 siempre y cuando A y B sean cuadradas e invertibles. A ese nueva formula del estimador,

llamele .
P

4. Demuestre que . Aplicar plims a matrices o vectores es igual que


hacerlo a sumatorias. Simplemente asegurese que los calculos sean posibles
(dimensiones).
5. Explique, en maximo, cuatro lneas, como interpreta usted lo que acaba de
hacer (es decir, premultiplicar por las nuevas variables la especificacion original y estimar por MCO la especificacion resultante). Le ve usted alguna
ventaja a este proceder?
6. Se le ocurre a usted qu este proceder tenga alguna dificultad?
7. Que ventaja tiene usar variables en logaritmos?

264

CAPITULO
7. EJERCICIOS (I)

Parte II
Econometra para segundones

265

267
LTIMO QUE U NO S ABE ES P OR D ONDE E MPEZAR . B. PASCAL
L O U

D IOS NO J UEGA A LOS DADOS . A. E INSTEIN

D IOS NO S OLO
J UEGA A LOS DADOS : A V ECES LOS T IRA D ONDE NO SE
P UEDEN V ER . S.W. H AWKING

268

Captulo 8
Sntesis de conocimientos previos
El metodo de Mnimos Cuadrados Ordinarios permanece como el caballo de batalla en econometra y se emplea de manera rutinaria en el analisis de datos. Las
bondades as como el potencial de este metodo han debido quedar patente en la
primera parte del curso , donde, asumiendo el cumplimiento de los supuestos, encontramos muchas propiedades deseables: no sesgo, consistencia, eficiencia. No
obstante, siempre queda la duda si estos supuestos realmente se cumplen. Durante
el desarrollo de los siguientes captulos constataremos cuan grave puede ser la no
satisfaccion de algun supuesto; ya sea por variables mal medidas, por omision de
e stas o por problemas de causalidad mal modelada. A esta lista se le puede anadir
la no-linealidad, las observaciones aberrantes... Es muy importante no fiarse de una
regresion que no haya sido revisada escrupulosamente: hay que aplicarle todas las
pruebas habidas y por haberen este caso, de especificacion. En resumen, hay que
seguir el consejo de David Hendry:
P ROBAR , P ROBAR Y P ROBAR !1
De hecho acorde a este mismo autor, la eleccion de un modelo econometrico para
un analisis emprico debe satisfacer los siguientes criterios.
Ser aceptable con respecto a los datos, es decir que las predicciones hechas
con base en el modelo debe ser aceptablemente buenas.
Ser coherente con la teora: el valor y el signo de los parametros as como las
variables incluidas deben ser los correctos.
1

Consideradas por dicho autor como las tres reglas de oro en econometra.

269

270

CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS
Tener regresores debilmente exogenos: variables explicativas y terminos de
error deben ser ortogonales.
Mostrar constancia parametrica: estabilidad de los parametros.
Exhibir coherencia en los datos: residuales asimilables a ruido-blanco (en
caso contrario, probablemente estaramos enfrentando un error de especificacion disfrazado de autocorrelacion, heteroscedasticidad,...)
Ser inclusivo (encompassing en ingles): debe ser el mejor modelo posible,
pero al mismo tiempo debe satisfacer el principio de PARSIMONIA.

Debemos tener muy claro que cualquier rompimiento de los supuestos constituye un
error de especificacion. No obstante, no todos los errores de especificacion tienen
las mismas consecuencias. A continuacion haremos una sntesis de los tipos de
errores posibles que, esperemos que as sea, faciliten una vision mas global de la
cuestion as como de buena parte de este curso. Aun no hemos lidiado con todos los
problemas que mencionaremos en un instante. Por ende, algunos de ellos quiza lo
sorprendan:

P ROBLEMAS POTENCIALES CON EL T ERMINO


DE ERROR :
1. El termino de error no se distribuye en realidad iidN (0, 2 ), sino mas
bien iid(0, 2 ). Cuando la normalidad no viene incorporada desde un
principio a traves del termino de error pero e ste aun mantiene las propiedades de homoscedasticidad, esperanza nula e independencia, los estimadores de MCO siguen siendo MELI, solo que ahora la inferencia
estadstica solo es valida asintoticamente. Vale la pena mencionar que
existen pruebas para estudiar la normalidad de los residuales estimados. Una de las mas socorridas es la P RUEBA DE N ORMALIDAD DE
JARQUE -B ERA.
2. El termino de error (i) no es homoscedastico, o; (ii) esta serialmente correlacionado (no es independiente). Al romperse los supuestos relativos
a la forma de la matriz de varianza-covarianza del termino de error, los
estimadores de MCO permanecen insesgados y consistentes, solo que
ya no son los mas eficientes; ya no son MELI. Si bien las consecuencias
no resultan triviales, tampoco es cuestion de desechar de tajo el metodo. Vimos que existen muchas pruebas para estudiar si estos supuestos

271
se cumplen; vimos tambien que hay metodos formales para corregir estos problemas [Mnimos Cuadrados Generalizados] as como metodos
que no los corrigen pero s arreglan el calculo de la matriz de varianzacovarianza de los residuales de tal manera que vuelva a ser posible hacer
inferencia sobre e stos.
P ROBLEMAS POTENCIALES CON LAS VARIABLES EXPLICATIVAS:
1. Exclusion de variables relevantes. Cuando la especificacion ha omitido
variables que s deberan aparecer, las consecuencias son graves. Nuestros estimadores se vuelven sesgados e inconsistentes. Existen estadsticos de prueba especficamente disenados para estudiar esta cuestion.
Vease especialmente la prueba de Ramsey-RESET.
2. Inclusion de variables irrelevantes. Incluir variables no-venidas-al-caso
no es tan grave; se pierde un poco en eficiencia, pero tanto la consistencia como la propiedad de no-sesgo siguen dandose. tenemos en nuestra
batera de pruebas una mirada que permite evaluar si las variables que
incluimos deben permanecer o no (estadsticos t individuales, pruebas
2 ,...)
de hipotesis conjuntas,F, R
3. Forma funcional incorrecta. Cuando la relacion entre las variables no
es lineal, por ejemplo, es posible en algunos casos transformar las variables para forzarla a que s lo sea; surgen naturalmente a la mente los
modelos log-log, log-lin, lin-log, recproco, combinacion de e ste con los
anteriores,... Aqu nuevamente la prueba de Ramsey-RESET nos permitira distinguir si alguna de las formas funcionales que ensayemos es
adecuada. Existen tambien pruebas para comparar especificaciones no
anidadas (es decir, especificaciones entre las cuales no es posible transitar mediante una simple restriccion parametrica). En otras ocasiones tal
transformacion no sera posible y tendremos que recurrir a otros metodos
de estimacion como son Mnimos Cuadrados No-Lineales o Maxima
Verosimilitud.
4. La matriz de variables explicativas no tiene rango completo. Si hay 2
o mas variables explicativas linealmente dependientes [Multicolinealidad], la matriz X X no podra invertirse y el metodo de MCO simplemente no podra ejecutarse. Cuando la dependencia lineal no es perfecta
(la multicolinealidad es un problema de grado) s es posible invertir dicha matriz, aunque el determinante sera cercano a cero. Entre los snto-

272

CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS
mas de este problema suele estar el de obtener un buen ajuste (R2 alta) con estadsticos t no-significativos: inflacion de las varianzas de los
parametros; tambien vimos pruebas para detectar este posible problema.
Hay maneras muy obvias de resolverlo, entre las que destaca el quitar
la variable explicativa que es linealmente dependiente de las otras; tambien hay forma de resumir en una sola variable la informacion de varias
variables (componentes principales).
5. No ortogonalidad entre variables explicativas y termino de error. Detallaremos algunas razones por las que puede ocurrir esto. Destacan los
problemas de simultaneidad, pero tambien los errores de medicion en las
variables explicativas.2 La prueba de Hausman (que tambien estudiaremos) permite estudiar este posible problema siempre y cuando dispongamos de instrumentos validos. De igual forma, otros metodos de estimacion (cuya efectividad depende de la misma condicion que la prueba
de Hausman) que hacen factible la correccion del problema.
6. No-estacionariedad de las variables (tanto explicativas como dependiente). La no-estacionariedad de las variables ocasiona casi siempre que la
regresion sea espuria (es decir que los estadsticos habituales ya no seran
validos y no podremos saber si realmente tenemos evidencia de una relacion estadstica o bien de,...pura basura). Solventar esta dificultad puede
lograrse mediante pruebas de raz unitaria a las variables (siendo la mas
famosa la de Dickey-Fuller) as como de cointegracion y la estimacion
de Modelos de Correccion de Error, mismos que seran vistos en el curso
de Series de Tiempo.

P ROBLEMAS POTENCIALES CON LOS PAR AMETROS


: Implcitamente hacemos el supuesto de que los parametros de nuestra especificacion se mantienen constantes a lo largo de toda la muestra. No obstante, esto puede resultar
muy inadecuado en algunas ocasiones. No es una postura prudente suponer,
por ejemplo, que la dinamica del comercio exterior de un pas como Mexico no ha sufrido cambios drasticos ante los distintos tratados internacionales
que ha firmado el pas desde la decada de los ochenta. Por lo mismo, tampoco
suena creble asumir que la recaudacion de impuestos no se ve afectada por
las distintas reformas fiscales (creacion de nuevos impuestos, cambio de las

Cabe destacar que veremos tambien que la inclusion de la variable dependiente rezagada en
tanto explicativa puede generar problemas de eficiencia, sesgo e inconsistencia si existe simultaneamente un problema de autocorrelacion. Vease el captulo de especificaciones dinamicas.

273
tasas impositivas, conversion de impuestos en subsidios,...). Afortunadamente, es posible estudiar la constancia de los parametros estimados a lo largo de
la muestra disponible. La prueba mas conocida es quiza la de Chow, aunque
las que estan basadas en estimaciones recursivas tambien son muy populares.
A lo largo de los siguientes captulos describimos una gran cantidad de problemas,
metodos de deteccion y de correccion (de e stos u ltimos no hay tantos). La intencion
es formar al econometrista y dotarlo de las herramientas necesarias en su camino
hacia la tan famosa especificacion adecuada. Es importante hacer notar que no es
factible en este espacio formular un compendio de todo lo que hay en econometra.
Se debera tener conciencia que, cuando se enfrente a un problema en particular,
habra de investigar cual es la forma mas pertinente de estudiarlo; en otras palabras,
no deberemos circunscribirnos a lo aqu expuesto.

274

CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS

Captulo 9
Especificacion y Ortogonalidad
En el primer curso de econometra se estudio el modelo de regresion lineal. En el
proceso, obtuvimos las formulas de los estimadores; tambien fue posible emplear
diversas pruebas de hipotesis para evaluar el ajuste del modelo as como la satisfaccion de algunos de los supuestos que sustentan la estimacion; ademas, se revisaron algunas posibles dificultades inherentes al rompimiento de algunos supuestos
basicos de MCO. En particular se vieron los efectos de: la multicolinealidad, la
autocorrelacion y la heteroscedasticidad.
En este primer captulo de la segunda parte, persistiremos en la evaluacion del
cumplimiento de los supuestos; de hecho, se estudiara dos de los mas importantes:
el supuesto de correcta especificacion y el de ortogonalidad. Dadas las consecuencias del rompimiento de estos supuestos, sera necesario emplear nuevas formas
de estimar las relaciones de interes.

9.1.

Las variables independientes y la ortogonalidad

Poco se ha mencionado hasta ahora respecto a la importancia de una correcta especificacion; menos aun se ha puesto hincapie en la dificultad intrnseca de obtenerla. En
efecto, lograr una especificacion adecuada (presumir que es correcta sera quiza pecar de soberbia) no es trivial. Buena parte del e xito de un econometrista radica en su
habilidad en la elaboracion de una especificacion. Tendremos, en una primera seccion, una breve explicacion de dicha importancia. En esencia, al errar la tan mentada
especificacion, los frutos de una estimacion son esteriles, por no decir perjudiciales; la inferencia es incorrecta. Antes de empezar formalmente, modificaremos un
supuesto hecho anteriormente cuya finalidad era simplificar los calculos as como
275

276

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

las demostraciones. Se trata efectivamente de remover la caracterstica determinista de las variables explicativas y asignarles a e stas propiedades probabilistas. Ello
abre la puerta para entender el resto del captulo. Como senalamos anteriormente,
en el curso pasado incluamos entre los supuestos basicos del modelo de MCO el
siguiente:
L AS VARIABLES INDEPENDIENTES , LAS X S , SON DETERMINISTAS
Cual es la verdadera importancia de este supuesto? Pues en realidad e sta radica
en su comodidad al momento de hacer la mayor parte de las demostraciones. El
supuesto es simplificador y permite explorar las tripas del modelo de Mnimos
Cuadrados Ordinarios1 (MCO) sin que ello resulte excesivamente complicado; al
ser la variable x no estocasticay asumiendo que el termino de error es normal con
esperanza nula y varianza constante, Ut iidN (0, 2 ), tenemos:
E (xt ut ) = xt E (ut )
= 0
El supuesto no solo es muy fuerte, sino ademas peca de irrealista, o poco apegado a
la situacion en ciencia economica. Conviene trabajar con algo mas apegado a lo que
se podra obtener en la realidad y que hiciera mas pertinente al modelo. Al sustraerle el componente estocastico a las variables explicativas, estamos declarando,
de facto, que las controlamos. Esto es valido en el contexto de un laboratorio de biologa, o bien de qumica. En esa disciplina, por ejemplo, pueden estudiarse los efectos de una molecula o de un microorganismo (o de una celula) manteniendo todas
las condiciones constantes excepto una, la temperatura por ejemplo. El laboratorista ira recabando datos conforme cambiara la temperatura (mediante una perilla).
Eso, literalmente sera un experimento controlado y la variable de control evidente
es la temperatura. Si quisieramos correr una regresion con esos datos, sera perfectamente aceptable considerar a la variable explicativa (o de control) como dada. El
objetivo de este ejemplo es dejar claramente establecido porque las regresiones econometricas, en su mayora, no disponen de variables explicativas deterministas. En
una especificacion de demanda de dinero, el econometrista no controla el ingreso
de la gente; simplemente lo mide (de hecho, eso lo hace el INEGI). Por eso dejaremos de lado este supuesto. Ahora bien, asumir que las variables explicativas tienen
1

Recuerde que el modelo a estimar es: yt = + xt + ut . Los detalles los puede encontrar en
la prima parte del curso.

9.1. LAS VARIABLES INDEPENDIENTES Y LA ORTOGONALIDAD

277

propiedades probabilsticas, si bien complica un poco las cosas, permite de todas


formas recuperar el grueso de las propiedades de MCO que conocen. No obstante, no es posible asumir cualquier cosa para la variable explicativa. Tendremos que
imponer un nuevo supuesto, mas laxo, que reemplace al que estamos levantando.
Dicho supuesto es, de hecho, muy intuitivo:
E (X U ) = 0
En otras palabras, las variables explicativas, si bien son estocasticas, son tambien
ortogonales al termino de error. No existe relacion (en este caso lineal, al menos)
entre las variables explicativas y el termino de error. Consideremos brevemente las
consecuencias de este nuevo supuesto. Para ello, conviene recordar dos supuestos
hechos en el curso anterior:
:
1. S UPUESTO DE C ORRECTA E SPECIFICACI ON
Y = X + U
2. S UPUESTO DE N ORMALIDAD :
ut iidN 0, 2

El termino de error es independiente e identicamente distribuido de forma Normal


centrada en cero y con varianza constante.2
Ahora bien, matricialmente, el modelo de MCO, |{z}
Y = |{z}
X + |{z}
U arroja la
|{z}
T 1

T K K1

T 1

siguiente formula para obtener los estimadores:

b = (X X)1 X Y

Si desarrollamos, reemplazando la variable Y por la especificacion (nuestro primer


supuesto), obtenemos:

1
b = (X X) X (X + U )
= + (X X)1 X U

(9.1)

Vale la pena destacar que este supuesto abarca de facto los de homoscedasticidad y de noautocorrelacion.

278

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

Como ya senalamos, el nuevo supuesto se escribe: E(X U ) = 0. Aplicando el operador esperanza a la expresion anterior, dicho supuesto se activa y nos permite nuevamente encontrar que, aun siendo estocasticas la matriz de variables explicativas
X, el estimador es insesgado:
b =
E()

De forma similar es posible obtener nuevamente casi todas las propiedades de MCO
que se presentaron en la primera parte del curso. Pero hay excepciones; el Teorema de Gauss-Markov3 queda un poco debilitado, por ejemplo, pues requiere, para
obtenerlo, sacar esperanzas condicionadas en X. Esto u ltimo permite obtener los
mismos resultados que con variables explicativas deterministas, pero deja explcito
que, para sacar esperanzas incondicionales como antes, tendramos que multiplicar por la densidad de X y luego integrar sobre X.4 Ahora procedemos a dar tres
ejemplos clasicos, derivados esta vez mediante la esperanza condicionada en X:
1. Normalidad del estimador:
b
/X
N , 2 (X X)1

2. Comportamiento de las sumas cuadraticas:

SRC 2 2 (T K)
3. Prueba de hipotesis mediante normalizacion del estimador:


bi i
p
N (0, 1)
2 (X X)1
ii

Note que de los tres resultados presentados, solo la distribucion del primer calculo,
concerniente a los estimadores, conserva una referencia a las variables independientesen la varianza. En ese caso, al sacar la esperanza incondicional de dichos
estimadores tomando en cuenta la distribucion de las X, la distribucion de e stos
podra ya no ser normal. No obstante, los otros dos resultados son independientes
3

Recuerda que dice este teorema?


Esto u ltimo simplemente quiere decir que, una vez obtenida la esperanza condicionada en X, es
necesario tomar en cuenta tambien la distribucion de esta u ltima; ello podra modificar la esperanza,
dependiendo de cual es dicha distribucion.
4

9.2. EL SUPUESTO DE ORTOGONALIDAD

279

de la distribucion de las X. No importa cual sea e sta, las distribuciones tanto de la


suma de residuales al cuadrado como la de los estadsticos t seguiran siendo 2 y
normal estandar, respectivamente.
Con objeto de recordar las operaciones tanto escalares como matriciales, conviene
dar un ejemplo mas sencillo con el que se llega a la misma conclusion. Supongamos
la siguiente especificacion:
yt = xt + ut
Al calcular el estimador de usando MCO, obtenemos:

argmin

P
xy
P t2t
xt
= b

ub2t =

Teniendo ya el estimador de , es facil obtener una formula analoga la que aparece


en la ecuacion (9.1):
P
x t ut
b = + P 2
xt

Note como el segundo termino, de no ser cero, implica un estimador sesgado del
parametro. En la figura (9.1) se ilustran algunos casos en que, justamente ese termino
no desaparece. Es importante recordar que lo que se busca es la lnea que pase lo
mas cerca posible de todos los puntos en el diagrama de dispersion.

9.2.

El supuesto de ortogonalidad

Ahora que le hemos asignado a las variables explicativas unas propiedades mas
realistas, es posible entender mas a fondo el supuesto de ortogonalidad de e stas
con respecto al termino de error. En la formula del estimador, si reemplazamos la
variable dependiente por su especificacion, obtenemos:

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

280

Yt
Relacin Estimada
Verdadera Relacin

Xt

Figura 9.1: Sesgo en un estimador

xt (xt + ut )
P 2
x
P t
x t ut
= + P 2
xt

b =

Esta formula refleja la importancia de la relacion entre la variable explicativa y el


termino de error. Si el supuesto de independencia entre ambas se cumple, queda
muy claro que el estimador es insesgado y consistente. Ahora bien, si existe una
relacion entre explicativa y residual, entonces el estimador de la pendiente sera necesariamente sesgado y muy posiblemente inconsistente. Esto u ltimo depende de
la naturaleza de la relacion. Si efectivamente, existe una relacion entre ambas, pero
e sta va perdiendo importancia conforme crece el tamano de la muestra, el segundo
termino de la formula desaparecera asintoticamente. En este caso en particular, basta con estudiar la razon: si tanto numerador como denominador crecen conforme
aumenta el tamano de la muestra pero, el numerador crece mas lentamente que el
denominador, dicha razon tendera a cero. Tendremos entonces un estimador sesgado, pero consistente. Puede dar otro ejemplo de un estimador as (ver el captulo
que versa sobre el estimador de Maxima Verosimilitud)?
Retomando nuestro problema de ortogonalidad, que pasara si existe una relacion positiva entre la explicativa y el termino de error? Pues
P observaramos necesariamente una sobre-estimacion de la pendiente, ya que Pxxt u2 t > 0 y por ende,
t
b
= + algo. Un ejemplo grafico de dicho sesgo aparece, de hecho, en la figura
|{z}
6=0

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

281

(9.1) de la seccion anterior. A todo esto podemos anadir que la existencia de una
relacion entre las variables explicativas y el termino de error implicara tambien
una estimacion sesgada e inconsistente de las desviaciones estandar y de los residuales de la regresion. Las pruebas estadsticas tampoco funcionaran. Ahora bien,
estos sencillos desarrollos tan solo ilustran someramente el efecto obvio de una relacion entre explicativas y error. Lo importante radica en realidad en la fuente de
esa relacion. Que provoca que haya relacion entre errores y explicativas? Esa es la
cuestion fundamental; en el siguiente apartado estudiaremos algunas causas de esta
no-ortogonalidad

9.3.

Que causa problemas de ortogonalidad?

9.3.1. Errores de Medicion en las Variables


Hasta ahora siempre hemos considerado, implcitamente, que las variables no tienen errores de medicion o que no hay equivocaciones al especificar el modelo. Pero
la realidad es que estas dos eventualidades se cuentan entre los problemas mas frecuentes a que se enfrentan los econometristas. El problema de los errores de medicion en las variables tiene un transfondo de mucha mayor importancia en terminos
epistemologicos al grado que hasta prodra considerarse un captulo entero a la cuestion. Segun Haavelmo (1944) uno de los precursores de la econometra moderna, las
variables verdaderas y las muestrales rara vez coinciden. Por variables verdaderas
ha de entenderse lo que el investigador aglutina mentalmente detras de una variable. En otras palabras, cuando uno se refiere a produccion, piensa en la suma de
todos los productos elaborados evaluados en su precio respectivo. Lo cierto es que,
tan solo en una ciudad grande (digamos el Distrito Federal) existe una variedad de
productos que supera los miles de millones. No resulta muy convincente la idea de
que el calculo del INEGI los incluye todos, ni mucho menos. No obstante, cabe esperar que el ejercicio estadstico del INEGI esta muy bien disenado y los errores de
medicion minimizados hasta lo humanamente posible. Eso no puede decirse de los
registros contables que tambien se usan para generar series macroeconomicas. Tales
registros no tienen por objetivo surtir de datos a los econometristas y por lo mismo
no se disenan cientficamente sino con criterios contables. En cualquier caso, eso
tiene una consecuencia importante. Cuando uno prueba una teora economica usando tecnicas econometricas y variables muestrales, en el caso en que se encuentre
evidencia desfavorable a dicha teora, siempre se puede arguir que el modelo respalda las relaciones entre variables verdaderas, pero no necesariamente entre variables

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

282

muestrales, que quiza esten midiendo otra cosa.5 Un ejemplo elocuente de lo anterior radica en las cuestiones relativas al impacto de la investigacion y la tecnologa
en la tasa de crecimiento de los pases. Muchos modelos economicos apuntalan el
argumento de que la investigacion incide positivamente en el crecimiento de una
economa mediante los aumentos en productividad resultantes de la mejora de las
tecnicas de produccion. Si un investigador quisiera, ya no solo probar este argumento con datos, sino, todava mas interesante, cuantificarlo (estimar numericamente el
impacto de la investigacion en el nivel de produccion), se encontrara con un dilema: que variable usar para determinar el nivel de actividad cientfica del pas?
El numero de patentes aceptadas? El numero de investigadores registrados? La
proporcion del PIB destinada a investigacion y desarrollo? Observe la figura (9.2)
(a)

(b)
18,000

# de Miembros SNI

350

# de patentes

300
250
200
150
100
1990 1992 1994 1996 1998 2000 2002 2004 2006

16,000
14,000
12,000
10,000
8,000
6,000
4,000
1990

ao

1995

2000

2005

2010

ao

(c)

(d)

3.5

0.5

% del PIB

% del PIB

0.4
3

2.5

0.3
0.2
0.1

1994

1996

1998

2000

ao

2002

2004

2006

2008

0
1992 1994 1996 1998 2000 2002 2004 2006 2008

ao

Figura 9.2: Indicadores de Actividad cientfica. (a) Numero de patentes aceptadas en


Mexico. (b) Numero de Miembros del Sistema Nacional de Investigadores (Mexico). (c) Gasto en investigacion como Proporcion del PIB: la lnea naranja corresponde a Japon; la lnea azul corresponde a Alemania. (d) Gasto en investigacion
como Proporcion del PIB: Mexico.

Ninguno de estos indicadores es perfecto; cada uno constituye una buena/mala/regular


aproximacion de la actividad cientfica. El numero de investigadores registrados por
5

Se recomienda ampliamente leer la monografa de Haavelmo (1944); esta disponible en internet.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

283

el Gobierno Mexicano (grafico b) es un mero registro administrativo que proyecta con poca precision la produccion cientfica o la calidad de la investigacion. El
numero de patentes no necesariamente refleja los resultados de investigacion sino
mas bien estrategias empresariales para erigir barreras de entrada a la competencia
(no necesariamente justificadas por innovacion).
En todo caso, hay conceptos de variables tales como Educacion e Inteligencia que
simple y sencillamente no tienen correspondencia numerica especfica. Como en
el ejemplo de la investigacion, tales conceptos se pueden aproximar mediante, por
ejemplo, anos de escolaridad y resultados de pruebas de inteligencia. Estas u ltimas
son variables P ROXY; sustituyen en la especificacion a variables no observables. Es
importante no confundir estas u ltimas con las variables instrumentales o instrumentos. Mientras que las variables proxy se emplean directamente en la especificacion,
las variables instrumentales aportan mas informacion al ejercicio de estimacion sin
aparecer nunca en la especificacion.
En lo que concierne nuestro problema de ortogonalidad, nos limitaremos a estudiar
los efectos de sencillos errores de medicion tanto en la variable explicada como en
la explicativa.
Variable dependiente medida con error
Empezaremos con el proceso que realmente genera los datos, o bien, la especificacion correcta. Esta es la manera en la que la naturaleza construyo los datos. Asuma
pues que la verdadera especificacion es:6

yt = xt + t

(9.2)

Esta u ltima es la que el investigador cree que esta estimando. No obstante, solo
dispone de una variable dependiente medida con un cierto error, digamos:

yt = yt + ut
Con objeto de simplificar la demostracion, estableceremos algunos supuestos (destaca que e stos se podran omitir o suavizar en gran medida sin que cambiara la
6

Cabe senalar que le damos continuidad a la especificacion de la seccion anterior al no incluir


constante. Considere que las variables estan centradas.

284

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

conclusion. A cambio de eso, la demostracion serainnecesariamentemas larga


y, sobre todo, mas confusa):7
1. zt iidN (0, z2 ) para z = , u, x,
2. Cov(ut , xt ) = 0,
3. Cov(ut , t ) = 0,
4. Cov(xt , t ) = 0.
As, el investigador, cuando estima la regresion, no esta corriendo el modelo que
cree estar corriendo. Partiendo de la especificacion original, podemos averiguar que
es lo que realmente se esta estimando:

yt = xt + t
yt + ut = xt + t + ut
yt = xt + (t + ut )
| {z }
d

=vt

Como de hecho es facilmente previsible, los efectos de utilizar una variable dependiente mal medida no son especialmente dramaticos. No obstante, vale la pena
conocerlos:
1. El estimador de sigue siendo insesgado y consistente.
2. La varianza de t + ut , el nuevo termino de error, se incrementa, por lo que la
eficiencia de nuestros estimadores queda reducida.8
Reiteramos que la mala medicion en la variable dependiente no tiene efectos demasiado perversos al correr una regresion como la especificada en la ecuacion (9.2).
La formula del estimador es, de hecho:
7

Los supuestos 2,3 y 4 son un poco redundantes, puestos que los procesos son iid, pero vale la
pena recalcarlos.
8
No se dio una demostracion de lo anterior. No obstante, la cuestion es obvia. Explique la razon
de semejante afirmacion.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

285

P
xt y
b = P 2t
x
P t
xt (yt + ut )
P 2
=
xt
P
xt (xt + t + ut )
P 2
=
xt

Al calcular el valor esperado del estimador, obtenemos lo siguiente:

=0
=0
z
z
}|
{
}|
{
P
P 2 P
 

x t t
x t ut
xt

E = E P 2 + P 2 + P 2
xt
xt
xt

*.- Note que es posible desprender los ruidos t y ut de las variables xt gracias
a los supuestos antes senalados. Note tambien que los u ltimos dos terminos no son
otra sino covarianzas entre procesos independientes. Dado que la esperanza de los
ruidos es cero, ambas razones tienen esperanza nula; por ejemplo,
P

X  xt 
x t t
E P 2
=
E P 2 E(t )
xt
xt | {z }

(9.3)

=0

Ahora calculemos la varianza de dicho estimador, sabiendo que:


V ar(t ) < V ar(t + ut ) = V ar(vt )
= v2
= V ar(t ) + V ar(ut )
| {z } | {z }
>0

>0

Ya podemos atacar la varianza de nuestro nuevo estimador:

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

286

xt (xt + t + ut )
P 2
xt
P
P
x t t
x t ut
= + P 2 + P 2
xt
xt
P
P
( x t t + x t ut )
P 2
b =
xt
b =

Solo resta construir la formula de la varianza de :


P
P

2
( x t t + x t ut ) 2
b
P

=
( x2t )2
P
( xt v t ) 2
P
=
( x2t )2


2

2
(x
v
+
x
v
+
.
.
.
+
x
v
)
1
1
2
2
T
T
P
E b
= E
( x2t )2

 2 2
x1 v1 + x22 v22 + . . . + x2T vT2 + 2x1 x2 v1 v2 + . . .
P
= E
( x2t )2

Dado que los componentes de vt son ortogonales a xt , podemos separar las esperanzas:
 P 2 

2
x
2
b
E
= v E P 2t 2
( xt )


1
2
= v E P 2
xt

Ya no desarrollaremos mas el termino cuya esperanza aun hay que calcular ( P1x2 ),
t
puesto que no se necesita para efectoshde esta
i demostracion. No obstante, vale la
pena mencionar a este respecto que: E P1x2 no es necesariamente igual a E[P1 x2 ] .
t

Ello se sabe gracias a la desigualdad de Jensen:9


9

Esta discusion fue incluida gracias a que Lizet Adriana Perez Cortes encontro un error en una
version anterior del documento.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

287

Teorema 16 Desigualdad de Jensen: para toda variable aleatoria z y asumiendo


que la funcion g(z) es convexa, ocurre lo siguiente:
E[g(z)] g[E(z)]

P 2
Puesto que en nuestro caso z =
xt > 0, la funcion es convexa y podemos aplicar
la desigualdad. Retomemos ahora nuestro problema de varianza, que al final queda
as:



2
1
2
2
b
E
= ( + )E P 2
xt

Si la hcomparamos
con la varianza que obtendramos de no haber error de medicion,
i
1
2
E P x2 ,
t
Resulta obvio que la primera (con error de medicion) es mayor a la segunda (sin
dicho error), puesto que el numerador es mayor. Queda as expuesto de forma muy
evidente el aumento de la varianza del estimador al haber errores de medicion en
la variable dependiente. Sera extraordinario, al lidiar con errores de medicion, que
todo fuera tan sencillo como una perdida de eficiencia de los estimadores. Desgraciadamente, no es el caso. En la siguiente seccion veremos que ocurre cuando el
famoso error de medicion esta en la variable explicativa.
Variable independiente medida con error
Si el error de medicion esta en las variables explicativas, las consecuencias cobran
gran importancia. Para entenderlo, suponga que la variable explicativa que nosotros
observamos esta medida con error:
xt = xt + vt
Suponga nuevamente que la especificacion correcta es:
yt = xt + t
Nuevamente, para hacer mas sencillo el ejercicio, haremos unos supuestos, ligeramente mas fuertes que los anteriores, pero en extremo parecidos:
1. zt iidN (0, z2 ) para z = , v, x,

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

288
2. xt t ,10
3. xt vt ,
4. t vt ,
5. plimT 1
6. plimT 1
7. plimT 1

x2t x2 ,11
P

vt2 v2 .
P

2t 2 .

Al estimar la regresion, en realidad estaramos corriendo:


yt = xt + error
Que propiedades tiene ese error? Partiendo de la verdadera especificacion, podemos averiguarlo:

yt = xt + t + vt vt
= xt + (t vt )
El hecho es que, por mas supuestos que hagamos sobre vt (media cero, varianza
constante, normalidad, etc), subsistira un problema. Al correr la regresion,
yt = xt + (t vt ),
| {z }
t

tendremos un rompimiento de supuesto; existira una relacion entre el termino de


error y la variable explicativa:
P
El smbolo indica que la suma de las dos variables es igual a cero: xt t = 0. Es ortogonalidad de las variables en el sentido mas exacto.
11
Note que los u ltimos dos supuestos se derivan de una aplicacion estandar de la Ley Debil de
Grandes Numeros. Vea, por ejemplo Casella & Berger (1990, p.215) Statistical Inference para una
excelente explicacion y demostracion.
10

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

Cov(xt , t ) =
=
=
=
=
=

289

E {[xt E(xt )] [t E(t )]}


E {[xt + vt E(xt )] t }
E (vt t )
E [vt (t vt )]
 
E [vt t ] E vt2
v2

Queda pues confirmado que existe una relacion entre ambas. Este rompimiento ya lo
habamos estudiado al presentar el nuevo supuesto (seccion anterior). As pues, no
se cumple la ortogonalidad entre explicativa y residuales. Retomando
los resultados
P
xt ut
b
concernientes al estimador de la seccion anterior, = + P x2 , es facil ver que
t
e ste que tenemos actualmente, tambien sera sesgado e inconsistente:
1. Sesgo:
b = + algo
E()
|{z}
6=0

Sabemos que ese algo es distinto a cero debido a que la covarianza que
calculamos anteriormente es distinta a cero. La esperanza de ese algo no
la podemos obtener puesto que no es factible separar, al interior del operador
esperanza, el numerador del denominador.
2. Inconsistencia: partiendo nuevamente de la formula del estimador:

b =

=
=
plim()

P
xy
P t2t
x
P t
(xt + vt )(xt + t )
P
(x + v )2
P 2 tP t
P
P
x t + x t t + x t v t + t v t
P
P
P 2
xt + 2 xt vt + vt2
P
P

1 P 2 P
( xt + xt t + xt vt + t vt )
T
P 2
P
P 2
plim
1
(
x
+
2
x
v
+
vt )
t
t
t
T

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

290

Para terminar este desarrollo, es importante recordar que no existe relacion


entre la variable explicativa y los ruidos (ni tampoco entre ellos) y que hay
ortogonalidad entre todas las variables involucradas. Ello nos permite sacar
el plim del estimador y con ello saber a que converge cuando el tamano de
muestra tiende a infinito:

b =
plim()

2
X
2
V2 + X

Con esto queda claro el problema de inconsistencia que genera esta relacion
entre variables explicativas y termino de error.

Ejercicio 7 Siendo inconsistente y sesgado el estimador, no hace ya mucho sentido


ver su eficiencia. No obstante, como ejercicio es interesante. Calcule el plim de la

varianza del estimador :


plim( )2

(ii) Reemplace yt y x ;
El proceder es el de siempre. (i) Parta de la formula de ;
t
(iii) Obtenga la expresion sin aplicar plims; (iv) Ya que la tenga, reste de ambos
lados ; (v) Ahora s, aplique el plim.

Errores de medicion en ambas variables


Presentamos este u ltimo caso sobre todo con la finalidad de familiarizarnos con la
manipulacion de las expresiones. Despues de haber trabajado los errores de medicion en la variable explicada y posteriormente en la explicativa, debera ser muy
intuitivo lo que ocurre cuando se presentan estos errores de manera simultanea.
Asuma que la relacion entre xt y yt es la siguiente:12
yt = xt
donde:
yt = yt + ut
12

Nota usted algo extrano en esta expresion?

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

291

xt = xt + vt
zt iidN (0, z2 ) para z = u, v, x
x t v t , x t ut , v t ut .
En caso de correr una regresion con estas variables mal medidas, obtendramos un
estimador consistente? Para poder contestar a esta pregunta, lo primero sera tener
claro que regresion estaramos corriendo. Para ello, partamos de la especificacion
correcta:
u u
| t {z }t

yt = xt +

agregamos sin desbalancear

yt

= xt + ut + vt vt
= xt + (ut vt )

Nuestro termino de error queda por fin definido. Ahora s, ya nos podemos concentrar en la formula del estimador:
P
xy
P t2t
x
P t
(xt + vt )(yt + ut )
P
=
(xt + vt )2
P
(xt + vt )(xt + ut )
P
P
= P 2
xt + 2 xt vt + vt2
P
P
P
P
x2t + xt ut + xt vt + vt ut
P 2
P
P
=
xt + 2 xt vt + vt2

b =

Preparada as la expresion, ya nada mas resta obtener el lmite en probabilidad:


= plim
plim()
=
=

1
T

x2
v2 + x2

v2
x2

+1

P
P
P

x2t + xt ut + xt vt + vt ut )
P
P
P
1
( x2t + 2 xt vt + vt2 )
T

292

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

Tal y como habamos previsto, el estimador es inconsistente tambien. Con esto damos por terminada la seccion relativa a los errores de medicion. Sus efectos, en
resumen pueden ser muy graves al momento de realizar nuestra estimacion. Se desprende que el manejo de los datos resulta de gran importancia. Es importante conocer las fuentes de informacion y asegurarse, en la medida de lo posible, de que la
metodologa empleada por dichas fuentes sea confiable. Con el advenimiento de la
informatica y la expansion de las practicas de muestreo, es posible considerar que
este problema se puede controlar mejor que antes. No obstante, no hay que olvidar
que muchas bases de datos empleadas en economa se forjan mediante la recopilacion de registros contables cuya elaboracion no toma en cuenta ninguna precaucion
de corte cientfico.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

293

Ejercicio 8 Suponga la siguiente relacion entre dos variables:


yt = + xt + ut
Donde existen versiones ambas variables con errores de medicion:
yt = yt + v t
xt = xt + w t
Suponga que los siguientes supuestos se cumplen:13
= 4 = 7 ut iidN (0, 2)
ut vt ut wt vt iidN (0, 1)
vt wt T = 500 wt iidN (0, 3)
xt iidN (0, 2)
P REGUNTAS :
1. Simule en matlab las cuatro variables, xt , xt , yt y yt .
2. Genera la verdadera lnea de regresion.
3. Estime las siguientes especificaciones:
yt = 1 + 1 xt + u1t
yt = 2 + 2 xt + u2t
yt = 3 + 3 xt +u3t
yt = 4 + 4 xt +u4t
4. Recupere el estimador i para i = 1, 2, 3, 4.
13

Note que, si los ruidos son iid no hace falta decir que son independientes los unos de los otros.

294

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

5. repita los pasos anteriores 500 veces [Numero de replicaciones: R = 500]


y obtenga un histograma de cada estimador, que colocara en una figura con
cuatro graficas.
6. Comente los resultados.
Para escribir el codigo requerira los siguientes comandos: clear all; randn; regress; hist; suplot; plot .

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

295

9.3.2. Efectos de simultaneidad


Los errores de medicion en las variables, como seguramente ya ha considerado,
quedan en buena medida fuera de nuestro a mbito de control. Solo nos queda ser
cuidadosos al construir nuestra base de datos y apostar por que los institutos de estadstica hagan cada vez mejor su trabajo [apuesta no muy descabellada, dicho sea
de paso]. En todo caso, representan una fuente potencial de inconsistencia de nuestros parametros estimados y es importante saberlo (el saberlo, de hecho, nos permite
recurrir a acciones correctivas bastante eficaces). Ahora atacaremos otra forma en
la que el supuesto de ortogonalidad se puede romper. Lo que a continuacion estudiaremos representa una de las aportaciones mas relevantes de la econometra a
la estadstica (por lo general, el conocimiento sola transitar en el sentido opuesto). Las cuestiones relativas al problema de simultaneidad, si bien corresponden a
una problematica muy concreta en economa, son susceptibles de ocurrir en otros

a mbitos. Durante muchos anos, las E CUACIONES S IMULT ANEAS


constituyeron la
gema de la corona de la econometra. Retomemos nuestro problema de ortogonalidad en notacion matricial, es decir, en el marco de una especificacion denotada
Y = X + U . Nuestro estimador, como ya recordamos recientemente, es:
b = (X X)1 X Y
= + (X X)1 X U
1. Si lo que queremos es un estimador insesgado, entonces lo que necesitamos
es:
E(X U ) = 0
2. No obstante, como se constatara mas adelante, buscar esa propiedad en nuestros estimadores es pedir demasiado. Nos conformaremos con consistencia
de los mismos y para ello, lo que se requiere, es:
plimT (T 1 X U ) = 0
En las secciones anteriores, vimos que un error de medicion en las variables explicativas puede provocar que el estimador sea inconsistente. La simultaneidad tambien
tiene ese efecto. Pero hasta ahora, no hemos definido en que consiste la tan famosa
simultaneidad. Es un caso de figura fundamental en economa, como ya se menciono, mucho mas relevante y trascendental; en econometra se traducira como un

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

296

rompimiento del supuesto de ortogonalidad. Si bien este tema sera tratado con detenimiento mas adelante, baste por ahora presentarlo. Suponga el siguiente sistema
de ecuaciones representativo de un mercado:
Qdt = Pt + Ztd + Utd
Qst = Pt + Zts + Uts
Donde Qdt y Qst son las cantidades del producto demandadas y ofrecidas, respectivamente, en el tiempo t; Pt es el precio de dicho bien (tambien en el tiempo t,
claro esta) y Zti , donde i = d, s representa otras variables explicativas relativas a la
demanda y a la oferta, respectivamente.14 A estas u ltimas tambien se les denomina
exogenas o predeterminadas.15
Si suponemos que estamos en un mercado competitivo, entonces el mercado se
vaca y:
Qdt = Qst = Qt
As pues, el precio, Pt se debe determinar endogenamente en las dos ecuaciones.
De hecho, Qt y Pt se definen simultaneamente en este modelo. Las ecuaciones simultaneas implican esencialmente que en cada relacion aparecen variables explicativas que son a su vez endogenas al sistema, es decir, que aparecen como explicadas
en otra ecuacion del sistema. Asumamos el siguiente modelo, ya especificado con
nuestra notacion habitual:

y t = b 0 + b 1 x t + ut
x t = a0 + a1 y t + a2 z t + v t
Donde se deben cumplir los siguientes supuestos:

E(ut ) = 0
E(ut u ) = 0
E(vt2 ) = v2
E(ut vt ) = 0
14
15

E(u2t ) = 2
E(vt ) = 0
E(vt v ) = 0

precio de bienes sustitutos, complementos, costos de produccion, etc. . .


Estos apelativos quedaran claros mas adelante.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

297

donde t 6= .
Note que el modelo esta matematicamente completo; contiene dos ecuaciones, con
dos variables endogenas, xt e yt (las otras variables, representadas por zt , se asumen como variables exogenas o predeterminadas, lo que, en cierta forma, pretende
implicar que las conocemos). Si bien esto puede parecer contradictorio en este momento, asumamos que la variable zt no tiene propiedades probabilsticas. Ahora
sustituyamos yt en la segunda ecuacion:
xt = a0 + a1 (b0 + b1 xt + ut ) + a2 zt + vt
(1 a1 b1 )xt = a0 + a1 b0 + a1 ut + a2 zt + vt

 



a0 + a1 b 0
a2
a 1 ut + v t
xt =
+
zt +
1 a1 b 1
1 a1 b 1
1 a1 b 1
Reparametrizando...

xt = 0 + 1 z t + w t
Si nosotros quisieramos estimar u nicamente la ecuacion en la que la variable xt es la
dependiente, dudosamente estimaramos la especificacion de arriba, que por cierto,
R EDUCIDA . No, estimaramos una regresion de xt en
se denomina E CUACI ON
funcion de yt y zt :
xt = + 1 zt + 2 yt + Errort
Este ejercicio es muy diferente al idoneo. El error de especificacion es, de hecho,
evidente. Pero, acaso eso rompe el supuesto de ortogonalidad? Tal y como esta la
especificacion de la relacion original, uno podra esperar que: Cov(xt , ut ) fuera
cero. Desgraciadamente, e se no es el caso. Para entender como se rompe el supuesto
de ortogonalidad, recordemos que la covarianza se resume a:

Cov(xt , ut ) = E[(xt E(xt ))(ut E(ut ))]


= E[(xt E(xt ))ut ]
No obstante, sabemos por nuestros desarrollos anteriores que:

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

298

a0 + a1 b 0
1 a1 b 1

xt E(xt ) =

a 1 ut + v t
1 a1 b 1

E(xt ) =

a2
1 a1 b 1

zt

Por ende:

Entonces, la covarianza que tanto nos preocupa queda de la siguiente forma:

Cov(xt , ut ) =
=
=
6=


a 1 ut + v t
ut
E
1 a1 b 1


1
E(a1 u2t + ut vt )
1 a1 b 1
a1 2
1 a1 b 1
0


Ya hemos probado en reiteradas ocasiones que si la covarianza entre explicativas


y el termino de error es distinta a cero, tendremos estimadores sesgados e inconsistentes (ver primera parte del curso). Este caso no sera la excepcion: nuestros
estimadores seran malos. En la figura (9.3) se muestra un ejemplo con un sistema
analogo al que hemos venido desarrollando. Aparecen en dicha figura dos planos;
uno, el plano que queda casi siempre abajo, corresponde al de la verdadera especificacion (xvt = a0 + a1 yt + a2 zt ) mientras que el otro, el que casi siempre esta arriba,
corresponde al de los valores ajustados usando los parametros estimados por MCO
(
xt = a
0 +
a1 yt +
a2 zt ). Dicha figura ejemplifica bien el sesgo que hemos provocado
al no tomar en cuenta la simultaneidad.

Desafortunadamente, muchos de los modelos que explican el funcionamiento de la


economa suelen expresarse como sistemas interdependientes de ecuaciones, refle
jo fiel de lo que estipula la teora economica. Esta
a su vez ha probado tener, en
buena medida, razon. El problema que acabamos de estudiar es muy comun al usar
datos referentes a un mercado. Si bien, esto nuevamente puede parecer un problema

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

299

Figura 9.3: Sesgo de una estimacion por MCO bajo simultaneidad.


infranqueable, lo cierto es que mucha agua ha pasado por debajo de los puentes
desde que se identifico. La solucion es de hecho, de gran elegancia y se convirtio en el metodo favorito de los econometristas durante 30 anos. Entre los autores
a destacar en este desarrollo, se encuentran, Haavelmo,16 Koopman, Rubin y Leipnik.17 Hoy se sabe, de hecho, que es posible estimar correctamente un sistema de
ecuaciones si el numero de restricciones impuestas a priori sobre e ste es suficiente.
Para mejorar las propiedades de los estimadores, se han propuesto metodos tales como 2SLS, 3SLS, e IV . El u ltimo mencionado es paradigmatico y lo estudiaremos
dentro de muy poco; los demas los veremos posteriormente.
Ejercicio 9 Suponga la siguiente relacion entre dos variables:

y t = b 0 + b 1 x t + b 2 w t + ut
x t = a0 + a1 y t + a2 z t + v t
Donde ocurre lo siguiente:
16

Famoso por sus esfuerzos por probabilizar la teora econometrica.


El siguiente parteaguas de la teora econometrica fue la solucion al problema de la identificacion
en Ecuaciones Simultaneas, realizada en buena medida por estos investigadores.
17

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

300

a0 = 2 b0 = 8 ut iidN (0, 4)
a1 = 7 b1 = 5 vt iidN (0, 1)
a2 = 4 b2 = 3 uwt , uzt iidN (0, 2)
Ademas, las ecuaciones que generan las variables exogenas al sistema son:18

wt = 0.7wt1 + uwt
zt = uzt + 0.4uzt1

P REGUNTAS :
1. Obtenga las ecuaciones en forma reducida (es decir, x y y en funcion de
variables exogenas u nicamente).
2. Escriba un programa en matlab que las simule (las simulaciones deben estar
basadas en las ecuaciones reducidas).
3. Estime por MCO la especificacion
yt = + xt + wt + uet
4. Grafique un diagrama de dispersion en tres dimensiones.
5. repita el experimento 500 veces (R = 500) y obtenga un histograma del
estimador de
Para escribir el codigo requerira los siguientes comandos: clear all; randn; regress; hist; scatter3 as como escribir ciclos: for i=1:K; [instrucciones]; end;
18

donde w0 = uz0 = 0.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

301

9.3.3. Variables relevantes omitidas


Uno de los primeros supuestos que se imponen al estudiar econometra es el de
correcta especificacion del modelo. No obstante, y pese a los avances en teora
economica, especificar modelos econometricos sigue siendo tarea ardua. Al llevar a
cabo un ejercicio econometrico con objeto de aportar evidencia sobre el funcionamiento de un fenomeno, se descubre que la tentacion de agregar y quitar variables
es fortsima. Que pasara si se nos olvida alguna que es relevante? Que pasara si
ponemos una de mas?
Omitir una variable que s aparece en la verdadera especificacion es un error grave.
Intuitivamente es posible imaginar que toda variable que no aparezca en la regresion pero s en la especificacion, se mudara al residual; e ste dejara de ser un ruido
blanco,19 pues contendra informacion relevante. Para estudiar este problema, desarrollaremos un caso. Asuma que el verdadero modelo es:20
yt = 2 x2t + 3 x3t + t
No obstante, suponga que un economista interesado en el tema u nicamente estima
la siguientee incompletaespecificacion:
yt = 2 x2t + t
Sabiendo que la formula para estimar 2 es:
P
x2t yt

b
2 = P 2 ,
x2t

Sustituyendo en esta formula la verdadera especificacion, obtenemos:

19

x2 (2 x2t + 3 x3t + t )
P 2
x2t
P
P
P 2
2 x2t + 3 x2t x3t + x2t t
P 2
=
x2t
P
P
x2t x3t
x2t t
= 2 + 3 P 2 + P 2
x2t
x2t

2 =

Por ruido blanco se entiende un ruido que no transmite informacion pero que ademas tampoco
es perjudicial; no estorba.
20
Todos los supuestos clasicos de MCO se cumplen en la especificacion correcta. Note como
seguimos trabajando con variables centradas; por ello, sigue sin incluirse una constante.

302

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

Note que el tercer elemento del numerador, asumiendo independencia entre variables explicativas y el termino de error, desaparecera si aplicamos el operador esperanza. Asumamos, por un momento ortogonalidad entre x2 y , x2t t . Ello
permite reinterpretar la formula de nuestro estimador de la siguiente manera:21
P
1
plim(T
x x )

P 2t2 3t ,
plim(2 ) = 2 + 3
1
x2t )
plim(T
Como siempre, incluimos el normalizador T 1 con objeto de evitar que las sumas
diverjan. Ello tiene ademas la gran ventaja de explicitar las formulas de covarianza
y varianza (muestrales, eso s):
plim(2 ) = 2 + 3

d 2t , x3t )
Cov(x
Vd
ar(x2t )

Esta manipulacion, vale la pena recalcar, elimino el tercer termino asumiendo ortogonalidad de la segunda variable con el error. En todo caso, deja claro el problema

potencial: EL ESTIMADOR NO SER A CONSISTENTE SI EXISTE UNA RELACI ON


ENTRE VARIABLES EXPLICATIVAS .
Si quisieramos estudiar el sesgo del estimador, nos toparamos con el problema de
no independencia entre numerador y denominador. Al aplicar el operador esperanza
nos queda:
P

x2t x3t

E(2 ) = 2 + 3 E P 2
x2t
La esperanza que sobrevive solo es igual a cero cuando x2 y x3 son independientes;
en ese caso podramos separar la esperanza de la siguiente manera:
X  x2t 

E(2 ) = 2 + 3
E P 2 E[x3t ]
x2t

En ese caso resulta facil demostrar que E[x3t ] = 0.22 En primera instancia, cabe
resaltar que nuestro estimador esta sesgado, aunque dicho sesgo depende en realidad
21

Recuerde que las variables estan centradas; ello, como ya senalamos, obedece a razones
practicas para el desarrollo de esta prueba y es facilmente omitible. Tambien recuerde que, si
en vez de ortogonalidad,
tuvieramos E(x2t t ) = 0, la expresion quedara plim(2 ) = 2 +
P
plim(T 1 P
x2t x3t )
3 plim(T 1 x2 ) + op (1), donde la notacion op (), lo pequena o (little o en ingles) denota
2t
un termino que se colapsa (tiende a cero).
22
Pruebelo! Recuerde que la variable esta centrada.

9.3. QUE CAUSA PROBLEMAS DE ORTOGONALIDAD?

303

de la existenciay del signode una relacion lineal entre las variables x2t y x3t .
Existe por ende una posibilidad de que no haya tal sesgo; tendremos un estimador
insesgado y consistente si y solo si x2t es ortogonal a x3t .23 A sabiendas de lo
anterior, se necesitara independencia entre las variables explicativas consideradas
y las omitidas para poder confiar en que, aun no incluyendo una variable relevante,
nuestros estimadores resulten correctos. Como bien esta senalado en muchos libros
basicos de econometra, tal condicion resulta difcil de satisfacer en la practica.

9.3.4. Inclusion de variables irrelevantes.


La inclusion de variables irrelevantes es, de hecho, bastante menos grave que la
omision de aquellas que s deben aparecer en la especificacion. Intuitivamente podemos pensar que una variable de mas tendra una aportacion marginal (i.e. casi
nula) en la explicacion de la varianza de la variable explicada. Ademas, se podra
pensar, sin demasiado riesgo, que la hipotesis nula de no significancia del estadstico t [por ejemplo] asociado a dicha variable sera aceptada y que por ende acabara
excluida durante el proceso de afinamiento de la especificacion. Nuevamente, para
ver lo anterior, asuma lo siguiente:
Verdadero modelo:
yt = 2 x2t + t
Modelo estimado:
yt = 2 x2t + 3 x3t + t
En realidad, poner variables de mas no deriva en consecuencias demasiado dramaticas. Como ya se dijo, los parametros asociados deberan ser estadsticamente nulos, pero aun al no eliminarlos de la especificacion, veramos que el estimador permanece insesgado.
Ejercicio 10 Recordemos que la formula del estimador en una regresion con dos
variables explicativascentradases la siguiente:
P 2 P
P
P
x3t (x2t yt ) (x2t x3t ) (x3t yt )

2 =
P
P 2 P 2
x2t x3t [ (x2t x3t )]2
23

Este resultado se puede generalizar para K variables.

304

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

Demuestra que 2 es un estimador insesgado de 2 . Asuma que el supuesto de


ortogonalidad s se cumple (E(t xit ) = 0 para i = 2, 3).
Para concluir esta seccion, podemos senalar que la inclusion de variables irrelevantes no tiene efectos muy perversos en nuestro procedimiento de estimacion. No
obstante, la leccion relativa a la elaboracion de una buena especificacion s es fundamental. Ahora que sabemos que omitir variables relevantes es mucho mas grave que
incluir otras que son irrelevantes, es facil deducir que resulta mucho mas convenien CON UNA E SPECI te E MPEZAR S IEMPRE EL E JERCICIO DE M ODELACI ON
M UY I NCLUYENTE . Todo indica que es relativamente facil desechar
FICACI ON
variables cuya aportacion sea marginal (existen muchos instrumentos para evaluar
2 , . . .) y, por lo visto hasta ahora, las consecuencias de
esto: los estadsticos t, la R
incluirlas en un principio no son demasiado importantes. Esta manera de abordar la
modelacion en econometra ha sido bautizada como:
M ETODOLOG I A DE G ENERAL A E SPEC I FICO

Esta
basicamente consiste, como ya se senalo, en iniciar con un modelo muy general, que incluya todo lo que pueda ser considerado a priori importante; si utilizaramos una jerga mas tecnica, diramos que el inicio de la modelacion se lleva a
cabo con un modelo y reducirlo paulatinamente con base en los resultados de una
bateramuylarga de pruebas estadsticas. Se trata de un enfoque inductivo por
excelencia, en el que los datos, es decir la informacion contenida en ellos, tienen la
u ltima palabra.24

9.4.

Deteccion de algunos problemas de ortogonalidad

9.4.1. Pruebas de variables omitidas o redundantes


Los problemas que hemos estudiado hasta ahora son, afortunadamente, detectables y/o corregibles en mayor o menor grado. El estudio de algunos de ellos exige
el metodo de Variables Instrumentales, que aun no hemos abordado. No obstante, s disponemos del herramental necesario para evaluar otros mas, entre los que
destaca la cuestion de variables omitidas o redundantes.
24

Induccion, segun la Real Academia Espanola, es: extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas esta implcito.

DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 305


9.4. DETECCION
Prueba de variables omitidas
La prueba que a continuacion detallaremos permite explorar la posibilidad de que
hayamos omitido una variable importante en nuestra especificacion. No es magica,
no proporciona el nombre de la variable que se omitio; eso es tarea del econometrista.
La prueba permite agregar un conjunto de variables a una regresion ya estimada y
formular la siguiente pregunta: E STAS N UEVAS VARIABLES C ONTRIBUYEN DE
DE LA VARIABILIDAD DE LA
M ANERA S IGNIFICATIVA EN LA E XPLICACI ON
VARIABLE D EPENDIENTE ? La prueba es analoga a la de la Granger-Causalidad,
a saber: el nuevo conjunto de parametros asociados a las variables explicativas no
es significativo de manera conjunta (la alternativa es que al menos uno de esos
parametros s lo es). Las regresiones relevantes podran ser las siguientes:
yt = + 1 xt + ut
yt =
+ 1 xt + 2 wt + 3 zt + vt

(9.4)
(9.5)

Donde la ecuacion (9.4) es la regresion restringida mientras que la ecuacion (9.5) es


la no-restringida. El estadstico de prueba puede ser una F, si se usa la formula estudiada en la primera parte del curso y tambien mas adelante, cuando se vea GrangerCausalidad [ver ecuacion (11.3)] o bien una 2 si se usa una razon de verosimilitudes [log-likelihood ratio, en ingles]. Para calcular esta u ltima se debe en primera
instancia, obtener la log verosimilitud maximizada de cada regresion.25 Denotaremos lR y lN R a las verosimilitudes de la regresion Restringida y No-Restringida,
respectivamente, El estadstico de prueba se obtiene de la siguiente manera:
LR = 2 (lR lN R )

(9.6)

Bajo la hipotesis nula, el estadstico LR tiene una distribucion asintotica 2 con un


numero de grados de libertad igual al numero de restricciones (es decir al numero
de variables agregadas). Es importante siempre tener claro lo siguiente:
1. H0 : Ninguna de las variables omitidas es significativa,
25

Estas regresiones se pueden estimar por el metodo de maxima verosimilitud. Mientras la especificacion sea lineal, los estimadores seran identicos a los de MCO; en el recuadro de la regresion
del programa Gretl aparece dicha log-verosimilitud. Vease el captulo correspondiente en el primer
curso de econometra.

306

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

2. Ha : Al menos una de las variables omitidas es significativa.


Tambien es importante tener en cuenta los siguientes aspectos:
1. Esta prueba requiere que ambas regresiones dispongan del mismo tamano
de base. Lo anterior es particularmente relevante cuando en el conjunto de
variables cuya importancia se quiere evaluar se encuentran algunas de las
originales, solo que rezagadas. La operacion de rezago implica la perdida de
una observacion.
2. El estadstico de prueba adecuado cuando la especificacion es lineal es la F
(en cuyo caso se construye con base en las sumas de residuales de las regresiones restringida y no restringida); cuando la especificacion es no-lineal,
conviene usar el estadstico LR.
Prueba de variables redundantes
La prueba de variables redundantes se construye con la misma filosofa que la anterior; con base en ella es posible probar la significancia estadstica de un subconjunto
de variables incluidas en la especificacion. En esencia, la prueba sirve para decidir
si los parametros estimados de dicho subconjunto de variables son todos igual a
cero y, por ende, pueden ser eliminados de la especificacion. Suponga por ejemplo
que sospecha que el impacto de dos de las variables explicativas es, en conjunto,
igual a cero.26 La metodologa es, en realidad identica a la de la prueba anterior (es
decir que se corre una regresion restringida y otra no-restringida). Los estadsticos
de prueba son los mismos que en el caso anterior [vea las ecuaciones (11.3) y (9.6)].
1. H0 : Las variables son redundantes
2. Ha : Las variables no son redundantes
Hay muchas mas pruebas que conviene conocer al momento de llevar a cabo una
estimacion econometrica. Veremos una mas, la prueba RESET de Ramsey, y en
el siguiente captulo un tema fundamental, el metodo de estimacion por Variables
Instrumentales.
26

Es decir que los efectos se cancelan entre ellos.

DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 307


9.4. DETECCION

9.4.2. Prueba de especificacion de Ramsey


La validez de la especificacion es, vale la pena recalcarlo, muy difcil de probar.27
El hecho es que s existen pruebas formales, y entre e stas destaca la Prueba RESET DE R AMSEY (REgression Specification Error Test).28 La deteccion de un
posible error de especificacion se hace con base en el analisis de los residuales. La
intuicion detras de esta prueba es sencilla: si una combinacion no-lineal de las variables independientes tiene poder explicativo en la variable dependiente, entonces
se considerara que hay evidencia de que el modelo esta mal especificado. Si bien el
objetivo original de la prueba es detectar problemas de linealidad, lo cierto es que
esta prueba se emplea en una vasta gama de problemas:
F ORMA F UNCIONAL I NCORRECTA, las variables, ya sea la dependiente
o alguna de las explicativas, requieren una transformacion (logartimica, de
potencia, recproca,...)
VARIABLES O MITIDAS, la matriz de explicativas no contiene todas las variables relevantes.
N O O RTOGONALIDAD, causada por errores de medicion en las explicativas, Simultaneidad, presencia de la variable dependiente rezagada en tanto
explicativa,...
H ETEROSCEDASTICIDAD, termino de error con varianza no constante.
Ramsey mostro que los rompimientos de supuestos arriba mencionados generan un
vector de errores con media no-nula. Las hipotesis en cuestion (en una especificacion Y = X + U ) son por ende:
1. H0 : U N (0, 2 I)
2. Ha : U N (, 2 I), donde 6= 0.
Resulta facil explicitar lo anterior con un ejemplo:
27

No obstante, tambien es importante senalar que la presencia de autocorrelacion y/o heteroscedasticidad constituye un indicio revelador de que la especificacion es mejorable.
28
Ramsey, J.B. Tests for Specification Errors in Classical Linear Least Squares Regression
Analysis, J. Royal Statist. Soc. B., 31:2, 350-371 (1969).

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

308

Ejemplo 17 El caso de una variable omitida. Suponga que la especificacion correcta es:

= X + Z + U,

(9.7)

donde U N (0, 2 I) y las dimensiones de X, Z, , y son, T K, T 1, K 1


y 1 1. Si se estima la regresion:
Y

= X + V.

(9.8)

Queda claro que, si hemos de respetar el verdadero modelo, V = Z + U . Asumiendo regresores determinstas,29 y recordando que los residuales de tal regresion se pueden representar usando nuestra famosa matriz idempotente Mx = I
X(X X)1 X :
V = Mx Y
= Mx Z + Mx U.

(9.9)

Nos encontramos con que E(V ) = Mx Z


Se obtiene la misma no nulidad del termino de error al inducir formas funcionales
erroneas y simultaneidad.
La realizacion de la prueba es facil y se ejemplifica a continuacion; suponga la
siguiente especificacion cuya validez se desea probar:
yt = + xt + ut
En primera instancia, se sugiere graficar los residuales, ut , contra los ajustados, yt :
si aparece un patron, conviene sospechar de la existencia de un problema en la especificacion.30 Ademas, ello da pie a pensar que los valores ajustados yt podran proveer informacion importante. Por eso, si al incluir transformaciones de yt en tanto
variables explicativas, la R2 se incrementa sustancialmente, se considera evidencia
relativa a un error de especificacion. Las etapas de la prueba son las siguientes:
29
30

O bien, tomando esperanza condicionada en X y Z.


La intuicion de esto se provee mas adelante.

DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 309


9.4. DETECCION
1. Estime el modelo original, yt = +xt +ut (La R2 de esta regresion tendra el
subndice V ) y construya los valores ajustados yt as como los residuales
estimados uV t ,
2. Estime una segunda regresion, donde aparezcan los valores ajustados con distintas transformaciones (La R2 de esta regresion tendra el subndice N ):
yt = 1 + 1 xt + 2 yt2 + 3 yt3 + uN t
2
3. En ambas regresiones recupere la medida de bondad de ajuste, R2 : RN
y RV2 ,
donde los subndices N y V se refieren a la ecuacion donde aparecen los
valores ajustados y a la regresion original, respectivamente.

4. Para construir el estadstico de prueba, recurrimos una formula conocida desde la primera parte de este manual:
F=

2
(RN
RV2 ) /Kn
2
(1 RN
) /(T Kn )

donde Kn es el numero de regresores adicionales en la segunda regresion.


Solo resta comparar el estadstico calculado con el valor crtico de la distribucion F al nivel de confianza deseado.
Ramsey de hecho ofrecio en su propuesta cuatro pruebas:
1. La prueba RESET, explicada anteriormente,
2. La prueba RASET, una prueba de correlacion de rango entrecombinaciones
devariables ajustadas y residuales al cuadrado,
3. La prueba KOMSET, un estadstico de prueba de Kolmogorov que discrimina
entre distribuciones F centradas y no centradas,
4. La prueba BAMSET, una prueba de heterogeneidad de la varianza.
Huelga decir que la u nica prueba que soporto los embates del tiempo, al menos en
econometra, es la primera. La intuicion de la prueba RESET no es tan obvia como
podra parecer en un principio. Siguiendo el u ltimo ejemplo (de variable omitida)
podemos esbozar hasta cierto grado tal intuicion:

310

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

Comentario 3 Asumiendo que la especificacion correcta es la que aparece en la


ecuacion (9.7), tenemos dos posibilidades, estimarla omitiendo una variable [es
decir, estimando la eq. (9.8)] o bien estimar la especificacion correcta.
Al usar la especificacion correcta, ya se ha probado que los estimadores son
insesgados y consistentes, por lo que U = Y (Y ) resulta ser un vector donde
ya no quede nada de informacion. Por lo mismo, la relacion entre residuales
y (potencias de) variables ajustadas simplemente no debera existir.
Si por el contrario, omitimos la variable, parece logico que la resta Y Y
(donde el tilde implica que se usaron los estimadores sesgados de la especificacion con variable omitida) no logre extraer toda la informacion: el residual
estimado no queda liberado de toda la informacion u til. La informacion que
queda en dicho residual esta probablemente muy maltrecha, pues se obtuvo
con estimadores sesgados e inconsistentes; es mala informacion, pero informacion al fin y al cabo. Por otra parte, los valores ajustados tambien son un
pesimo resultado, pero, al igual que con los residuales, contienen informacion de las variables explicativas, inclusive de aquellas que omitimos.
Ambos vectores contienen informacion relevante (aunque distorcionada). Hacer un diagrama de dispersion entre ellas, con un poco de suerte, lograra manifestarla.
Es importante recalcar que la prueba de Ramsey se usa sobre todo para cuestiones
de especificacion incorrecta. La siguiente simulacion (resultados presentados en
una grafica) explicara el porque:
Ejercicio 11 Simule en MatlabT M dos procesos (Y1 y Y2 ).
1. Y1 sigue la especificacion (9.7),
2. Y2 sigue la especificacion no lineal que aparece en la leyenda de la grafica
(9.4).
3. En ambos casos, escoja usted los valores de los parametros de la especificacion,
4. La matriz X tiene dimensiones T K, donde K = 2. Amabas variables se
distribuyen normalmente (usted escoja esperanzas y varianzas). La variable
omitida generela de la siguiente manera: Z = ut t, donde ut iidN (0, 2),

DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 311


9.4. DETECCION
(a)

(b)
2
Residuales Estimados

Residuales Estimados

6000
4000
2000
0
2000
4000

200

100
0
Valores ajustados

100

1.5
1
0.5
0
0.5
1
1.5

200

2,000

0
2,000
Valores ajustados

4,000

6,000

(c)

Residuales Estimados

40
20
0
20
40
60

10

0
Valores ajustados

10

15

Figura 9.4: Relacion entre residuales y valores ajustados. (a) Especificaci


on estimada


correcta; (b) Variable omitida (ver ejemplo); (c) Forma funcional incorrecta: yt = 4x1t1 x2t /2 3

5. Estime por MCO tres regresiones:


a) Y1 = X + V1 ,
b) Y1 = [XZ] + U ,
c) Y2 = X + V2 .
6. Con cada regresion construya los residuales y los valores ajustados,
7. Contruya los tres diagramas de dispersion.
Nota usted algun patron? En que caso considera usted que sera mas eficaz la
prueba RESET?

9.4.3. Heteroscedastidad e incorrecta especificacion


En alguna ocasion se ha mencionado que existe una cierta relacion entre el rompimiento de los supuestos de homoscedasticidad e independencia con problemas de
especificacion. Lo anterior ha sido muy heurstico, as es que aprovecharemos este

312

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

espacio para darle un poco mas de formalidad: es cierto, cuando una especificacion esta mal, ello se puede traducir en heteroscedasticidad y autocorrelacion. En
cierta forma, estos u ltimos dos fenomenos pueden considerarse como parte de la
sintomatologa de una especificacion incorrecta. Ello es particularmente cierto con
la heteroscedasticidad. Suponga que la especificacion correcta es la siguiente:
yt = + 1 x1t + 2 x2t + ut
Para hacer mas elocuente la ejemplificacion, asumamos que el comportamiento de
la variable x1t tiene un fuerte componente de autocorrelacion (podra ser un proceso
AR(1), por ejemplo) mientras que la varianza de la variable x2t es muy heterogenea.
1. Un primer econometrista decide estimar una especificacion incompleta pues
omite x1t :
yt = 1 + 1 x2t + v1t
En este caso el componente autoregresivo no considerado (la variable omitida) se filtra al ruido estimado.
2. Un segundo econometrista decide estimar una especificacion incompleta pues
omite x2t :
yt = 2 + 2 x1t + v2t
En este caso el componente heteroscedastico no considerado (la variable
omitida) se filtra al ruido estimado.
Llevamos a cabo tales estimaciones (con datos simulados) y recuperamos los residuales estimados de ambas regresiones. Note lo que obtuvimos en la figura (9.5).

Esto mismo lo podemos ver de forma heurstica cuando nos equivocamos con el
supuesto de linealidad. Suponga que la verdadera especificacion es:
yt = + xt + wt + ut
Queda claro que la especificacion no es lineal en . Si un tercer econometrista estima,
yt = + xt + wt + ut ,
equivocandose al asumir linealidad, se puede encontrar con que sus residuales estimados tienen un comportamiento similar al de la figura 9.6:

DE ALGUNOS PROBLEMAS DE ORTOGONALIDAD 313


9.4. DETECCION
(a)
10
8
6
4
2
0
2
4
6
8
0

50

100

150

200

250

300

350

400

450

500

300

350

400

450

500

(b)
60
50
40
30
20
10
0

50

100

150

200

250

Figura 9.5: Efectos de una omision de variable relevante en los residuales estimados: panel (a), el caso de la autocorrelacion [residuales]; panel (b), el caso heteroscedastico [residuales al cuadrado]. En ambas figuras el comportamiento de los
residuales (la serie mas volatil) se compara con el de las verdaderas innovaciones
(las menos volatil).

Note como el error de especificacion parece generar observaciones aberrantes (Outliers


en ingles).
Resulta obvio que el componente no considerado se transmina al termino de error.
Cual es la moraleja? Pues simplemente que cuando se detecta autocorrelacion y/o
heteroscedasticidad es valido suponer que tenemos un error de especificacion. Es
por lo anterior que, en la practica, PRIMERO HAN DE E FECTUARSE LAS P RUE LAS DE H ETEROSCEDAS Y DESPU ES
BAS DE C ORRECTA E SPECIFICACI ON
.
TICIDAD Y AUTOCORRELACI ON

Y ORTOGONALIDAD

CAPITULO
9. ESPECIFICACION

314

50

100

150

200

330

340

250

350

300

360

350

400

450

500

370

Figura 9.6: Efectos sobre los residuales estimados al asumir una linealidad que en
realidad no se cumple.

Captulo 10
Variables Instrumentales
Hasta ahora, todo lo que sabemos hacer es estimar mediante el Metodo de Mnimos Cuadrados Ordinarios.1 Como hemos visto, MCO tiene muchas ventajas, entre
las que destacan su computo sencillo y el hecho de que, bajo ciertos supuestos los
estimadores son MELI (Mejores Estimadores Lineales Insesgados). Pero la verdad
es que el metodo tambien tiene desventajas. Una de las principales es la que hemos venido estudiando: no es facil lograr que el termino de error sea ortogonal a
las variables explicativas. Existen muchas fuentes potenciales que inhiben o, mejor
dicho hacen que se viole este supuesto: errores de medicion, omision de variables
importantes, simultaneidad,. . .
Veremos, por consecuencia, un metodo que facilite el transito a una estimacion
consistente (que de paso nos resuelva, al menos potencialmente, el problema de
ortogonalidad). El uso de las Variables Instrumentales tiene su origen en estudios
relacionados con la estimacion de curvas de oferta y demanda. Fue a traves del
analisis de algunos economistas, tales como P.G. Wright, Henry Shultz, Elmer Working y Ragnar Frisch, que estaban interesados en estimar elasticidades de oferta y
demanda, que nacieron las Variables Instrumentales (IV , por sus siglas en ingles).
La justificacion del metodo es muy sencilla; se usan las IV para estimar relaciones estadsticas cuando no es factible realizar experimentos controlados. El termino
Variables Instrumentales se le atribuye a Olav Reiersol (1945) aunque es posible que sea Ragnar Frisch quien lo acunara. Su formulacion aparecio por primera
vez en el apendice de un libro de Philip G. Wright (1928).2 En los anos 20, una
1

Sin olvidar, claro esta, que tambien conocemos el Metodo de Momentos as como el de Maxima
Verosimilitud.
2
De acuerdo a Stock y Watson (2003), el autor de dicho apendice es el hijo de Wright, cuyo
nombre era Sewall, un estadstico destacado.

315


CAPITULO
10. VARIABLES INSTRUMENTALES

316

fuente importante de ingresos del gobierno de los Estados Unidos estaba constituida por las tarifas que se cobraban a bienes importados. Wright deseaba encontrar
la tarifa adecuada para aceites y grasas vegetales y animales que el pas compraba del exterior. El monto de las tarifas afecta la demanda por esos bienes, por lo
que a Wright le quedaba claro que necesitaba estimar la elasticidad-precio de tales
productos; contaba con una fantastica base de datos de precios y cantidades anuales que corra desde 1912 hasta 1922 relativas al consumo de mantequilla. Tena la
opcion de correr una regresion por MCO entre Cantidad y Precio, ambas transformadas a logaritmos, y obtener un estimador de dicha elasticidad. Afortunadamente,
tambien supo entender que las observaciones de que dispona no necesariamente
coincidan con la demanda exclusivamente, sino con puntos de equilibrio entre demanda y oferta. Mas afortunadamente aun, a Wright se le ocurrio la forma de darle
la vuelta al problema. Era necesario conseguir una tercera variable (que ahora llamaramos instrumento) que fuera capaz de desplazar la oferta, pero no la demanda.
Con esta informacion adicional, fue posible identificar, en la nube de puntos, los que
corresponden a la demanda exclusivamente. Lo anterior es facilmente representable
en una figura:3

Precio

Precio

Equilibrio 2

Precio

Equilibrio 3

Equilibrio 1

(a)
Cantidad

(c)

(b)
Cantidad

Cantidad

Figura 10.1: El problema de la identificacion y su solucion.

Note como en el panel (a) esta representado el problema al que se enfrento Wright.
Los datos que dicho autor recabo no representan exclusivamente a la demanda, ni a
3

La descripcion del trabajo de Wright esta basada en Stock y Watson (2003).

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

317

la oferta, sino que corresponden a equilibrios de precio y cantidad donde se vaca


el mercado. La imposibilidad de estimar la demandao la ofertaaislada resulta obvia. En el panel (b) se muestra un diagrama de dispersion analogo al que se
habra enfrentado Wright. Realmente cree usted posible trazar la oferta y la demanda con base en esa nube de puntos? Finalmente, el panel (c) muestra intuitivamente
la solucion; que tal si podemos aislar los puntos de equilibrio en los que solo se
desplazo la oferta? Entonces s, as s es posible estimar la demanda. Wright considero que necesitaba informacion relativa a la oferta que, a su vez, no afectara la demanda. Se le ocurrio utilizar la variable de pluviometra. La lluvia es evidentemente
una variable relacionada con la oferta, al menos en la que corresponde a productos
agrcolas. Paralelamente, nada parece indicar que la gente consuma menos o mas
cereal (por ejemplo) en los das lluviosos; la lluvia no parece tener relacion con la
demanda. Ese fue, posiblemente, el primer instrumento del mundo.

10.1.

El estimador de Variables Instrumentales

El metodo de Variables Instrumentales que ahora vamos a estudiar permite obtener


estimadores consistentes de los parametros en la especificacion Y = X + aun
cuando las variables explicativas tengan relacion con el termino de error. Como ya
se ha senalado en reiteradas ocasiones, dicha relacion entre explicativas y error queda manifiesta si la esperanza entre e stas no es nula. Ahora bien, podemos replantear
este problema en terminos, no de esperanza, sino muestrales:
1
plim (X ) 6= 0
T
El uso del metodo IV requiere estrictamente que se disponga de un conjunto de
variables, denotadas como INSTRUMENTOS , que pueda acomodarse en una matriz
sera nuestra matriz de instrumentos, es decir, un nuevo
de dimensiones (T K). Esta
conjunto de variables explicativas.4 Denotemos a los instrumentos con la letra Z:
Z = [z1 , z2 , . . . , zk ]
donde zi para i = 1, . . . , K es un vector de T 1. A esta matriz solo le podremos
llamar matriz de instrumentos si y solo si satisface las siguientes condiciones:
4

Algunas de las variables explicativas originales pueden y deben ser utilizadas como Variables
Instrumentales. Esto quedara mas claro posteriormente.


CAPITULO
10. VARIABLES INSTRUMENTALES

318

1. Relacion entre instrumentos y termino de error:


1
plim (Z ) = 0
T
2. Relacion entre instrumentos y explicativas:
1
plim (Z X) =
T
3. Propiedades de los instrumentos:
1
plim (Z Z) =
T

Ambas matrices,

deben existir y no ser singulares.5

La primera condicion garantiza que los instrumentos no estan correlacionados


asintoticamente con el termino de error.
La segunda condicion permite la existencia de una relacion entre instrumentos
y variables explicativas originales.
La tercera condicion garantiza que las Variables Instrumentales, las zs , para
s = 1, . . . , K sean linealmente independientes entre s.
Lo anterior establece con claridad y precision las propiedades que debe tener un
instrumento. Recuerde que el telon de fondo es agregar mas informacion a nuestra
regresion. En el ejemplo de las ecuaciones simultaneas, la idea era agregar informacion que solo afectara a una ecuacion (dicho coloquialmente, que solo moviera una,
la oferta por ejemplo, dejando quieta la otra (la demanda) para as poder identificarla). Sea cual sea la informacion adicional que decidamos agregar, e sta, en forma
de instrumentos, debe satisfacer las tres condiciones antes enumeradas. Llega ahora
el momento de presentar la manera en la que vamos a agregar esta informacion.
Procederemos a lo bruto, como podran darse cuenta. Para obtener el estimador de
Variables Instrumentales partimos de la especificacion de la relacion:
5

Por que cree usted que eso es importante?

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

319

Y = X +
Ahora, pre-multiplicandola por la matriz de instrumentos, obtenemos:
Z |{z}
X + Z |{z}
Y = Z |{z}

|{z}
|{z}
T K K1
KT T 1
T 1
| {z } |
{z
} | {z }
K1

K1

K1

A esta especificacion transformada podemos aplicarle la formula de MCO para


estimar . Dicha formula es, como bien saben: M CO = (X X)1 X Y . Solo nos
queda ahora ver las consecuencias sobre la especificacion. Ahora s, reescribiendo
la formula:

IV

= (X ZZ X)1 X ZZ Y
= (Z X)1 (X Z)1 X Z Z Y
|
{z
}
I

IV

= (Z X) Z Y

Tenga muy presente que no estamos alterando la especificacion original. Es decir,


habremos estimado Y = X + U . Por cierto, este
una vez obtenido el nuevo ,
estimador es sesgado:
E(IV ) 6=
Para mostrar lo anterior, procederemos con un ejemplo sencillo. Asuma que tenemos tres variables, yt , xt y zt . Las tres estan centradas (por lo que su media es cero)
y las primeras dos estan relacionadas en la especificacion yt = xt + t . Suponga
ademas que existe un problema de ortogonalidad, es decir que E(xt t ) 6= 0. Afortunadamente contamos con un instrumento valido (es decir que satisface las condiciones expuestas anteriormente) representado por la variable zt . Veamos como queda
nuestro estimador de IV en este caso concreto:


CAPITULO
10. VARIABLES INSTRUMENTALES

320

IV

= (Z X) Z Y
1 X
z t yt
= P
z t xt
P
zt (xt + t )
P
=
zx
P t t
z t t
= +P
z t xt

(10.1)

Anteriormente, con nuestro estimador de MCO llegabamos a una expresion en la


que podamos disociar las variables xt y t gracias al supuesto de ortogonalidad [ver
ecuacion (9.3)]. En este caso, dicha separacion de terminos no es posible, excepto si
impusieramos un supuesto ridculamente fuerte de ortogonalidad entre zt y t , cosa
que no vamos a hacer. Para entender esto, intentemos obtener la esperanza de esta
u ltima expresion:

P


z t t

E IV
.
= +E P
z t xt

En este caso, no podemos separar las esperanzas, como en la ecuacion (9.3):



P
X  zt 
z t t
6=
E P
E(t )
E P
z t xt
z t xt

La razon de esto es muy obvia; partimos de un problema de ortogonalidad concreto:


E(xt t ) 6= 0. Ello impide separar la esperanza y, mas tragicamente, hace que el estimador no sea insesgado. Afortunadamente, ese mismo estimador S I es consistente.6
6

Para los siguientes desarrollos es importante recordar lo siguiente:


(AB)
AA1

=
=

B A
I

(AB)1

A1

B 1 A1

(A )1

El u nico que podra causar duda es el u ltimo. Si parte de A A1 = I (A A1 ) = (A1 )


A = I (A1 ) = (A )1 .

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES

321

Ello obedece a que el operador plim s permite separar expresiones que el operador
esperanza debe dejar juntas:
IV

= (Z X)1 Z (X + )
= (Z X)1 Z X + (Z X)1 Z
= + (Z X)1 Z

Ahora s, aplicamos el operador plim:




plim IV

= + plim[(Z X)1 Z ]
T
= + plim[ (Z X)1 Z ]
"T

1 #

1
1
plim
= + plim
ZX
Z
T
T
{z
}
{z
}|
|

Obtener la varianza es un poco mas laborioso. En primera instancia, obtengamos la


expresion que servira de base para los calculos subsecuentes. Partimos de la expresion del estimador:
IV = + (Z X)1 Z


IV = (Z X)1 Z



IV
= (Z X)1 Z Z (Z X)1

IV

IV

Usando la u ltima formula de la nota al pie de pagina anterior, obtenemos:




IV
= (Z X)1 Z Z(X Z)1

Calculando el lmite en probabilidad, obtenemos:


h
i
h
i
1

plim (IV )(IV ) = plim (Z X) Z Z(X Z)


CAPITULO
10. VARIABLES INSTRUMENTALES

322

Estas sumas requieren ser normalizadas (es decir, divididas por T ) para as asegurar su convergencia en probabilidad (Denotaremos la varianza asintotica con un
subndice a) :

V ara (IV ) = plim


plim
= plim
plim

"

"

"

"

= plim

"

plim

"

V ara (IV ) = 0

1
ZX
T
1
XZ
T
1
ZX
T
1
XZ
T

1 #

1 #

1 #

1 #

1
ZX
T

1 #

1
XZ
T

1 #

plim(Z Z)
1
T2
plim(Z )plim( Z)
1
T2
plim
|






1
1
Z plim
Z

T
T
{z
}
0

Comentario 4 Observe cuidadosamente el desarrollo anterior. Notara que la varianza se colapsa cuando esta as normalizada (es decir, dividida entre T ). Dicho
resultado es logico si consideramos que el estimador de IV es consistente; si los
estimadores convergen a los verdaderos parametros, su varianza debe desaparecer con el aumento del tamano de muestra. Claro esta que si normalizamos por
una potencia menor de T quiza logremos evitar el colapso antes mencionado. El
siguiente desarrollo requiere la utilizacion de un Teorema del Lmite Central; esto
tiene la virtud de incluir, aparte de la varianza, la distribucion de los parametros
estimados.
Encontrar una distribucion lmite no degenerada de los estimadores de IV requiere
el uso del Teorema del Lmite Central de Lindberg-Feller:
Teorema 17 (Lindberg-Feller) Sea {t } t = 1, 2, ..., T independiente e identicamente distribuido con media cero y varianza 2 < ; si los elementos zt,k de la

10.1. EL ESTIMADOR DE VARIABLES INSTRUMENTALES


matriz de instrumentos Z son tales que |zt,k | es finito y el lmite lmT
es una matriz definida positiva,7 entonces:

323
ZZ
T

1
d
Z N (0, 2 )
T
Con este resultado podemos volver a calcular la varianza de los estimadores IV ,
esta vez sin que se nos colapse:
(IV ) = (Z X)1 Z

T
T (IV ) = (Z X)1 Z
T
1
= T (Z X)1 Z
T
 1
1
1
=
(Z X)1 Z
T
T

1
1
1
Z
=
ZX
T
T
|
{z
} | {z }
1

N (0, 2 )

Aqu es importante recordar que, al multiplicar una distribucion normal con media
cero y varianza constante por una constante, si bien la media no cambia, la varianza
s; e sta debe ser multiplicada por el cuadrado de dicha constante:



d
2 1 1

T (IV )N 0,

Ahora que el metodo de IV ya ha sido expuesto, conviene mencionar el precio a pagar, es decir, sus limitaciones. En esta vida T ODO SE PAGA , T ODO SE C OMPRA.
El metodo de Variables Instrumentales, aportacion de la econometra a la estadstica, funciona bien siempre y cuando se logren obtener esos famosos instrumentos
validos. En realidad, la dificultad en la ejecucion de IV no es en s la aplicacion de
sus formulas, sino mas bien la busqueda de los instrumentos adecuados. Mas adelante se mostraran algunas pruebas que allanan el camino. Antes de preocuparnos
por esa cuestion, veamos, mas concretamente, como podremos emplear IV en la
practica.
7

Conocidas como Condiciones de Grenander.


CAPITULO
10. VARIABLES INSTRUMENTALES

324

10.2.

Mnimos Cuadrados en 2 Etapas

El estimador IV suele denominarse estimador de M I NIMOS C UADRADOS EN 2


E TAPAS (2SLS, por sus siglas en ingles: Two Stages Least Squares). Ello obedece
a que, en tiempos preteritos y sobre todo con la carencia de poder de computo, los
estimadores de IV se calculaban en dos pasos relativamente sencillos, cada uno.
No es extremadamente difcil demostrar que IV y 2SLS es lo mismo; por ello, lo
vamos a hacer. Para eso, primero que nada debemos entender que es exactamente
2SLS. Suponga que se desea estimar la siguiente especificacion:

yt = 1 + 2 x2t + 3 x3t + 4 x4t + 5 x5t + ut


Y = X + U

Tenemos, para no perder la costumbre, el siguiente problema: x4t y x5t son variables endogenas del sistema y estan por ende correlacionadas con el termino de
error. Por fortuna, contamos con las variables w1t y w2t que constituyen Variables
Instrumentales validas8 (ver condiciones arriba). En particular nos importa que tales
variables esten correlacionadas con x4t y x5t respectivamente pero ninguna de ellas
lo este con el termino de error, ut . El numero de instrumentales, como ya senalamos,
debe coincidir con el numero de explicativas, es decir ser igual a K.
1. Definamos Z = [1, x2 , x3 , w1 , w2 ]:9 matriz de variables exogenas o predeterminadas.
2. Estimemos, usando MCO, una regresion con cada variable explicativa problematica del modelo (es decir x4t y x5t ) contra el vector de variables exogenas. Cuando el instrumento es, a la vez explicativa, no vale la pena correr la
regresion puesto que el resultado es obvio.10
8

Poco se ha discutido respecto al numero de Variables Instrumentales, l. Por el momento baste


y la ecuacion no tiene una u nica solucion; l = k
decir que l < k implica S UB - IDENTIFICACI ON
E XACTA y la ecuacion tiene una u nica solucion; l > k implica S OBRE implica IDENTIFICACI ON
y tenemos mas de lo que necesitamos para encontrar la solucion (entonces hay
IDENTIFICACI ON
que escoger).Todo esto se discutira mas adelante as como en el captulo referente a ecuaciones
simultaneas.
9
Aqu se explicita que si algunas variables no tienen problemas de endogeneidad, entonces pueden ser utilizadas como instrumentos de ellas mismas.
10
Explique esta afirmacion.


10.2. MINIMOS
CUADRADOS EN 2 ETAPAS

325

xit = zt i + eit
En donde zt es un vector-renglon que incluye las realizaciones en el tiempo t
de los instrumentos.
3. Calculemos los valores ajustados de cada variable explicativa:
xit = zt i
4. Recupere los K vectores estimados, xit para i = 1, 2, . . . , K, y agrupelos (sin
Finalmente,
olvidar las variable cuya regresion no corrio) en una matriz X.
estime la regresion:
+ Residuales
Y = X
Estos pasos resumen el metodo 2SLS. Ahora s veamos porque aplicarlo es equivalente a la estimacion por IV . Veamos el estimador de i :11
1
i = (Z Z) Z xi

o bien propongamos una expresion que nos calcule todos los parametros en cuestion
en una sola operacion:
1
= (Z Z) Z X

Donde,

11
12
..
.
1k

21 k1
..
22
.
.. . .
..
.
.
.

2k kk

Es importante senalar que las variables que usamos para 2SLS, contenidas en la
pueden ser calculadas directamente haciendo:12
matriz X
11

Note que cuando se corre una explicativa contra las exogenas y que e stas u ltimas incluyen a
dicha explicativa, todos los parametros se hacen cero excepto el de la explicativa que se hace igual a
la unidad y por ende: zit = zit .
12
Pruebelo!


CAPITULO
10. VARIABLES INSTRUMENTALES

326

= Z
X
Ahora bien, retomemos el estimador de por el metodo de Mnimos Cuadrados en
2 Etapas:
X)
1 X
Y
2SLS = (X
Procederemos a entender mejor el puente entre IV y 2SLS mediante una nueva
notacion; denotemos como eit a los residuales estimados de las regresiones:
xit = zt i + eit
Una de las principales propiedades del Metodo de Mnimos Cuadrados Ordinarios
es que los residuales estimados son ortogonales a las variables explicativas de la
regresion debido a la forma en que e stos son calculados (si no lo recuerda bien,
revise el desarrollo de las ecuaciones normales; vea la ecuacion 2.2). Aplicado a
nuestro caso, obtenemos:
X

zt eit = 0

De ah resulta facil ver que los valores ajustados (


xit = zt i ) tambien son ortogonales a los residuales (note que eit es un escalar, por lo que se puede reacomodar en la
expresion):
X

xit eit =
=

|
|

zt i eit
zt eit i
{z }
=0
{z
}

(11)

As, ya tenemos clara la ortogonalidad entre residuales y valores ajustados en una


regresion. Procedemos ahora a ver la relacion entre residuales de una regresion y
valores ajustados de otra:


10.2. MINIMOS
CUADRADOS EN 2 ETAPAS

xjt eit =

|
|

327

zt j eit
zt eit j
{z }
=0
{z
}
(11)

De ah es facil inferir que esos mismos residuales no estan correlacionados con los
valores ajustados de cualquiera de esas regresiones. Note que la ortogonalidad de
cumple para todo i, j = 1, 2, . . . , K. Sabiendo lo anterior, recordamos como estan
construidas las variables de la segunda regresion en 2SLS:
xit = zt i
xit = xit + eit
Si multiplicamos esta u ltima expresion por xjt , donde j = 1, 2, . . . , K obtenemos:
xjt xit = xjt
xit + xjt
eit
Y si ahora aplicamos el operador de sumatoria...
X

xjt xit =
=

xjt
xit +
xjt
xit

xjt
eit
{z }

=0

Este resultado nos permite manipular la formula de los estimadores de 2SLS de la


siguiente manera:

1
X

Y
X
X



= X X 1 X

2SLS =

Ahora s, ya nada mas falta un paso para demostrar que el metodo en dos etapas es
lo mismo que el de Variables Instrumentales. Necesitaremos tres de los resultados
hasta aqu obtenidos:


CAPITULO
10. VARIABLES INSTRUMENTALES

328
= Z
1. X
2. = (Z Z)1 Z X
X)1 X
Y
3. 2SLS = (X

Empecemos transponiendo las primeras dos:


= Z
X
= X Z(Z Z)1

Ahora reemplazamos estas u ltimas dos en la tercera ecuacion:


X)1 X
Y
2SLS = (X
1
= ( Z X) Z Y

1
1
1
= (X Z)(Z Z) (Z X)
(X Z)(Z Z) Z Y
1

= (Z X) (Z Z)(X Z) (X Z)(Z Z) Z Y
|
{z
}

I
1

= (Z X) (Z Z)(Z Z) Z Y
|
{z
}
I

1
2SLS = (Z X) Z Y

Como veran, obtenemos una formulacion identica a la del estimador de IV antes


estudiado:
2SLS = (Z X)1 Z Y
2SLS = IV
Ahora que ya sabemos la equivalencia de ambos metodos, es posible decir que las
propiedades de los estimadores son, por ende, las mismas. De esta manera, ya no es
necesario estudiarlas.


10.2. MINIMOS
CUADRADOS EN 2 ETAPAS

329

Ejercicio 12 Suponga que tenemos la siguiente relacion entre las variables x2 , w1 ,


w2 y y :

x1t = 7 + uxt + 0.9 uxt1


x2t = x1t + 0.7 vt
 
uxt iidN 0, 2

vt
yt
w1t
w2t
uw1t
uw2t

=
=
=

iidN (0, 2)
3 + 1.5 x2t + vt
1.8 + 0.5 x1t + uw1t
3 0.9 x1t + uw2t
iidN (0, 2)


3
iidN 0,
2

Donde todas las variables son iguales a cero cuando t = 0.


P REGUNTAS :
1. Genere todos los datos en un programa de Matlab.
2. Exporte tales datos al Gretl y:
Estime por MCO la especificacion: yt = + x2t + ut
Estime por IV (2SLS) la especificacion: yt = + x2t + ut usando
como instrumento w1t .
Estime por IV (2SLS) la especificacion: yt = + x2t + ut usando
como instrumento w2t .
Estime por IV (2SLS) la especificacion: yt = + x2t + ut usando
como instrumento w1t y w2t (note que se trata de una estimacion sobre
identificada).
3. Construya en Gretl la verdadera lnea de regresion, comparela con las que
estimo en el inciso anterior.
4. Regrese al Matlab, haga la estimacion por MCO as como por 2SLS, como
se expuso en clase.

330

CAPITULO
10. VARIABLES INSTRUMENTALES

5. Convierta su codigo en un experimento de Monte Carlo (es decir, reptalo 500


veces) y obtenga los histogramas del estimador de la pendiente por ambos
metodos. Observa alguna diferencia?
Ejercicio 13 Estimacion de una Curva de Phillips. Como es bien sabido, la curva
de Phillips se identifico empricamente hace ya medio siglo; dicha curva relaciona el nivel de desempleo con la tasa de inflacion. Actualmente la evidencia ya no
es tan contundente al estudiar esta relacion. Este ejercicio consiste en hacer una
estimacion rapida de la Curva de Phillips para Mexico:
1. Busque por internet los siguientes datos:
Tasa de inflacion, (la del consumidor o la del productor).
Tasa de Desempleo Abierto Tradicional (TDAT), Tasa de Desempleo
Abierto Alternativa (TDAA), Tasa de Presion Efectiva Economica
(TPEE),13 Numero de afiliados al IMSS,...
2. Estime la relacion Desempleo-Inflacion basado en todo lo que sabe usted de
econometra; haga su estimacion por MCO y por IV ; los instrumentos son,
en este caso, las tasas de desempleo alternativas, as como el primer rezago
de la tasa de inflacion (lo que se conoce como una variable predeterminada), fungiendo e ste como variable de expectativasadaptativasde inflacion.
La especificacion a probar es la siguiente:14
t = + 1 tE + 2 Dt + ut
3. Redacte un documento decente en el que quede asentado lo que usted conoce
de la Curva de Phillips, los resultados de sus estimaciones y la conclusion a
la que llega con base en estos datos.
Ejercicio 14 Hemos estudiado hasta ahora un estimador de Variables Instrumentales en el que el numero de columnas de la matriz Z ,l, es igual al numero de
columnas de la matriz X, K. No obstante, tambien vimos que es posible estimar
por IV cuando l > K. Pero no se ha demostrado que, en ese caso, el estimador de
13

Informacion disponible en INEGI


La especificacion aqu propuesta es una simplificacion de las curvas de Phillips que hoy en da
se suelen estimar; esta inspirada del material que aparece en Makiw (2002), [Macroeconomics], pp.
358-371.
14


10.2. MINIMOS
CUADRADOS EN 2 ETAPAS

331

los parametros es consistente. Asuma la relacion Y = X +U en la que se cumplen


todos los supuestos excepto el de ortogonalidad. Asuma tambien que dispone de una
matriz Z de instrumentos validos, es decir que satisfacen las condiciones especificadas con anterioridad. La formula de Variables Instrumentales cuando l > K es
la siguiente:

IV

1
= X Z (Z Z) Z X
|
{z
}

= [X Pz X]

Pz
1

X Pz Y

X Z (Z Z)
|
{z
Pz

Z Y
}

1. Explique de donde salio esta formula.


2. Demuestre que este estimador es consistente.
1. (gran) ayuda para la primera pregunta: basta con reinterpretar el estimador
de Mnimos Cuadrados Generalizados. Vea el desarrollo de la seccion 6.2 en
la pagina 209. Asuma, por simplicidad que los instrumentos son variables no
estocasticas. Nuestra especificacion (que se supone correcta) es Y = X +U
Si multiplicamos por la matriz de variables instrumentales traspuesta, |{z}
Z ,
lT

nos queda:
Z Y

= Z X + Z U

Note como las innovaciones de esta extrana nueva especificacion no son, en


cierta forma, idoneos (en MCO, E(U U ) = 2 IT ); si calculamos la varianza
de las innovaciones (apoyandonos en el supuesto simplificador), obtenemos:
E(Z U ) (Z U ) = 2 |{z}
Z Z Note como dicha matriz no es una identidad,

como debera ser. Podemos entonces aplicar MCG, es decir encontrar una
matriz P tal que P P = Il . En este caso es facil encontrar dicha matriz P :
P P
= Il
= P 1 P 1
Z Z = P 1 P 1

A partir de aqu, basta con emplear las expresiones de MCG y mediante el


reemplazo de por Z Z se llega a la formula de Variables Instrumentales.

332

CAPITULO
10. VARIABLES INSTRUMENTALES

2. ayuda para la segunda pregunta: Retome la formula del estimador y reemplace la variable Y por la verdadera especificacion, Y = X + U . Descubrira rapidamente que puede llegar a una expresion con la forma: IV =
+ algo. A la expresion resultante aplquele entonces el plim; constatara que es posible emplear los supuestos hechos a los instrumentos y obtener
el resultado solicitado.

10.3.

Problemas con los instrumentos

Existen dos problemas potencialmente graves con el metodo de IV. La cuestion


mas espinosa en el uso de Variables Instrumentales se da, tristemente, al momento
de escoger los instrumentos. Las propiedades mas deseadas de e stos es que, (i) no
esten asintoticamente correlacionados con el termino de error y (ii) esten muy correlacionados con las variables explicativas endogenas (las que causan el problema).
Atacaremos primero el punto (ii).

10.3.1. Relevancia de los instrumentos


Cuando existe un problema de ortogonalidad, lo tratamos de resolver usando instrumentos que provean informacion suficiente para aislar los movimientos exogenos. Necesitamos por ende que los instrumentos sean relevantes, es decir, que e stos
expliquen una proporcion lo mas grande posible de los movimientos de las variables explicativas, las Xs. Entre mas relevantes sean los instrumentos, mejores seran
nuestros estimadores. Lo anterior corre en el mismo sentido que el tamano de muestra; entre mas datos usemos, mayor seguridad tendremos en que las propiedades
asintoticas seran apropiadas y por ende, los estimadores convergeran al verdadero
valor de los parametros. Esto u ltimo ademas nos da pie para senalar que todas las
bondades del metodo solo existen en muestras grandes; en lo que respecta a muestras pequenas, lo u nico con lo que podemos jugar es con la relevancia de los instrumentos (con objeto de asegurar que no estamos estimando algo inservible). Los
instrumentos que no explican gran cosa de la variabilidad de las x se definen como

I NSTRUMENTOS D EBILES
(weak instruments, en ingles). Usar instrumentos debiles es, en s, un problema potencialmente grave. El sesgo que ya habamos senalado
del Metodo se agrava en esta situacion y las propiedades en muestras pequenas son,
para acabar pronto, muy pobres. Retomemos el resultado de la ecuacion (10.1) en
el que tenemos tres variables, yt , xt y zt , centradas. Las primeras dos estan relacionadas en la especificacion yt = xt + t . Existe un problema de ortogonalidad

10.3. PROBLEMAS CON LOS INSTRUMENTOS

333

con la variable xt pero contamos con un instrumento representado por la variable


zt . Vimos, en ese caso concreto que nuestro estimador de IV es:
IV

P
z t t
= +P
z t xt

Recuerde que las variables estan centradas, por lo que, si normalizamos por
segundo elemento, obtendramos:

IV

= +

1
T

el

Cov(zt , t )
Cov(zt , xt )

Asuma por un momento que nuestro instrumento no solo es debil sino de plano
totalmente irrelevante. Su covarianza sera entonces cero, por lo que, de nuestra
formula anterior podemos deducir que estaramos dividiendo por cero: el sesgo
explotara!
Para minimizar este riesgo, lo que se debe hacer es sustentar en la teora economica
la seleccion de los instrumentos y confiar en nuestro conocimiento del problema.
Claro esta, tambien es importante verificar algunos elementos estadsticos mas concretos. En especfico, se recomienda, al momento de emplear el metodo de 2SLS,
detenerse un poco en la primera etapa. Reviste especial importancia verificar las
regresiones de cada variable endogena contra el conjunto de variables exogenas;
asegurese que la R2 de esta regresion sea alta y que los coeficientes estimados sean,
en conjunto, estadsticamente significativos (esto, huelga decir, habra de hacerlo
mediante una prueba de F).

10.3.2. Exogeneidad de los instrumentos


El segundo problema de IV radica en asegurar que los instrumentos realmente sean
exogenos y no tengan relacion con el termino de error. Esta propiedad no puede ser
estudiada (es decir probada) cuando el sistema esta exactamente identificado: hasta
ahora hemos visto el metodo de IV en el caso en el que el numero de instrumentos
(que denotaremos con la letra l) es igual al de variables explicativas. No obstante,
vimos que IV es equivalente a 2SLS. En este u ltimo, recordemos, se corre una
serie de regresiones donde cada variable endogena sirve de dependiente y todas
las variables exogenas (es decir, las explicativas sin problema de endogeneidad y
los instrumentos) sirven de explicativas. Nada nos impedira incluir mas Variables

334

CAPITULO
10. VARIABLES INSTRUMENTALES

Instrumentales de las necesarias. Si lo piensan bien, estamos proyectando las l Variables Instrumentales en K variables ajustadas, que luego usaremos en la segunda
etapa del metodo. Lo que ocurre es que combinamos linealmente las l variables para obtener solo K. Se puede decir que, los instrumentos sobrantes son restricciones
lineales adicionales en esta proyeccion. En este caso, como se senalo en una nota
al pie de pagina, se dice que el modelo esta S OBRE -I DENTIFICADO. La idea de
incorporar mas informacion a nuestra estimacion por medio de un mayor numero de
instrumentos es tentadora. Ademas, siendo que ya tenemos instrumentos sobrantes
(l K > 0), aqu s podemos probar si los instrumentos son validos o no. Es muy
importante realizar estas pruebas, por lo que se invita al lector nunca omitirlas. En
otras palabras, si se cuenta con demasiados instrumentos, no hay que desecharlos,
puesto que sirven para probar la validez de e stos. La prueba que aqu proveeremos
para evaluar los instrumentos en sistemas sobre-identificados se denomina P RUEBA
J DE S ARGAN.
Como ya se senalo, estudiar estadsticamente la validez de los instrumentos cuando
el numero de e stos es igual al numero de explicativas simplemente no se puede. De
hecho, la u nica manera de probar si los instrumentos son validos estriba en tener
muchos mas instrumentos (l > K), por que? la razon es relativamente facil de
intuir. Imagine momentaneamente que, en nuestra especificacion, del lado de las
explicativas solo hay un regresor endogeno (es decir, no ortogonal al termino de
error) pero que, ademas, contamos con dos Variables Instrumentales. Podramos en
ese caso estimar de dos maneras distintas la especificacion, una con cada instrumento. Resulta obvio que esas dos estimaciones no arrojaran un estimador identico
debido a la variacion muestral. No obstante, si los dos instrumentos son realmente
exogenos, entonces las estimaciones de nuestros parametros deberan ser relativamente cercanas, puesto que el estimador es consistente. Que pensara usted si los
dos estimadores son muy distintos? Lo mas prudente sera inferir que, o bien uno
de los dos instrumentos no es valido o, peor aun, ninguno de los dos lo es. Es esa
diferencia entre estimadores la que se utiliza para juzgar la exogeneidad de los instrumentos. Debera quedar claro que, si solo disponemos de un instrumento, pues no
es posible compararlo con nada mas. Esa es la razon por la que solo se puede probar
la validez de los instrumentos cuando hay un excedente de e stos. Como ya dijimos,
existe una prueba muy socorrida para evaluar lo anterior; responde al nombre de
P RUEBA DE S ARGAN y se construye mediante el siguiente proceder:15
15

El artculo original es de Sargan, John D. (1958): The Estimation of Economic Relationships


Using Instrumental Variables. La descripcion del procedimiento esta basada en Stock y Watson
(2003).

10.3. PROBLEMAS CON LOS INSTRUMENTOS

335

1. Suponga que la regresion de interes es:


Y = |{z}
X + |{z}
W + ut .
T p

T q

La particion de las variables explicativas corresponde a una clasificacion de


las mismas en dos grupos:
a) Las variables exogenas, es decir, que no causan problemas de ortogonalidad; supongamos que son, en total, q; w1t , . . . , wqt ,
b) Las variables endogenas, es decir, que causan problemas de ortogonalidad; son las restantes, digamos, p (p + q = K). Las denotamos
x1t , . . . , xpt .
2. Suponga ademas que tiene usted l > q instrumentos, z1t , . . . , zlt .
3. Estime la especificacion original usando el metodo de variables instrumentales y recupere los residuales de la especificacion original (pero estimada por
IV), ut .
4. Estime usando MCO una segunda regresion, donde ut es la variable dependiente. Como explicativas, use todos los instrumentos (z) as como todas las
variables exogenas (w):
ut = 0 + 1 z1t + . . . + l zlt + l+1 w1t + . . . + l+q wqt + 1t
Calcule la prueba de significancia conjunta F, que involucra dos regresiones,
la restringida y la no-restringida. La regresion no restringida es la ecuacion
anterior, mientras que la restringida es:
ut = 0 + 1 w1t + . . . + q wqt + 2t
5. El estadstico de prueba se calcula mediante la siguiente formula:
S =l

(SRCr SRCnr )/l


,
SRCnr /(T (l + q) 1)

donde SRC se refiere a la suma de residuales al cuadrado, mientras que los


subndices r y nr se refieren a la regresion restringida y no restringida, respectivamente.

336

CAPITULO
10. VARIABLES INSTRUMENTALES

6. dicho estadstico, bajo la hipotesis nula se distribuye como 2lp,g.l. , donde,


recuerde, l es el numero de instrumentos, mientras que P es el numero de regresores endogenos. Note como el numero de grados de libertad corresponde
al numero de instrumentos excedentes o sobrante. Esta prueba, como se
menciono en un principio, solo sirve en casos sobre-identificados.
7. Ahora, como siempre, solo falta saber cuales son las hipotesis y la distribucion
bajo la nula,
a) H0 : Los instrumentos son validos (ortogonales al termino de error),
b) Ha : Al menos uno de los instrumentos no es valido.

Resulta evidente que, en caso de rechazar la hipotesis nula, tendramos el problema


de no saber cuales instrumentos son validos y cuales no. No obstante, existe siempre
la posibilidad de hacer distintos paquetes de instrumentos y realizar la prueba para
cado uno de ellos. Dichos paquetes omitiran uno o mas instrumentos. As, eventualmente podra identificar los instrumentos validos. Huelga decir que eso implica,
cuando menos, bastante trabajo.
A continuacion se muestra el codigo (en lenguaje Matlab) que genera una funcion
capaz de realizar la prueba de Sargan:
%______________________________________________________
function [S,PV]=Sargan_test(y,x,w,z)
% function [S,PV]=Sargan_test(y,x,w,z)
%______________________________________________________
% Argumentos:
% y:
Variable dependiente
% x:
Variables explicativas que s
generan prob%
-lema de ortogonalidad
% w:
Variables explicativas que no generan prob%
-lema de ortogonalidad
%
Si no hay, escriba [].
% z:
Instrumentos (m
as instrumentos que va%
-riables c/problema)
%______________________________________________________
% No incluya constante (el c
odigo la incluye autom
a% ticamente)
%______________________________________________________

10.3. PROBLEMAS CON LOS INSTRUMENTOS

337

% Salida:
% S:
Estad
stico de prueba de Sargan
% PV:
P-valor del estad
stico
%______________________________________________________
T=length(y);
%______________________________________________________
% Primera regresi
on
X1=[ones(T,1),w,x];
X2=[ones(T,1),w,z];
X3=[ones(T,1),w];
Reg1=inv(X1*X2*inv(X2*X2)*X2*X1)*X1*X2*...
inv(X2*X2)*X2*y; U=y-X1*Reg1;
% Segundas regresiones
Reg2a=(inv(X2*X2))*X2*U; e1=U-X2*Reg2a;
SRCnr=sum(e1.2);
Reg2b=(inv(X3*X3))*X3*U; e2=U-X3*Reg2b;
SRCr=sum(e2.2);
% Estad
stico de prueba
if isempty(w)
q=0;
else
q=length(w(1,:));
end
p=length(x(1,:));
l=length(z(1,:));
S=l*((SRCr-SRCnr)/l)/(SRCnr/(T-l-q-1));
% P-valor
PV=1-chi2cdf(S,l-p);
%______________________________________________________
El siguiente codigo, tambien de Matlab, muestra como generar dos variables, xt
y yt , linealmente relacionadas con, ademas, un problema de ortogonalidad con el
termino de error de dicha relacion. El codigo genera ademas tres instrumentos, dos
de ellos fuertes y validos, y un tercero invalido. La prueba S, al menos con estos
datos simulados, funciona especialmente bien:
%______________________________________________________
% C
odigo para formular un problema de ortogonalidad

338

CAPITULO
10. VARIABLES INSTRUMENTALES

% entre x y y y
% generaci
on de instrumentos, v
alidos y no v
alidos.
%______________________________________________________
T=100; p1=0.9; p2=2; p3=5; p4=2.7; p5=2.3; p6=3;p7=1.5;
Alpha=2;
Beta=4;
u=randn(T,1).2; v=randn(T,1)*p3;
x=p4*u+v;
z1=p1*x+randn(T,1)*p2-p4*u;
z2=p1*x+(randn(T,1)*p6).2-p4*u;
z3=p5*x+(randn(T,1)*p7).2;
y=Alpha+Beta*x+u;
X=[ones(T,1),x];
Z1=[ones(T,1),z1];
Z2=[ones(T,1),z2];
Z3=[ones(T,1),z3];
Bols=((X*X)-1)*X*y;
Biv1=((Z1*X)-1)*Z1*y;
Biv2=((Z2*X)-1)*Z2*y;
Biv3=((Z3*X)-1)*Z3*y;
[[2;4],Bols,Biv1,Biv2,Biv3];
% Hagamos la prueba de Sargan:
[S1,PV1]=Sargan_test(y,x,[],[z1,z2])
[S2,PV2]=Sargan_test(y,x,[],[z1,z3])
%______________________________________________________
Al ejecutar esta simulacion, debera fijarse en que se corre dos veces la prueba S.
En la primera corrida, ambos son instrumentos validos, mientras que en la segunda,
solo uno lo es. Consecuentemente, la prueba se rechaza en el segundo caso; ello
permite pensar en que, si usted cuenta con multiples instrumentos, identificar eventuales instrumentos invalidos es solo cuestion de realizar multiples combinaciones
de instrumentos para as poder identificar aquel o aquellos que no sirven.

10.4.

La Prueba de Hausman

Una de las pregunta mas relevantes en cuanto al uso de Variables Instrumentales


es, simplemente, cuando usarlo. Podemos sospechar que hay variables explicativas

10.4. LA PRUEBA DE HAUSMAN

339

medidas con error pero quiza no sepamos si tales errores son suficientemente grandes como para provocar una inconsistencia de nuestros estimadores de la cual haya
que preocuparse; de forma analoga, podemos estar preocupados porque algunas de
nuestras variables explicativas no sean realmente exogenas sino justamente endogenas. Pero hasta el momento eso se ha quedado como una sospecha y nuevamente
ignoramos que tan grave es el problema de inconsistencia que esta situacion genera.
En ambos casos aqu expuestos, si dicha inconsistencia no se revela, quedara plenamente justificado el uso de MCO. Si nuestros regresores son exogenos, tambien
son instrumentos validos, por lo que MCO sera consistente, pero ademas insesgado,
por lo que resulta un metodo de estimacion preferible a IV .

10.4.1. La prueba de Hausman


Con base en lo anterior, es evidente que disponer de una prueba que tenga la ortogonalidad entre explicativas y errores como hipotesis nula y la no-ortogonalidad como
alternativa (con el anadido de que otras variableslas instrumentaless sean ortogonales a ese mismo termino de error) sera u til. Presentaremos en esta seccion una
prueba que satisface tal necesidad. Si bien los orgenes de la prueba se remontan a
un artculo de Durbin en 1954, la prueba fue posteriormente afinada por Wu (1973)
y por Hausman (1978).16 Las hipotesis nula y alternativa de la prueba de Hausman
pueden expresarse como sigue:
1. H0 : Y = X + U , U N (0, 2 I), E(X U ) = 0,
2. Ha : Y = X + U , U N (0, 2 I), E(Z U ) = 0.
Bajo la Hipotesis nula, tanto el estimador de MCO como el de IV son consistentes,
mientras que bajo la alternativa, solo el de IV lo es. Por ende, es facil deducir que,
  = 0 bajo H

0

plim IV M CO
6= 0 bajo Ha
Aqu utilizaremos un resultado de Hausman que resuelve facilmente la prueba:
Teorema 18 Suponga dos variables, xt y yt relacionadas linealmente,
yt = + xt + ut .
16

Algunos autores se refieren a esta prueba como la Durbin-Wu-Hausman; en nuestro caso, solo
usaremos al u ltimo autor.


CAPITULO
10. VARIABLES INSTRUMENTALES

340

Si este modelo satisface todos los supuestos de la regresion (correcta especificacion,


homoscedasticidad, independencia y normalidad de los errores, ortogonalidad, estacionariedad), situacion que caracteriza a la hipotesis nula, entonces, bajo dicha
hipotesis nula, la varianza asintotica de la diferencia entre el estimador del parametro beta por IV y por M CO, que denotaremos q = IV M CO , es simplemente
la resta de las varianzas de tales estimadores:
V ar(
q) =
2IV
2M CO
Prueba 2 La demostracion del resultado anterior es sorprendentemente intuitiva.
Requiere, en primera instancia, demostrar los siguiente:
Cov(M CO , q)

def

=
=

,q
0

Recuerde que estamos bajo H0 , es decir, no hay problema de ortogonalidad. En ese


caso, ambos estimadores son consistentes (aunque el de MCO es el mas eficiente).
Lo anterior nos garantiza que, bajo H0 :
plim(
q) = 0
y defnalo de la siguiente manera:
Ahora imagine un nuevo estimador de , d,
d = M CO +
q,
donde es una constante cualquiera (tengalo bien presente). Es importante tambien tener muy claro que este extrano estimador esta al abasto del econometrista,
es decir: es posible estimar una relacion usando MCO e IV, definir arbitrariamente
Resulta obvio que, cualquiera que sea el
una constante y, finalmente, calcular d.
valor de dicha , el nuevo estimador satisface lo siguiente:
= .
plim(d)
Resumiendo, d es un estimador consistente de , para todo R. Veamos ahora
la varianza de nuestro nuevo estimador:
= V ar(M CO ) + 2 V ar(
V ar(d)
q ) + 2Cov(M CO , q)
= V ar(M CO ) + 2 V ar(
q ) + 2,q
|
{z
}

10.4. LA PRUEBA DE HAUSMAN

341

La parte de la expresion senalada con un asterisco tiene que ser positiva. Ello
obedece a que el estimador de MCO es, segun el teorema de Gauss-Markov, el mas
eficiente posible. Cualquier otro estimador solo puede tener una varianza mayor (o
en el mejor de los casos, igual). Por ello, podemos afirmar que:
2 V ar(
q ) + 2,q 0

(10.2)

Ahora considere el signo del primer elemento de la parte izquierda de la ecuacion


(10.2): 2 V ar(
q ) 0. Esto resulta obvio, pues, siendo un valor real, elevado al
cuadrado seguro no es negativo; de igual manera, la varianza, en el peor de los
casos, sera nula, pero seguro no podra ser negativa. As, es el segundo elemento,
2,q , el que podra definir el signo de la expresion. Si tomamos en cuenta lo que
sabemos hasta ahora, es decir:
1. La varianza de nuestro estimador d es: V ar(M CO ) + 2 V ar(
q ) + 2,q ,
2. El estimador de MCO, M CO es el mas eficiente, es decir, el de mnima varianza,
3. 2 V ar(
q ) 0,
4. R ( tiene que poder ser cualquier numero real).
Podemos deducir que ,q solo puede ser cero. Para ello, suponga que ,q > 0.
En ese caso, sabiendo que podemos tomar cualquier valor de , podramos justa y
arbitrariamente tomar el siguiente:
,q
V ar(
q)
Si reemplazamos lo anterior en la ecuacion (10.2), misma que debe ser igual o
mayor que cero, obtenemos:
=

,q
V ar(
q)

2

V ar(
q) 2

,q
,q 0
V ar(
q)
2
,q
0

V ar(
q)

La u ltima espresion, marcada en rojo, es evidentemente falsa. Si ,q > 0 fuera


negativa, entonces nosotros podramos escoger arbitrariamente una constante


CAPITULO
10. VARIABLES INSTRUMENTALES

342

que generara el sinsentido de la u ltima expresion.17 Debemos concluir por ende


que ,q no puede ser positiva.
Suponga que el otro caso, en el que ,q < 0. Sabiendo que podemos tomar cualquier valor de , podramos ahora justamente tomar el siguiente:
=

,q
V ar(
q)

Si reemplazamos otra vez lo anterior en la parte de la formula de la varianza de q


que debe ser igual o mayor que cero, obtenemos:

2
,q
0
V ar(
q)

Otra vez llegamos a un absurdo, por lo que conclumos que ,q tampoco puede ser
negativa. Si ,q no es ni positiva ni negativa, solo le resta ser igual a cero:
,q = 0
Ahora s, podemos concentrarnos en la varianza de q. Sabiendo que q = IV
M CO , es facil establecer que:
IV = M CO + q
Usando la expresion anterior, podemos calcular la varianza del estimador de IV :

2IV

=
2M CO + V ar(
q ) + 2,q
=
2M CO + V ar(
q)

Ya solo queda reacomodar los terminos:


V ar(
q) =
2IV
2M CO
17

Lo que muestra lo anterior es lo siguiente: para que la varianza del nuevo estimador sea superior
a la de MCO (algo que necesariamente debe ocurrir), la constante debe quedar limitada a ciertos
valores, es decir, no puede adoptar cualquiera que este includo en los reales. No obstante, vimos
que debera poder tener cualquier valor. Eso es un absurdo.

10.4. LA PRUEBA DE HAUSMAN

343

Ahora s, sabiendo que: (i) bajo la hipotesis nula q tiende a cero; (ii) que ambos
estimadores se distribuyen asintoticamente normal (ver en la seccion anterior) y
conociendo la varianza de la diferencia, es posible afirmar que:
q
a
N (0, 1)
desv.std(
q)
a

donde denota se distribuye asintoticamente. Si elevamos al cuadrado, obtendremos logicamente:


q2
a
21 g.l.
var(
q)
Esta sera la distribucion del estadstico de Hausman bajo la hipotesis nula. La verdad es que existe una forma alternativa de presentar dicha prueba. Para ello, recurriremos a un ejemplo, que versa sobre el problema de los errores de medicion en
variables explicativas. Antes presentaremos, bajo la modalidad Receta de Cocina,
la version multivariada de la prueba.

10.4.2. La prueba de Hausman multivariada


Es posible realizar una prueba de Hausman en el marco de una regresion multivariada donde el problema de endogeneidad no este circunscrito a una sola variable.
Sea nuestra especificacion:

yt = x1t 1 + x2t 2 + + xkt k + t

(10.3)

Supongamos que n de las k [n < k] variables son endogenas y tienen relacion con el
termino de error. Agrupemos las variables endogenas en una matriz que denotamos

Xn y a la que llamaremos M ATRIZ DE VARIABLES E ND OGENAS


. A las restantes
variables explicativas las agrupamos en la matriz de variables exogenas Xm [m < k;
n + m = k]. Habiendo hecho esta particion, nuestra especificacion es ahora:
Y

= Xn n + Xm m +

Supongamos ahora que tenemos una matriz de instrumentos Zl donde Zl es una


matriz de dimensiones T l, con l > n. Definimos Z = [Zl Xm ] y X = [x1t x2t
xkt ] de tal suerte que se satisfagan las siguiente condiciones ya harto conocidas:


CAPITULO
10. VARIABLES INSTRUMENTALES

344

1
(Z ) = 0
T
1
plim (Z X) =
T
1
plim (Z Z) =
T
plim

Para llevar a cabo la prueba de Hausman estimamos por MCO las regresiones Xn
n la matriz donde almacenamos los valores ajustados. En
contra Z y obtenemos X
otras palabras corremos la matriz de variables endogenas contra la nueva matriz de
variables exogenas. Es con esta nueva matriz que estimamos ahora:

n +
= Xn n + Xm m + X

Evaluamos entonces la significancia del coeficiente asociado


 a Xn , : siendo la
1

hipotesis nula de la prueba de Hausman H0 : plim T Xn = 0 [es decir que las


variables que conforman Xn no estan relacionadas con el termino de error]. Bajo
H0 :

a
1
[var()]
2n g.l.

La manera de hacer la prueba de Hausman antes expuesta corresponde a la propuesta de Wu (1973).18 En el caso de que no conozcamos las variables que son
endogenas al termino de error [o mejor dicho, que no sepamos que variables son
potencialmente endogenas], la prueba de Hausman en una regresion conjunta se
ejecuta de la siguiente manera. Recuerde que se asume que disponemos de mas
instrumentos que variables explicativas [l > k] y que los primeros deben ser instrumentos validos:
1. Correr la regresion por MCO y recuperar el vector de estimadores M CO
as como la matriz de Varianza-Covarianza.
2. Correr la regresion por el metodo IV y recuperar el vector de estimadores IV
as como la matriz de Varianza-Covarianza.
18

En el libro Econometric Theory and Methods de Davidson y MacKinnon se demuestra la equivalencia entre ambos procederes.

10.4. LA PRUEBA DE HAUSMAN

345

3. Calcular el siguiente estadstico de prueba:

(var

H = Q
(Q))1 Q
donde:

= IV M CO
Q
var
(Q) = var
(IV ) + var
(M CO )
Resulta importante resaltar que el calculo de este estadstico s es sensible al rompimiento de los supuestos de heteroscedasticidad e independencia. Por ello, en caso
de que se disponga de evidencia en ese sentido, se recomiendo utilizar la matriz
robusta de Varianza-Covarianza.

10.4.3. Deteccion de errores de medicion en variables explicativas


Anteriormente descubrimos que los errores de medicion de las variables son especialmente importantes cuando e stos ocurren en las variables explicativas. Es posible, si se cuenta con informacion adicional referente a la relacion, y, especialmente
relacionada con esa variable que creemos mal medida, identificar el problema. No
sobra recalcar que lo que veremos a continuacion es un caso especial de la muy
conocida P RUEBA DE H AUSMAN.19 Veamos cual es el proceder en este caso.
Suponga que deseamos estimar la siguiente especificacion:20
t + t
yt = x
Pero sospechamos que existen errores importantes en la medicion de la variable
explicativa (xt = xt + vt ) y que en realidad, estamos estimando:
yt = xt + t
19
20

De hecho, como ya se explico antes, corresponde a la propuesta de Wu (1973).


Se asume por simplicidad, nuevamente, que las variables estan centradas en cero.


CAPITULO
10. VARIABLES INSTRUMENTALES

346

Donde, recordando lo visto en captulos anteriores, obtenemos un residual que corresponde a:


t = t vt

Para corregir este problema, podemos usar IV ; no obstante, para ello necesitamos
una variable instrumental, zt , correlacionada con xt pero no con t ni con vt (es
decir, que no este correlacionada con t ). Supongamos que la relacion entre xt y zt
es la siguiente:
xt = zt + wt
donde wt es un ruido blanco iid, centrado en cero y con varianza constante. Si estimaramos esta relacion por medio de MCO, solo lo podramos hacer con la variable
mal medida. En ese caso obtendramos:
xt = xt + wt
Por lo que podramos calcular la variable ajustada:
xt = zt

(10.4)

Reemplazando la variable explicativa por lo encontrado en la ecuacion (10.4) en


la especificacion original (en la que sospechamos que hay un error de medicion),
obtenemos lo siguiente:
yt = xt + wt + t
Es facil probar que no existe relacion asintotica entre la variable explicativa ajustada, xt , y el termino de error:

 P

zt (t vt )
1X
= plim
xt t
plim
T
T
= 0


Con esto aseguramos una estimacion consistente de . Por otra parte, ahora tenemos
otro parametro a estimar que, de hecho, tiene el mismo valor. El hecho de que exista
un error de medicion, no obstante, tiene efectos sobre este u ltimo:

10.4. LA PRUEBA DE HAUSMAN

1
plim
wt t
T

347


1X
= plim
(xt zt ) (t vt )
T

El producto de la variable instrumental con el termino de error puede eliminarse


gracias a los supuestos que hicimos respecto a las propiedades de un instrumento.
Recuerde ademas que la variable mal medida haba sido definida como xt = xt +vt .
Con esto en mente podemos continuar el desarrollo:


1
plim
wt t
T


1X
= plim
xt vt
T


1 X
= plim
(xt + vt ) vt
T


No hay relacion entre la variable explicativabien mediday el error de medicion,


por lo que, en el lmite, la covarianza entre ambas es cero. Solo nos queda el u ltimo
producto, que no es otra cosa sino la varianza del error de medicion. Nuevamente,
en el lmite, la suma de dicho error al cuadrado tiende a esa varianza:


1

= v2
plim
wt t
T
As pues, en presencia de un error de medicion, el parametro que acompana a wt
estara estimado de manera inconsistente. No obstante, y esto es E N E XTREMO
I MPORTANTE, si no hay error de medicion, la varianza de e ste podra considerarse
nula, es decir:
v2 = 0
En ese caso, la estimacion del segundo parametro, que tambien es , sera consis
tente. Representemos al estimador de este segundo con otra letra: .
En ese caso, podemos manipular nuevamente la especificacion a estimar:
yt = xt + wt + t

si reemplazamos xt por xt wt , obtenemos:

yt = xt + ( ) wt + t

348

CAPITULO
10. VARIABLES INSTRUMENTALES

Note como, en caso de no haber error de medicion, el estimador de tiende a ; lo


mismo ocurre con el estimador de . Por ello,
p



p
De ello se deduce que 0.
Es con base en lo anterior que se puede hacer la prueba de hipotesis. Al parametro de esta u ltima especificacion se le puede aplicar una sencilla prueba t, como
siempre; si resulta estadsticamente igual a cero, no habra evidencia de errores de
medicion. Si por el contrario, se rechaza la prueba, tendremos entonces que comenzar a preocuparnos por reemplazar esa variable.
Resumamos esta prueba rapidamente; los pasos de e sta son:
1. Correr una regresion donde xt sea la variable dependiente y zt , un instrumento, sea la explicativa;
2. Obtener residuales de esa regresion: wt ;
3. Correr una segunda regresion en donde yt sea la variable explicada y xt y wt
sean las explicativas;
4. Aplicar un sencillo estadstico t de significancia al parametro asociado al residual.21

21

Si tuvieramos sospechas de otras variables mas respecto a su mediacion, sera necesario correr
mas regresiones como la primera e incluir otros residuales en la segunda. En este caso, convendra
mas hacer una prueba de hipotesis conjunta sobre todos los parametros asociados a los residuales.

Captulo 11
Causalidad, exogeneidad y
estabilidad
cum hoc ergo propter hoc

Falacia de la causalidad: con ello y por consecuencia, debido a ello

post hoc ergo propter hoc

Falacia de la causalidadbis : esto es previo a ello y por consecuencia, ello es


debido a esto
A lo largo del captulo anterior vimos que muchas cosas pueden salir mal cuando se estima una relacion. Afortunadamente existen tambien muchos metodos de
deteccion y alguna que otra solucion. Si bien Variables Instrumentales, que estudiamos en en la seccion anterior, constituye una solucion para muchos de nuestros
problemas recien descubiertos, vale la pena discutir otros aspectos que permiten al
econometrista realizar un mejor ejercicio de estimacion. Especficamente, vamos a
comenzar con una propuesta de Granger para controlar/comprender/acotar la cuestion de la causalidad entre nuestras variables.1
1

Este apartado incluye secciones de la tesis de Eduardo Vera Valdes (2007).

349

350

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

11.1.

La Causalidad en el sentido de Granger


C AUSALIDAD : Ley en virtud de la cual...

Si bien uno deseara tener una definicion contundente de lo que es Causalidad, lo


cierto es que no la hay; no al menos una que logre unanimidad. De hecho, veremos
como en realidad definir causalidad es mas complicado de lo que parece.
No resulta muy aventurado senalar que, en ciencia, es necesario dar una definicion de lo que se quiere discutir antes de empezar la discusion respecto al tema
de interes. Sin dicha definicion el tema central adquiere el riesgo de ni siquiera ser
abordado debido a la confusion de los terminos empleados. Una buena definicion
puede, en ocasiones ayudar mas en el esclarecimiento de un tema que un argumento
elaborado.
Aun si matematicamente es posible definir cualquier estructura con la expresion que
se nos ocurra, se busca en general darle un respaldo teorico. Este respaldo es importante ya que recurre en ocasiones a palabras de uso cotidiano en nuestro lenguaje.
Las definiciones deben producir la menorde preferencia ningunaconfusion en
las personas que lean los resultados. En general, es de esperar que una persona que
lea un resultado en Estadstica entienda que se quiere decir con Esperanza, Varianza,
Mediana; se espera que no confunda estos terminos con su acepcion coloquial.
A la par de esta complicacion, el tener que respaldar teoricamente nuestra definicion
tiene tambien grandes ventajas. Una vez planteada la definicion, e sta puede ser usada, obviamente, dentro del contexto en el cual se planteo; se tiene por entendido el
significado en ese a mbito restringido. Existen conceptos muy arraigados en nuestro
lenguaje; en general no es necesario definir manzana o pera para poder hablar de
ellas; pero, no siendo e ste el caso con el concepto de causalidad, nos vemos en la
impetuosa necesidad de plantear y respaldar una definicion.
La intencion de esta introduccion es (i) recalcar la importancia de las definiciones
en ciencia y (ii) lograr un convencimiento respecto a la importancia de plantear y
respaldar una definicion de causalidad.

11.1.1. Filosofa detras de Causalidad


Mucho ha sido el trabajo realizado para definir un concepto de causalidad que sea
aceptado, si no por toda la comunidad cientfica, al menos por una amplia mayora.2
El concepto de causalidad ha evolucionado a la par del pensamiento humano. Hay
2

Cabe resaltar el trabajo realizado por Aristoteles y Leibniz y Hume, al buscar una definicion.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

351

en la actualidad muchas teoras y definiciones, muchas de ellas en franca contraposicion. No es de extranar que una palabra tan utilizada en nuestro vocabulario
e implicando e sta un concepto tan ligado a la experiencia personal no tenga una
definicion precisa ni sea facil formular una definicion aceptada por todos.
Grandes pensadores han contribuido en este ejercicio. Aristoteles se embarco en la
busqueda de una teora de causalidad como parte de su estudio de la naturaleza.
como muchos de sus contemporaneos, crea que la u nica forma de explicar un
El,
fenomeno es mediante el estudio de las causas que lo originan. Crea ademas que la
busqueda de una causa era lo mismo que la busqueda de una respuesta a la pregunta:
P OR QU E ? En Fsica, Aristoteles plantea la siguiente restriccion al conocimiento
humano:
No tenemos conocimiento real de algo hasta que no hemos logrado
responder a su Por que?, es decir, a lo que lo causa...
Con ello en mente y como un instrumento para su trabajo es que Aristoteles decide
formular su teora de causalidad; en Fsica II y en Metafsica V plantea su teora de
las cuatro causas:
1. Causa material; la encargada del que; por ejemplo, el bronce de una estatua.
2. Causa formal; la encargada de la forma; por ejemplo, el molde de la estatua.
3. Causa eficiente; el como fue hecho; por ejemplo, el artesano.
4. Causa final; el para que fue hecho; por ejemplo, la decoracion, el ornato.
Es con esta teora que Aritoteles busca explicar la naturaleza y todos los fenomenos
de e sta. En la actualidad nuestro concepto de causa no incluye los dos primeros de
la teora de Aristoteles; las vemos a ambas como producto del ingenio del artesano
(en el ejemplo arriba descrito). Es sobre todo importante resaltar su defensa a su
planteaba que en la naturaleza todo acontece como parte de un
causa final. El
proceso mayor al cual queda supeditada la naturaleza; ello con motivo de un fin
tentativamente bueno. Es en Fsica donde Aristoteles postula que el desarrollo de
la dentadura de los animales se da con el u nico fin de que el animal sobreviva y no
como simple coincidencia. Mas adelante, al momento de plantear la definicion que
usaremos (debida a Granger ....), veremos que uno de nuestros supuestos es que el
futuro no puede causar al pasado, supuesto en franca contraposicion con la teora
de la causa final de Aristoteles. Este fin por el cual las cosas se desarrollan es una
postura que defiende la posibilidad de que el futuro realmente cause al pasado. Esto

352

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

es equivalente a decir que el hecho de querer estudiar una carrera es lo que hace
que los estudiantes asistan a la Preparatoria.3 Como defensa de nuestra hipotesis,
se plantea esta otra forma de pensar: que al ser su intencion estudiar una carrera, es
que se realizan acciones que en un futuro causen su ingreso a la Licenciatura. Se
ha mantenido nuestra hipotesis; siendo as que lo que origino estas acciones es la
concepcion arraigada de que el presente o el pasado causan al futuro, no viceversa.
En tiempos menos reculados, durante la Edad Media, el concepto de causalidad,
as como todo el desarrollo humano, fue visto como originado y provocado por
Dios. Es as como el concepto cae en una especie de oscurantismo en el cual
se postula que todo lo que sucede en la naturaleza es obra de Dios, incluyendo,
por supuesto, todas las causas y efectos. En esta forma de pensar, el hombre no es
capaz de causar algo, no es sino la voluntad de Dios y las acciones de e ste lo que
originan todo. Si bien esta postura es defendible teologicamente, no permite avanzar
epistemologicamente.4 Dicha postura no puede ser planteada cientficamente sin
incurrir en controversias ajenas a la ciencia. Ademas, en la actualidad tenemos la
creencia que nuestras acciones s causan consecuencias (En general consideramos
que el que un conductor ebrio impacte su vehculo es producto del nivel de alcohol
en la sangre de dicho conductor).
Muchas de la teoras actuales de causalidad han sido producto del trabajo realizado
por David Hume en el siglo XVIII. Hume, quien en principio rechaza toda nocion
de causa5 decide mas tarde tomar una postura constructiva y plantea una definicion
de causalidad sobre la cual se pueda debatir. Esta postura es parecida a la asumida
por Granger en Probando Causalidad. Un punto de vista personal. Hume dice lo
siguiente:
Podemos definir una causa como un objeto seguido de otro, donde
todos los objetos similares al primero son seguidos de objetos similares
al segundo.6
3

Otro ejemplo seran las polticas y medidas adoptadas por un Banco Central para as cumplir
su meta inflacionaria; y es que en esta forma de pensar, es el lograr esta meta lo que causa estas
polticas.
4
Siguiendo las races griegas de ambos terminos, se sabe que la teologa es el estudio de dios,
mientras que la epistemologa corresponde al estudio del conocimiento.
5
En Hume (1740) plantea, No tenemos otra nocion de causa y efecto que la obtenida de que
ciertos objetos que siempre han sucedido conjuntamente, y que en situaciones anteriores se les ha
encontrado inseparables. Nosotros no podemos adentrarnos en la razon de esta conjuncion, solo
observamos los acontecimientos, y debido a esta constante conjuncion, los objetos adquieren una
union en la imaginacion.
6
Hume 1748, seccion VII.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

353

Este planteamiento parece recavar las ideas que se tenan sobre causalidad. El siglo
XIX, de hecho, consolido en cierta forma esta manera de pensar. Alentados por la
revolucion newtoniana, los cientficos, especialmente los fsicos, consideraron que
el universo era una especie de gran mecanismo de relojera, es decir, un universo
regido por reglas deterministas que explicitan las relaciones entre las variables y
determinan las causalidades. Lo anterior nsto a muchos a pensar que, conociendo
tales reglas, no habra misterios que resolver. Esto queda plasmado en el D EMONIO
DE L APLACE :
Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podra concebir un intelecto que en cualquier momento dado
conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres
que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a analisis, podra condensar en una simple formula el movimiento de
los grandes cuerpos del universo y del a tomo mas ligero; para tal intelecto nada
podra ser incierto y el futuro as como el pasado estaran frente sus ojos.7
La concepcion determinista del universo cambio radicalmente al surgir la Mecanica
Cuantica. En esta u ltima, los procesos estocasticos juegan un papel central. Cabe
destacar que no lo hizo sin oposicion del establishment cientfico. Insto a Einstein a
formular su celebre frase: D IOS NO J UEGA A LOS DADOS. No obstante, conforme dicho establishment fue, literalmente, muriendo, impero un nuevo paradigma.8
En todo caso, as como la Mecanica Cuantica revoluciono a la Fsica, tambien lo
hizo con nuestra idea de causalidad. Es justamente en este contexto que nace el
concepto de causalidad probabilstica.

11.1.2. Causalidad en Probabilidad


El reciente e xito de la Mecanica Cuantica ha debilitado nuestra fe en el determinismo. En e sta, al contrario de la Mecanica Clasica, solo podemos hablar de la
probabilidad de que algo ocurra despues de cierta accion; no se tiene certeza de
cual sera el resultado. Debido a ello los filosofos encuentran atractiva una teora de
causalidad que no presuponga determinismo.
Una de las teoras que surgen como respuesta a este deseo ha sido la causalidad
probabilstica. La idea central de esta teora es que las causas aumentan la probabilidad de sus efectos, un efecto puede ocurrir aun en la ausencia de una causa o
7

Pierre Simon Laplace, 1814.


Fuente: Wikipedia [http://es.wikipedia.org/wiki/Pierre_Simon_Laplace].
8
Resalta la respuesta dada por Hawking a la celebre frase de Einstein: Dios no solo juega a los
dados, sino que a veces los tira donde nadie los puede ver.

354

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

puede no suceder en presencia de e sta. Debido a que las teoras probabilsticas de


causalidad solo requieren un aumento en la probabilidad de sus efectos, resultan
mas compatibles con el indeterminismo de la Mecanica Cuantica, y, de hecho, con
el indeterminismo de las variables economicas.
La idea central de que una causa aumenta la probabilidad de sus efectos puede ser
expresada formalmente mediante la metodologa de la probabilidad condicional.
Usando la notacion estandar en probabilidad, denotaremos P (B|A) a la probabilidad condicional de B dado A; i.e. la probabilidad de que el evento B suceda,
provisto que sucedio el evento A. Una forma natural de entender que el evento A
aumenta la probabilidad del evento B es que P (B|A) > P (B|Ac ) por lo que el
primer intento hacia una teora de causalidad probabilstica sera:
Definicion 13 A causa B si y solo si P (B|A) > P (B|Ac )
Aun cuando esta formulacion es acorde con el indeterminismo, plantea un nuevo
problema debido a las correlaciones espurias. Si ambos eventos A y B son a la vez
causados por un tercer evento C puede darse el caso en que P (B|A) > P (B|Ac )
aun cuando A no cause B. Por ejemplo, sea A el evento de que un individuo tenga los dientes manchados , y sea B que el individuo padezca de cancer pulmonar.
Es de esperar que P (B|A) > P (B|Ac ), esto debido a que fumar tiende a producir
ambos efectos. Segun nuestra experiencia, los individuos con dientes manchados
tienen mas probabilidad de ser fumadores y por lo tanto mas probabilidad de padecer cancer pulmonar. Intuitivamente, la solucion a este problema es el requerir que
las causas aumentan la probabilidad de sus efectos ceteris paribus.
As como los hebreos son considerados la gente del libro, los economistas son considerados la gente del modelo.9
Son de enorme importancia en el estudio economico los modelos formales de variables economicas: con ellos se pueden determinar la relacion entre ciertas variables
de interes dejando que el resto permanezca sin cambios. Esta idea central de que el
resto permanezca sin cambios o ceteris paribus10 es una piedra angular del analisis
economico. Con estas ideas como sustento, los efectos del evento A de la definicion anterior permanecen obligatoriamente constantes en situaciones de prueba, es
decir:
9

James L. Heckman 2000


La nocion de ceteris paribus es atribuda a A. Marshall aun cuando e l mismo no uso este termino
en su libro (vease A. Marshall, 1920).
10

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

355

Definicion 14 A causa B si y solo si P (B|A y S) > P (B|Ac y S) para cada


situacion de prueba S.11
Una situacion de prueba es un conjunto de factores que se dejan fijos durante la
prueba; es importante recalcar que no se puede dejar fijo el resto de variables en
nuestro experimento. Supongamos que C es la causa de B y a su vez es causada por
A; al dejar fijo C concluiramos que A no causa B siendo esto falso. Debido a esta
posible transitividad, es importante asegurarse de no dejar fuera del experimento
causas de B que son a su vez resultado de la accion de A. Sea el conjunto independiente de causas de B el que incluya todos los factores causantes de B no causados
a su vez por A, entonces una situacion de prueba sera el conjunto maximal de los
conjuntos independientes de causas de B. Definiendo as causalidad y situaciones
de prueba hemos obtenido una teora que es compatible con el indeterminismo y
que logra distinguir entre causas y correlaciones espurias.

Esta
teora, y sobre todo las ideas principales detras de ella, seran el eje central
de la definicion que nosotros usaremos de causalidad. Nuestra vision de causalidad
sera una con enfoque probabilstico aplicada a series de datos de variables economi
cas, una vision E CONOM ETRICA
, para llamarlo por su nombre.

11.1.3. Causalidad en Econometra


La Econometra fue desarollada como herramienta de la Economa para interpretar
y analizar datos economicos. Siendo el objeto de trabajo de la Econometra los datos
recabados, se han adoptado y adaptado metodos de Estadstica y Probabilidad para
su analisis. Siendo de especial interes las causas que originan cambios en variables
economicas (como medio para establecer polticas economicas) se han desarrollado
algunas teoras de causalidad aplicables a los datos recabados.
Existen dos teoras principales de causalidad en Econometra, una debida a MarshalNeyman-Rubin basada en resultados potenciales, y la otra debida a Wiener-GrangerSims basada en predicibilidad.12 Nosotros fijaremos nuestra atencion en la segunda,
la de Wiener-Granger-Sims. En este enfoque se toma como medio para definir causalidad a la predicibilidad de las variables.
Usando la notacion de Series de Tiempo, denotaremos como xt a la observacion en
el tiempo t de la variable x; de esta forma la definicion debida a Granger nos indica
11

Las primeras versiones de esta teora fueron presentadas en Cartwight (1979) y Skyrms (1980)
Vease tambien el concepto de screening off presentado en Reichenbach (1956) y Suppes (1970).
12
Vease Lechner (2006) y Heckman (2000) para una discusion de mayor profundidad en cuanto
a la diferencia de estos conceptos.

356

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

que la variable x causa a la variable y si somos capaces de dar una mejor prediccion
del valor futuro de y usando el valor contemporaneo de x.
Definicion 15 Decimos que xt causa a yt+1 si somos capaces de predecir mejor
yt+1 usando toda la informacion disponible, que si la informacion distinta de xt
hubiera sido usada.13

11.1.4. La Granger-Causalidad
Retomando la nocion de causalidad de Granger, analizaremos la metodologa de la
prueba que lleva el mismo nombre. Para probar si una variable x causa a la variable
y plantearemos la siguiente ecuacion:14
yt = 0 + 1 yt1 + 2 yt2 + . . .
. . . + r ytr + 1 xt1 + . . . + s xts + u1t

(11.1)

De acuerdo a la definicion propuesta por Granger, de ser x una causa de y, podramos


esperar que la regresion (11.1), que definiremos como regresion no restringida, se
ajuste a los datos mejor que en la siguiente ecuacion...
yt = 0 + 1 yt1 + 2 yt2 + . . . + r ytr + u2t

(11.2)

... donde se omite la variable x y a la que denominaremos regresion restringida. Para


poder evaluar la aportacion en capacidad explicativaque no predictiva, n
otese
P
recuperamos las sumas de residuales al cuadrado de ambas regresiones,
u2Rt y
P
u2N Rt , respectivamente. Posteriormente, realizaremos el siguiente calculo:
F =

(SRCR SRCN R ) /s
SRCN R / (T r s)

(11.3)

Donde SRCR y SRCN R corresponden a la suma de residuales cuadraticos de la regresion restringida y de la no-restringida, respectivamente; la hipotesis nula, evidentemente trata de la no-significancia de los s rezagos de la variable x en la regresion
no-restringida. De cumplirse dicha hipotesis nula, nuestro calculo correspondera a
13
14

Vease Granger (1969).


Es muy importante siempre dejar claro que esta causalidad es en el sentido de Granger.

11.1. LA CAUSALIDAD EN EL SENTIDO DE GRANGER

357

una distribucion de F de Fisher dado que se trata de un cociente de sumas cuadraticas independientes cuya distribucion es, en ambos casos, 2 . As pues, esta es la
forma en la que se prueba la hipotesis nula de no Causalidad en el sentido de Granger entre variables. Es posible definir el numero de rezagos de ambas variables en
las regresiones auxiliares mediante criterios de seleccion tales como el de Akaike
(AIC) o el Bayesiano (BIC), que ya habamos visto en el primer curso de econometra. Para finalizar la discusion, vale la pena dejar bien asentado que estamos
probando:
1. H0 : x no causa en el sentido de Granger a y
2. Ha : x s causa en el sentido de Granger a y

Ejemplo 18 Explicar algunos aspectos adicionales de la prueba de Granger-Causalidad (GC) es mas facil mediante un ejemplo. Una pregunta que podramos tratar
de responder con esta prueba es la siguiente:
E L P IB G RANGER -C AUSA L A D EMANDA D E D INERO [P IB M ]?
[M P IB]?
O ACASO ES AL R EV ES
As, haremos dos veces la prueba, y no solo una vez. De lo anterior es evidente
que pueden salir diversos resultados, mismos que el econometrista siempre debe
contemplar:
1. P IB M y M P IB > causalidad unidireccional del ingreso a la
demanda de dinero,
2. P IB M y M P IB > causalidad unidireccional de la demanda de
dinero al ingreso,
3. P IB 6 M Sin relacion causal,
4. P IB M Causalidad bidireccional.

358

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

11.2.

Exogeneidad

11.2.1. Exogeneidad a` la Cowles Commission


La exogeneidad con la que lidiaremos en buena parte de este curso (especficamente
sera usada en el contexto de las ecuaciones simultaneas) esta mas emparentada con
su concepcion clasica (es decir, la que establecio la Comision Cowles) que con la
que preconizaron Engle, Hendry y Richard en un famoso artculo de 1983. Especficamente, la exogeneidad que utilizamos en este curso se denomina E XOGENEIDAD
E STRICTA:
Definicion 16 Sea el modelo yt = + xt + ut . La variable xt es estrictamente
exogena s es estocasticamente independiente del termino de error para todo periodo:
xt kut+s s
donde k denota independencia estocastica.
:
Una definicion menos exigente es la de P REDETERMINACI ON
Definicion 17 Sea el modelo yt = + xt + ut . La variable xt es predeterminada
s es estocasticamente independiente del termino de error contemporaneo y futuro:
xt kut+s s 0
Es posible establecer exogeneidad estricta en nuestros modelos mediante la prueba
de Hausman que ya conocemos. Esencialmente, dicha exogeneidad estricta corresponde al supuesto de ortogonalidad que hemos estudiado hasta ahora. En lo que
corresponde al concepto de variable predeterminada, e ste tambien sera estudiado
con mucho mas detalle cuando abordemos el tema de las ecuaciones simultaneas.
No obstante, resulta importante discutir un poco mas sobre la predeterminacion.
Suponga que disponemos de una variable que no satisface la definicion de estricta exogeneidad, pero s la de predeterminacion. Al no ser estrictamente exogena,
no podemos utilizarla como regresor en la especificacion, puesto que rompe el supuesto de ortogonalidad harto estudiado hasta ahora y obtendramos estimadores
sesgados e inconsistentes. La solucion es estimar la ecuacion mediante Variables
Instrumentales. Es ah donde entra en juego la definicion mas laxa de exogeneidad.
Suponga que nuestro regresor si puede considerarse predeterminado. Lo anterior

11.2. EXOGENEIDAD

359

implica que, rezagos de dicho regresor pueden ser empleados como instrumentos.
Lo anterior nos abre una nueva cantera de donde extraer instrumentos. Huelga decir que ello no nos exime de ejecutar las pruebas de relevancia y validez de los
instrumentos.
En la proxima seccion veremos algunas extensiones del concepto de exogeneidad
que se han suscitado desde principios de los ochenta.

11.2.2. Exogeneidad a` la Engle, Hendry y Richard


Como ya senalamos en la seccion anterior, el concepto de exogeneidad ha evolucionado en los u ltimos tiempos. En particular, los tres autores que aparecen en el
encabezado fueron los precursores de un concepto de exogeneidad mas fino. En
voz de algunos expertos esta extension no tiene un alcance excesivo para cuestiones empricas, aunque dicha afirmacion es, cuando menos, debatible.15 En todo caso
vale la pena conocer su naturaleza y comprender, al menos intuitivamente, su importancia en teora. En particular destaca una respuesta a la famosa Crtica de Lucas.16
En este artculo se presentan tres tipos de exogeneidad:

1. EXOGENEIDAD D EBIL
2. E XOGENEIDAD F UERTE
3. S UPER E XOGENEIDAD
Suponga, para aclarar un poco las ideas, que tenemos el siguiente modelo:
yt = zt + 1t
zt = 1 zt1 + 2 yt1 + 2t

(11.4)

Suponga ademas que nuestro interes radica exclusivamente en estimar la primera


ecuacion. Hasta ahora, nuestra preocupacion ha sido verificar que la variable zt
sea exogena al termino de error de la primera ecuacion. Segun Engle et al, esa
preocupacion esta mal planteada. La exogeneidad relevante depende de la razon
por la cual se desea estudiar la primera regresion (que es la que estimaramos). De
acuerdo a esos autores, existen tres razones para hacerlo:
15

Davidson y Mackinnon (2004) y Maddala (1992) inter alia desestiman el concepto, pero otros
autores, como Ericsson, Johansen, Hunter, Juselius, Ahumada, Granger, Campos y Hansen, no. Consulte el libro Testing Exogeneity de Ericsson y Irons para mas detalles.
16
Misma que sera abordada mas adelante.

360

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

1. C ON UNA FINALIDAD INFERENCIAL , ES DECIR , PARA OBTENER ESTI PAR AMETRO

( COMO PODR I A SER


MADORES DE ALG UN
DE INTER ES
),

2. C ON UNA FINALIDAD PREDICTIVA , ES DECIR , HACER PRON OSTICOS


DE y CONDICIONADOS EN z,
DE POL I TICA ECON OMICA

3. C ON UNA FINALIDAD DE ELABORACI ON


,
ES
DONDE ES NECESARIO ASEGURAR QUE LA PRIMERA ECUACI ON

ESTRUCTURALMENTE INVARIANTE A CAMBIOS EN LA DISTRIBUCI ON


MARGINAL DE z.
Como bien puede sospechar, a cada finalidad le corresponde un tipo de exogeneidad.
Note que la super exogeneidad es, en cierta manera, la respuesta a la C R I TICA DE
L UCAS.17
Procederemos de la siguiente manera; daremos en un inicio la definicion de exogeneidad debil, misma que explicitaremos a traves del estudio del modelo de Telarana (Cobweb Model, en ingles). Posteriormente daremos las definiciones faltantes y proporcionaremos especficamente sus consecuencias teoricas en economa y
econometra.
Exogeneidad debil
Definicion 18 Sean dos variables aleatorias denotadas yt y zt , con distribucion
conjunta Fx (xt ; ), donde xt = (yt , zt ). La variable zt es debilmente exogena en el
periodo de muestra T y en referencia al parametro de interes si y solo si existe
una reparametrizacion de en tanto , donde = (1 , 2 ) , tal que:
1. sea u nicamente funcion de 1 ,
2. La factorizacion de la densidad conjunta sea de la forma:18
Fx (xt ; ) = Fy|x (yt | zt ; 1 ) Fz (zt ; 2 )
donde 1 2
17

Conoce usted la Crtica de Lucas?


Recuerde que la distribucion conjunta es igual al producto de la distribucion condicional y la
distribucion marginal.
18

11.2. EXOGENEIDAD

361

donde el vector de parametros comprende al conjunto completo de parametros


del proceso conjunto; 1 y 2 son los parametros de la distribucion condicional y
marginal, respectivamente; , 1 , y 2 son los espacios parametricos respectivos
de , 1 , y 2 .
Esta obscura definicion se hara mas clara con el ejemplo del modelo de Telarana
que usaremos a continuacion. Es importante senalar que no estudiaremos con mucho detalle la dinamica de dicho modelo, puesto que eso lo haremos en el captulo
siguiente:
Ejemplo 19 El Modelo de Telarana:19 suponga un mercado donde la demanda y
la oferta se rigen con base al siguiente modelo:

pt = bqt + v1t
qt = kpt1 + 2t

(11.5)
(11.6)

donde v1t iidN (0, 2 ), 2t iidN (0, 22 ), E(qt v1t ) = 0 y E(2t v1t ) = 0; las
variables estan transformadas en logartmos.
La interpretacion es bastante directa; la ecuacion (11.5) se deriva de una ecuacion
de demanda, el precio pt vaca el mercado dada la cantidad qt ofertada. El valor
1
corresponde a la elasticidad-precio de la demanda. Por otra parte, la ecuacion
b
(11.6) es la funcion de oferta que captura como la cantidad que los productores
deciden ofrecer en t es funcion del precio que obtuvieron en t 1. El parametro k
es la elasticidad-precio de la oferta.
En este tipo de modelo, el estudio de la estabilidad del sistema puede ser en muchas
ocasiones el principal objeto de estudio (en series de tiempo, denotaramos esto
como estudio de estacionariedad). En particular, en una version tan sencilla, es
facil ver la manera de analizarla; basta con encontrar lo que hasta ahora hemos
llamado ecuacion reducida mediante la combinacion de las dos ecuaciones:
pt = pt1 + 1t
donde = b k y 1t iidN (0, 11 ). En el proximo captulo quedara claro (esperemos) que, si | |< 1, la dinamica del mercado es estable; si | |= 1, el mercado
19

La ejemplificacion de la exogeneidad debil con base en este modelo fue retomada de Ericsson
(1994). Tambien se retomaron elementos de la discusion que aparece en Johnston y DiNardo (1997),
as como en Maddala (1992).

362

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

genera precios que oscilan sin que e stos convergan, y; si | |> 1, la dinamica es
inestable.20
Ahora s, veamos como nuestro parametro de interes as como los espacios parametricos determinan si la variable qt en la ecuacion (11.5) es debilmente exogena o no
y con respecto a que parametro lo es. Recuerde que nuestro objetivo es justamente poder estimar esa ecuacion sin preocuparnos de la otra. Considere que lo que
nos interesa estimar es la funcion de demanda. En particular, considere si las dos
condiciones que permiten exogeneidad debil quedan satisfechas. En la definicion de
exogeneidad debil hacamos referencia a los parametros de la densidad condicional
y los de la densidad marginal. En este caso es facil identificarlos:
Parametros de la densidad condicional: 1 = (b, 2 )
Parametros de la densidad marginal: 2 = (k, 22 )
La primera condicion para que qt sea debilmente exogena es que el parametro de
interes sea funcion u nicamente de los parametros de la densidad condicional. Si
dicho parametro es la elasticidad de la demanda, 1b , entonces debera quedar claro
que la primera condicion s se cumple; por otra parte, si la estabilidad del sistema, , es el parametro de interes, entonces, esa misma condicion ya no se cumple
(puesto que b y k pertenecen a 1 y 2 , respectivamente). Dado que ese parametro requiere el conocimiento de las dos ecuaciones (contrariamente a 1b ), hacerlo
solo con la primera ecuacion resultara inadecuado. As, la variable qt satisface
la primera condicion de la exogeneidad debil (ED) cuando el parametro de interes
es b, pero no cuando e ste es . Como podran ver, la seleccion del parametro de
interes no es trivial. La segunda condicion de ED se puede interpretar como el libre
albedro de los parametros en cada espacio parametrico. Los parametros de 1 y
los de 2 deben ser libres en su variacion y no estar restringidos mutuamente. Presentaremos ahora tres situaciones en las que a veces se satisface la condicion y a
veces no. Para efectos de claridad en la exposicion, haremos caso omiso de 2 y de
22 en sus respectivos espacios parametricos. Lo anterior permite que el espacio
parametrico completo, denotado pueda ser analizado en un plano (puesto que se
trata del espacio de (b, k)). Vea el grafico (11.1, panel a)]
20

En todo caso, si asume que el proceso empezo en el tiempo 0 y que en ese momento el precio
era P0 , por sustitucion puede llegar a la expresion pt = t p0 + t1 1,1 + . . . + 1,t +. Si | |< 1
el sistema olvida los s pasados (a una tasa exponencial, por cierto); si | |= 1 el sistema nunca
olvida los s pasados y por lo mismo no podemos esperar convergencia alguna hacia el equilibrio;
si | |> 1 el sistema no solo no olvida los s pasados, sino que la importancia de los mismos crece
(tambien, a una tasa exponencial) entre mas remotos sean.

11.2. EXOGENEIDAD

363

1. Suponga que tanto b como k pueden adoptar cualquier valor real sin restriccion alguna. El espacio parametrico es entonces 2 , es decir, el plano real
entero. Para cada valor de k, el parametro b puede adoptar cualquier valor
entre el intervalo (, +) (lo que corresponde a 1 ) y viceversa. Los valores de los parametros de la densidad condicional no afectan el rango de
los valores que puedan adoptar los parametros de la densidad marginal (y
viceversa). Ello implica que 1 y 2 son libres en su variacion (tienen libre
albedro); De forma equivalente, y con objeto de acercarnos a la segunda
condicion de la ED, podemos decir que, en este caso, el espacio parametrico
es el producto 1 2 : (, +) (, +), lo cual corresponde a
2 . Una vez satisfecha la segunda condicion, podemos decir que qt es debilmente exogena a la elasticidad ( 1b ).
2. Ahora suponga que restringimos los valores de b y k de tal suerte que aseguramos que el sistema es estable. Ello implica satisfacer la siguiente condicion: | b k |< 1. Esta vez, el espacio parametrico no es tan grande. De
hecho, es facil representarlo en el plano [ver grafico (11.1, panel b)].
Lo importante aqu es constatar que los valores de k s afectan los valores de
b (y viceversa). Por ejemplo, si k = 0.5, entonces b queda limitado a estar en
el intervalo (2, +2); si k = 0.2, entonces b queda esta vez limitado a estar
en el intervalo (5, +5); si b = 1, entonces k queda limitado a estar en el intervalo (1, +1). Expresado de otra manera, el espacio parametrico ya no
es el producto 1 2 : (5, +5)(1, +1), lo cual no corresponde a , que
esta acotado por | bk |< 1. Tambien esto se puede interpretar de la siguiente
manera: el valor de k es informativo del valor de b, lo confina. Ya para rematar, constatamos que el libre albedro entre los dos espacios parametricos
ya no se da. La inferencia usando solamente la densidad condicional cuando
nos limitamos a versiones estables del modelo, nos hace perder informacion
relevante. No podemos saber respecto a esa estabilidad sin considerar la densidad marginal (vaya, la ecuacion de oferta, en este caso).
3. Asuma ahora, por ejemplo, que la teora economica o bien la intuicion (muy
aguda) sugiere las siguientes restricciones:
La elasticidad de la oferta, k, yace en el intervalo [0, 1),
La elasticidad de la demanda, 1b , es negativa y mayor o igual a uno en
valor absoluto.

364

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Note que la segunda restriccion implica que 1 b 0. El espacio parametrico aparece en la figura [ver grafico (11.1, panel c)]. El parametro b estara entre 1 y 0 independientemente del valor que adopte k, que a
su vez sera cualquier valor entre 0 y 1. En este caso, los parametros s tienen libre albedro y no hay restricciones cruzadas que, valga la expresion,
los restringan. Esta vez el producto de los espacios parametricos, 1 2 :
[1, 0] [0, +1) si corresponde con el espacio parametrico en donde (b, k)
yace. As, al imponer unas restricciones sobre las elasticidades, hemos vuelto
a satisfacer la segunda condicion de la ED: qt es debilmente exogeno sobre
la elasticidad de la demanda.

Figura 11.1: Posibles espacios parametricos (usando el modelo Telarana). (a) sin
restricciones de ninguna ndole (satisface 2a condicion de ED); (b) condicionado a
que sea estable (no satisface 2a condicion de ED); (b) condicionado a que sea estable mas restricciones de elasticidad (satisface 2a condicion de ED). Fuente: Fundamentado en el ejemplo propuesto por Ericsson y Irons (1994) con extensiones
propias.

En sntesis, el espacio parametrico, as como el parametro de interes son elementos


fundamentales en el establecimiento de su condicion de exogeneidad debil, tanto en
el a mbito econometrico como en el economico. La seleccion de e stos puede resultar
crtica respecto a la condicion de exogeneidad de una variable.

11.2. EXOGENEIDAD

365

Exogeneidad fuerte
El lector habra notado que el concepto de exogeneidad debil exigio una ejemplificacion donde aparecen rezagos. Ello le imprime a nuestros modelos propiedades
dinamicas (evolucionan en el tiempo). Si bien el tratamiento dinamico en econometra hara objeto de todo un captulo (el siguiente) y no ahondaremos demasiado
de momento, s es importante recalcar el lazo entre las propiedades de las variables (en tanto exogenas o endogenas) y la dinamica de la especificacion. Como
habamos mencionado al principio de esta seccion, la ED corresponde al analisis
de parametros de interes; ah mismo tambien senalamos que la exogeneidad fuerte
(EF) esta emparentada con la finalidad de elaborar pronosticos. Esto u ltimo, si lo
piensan con detenimiento, tiene relacion con otra discusion que ya llevamos a cabo
anteriormente: la G RANGER -C AUSALIDAD.
La causalidad en el sentido de Granger se refiere, a grandes trazos, a la capacidad
predictiva de una variable con respecto a otra. As, si lo que nos interesa es poder
predecir el comportamiento de una variable, yt , con base en otra mas, zt , no solo nos
interesara que la segunda sea debilmente exogena a todos los parametros de nuestra
especificacion (11.4) sino que ademas, la primera no cause en el sentido de Granger
a la segunda. De esta manera, podremos asegurarnos de varias cosas: en primera
instancia, con base en la ED, sabremos que la estimacion sera posible; si ademas
tenemos que la capacidad predictiva es unidireccional y solo va de z a y (Maddala
prefiere llamar a esto precedencia), entonces podremos utilizar nuestra estimacion
para hacer pronosticos sin preocuparnos de una retroalimentacioninexistenteal no
haber tomado en cuenta el modelo marginal (11.6). La definicion de exogeneidad
fuerte es la siguiente:
Definicion 19 Sean dos variables aleatorias yt y zt . La variable zt es fuertemente
exogena en el periodo de muestra T s:
1. zt es debilmente exogena a todos los parametros del modelo condicional,
2. yt no causa en el sentido de Granger a zt .
La mejor forma de entender este nuevo concepto es, otra vez, con un pequeno ejemplo que se ha simplificado para resaltar algunos puntos sin perder tiempo en cuestiones ajenas a la EF. Suponga los siguientes modelos, condicional as como marginal:
yt = b0 zt + b1 zt1 + b2 yt1 + v1t
zt = 21 yt1 + 22 zt1 + 2t

(11.7)
(11.8)

366

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

donde v1t iidN (0, 2 ), 2t iidN (0, 22 ). Recuerde que la exogeneidad nos
preocupa porque queremos ver si podemos usar solo el modelo condicional (11.7)
para satisfacer nuestros fines sin tomar en cuenta el modelo marginal (11.8). En
este caso, nuestros fines se traducen en predecir yt con base a la estimacion de la
especificacion (11.7). Pero esta vez la ED no basta; resulta obvio, por las ecuaciones, que la variable zt no puede ser tratada como fija en el ejercicio de predecir yt .
Nuestra variable zt se ve influenciada por el rezago yt1 . Esa relacion de la variable
debilmente exogena con el pasado de la endogena hace imposible hacer pronosticos de mas de un paso sin tomar en cuenta el modelo marginal (que es lo que no
queremos). Para poder hacer pronosticos de esa forma, necesitamos que 21 = 0.
As, podremos prescindir de (11.8). Mas importante aun, es esa condicion la que se
prueba con la Granger-Causalidad.
Super exogeneidad
El concepto de super exogeneidad (SE) es el que definiremos de manera mas coloquial. Como se senalo en un principio, la SE es requerida si la finalidad es hacer
analisis de poltica economica. Esto esta muy emparentado con la famosa Crtica de
Lucas. Para poder ahondar al respecto, empezaremos dando la definicion de la SE:
Definicion 20 Sean dos variables aleatorias yt y zt . La variable zt es super exogena
en el periodo de muestra T s:
1. zt es debilmente exogena a todos los parametros del modelo condicional,
2. Los parametros de la densidad condicional son invariantes ante cambios en
la densidad marginal de zt .
El concepto de invarianza puede ser explicado de la siguiente manera. Suponga que
las ecuaciones (11.7) y (11.8) corresponden al Producto Interno Bruto, P IB (yt ) y al
agregado monetario M0 (zt ). La Ecuacion marginal, (11.8) podra entonces corresponder a una regla de decision de las autoridades monetarias (es decir que el Banco
Central tomara la decision de fijar M0 con base en esa ecuacion), mientras que la
ecuacion condicional, (11.7), representara la reaccion de los agentes economicos
en materia de produccion ante cambios en el stock monetario. La Crtica de Lucas
sugiere que la estimacion de esta u ltima ecuacion bajo un cierto regimen monetario
no provee informacion valida respecto al comportamiento de los agentes ante otro
regimen. Aqu lo importante a decir es que, s M0 es SE, la Crtica de Lucas ya
no aplicara. Tecnicamente, recuerde que los parametros de la densidad condicional

11.2. EXOGENEIDAD

367

fueron denotados 1 y los de la densidad marginal, 2 . La invarianza exige que los


cambios en 2 dejen a 1 inalterada. El analisis de poltica publica justamente requiere con frecuencia cambios en la densidad marginal (que se interpretaran como
intervenciones). Si se desea estimar u nicamente el modelo condicional y realizar
analisis de poltica economica, es necesario que zt sea super exogena, de lo contrario, al cambiar la densidad marginal, fruto de la poltica economica, cambiara la
densidad condicional, por lo que nuestra estimacion dejara de ser valida y u til.
Es importante tener clara la diferencia entre EF y SE. Retomemos un momento el
ejemplo anterior. Conciba ahora la ecuacion (11.8) como una demanda de dinero,
donde yt y zt son, respectivamente, demanda de dinero y tasa de interes.
Considere a la ecuacion (11.7) como una funcion de reaccion de un Banco Central (en caso de que e ste tenga una). Ya para terminar, pongase en los zapatos del

Banco Central. Este


controla la funcion de reaccion. Bajo un escenario dado puede decidir su forma de tomar decisiones, por lo que podra alterar los parametros
de su funcion de reaccion. Basicamente, lo que necesita nuestro querido banquero
central es que los parametros de la demanda de dinero no se alteren ante cambios
en los parametros de la funcion de reaccion. Si ese es el caso, entonces el banquero
central puede simular su sistema (usando las dos ecuaciones y asumiendo que, en la
primera, el parametro de interes es debilmente exogeno) para observar los efectos
de dicho cambio de poltica. No esta haciendo prediccion en el mismo sentido que
lo hara una consultora. El Banco Central requiere la estabilidad parametrica de la
ecuacion condicional para conocer el impacto en un cambio de poltica. Podramos
estimar los cambios parametricos en la primera ecuacion mediante la incorporacion
de variables dicotomicas; posteriormente podramos probar esas mismas variables
dicotomicas en la ecuacion condicional para probar si los parametros de e sta se ven
afectados por los cambios en la ecuacion marginal. Si estas dummies no son significativas, entonces tendremos evidencia, para la muestra disponible, de la tan necesi
tada invarianza. Esta,
aunada a la exogeneidad debil, permitira pensar que tenemos
una variables super exogena y que por ende, podemos usar la primera ecuacion para
evaluar diversas polticas monetarias.
Concibamos un ejemplo en el que la SE no se da. Retomemos las ecuaciones (11.7)
y (11.8) como demanda de dinero y regla de desicion del Banco Central, respectivamente. Digamos que ese sistema es valido para la regla que uso el Banco, de 1521
a 1999. En el ano 2000 la cambia y la perversa naturaleza economica modifica el
sistema de la siguiente manera:

368

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

yt = b0 zt + b1 zt1 + 0 DUt zt + 1 DUt zt1 + b2 yt1 + v1t


bis
bis
yt1 + 22
zt1 + 2t
zt = 21

(11.9)
(11.10)

donde DUt = 0 si t < 1999 y DUt = 1 e.o.c. Debera resultarles obvio que, si
el Banco avaluo los efectos de su cambio de poltica basado en estimaciones del
modelo original, andara muy errado.
Note que no es posible asegurarnos que los parametros de la condicional seran siempre invariantes ante cambios en los parametros de la marginal. Solo podemos constatar que lo han sido en una muestra particular. Por lo mismo, la super exogeneidad permanecera siempre como una conjetura. Lo cierto es que, en tanto conjetura,
siempre estaremos en riesgo de que datos adicionales nos prueben lo contrario.
La relacion entre los tres tipos de exogeneidad puede ser representada de manera
muy elocuente con un diagrama de Venn como el que aparece en la figura (11.2).

Exogeneidad Dbil

Exogeneidad
Fuerte

Causalidad de
Granger

Super
Exogeneidad

Invarianza

Figura 11.2: Diagrama de Venn en exogeneidad

11.2. EXOGENEIDAD

369

Ejemplo 20 Los tres conceptos de exogeneidad pueden ser mejor entendidos por
medio de un ejemplo. Suponga que se quiere estimar una demanda de dinero. La
motivacion de esta estimacion puede variar segun el econometrista que lo haga y
donde trabaje:
1. Estudiante del curso de econometra II. La motivacion principal de e ste es el
caracter coercitivo del profesor que lo obliga a estimar la demanda. Es razonable asumir que dicho profesor solicitara la estimacion de la elasticidad de
la demanda de dinero con respecto a una variable, digamos la tasa de interes.
El estudiante debera preocuparse por obtener un estimador de e sta que sea
consistente, razon por la cual solo requiere que la variable tasa de interes
sea debilmente exogena al parametro de interes. El resultado que se presentara es un numero que represente lo mas fielmente posible la elasticidad en
cuestion.
2. Egresado de la carrera de economa que logro colocarse en una consultora
privada. En este caso, al recien egresadoy orgulloso empleado de una firma consultora con nombre en ingles y base en Polancole encargan hacer
pronosticos de la demanda de dinero, mismos que formaran parte de un proyecto que le venderan a alguna obscura dependencia publica o bien a un banco comercial por millones y millones de devaluados pesos. El recien egresado
no solo debe preocuparse por estimar correctamente la demanda de dinero
(es decir, no solo requiere exogeneidad debil), sino que ademas debe tener
cierta confianza en la capacidad predictiva de su estimacion. Para ello, debe asegurarse que solo necesita estimar la demanda de dinero (la ecuacion
condicional) y no tambien la ecuacion de la tasa de interes (por ejemplo).
Como ya se vio antes, a este brillante egresado solo le hara falta tomar sus
estimaciones del curso de econometra II y aplicar una prueba de GrangerCausalidad. Si no hay Granger-Causalidad de la tasa de la demanda de dinero a la tasa de interes, entonces podra usar su ecuacion para construir
pronosticos.
3. Egresado ya no tan joven que logro meterse al Banco de Mexico. A este brillante egresado, ya mas cuarenton y con algunas canas, ahora le han solicitado que evalue la posibilidad de cambiar las reglas de la subasta de CETES
que ha venido usando Banxico. Las autoridades maximas quieren ver el impacto de e stos cambios en la demanda de dinero. En ese sentido, nuestro viejo egresado conoce la manera en la que el Banco reacciona, por lo que solo
necesita saber, ademas de que la tasa de interes es debilmente exogena al


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

370

parametro de interes, si cambios en las reglas de tales subastas no alteraran


la manera en la que reaccionan los agentes en las subastas. Si eso es cierto,
podra usar toda la informacion disponible para presentarle a su jefe algunas
simulaciones que indiquen que pasara, confiado en que su estimacion de la
elasticidad seguira siendo valida ante tales cambios.
Probar la exogeneidad de una variable es posible; el problema es que se requiere,
intuitivamente, modelar la variable exogena, que es justamente lo que se quiere evitar (la idea es solo estimar la ecuacion condicional). No obstante, hacer las pruebas
es factible. Quiza la forma mas evidente de probar la exogeneidad debil radica en
DE E RROR (ECM, por sus siglas en ingles). Este
los modelos de C ORRECCI ON
tipo de modelos se estudia con detalle en cursos de series de tiempo y macroeconometra. No obstante, para efectos de este curso, daremos una muy suscinta explicacion de e stos. Desgraciadamente, para ello es necesario contemplar una cantidad no
despreciable de conceptos, especficamente estacionariedad y cointegracion.

11.3.

Mecanismo de Correccion de Error

Tanto el Mecanismo de Correccion de Error (MCE) como el Modelo de Correccion


de Error son conceptos anteriores al de cointegracion. Inicialmente concebidos por
Sargan (1964) [como una liga entre equilibrios estaticos en economa teorica y modelos dinamicos empricos] y extendidos posteriormente por Hendry y Anderson
(1977), Davidson, Hendry, Srba y Yeo (1978), Hendry y Mizon (1978) y Hendry,
Pagan y Sargan (1984), e stos precedieron la teora de la cointegracion [Granger
(1981), Granger y Weiss (1983) y Engle y Granger (1987)]. De hecho, los creadores de la cointegracion establecen, en los artculos antes mencionados, la relacion
teorica entre MCE y cointegracion. Cabe senalar que, en una entrevista, Clive Granger admitio haber discutido con David Hendry sobre la validez del MCE a finales de
los 70, principios de los 80. En esa discusion Granger afirmo que e l podra probar
que el concepto de MCE era erroneo; posteriormente, Granger no solo se dio cuenta
que el MCE era un mecanismo adecuado para modelar la dinamica de relaciones de
equilibrio, sino que ademas concibio la cointegracion, como una reinterpretacion
mucho mas rica del MCE.
Pese al evidente orden cronologico de todos estos temas, resulta mas intuitivo empezar por no estacionariedad y cointegracion y rematar con mecanismos de correccion
de error.

DE ERROR
11.3. MECANISMO DE CORRECCION

371

11.3.1. Estacionariedad y Ergodicidad


Esta primera subseccion tiene la intencion de enmarcar la teora que abordaremos
en lo sucesivo. Definiremos un conjunto de nociones fundamentales que nos acompanaran en el resto de este captulo: la nocion de serie de tiempo, la de proceso
aleatorio y la de estacionariedad. Note que todo lo anterior ya haba sido abordado en la primera parte del curso (vea la pagina 116). Quiza le conviene dar una
revisada.
Series de tiempo: Gran cantidad de variables son medidas a intervalos regularmente espaciados en el tiempo (segundo, minuto, hora, da, semana, quincena, mes, trimestre, ano,. . . ). Definamos pues un conjunto de observaciones
equiespaciadas en el tiempo de la siguiente manera:
Definicion 21 Se denomina Serie de tiempo/temporal/cronologica a una sucesion de observaciones equiespaciadas en el tiempo.
Con objeto de realizar un tratamiento estadstico sobre las series de tiempo,
les asociamos una estructura probabilstica. Suponemos entonces que dicha
serie temporal es proxima a las realizaciones de un fenomeno aleatorio obtenidas con base en un muestreo. De ah el apelativo proceso aleatorio. Lo
anterior puede comprenderse mejor graficamente:

Densidad

PROCESO
ALEATORIO

Tiempo
1
0.8
0.6
0.4
0.2
0

0.5

Figura 11.3: Proceso aleatorio

372

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
En cada instante t tenemos una variable aleatoria que sigue una distribucion
particular (en este caso, una normal). Se dispone de una sola realizacion de
la distribucion para cada tiempo. Las caractersticas anteriores pueden cristalizarse en dos supuestos fundamentales, estacionariedad y ergodicidad. En
teora de la probabilidad, un proceso estocastico, estacionario y ergodico implica, esencialmente, que (i) las propiedades de dicho proceso no cambiaran
con el tiempo y (ii) que e stas (las propiedades estadsticas), como pueden ser
su esperanza teorica y su varianza, pueden deducirse a partir de una u nica
observacion en cada periodo, si el numero de periodos observados es suficientemente grande. En palabras llanas, estos conceptos pueden explicarse de
la siguiente manera:
1. Estacionariedad es la propiedad de un proceso aleatorio que garantiza
que sus propiedades estadsticas, lease sus momentos, no cambian a lo
largo del tiempo. Hay muchas variedades de estacionariedad: de primer
orden, de segundo orden, de enesimo o rden, amplia, estricta. Nosotros
solo emplearemos dos de estas definiciones.
2. Un proceso que satisface un teorema de ergodicidad (es decir, un proceso ergodico) es tal que permite que el calculo emprico (o muestral) de
sus momentos, usando las observaciones, se aproxime asintoticamente a
su equivalente teorico. Es importante hacer notar que en series de tiempo solo recolectamos una observacion por periodo. Piense, por ejemplo
en el dato del PIB. Ese dato es una estimacion de la produccion hecha en
un pas. Por lo general, solo un instituto lo calcula. En un mundo ideal,
habra muchos institutos haciendo lo mismo y al final de cada trimestre
podramos promediar los distintos estimadores del PIB sabiendo que,
todos ellos estaran extrados de la misma distribucion (para ello hara
falta explicitar supuestos tecnicos que de momento omitimos). En la
practica, solo tenemos una por trimestre. Para promediar, solo podemos
hacerlo con observaciones que no se hicieron en los mismos periodos; es
la propiedad de la ergodicidad la que garantiza que al hacer eso nuestro
estimador sigue siendo adecuado.
A continuacion definiremos con mucha mas precision esos conceptos:
Estacionariedad: la estacionariedad es quiza una de las palabras mas frecuentemente empleada en econometra de series de tiempo. Es importante entender con claridad a que se refiere:

DE ERROR
11.3. MECANISMO DE CORRECCION

373

Definicion 22 Estacionariedad Estricta: un proceso {yt }


t= es estrictamente estacionario si, para cualesquiera j1 , j2 , . . . , jn , la distribucion conjunta de
(Yt , Yt+j1 , Yt+j2 , . . . , Yt+jn )
depende u nicamente de los intervalos que separan las fechas (j1 , j2 , . . . , jn )
y no de las fechas en s.
La estacionariedad estricta es un concepto demasiado exigente para fines
practicos. Requiere que todos los momentos del proceso sean independientes del tiempo. Es por ello que habremos de utilizar una version mas ligera,
que solo involucre a los dos primeros momentos:
Definicion 23 Estacionariedad Debil o en covarianzas: Sea {yt }
t= un
proceso aleatorio. Si ni su media ni sus autocovarianzas (t y jt j = 1, 2, ..)
dependen del instante t entonces el proceso es debilmente estacionario o bien
estacionario en covarianzas:
E (yt ) = para todo t
E (yt ) (ytj ) = j para todo t y cualquier j.
Podemos definir un tipo de estacionariedad aun mas comodo anadiendo normalidad:
Definicion 24 Un proceso estacionario Y se dice gaussiano si su densidad
conjunta, fyt ,yt+j1 ,...,yt+jN (yt , yt+j1 , ..., yt+jN ) es Normal, para todo J1 , J2 , ..., JN .
Cuando el proceso es normal se obtienen propiedades en extremo convenientes. La principal es que una distribucion normal solo requiere de los dos primeros momentos, media y varianza, para ser caracterizada enteramente. Ello
hace que si un proceso debilmente estacionario es gaussiano, entonces tambien es estrictamente estacionario.

374

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Si recuerda la grafica (2.14) no le resultara descabellado pensar que la riqueza en el


ano t, t = 1900, . . . , 2000 (aproximada con en el PIB per capita en PPC base 1970)
es una serie que lleva mucha inercia (es decir, su comportamiento presente depende
en gran medida de su comportamiento pasado); en otras palabras, la riqueza actual
depende en gran medidad de la riqueza de que se dispona en el perodo inmediato
anterior, Rt = F (Rt1 ). Claro esta, deberamos incluir en dicha funcion elementos
provistos por la teora economica: escolaridad, experiencia laboral, genero, etc. De
momento, nos despreocuparemos de ese conjunto de variables agregandolo vilmente en una variable Vt . Nuestra funcion queda as:
Rt = F (Rt1 , Vt )
Podemos una funcion mas explcita:
Rt = + Rt1 + Vt
Esto es lo que se llama una ecuacion en diferencia. Aprenderan a servirse de ellas
para fines econometricos en series de tiempo. Olvidando momentaneamente las
cuestiones probabilsticas, podemos tratar de resolver la ecuacion de forma recursiva, es decir, reemplazando Rt1 por la expresion correspondiente, segun la funcion
(asumimos que si la funcion es valida en t, tambien lo es en cualquier otro momento,
6= t).
Rt = + Rt1 + Vt
= + + Rt2 + Vt + Vt1
= + + + Rt3 + Vt + Vt1 + Vt2
..
.
Los detalles de esta resolucion los veran en un futuro no tan lejano, si acaso se
interesan por el analisis de series de tiempo. Por ahora basta decir que, asumiendo
que la serie tiene un principio, R0 , si seguimos reemplazando llegaremos hasta e l.
Y para eso, habremos tenido que hacer t reemplazos:

Rt = R0 + t +

t1
X
i=0

Vti

DE ERROR
11.3. MECANISMO DE CORRECCION

375

Las propiedades de la suma que aparece en el extremo derecho son complicadas y


por el momento nos conformaremos con tratarlo como si fueran innovaciones,21 con
E (Vt ) = 0. Note como el tiempo, denotado por la letra t, aparece explcitamente en
la expresion. Si tratamos de obtener su esperanza, pues el valor de t no esta sujeto a
cuestiones estocasticas, por lo que puede considerarse como determinista, lo mismo
ocurre con la riqueza inicial, que asumiremos como un dato conocido:

E (Rt ) = R0 + t +
E (Rt ) = R0 + t

t
X
i=1

E (Vti )
| {z }
=0

La esperanza de la serie, como se observa en la u ltima lnea, no es constante en


el tiempo, puesto que se modifica en funcion de e ste. Es decir, si t = 1980, la
esperanza de la riqueza sera R0 + 1980, mientras que si t = 2000, la esperanza
de la riqueza sera R0 + 2007. Lo anterior muestra que nuestra variable no respeta
lo establecido en la definicion de estacionariedad debil debil; no es, por tanto, una
variable estacionaria. Los detalles respecto a las consecuencias de este problema se
veran en Analisis de Series de Tiempo, pero es importante retener que si las series
con las que queremos trabajar tienen una naturaleza parecida a la que inventamos

N O S IRVE. El problema, as como


ahora, T ODA LA E CONOMETR I A C L ASICA
su solucion se presentan mas adelante. Lo importante, por el momento, es saber
que muchas series macroeconomicas no parecen ser estacionarias. Lo anterior se
afirma con base en una serie de artculos bastante considerable, siendo el original,
un trabajo de Nelson y Plosser (1982). Vale la pena mencionar que en la actualidad
se debate mucho la naturaleza estocastica/determinista del componente de tendencia
de las series macro. No obstante, existe un gran consenso en lo que respecta su no
estacionariedad.

11.3.2. Regresion Espuria


El fenomeno de la regresion espuria, puesto en relieve en econometra por Granger y Newbold (1974),22 tiene mucho que ver con la no estacionariedad (si bien
21

Este supuesto puede levantarse sin mucha pena, pero no tiene caso puesto que complicara la
exposicion.
22
Ventosa-Santaul`aria
(2009)
provee
una
revision
de
la
literatura
un
poco
mas
extendida.
El
artculo
puede
ser
descargado
en
http://www.hindawi.com/journals/jps/2009/802975.pdf.

376

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

no esta circunscrito a ello). Puesto que aun no tenemos los elementos para estudiarla teoricamente, de momento nos conformaremos con un pequeno experimento
de Monte Carlo. Dicho experimento solo tiene la finalidad de ilustrar el fenomeno,
aunque se hara de manera muy extendida, para que no queden dudas respecto al
alcance de este problema.23
Lo primero que necesitamos para ilustrar el fenomeno de regresion espuria es proveer una definicion formal de la misma. Usaremos una inspirada en el trabajo de
Granger, Hyung y Jeon (2001):24
Definicion 25 Una regresion espuria ocurre cuando se infiere evidencia de una relacion lineal entre dos variables independientes entre s pero con propiedades temporales fuertes (mucha persistencia o dependencia fuerte del pasado) con base
en los instrumentos basicos de Mnimos Cuadrados Ordinarios (R2 , Estadsticos t,
prueba conjunta de F,...).
Los procesos generadores de datos
Los procesos generadores de datos (DGP s, por sus siglas en ingles) que vamos a
usar para simular las series deben garantizarnos dos cosas:
1. que las series no esten relacionadas entre s,
2. que las series no sean estacionarias.
Usaremos el proceso no estacionario mas sencillo:
zt = zt1 + uzt ,
donde z = x, y. Asumiremos que el proceso empieza en z0 = 0 y que uzt
N (0, z2 ). As, podemos resolver la ecuacion de la siguiente manera:
zt =

t
X

uzi .

|i=1{z }
t

23

Esta seccion esta basada en la que aparece en el libro de Davidson y MacKinnon (2004): Econometric Theory and Methods.
24
Es importante senalar que este fenomeno ya haba sido identificado por Yule, en 1927, pero no
en el contexto de una regresion, sino de un coeficiente de correlacion.

DE ERROR
11.3. MECANISMO DE CORRECCION

377

El termino a la derecha de la ecuacion es el componente de tendencia estocastico,


mejor conocido como una raz unitaria o bien proceso integrado de orden uno, zt
I(1). Si calculamos la esperanza y la varianza de este proceso, obtendremos:

E(zt ) = E(

t
X

uzi )

i=1

= 0

V (zt ) = E
= t

z2 .

t
X
i=1

uzi

!2

As, este proceso no satisface la segunda condicion de la definicion de estacionariedad debil. Su varianza (un segundo momento) depende del tiempo.
Usaremos otro proceso tambien, el visto en el ejemplo de la riqueza; lo utilizaremos
utilizando una notacion mas estandar (se mantienen los supuestos antes explicitados):
wt = w + wt1 + uwt
= w t + w,t .
El simple hecho de incluir una constante en el DGP conlleva cambios importantes. Ahora el proceso no solo tiene una raz unitaria, sino que ademas incluye
una tendencia lineal determinista.25 Ademas, como se vio justamente en el ejemplo del principio de la seccion, ahora la esperanza del proceso ya no es constante:
E(wt ) = w t. En todo caso, ahora ya tenemos dos ejemplos de procesos no estacionarios. Note como, al aplicar la primera diferencia a esta serie (operador diferencia,
denotado ), recuperamos la estacionariedad. Si el proceso no tiene deriva:
(zt ) = zt zt1
= uzt
Si el proceso s tiene deriva
25

Dado que la constante en realidad es una tendencia determinista, suele ser denominada deriva
o drift en ingles.

378

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

(wt ) = w + uwt
Lo anterior es sorprendentemente simple e importante. Si un proceso requiere ser
diferenciado una vez para volverlo estacionario, se dice que es integrado de orden
uno; si se requiere diferenciar dos veces, entonces el proceso es I(2) y as sucesivamente. As, podemos aprovechar nuestra notacion para definir el comportamiento
tendencial de nuestras series:

zt I(1)
(zt ) = uzt
I(0)
wt I(1)
(wt ) = w + uwt
I(0)
Ya con dos procesos no estacionarios a la mano es posible ilustrar el fenomeno de
la regresion espuria. Para ello, lo mas conveniente es repoducir el experimento de
Monte Carlo presentado por Granger y Newbold en 1974.
Ejercicio 15 Ilustracion de la regresion espuria: en este ejercicio de programacion, debera generar artificialmente cuatro series no estacionarias e independientes entre s. Preferentemente, hagalo en matlab:
1. Defina el tamano de muestra, T = 250 (un tamano cercano al que se encuentra en la practica),
2
2
2
2. Defina las varianzas de nuestras cuatro variables, x1
= 1, x2
= 0.7, y1
=
2
1.2 y y2 = 4,

3. genere cuatro ruidos independientes, ux1t , ux2t , uy1t y uy2t , con esperanza
cero y varianza definida en el inciso anterior,
4. defina dos constantes, x = 0.04 y y = 0.07,
5. Construya la serie tiempo, tps = (1, 2, 3, . . . , T ) [use el comando cumsum],

DE ERROR
11.3. MECANISMO DE CORRECCION

379

6. Asuma que los valores iniciales de todas las series son igual a cero, x1,0 =
x2,0 = y1,0 = y2,0 = 0,
7. Construya las series no estacionarias, aplicando un operador de suma movil
a los ruidos; x1 y y1 no tienen deriva; las otras dos s [use el comando cumsum para la tendencia estocastica],
8. Grafique las dos series,
9. Estime las regresiones y1t = 1 + 1 x1t + u1t y y2t = 2 + 2 x2t + u2t . De
ambas regresiones almacene el estimador de delta, el estadstico t asociado,
la R2 y el estadstico DW (Durbin-Watson),
10. Repita 1, 000 veces los pasos anteriores (es decir, haga un experimento de
Monte Carlo) y genere los histogramas de todas las caractersticas de las
regresiones recopiladas en el inciso anterior.
El codigo debio haberle quedado parecido al siguiente:
%-----------------------------------------------% Regresi
on espuria
% Simulaci
on de procesos independientes
% Estimaci
on de regresiones
%-----------------------------------------------clear all
%-----------------------------------------------% Declaraci
on del tama
no de muestra, # de
% replicaciones, varianzas y constantes:
T=250; Sx1=1;
Sx2=sqrt(0.7);
R=1000; Sy1=sqrt(1.2); Sy2=2;
Mx=0.04;
My=0.07;
%-----------------------------------------------% Vectores de almacenamiento:
D1=zeros(R,1); D2=zeros(R,1);
tD1=zeros(R,1); tD2=zeros(R,1);
R21=zeros(R,1); R22=zeros(R,1);
DW1=zeros(R,1); DW2=zeros(R,1);
%------------------------------------------------

380

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

for j=1:R
% Generaci
on de ruidos y del "tiempo":
Ux1=randn(T,1)*Sx1;
Ux2=randn(T,1)*Sx2;
Uy1=randn(T,1)*Sy1;
Uy2=randn(T,1)*Sy2;
Cste=ones(T,1);
Tps=cumsum(Cste);
% Generaci
on de variables no estacionarias:
x1=cumsum(Ux1);
y1=cumsum(Uy1);
x2=Mx*Tps+cumsum(Ux1); y2=My*Tps+cumsum(Uy1);
% Estimaci
on de regresiones y almacenamiento:
REG1=ols(y1,[Cste,x1]);
REG2=ols(y2,[Cste,x2]);
% [necesita descargar la librer
a jpl para tener
% acceso al comando ols]
D1(j)=REG1.beta(2);
D2(j)=REG2.beta(2);
tD1(j)=REG1.tstat(2);
tD2(j)=REG2.tstat(2);
R21(j)=REG1.rsqr;
R22(j)=REG2.rsqr;
DW1(j)=REG1.dw;
DW2(j)=REG2.dw;
end
%-----------------------------------------------% Gr
afico de Series:
figure(1)
subplot(2,1,1)
plot(Tps,x1,Tps,y1)
subplot(2,1,2)
plot(Tps,x2,Tps,y2)
%-----------------------------------------------% Histogramas:
figure(2)
subplot(2,4,1)
hist(D1,20);title((a));
subplot(2,4,2)
hist(tD1,20);title((b));
subplot(2,4,3)
hist(R21,20);title((c));
subplot(2,4,4)

DE ERROR
11.3. MECANISMO DE CORRECCION

381

hist(DW1,20);title((d));
subplot(2,4,5)
hist(D2,20);title((e));
subplot(2,4,6)
hist(tD2,20);title((f));
subplot(2,4,7)
hist(R22,20);title((g));
subplot(2,4,8)
hist(DW2,20);title((h));
Si todo le salio bien, sus graficos deberan parecerse a estos:

x1,y1

(a)

(b)

15

160

10

140

120

100

80

10

60

15

40

20

20

25

100

200

0
5

(c)

(d)

200

(e)

300

250

250

200

150
200

150
100

150
100
100

50

50

50

0
50

50

0.5

0.2

0.4

tiempo

(abis)

(bbis)
160

140

20

140

120

120

15
x2,y2

(cbis)

25

120

80

60

100

200

40

50

20

20
0
5

60

40

40

5
10

100

60

100

80

80
5

(ebis)
140

150

100

100

10

(dbis)
200

0
50

20
0

50

100

0.5

0.2

0.4

tiempo

Figura 11.4: Regresion espuria. (a) series no estacionarias independientes; (b) estimador de ; (c) estadstico t asociado a delta; (d) R2 ; (e) estadstico Durbin-Watson.
Superndice bis indica que las variables tienen deriva
La razon por la que tambien se incluyo el estadstico Durbin-Watson el ejercicio de
Monte Carlo es muy sencilla. Existe una regla de dedo (quiza podramos llamarla
una regla heurstica) para determinar de manera preliminar la posibilidad de que
la inferencia extrada de una regresion sea espuria. Como se vio anteriormente,
el estadstico DW se usa formalmente para identificar autocorrelacion de primer
orden. Las simulaciones de Granger y Newbold y, posteriormente, los resultados
teoricos de Phillips (1987) permiten saber que la bondad del ajuste en una regresion

382

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

espuria, medida por la R2 , no se colapsa, sino que se distribuye entre cero y uno
(en el caso de races unitarias sin deriva) o bien tiende a uno (cuando las races
unitarias tienen deriva). Tambien esta bien establecido que el estadstico DW e se
s, se colapsa (tiende a cero). La regla heurstica es, concretamente, la siguiente:
C UANDO LA BONDAD DEL AJUSTE ES MAYOR AL ESTAD I STICO DW , R2 >
SEA ESPURIA .
DW , CONSIDERE LA POSIBILIDAD DE QUE SU REGRESI ON
Debe quedar claro que esta regla, aunque sencilla y practica, dista mucho de ser infalible. Tan solo u sela como indicativo de que quiza no este lidiando correctamente
con el supuesto de estacionariedad de las series.
Un problema de especificacion?
Davidson y MacKinnon argumentan que el principal efecto de la regresion espuria
(rechazo de la hipotesis nula de los estadsticos t individuales) se debe, al menos en
parte, a un problema de especificacion. Para entender dicho argumento, considere
dos variables independientes entre s gobernadas por races unitarias sin deriva:
yt = yt1 + uyt
xt = xt1 + uxt
Suponga ahora que busca relacionarlas, linealmente, mediante una regresion estimada con MCO:
yt = xt + ut
La fuerza del argumento de Davidson y MacKinnon estriba en lo siguiente: la
hipotesis nula del estadstico t asociado a es que este u ltimo es igual a cero,
lo cual es cierto, puesto que las series son independientes. No obstante, si usted impone en la regresion el que = 0, se queda con una expresion notoriamente alejada
del verdadero proceso generador de y:
y t = ut
Segun esta u ltima ecuacion, yt se comporta como un proceso estacionario I(0).
Eso, huelga decir, no es cierto. Davidson y MacKinnon sugieren que la correcta
especificacion del modelo sera mas bien:

DE ERROR
11.3. MECANISMO DE CORRECCION

383

yt = xt + yt1 + ut
Note que, al imponer la restriccion = 0, nos queda una especificacion correcta de
la variable dependiente, yt = yt1 +ut , especialmente si = 1. Lo anterior implica
que la regresion espuria puede verse, efectivamente como un problema de especificacion. No obstante, el fenomeno de la regresion trasciende la especificacion. Hay
un problema especfico con el hecho de trabajar con variables no estacionarias. Si
solo se tratara de un problema de especificacion, entonces deberamos poder observar que, para el caso de dos series independientes, el estadstico t asociado a en
la u ltima regresion solo debera rechazarse un 5 % (si usamos un nivel de 5 %, claro esta). Eso desgraciadamente no ocurre. Para verlo, basta con repetir el ejercicio
anterior.
Ejercicio 16 Ilustracion de la regresion espuria, segunda parte: en este ejercicio
de programacion, debera generar artificialmente dos series no estacionarias e independientes entre s:
1. Defina las varianzas de nuestras dos variables, x2 = 1 y y2 = 1.2,
2. genere dos ruidos independientes, uxt y uyt , con esperanza cero y varianza
definida en el inciso anterior,
3. Asuma que los valores iniciales de todas las series son igual a cero, x0 =
y0 = 0,
4. Construya las series no estacionarias, aplicando un operador de suma movil
a los ruidos,
5. estime la regresion yt = xt + yt1 + ut . Almacene el estadstico asociado
a ,
6. Repita 1, 000 veces los pasos anteriores para distintos tamanos de muestra,
T = 25, 40, 100, 200, 500, 1000 y grafique la tasa de rechazo de la hipotesis
nula (usando un valor crtico igual a 5 %)
si usted ejecuto correctamente el ejercicio, debio obtener un grafico similar a esto:26
26

En realidad, siguiendo las instrucciones antes marcadas difcilmente llegara al mismo grafico.
Si realmente quiere obtenerlo, aumente el numero de tamanos de muestra (en incrementos de 5
observaciones desde 20 hasta 750) y, sobre todo, aumente el numero de replicaciones a 1, 000, 000.


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

384

0.50
0.45

Nivel de la prueba (tasa de rechazo)

0.40
0.35

Nivel, regresin yt=b xt+d yt1+ut, +/ 16%

0.30
0.25

Nivel nominal (esperado), 5%


0.20
0.15
0.10
0.05
0.00

100

200

300

400
Tamao de muestra

500

600

700

Figura 11.5: Regresion espuria usando la especificacion correcta. Note que el nivel
no es el 5 % esperado, aun tomando en cuenta la raz unitaria en yt .

En todo caso, es evidente que la prueba, usando un nivel nominal de 5 % arroja un


verdadero nivel mas cercano a 15-17 %... Esta severa distorcion, aunque menor a la
anterior, es aun suficiente como para dudar de la inferencia estadstica en presencia
de series no estacionarias.

11.3.3. Prueba de Raz Unitaria


Ahora que ha quedado claro que las variables no estacionarias distorcionan severamente las propiedades de las pruebas estandar en la regresion, es importante conocer
los instrumentos para:
1. detectar la no estacionariedad,
2. hacer inferencia robusta en presencia de series no estacionarias.
La prueba Dickey-Fuller
En esta seccion abordaremos el primer punto. Existen varias pruebas para identificar
series no estacionarias. La mas importante, por su impacto en la literatura y tambien
por el hecho de seguir vigente en las aplicaciones, es, sin lugar a dudas, la prueba

DE ERROR
11.3. MECANISMO DE CORRECCION

385

Dickey-Fuller. Esa prueba esta disenada para identificar procesos con raz unitaria.
La idea de base es muy sencilla. Suponga que tiene el siguiente proceso:
yt = yt1 + uyt
Por lo visto en la seccion anterior, recordara que el proceso es estable/estacionario
si | |< 0, mientras que si = 1, el proceso tiene una raz unitaria. La manera mas
intuitiva de salir del paso es corriendo una regresion identica a la especificacion y
haciendo una prueba sobre el parametro :
t =

Lo podramos hacer aun mas facil; si manipulamos la expresion restandole a la


expresion y1 de ambos lados, obtenemos:
yt = ( 1) yt1 + uyt
| {z }
def

As, el estadstico t asociado a tendra las mismas hipotesis nula y alternativa de


siempre:
1. H0 : = 0. Ello implica que = 1 y que hay una raz unitaria,
2. Ha : < 0. Ello implica que < 1 y que el proceso es estacionario.
Lo primero que debe tomar en cuenta es que la prueba es de una sola cola. Si
nos concentramos primero en la hipotesis alternativa, entonces el proceso es estacionario. En ese caso, todos los supuestos necesarios para que la regresion arroje
inferencia valida se cumplen, por lo uno podra esperar que la prueba funcione: si el
proceso es estacionario, el estadstico t asociado al estimador de sera negativo y
lo suficientemente grande (en valor absoluto) como para poder rechazar la hipotesis
nula. El problema radica en el comportamiento de cuando el proceso realmente
tiene una raz unitaria (ahora estamos bajo H0 ). Habiendo visto lo que pasa con la
regresion propuesta por Davidson y MacKinnon, debera quedar claro que, bajo la
hipotesis nula, el estadstico t no tiene un comportamiento estandar (en este caso,
no se distribuye como una N (0, 1)). Eso se puede ilustrar facilmente mediante un
experimento de Monte Carlo:

386

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Ejercicio 17 Distribucion de la prueba Dickey-Fuller: en este ejercicio de programacion, debera generar artificialmente una serie no estacionaria, aplicarle la
prueba de Dickey-Fuller, repetir el experimento 500 veces, obtener la distribucion
del estadsto t y compararlo con una normal estandar:
1. Defina la varianza de nuestra variables, y2 = 1 y el tamano de muestra,
T = 1, 000,
2. genere un ruido iid normal, uyt , con esperanza cero y varianza definida en el
inciso anterior,
3. Asuma que los valores iniciales de la serie son igual a cero, y0 = 0,
4. Construya la series no estacionaria, aplicando un operador de suma movil
al ruido,
5. Aplique la prueba DF y almacene el estadstico t asociado a ,
6. Repita 500 veces los pasos anteriores y obtenga el histograma del estadstico
t,
7. calcule el percentil 5 % de la distribucion de DF,
8. Superponga la distribucion normal estandar,
9. Compare.
Note como la cola izquierda de la distribucion (que es la que nos interesa) es distinta
a la de la normal estandar; esta mas a la izquierda y es mas pesada. Lo anterior
queda confirmado con el valor del percentil 5 % Por esa sencilla razon, no es posible
usar los valores crticos de siempre. Afortunadamente, Dickey y Fuller calcularon
dichos valores crticos y los tabularon. Hoy en da, todos los paquetes econometricos
los tienen incorporados entre sus opciones.
El codigo que genera lo anterior es:
%-----------------------------------------% Prueba de Dickey-Fuller, distribuci
on
%------------------------------------------clear all

DE ERROR
11.3. MECANISMO DE CORRECCION

387

0.50
0.45

Funcin de Densidad de Probabilidad

0.40
0.35

N(0,1)

0.30
0.25
0.20
0.15
0.10
0.05

Figura 11.6: Distribucion de la prueba Dickey-Fuller y comparacion con la Distribucion normal estandar.

% Declaraci
on del tama
no de muestra, # de
% replicaciones, varianzas y constantes:
T=1000; Sy=1;
R=10000;
% Vectores de almacenamiento:
tic;
tB=zeros(R,1);
for j=1:R
% Generaci
on de ruidos.
Uy=randn(T,1)*Sy;
% Generaci
on de variables no estacionarias:
y=cumsum(Uy);
on de regresiones y almacenamiento:
% Estimaci
y1=y(1:T-1);
dy=y(2:T)-y(1:T-1);
REG=ols(dy,y1);
tB(j)=REG.tstat;
end
toc;
% Distribuci
on de la prueba:

388

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

tBs=sort(tB);
SN=normpdf(tBs);
[DF,DFa]=hist(tB);
DFo=DF/R;
clf;
bar(DFa,DFo);hold on;plot(tBs,SN);hold off;
% Valores cr
ticos:
CincoPC_1=quantile(tB,0.05,1);
CincoPC_2=norminv(0.05,0,1);
Ahora bien, la prueba DF tiene varias sutilezas (mas correcto sera decir que adolece de ciertas limitaciones). La primera y mas obvia radica en la especificacion de la
regresion auxiliar. Imagine que en vez de tener races unitarias sin deriva, tenemos
races unitarias con deriva, en ese caso, la especificacion de la prueba debera ser
distinta. Si estamos bajo la hipotesis nula, el proceso que genera a la variable es:
yt = y + yt1 + uyt
Si le restamos yt1 a la expresion de ambos lados, obtenemos:
yt = y + uyt
Note como, para tomar en cuenta la famosa deriva, debemos incluir una constante
en la especificacion de la regresion:

yt = + yt1 + ut
Considere ahora el siguiente proceso generador de datos:

yt = y + yt1 + y t + uyt

(11.11)

Si resuelve la ecuacion, se encontrara con una sorpresa.


Ejercicio 18 Retome el PGD presentado en la ecuacion (11.11) y resuelvala. Demuestre que surge un componente determinista de tendencia cuadratica.

DE ERROR
11.3. MECANISMO DE CORRECCION

389

Los valores crticos del estadstico t asociado a varan en funcion de los elementos
deterministas que incluya en la regresion auxiliar.
Existe ademas otro problema. La prueba DF es sensible a las propiedades del
termino de error del PGD. En concreto, la prueba no sirve bien si dicho termino
no es independiente. Afortunadamente, es posible extender la regresion auxiliar para corregir esa sensibilidad; basta con poner rezagos de la variable dependiente:

yt = + yt1 + t +

k
X

yti + ut

i=1

Subsiste ahora el problema de determinar cuantos rezagos incluir. Afortunadamente, para ello tambien hay solucion. Todo esto se vera en la siguiente subseccion.
Procedimiento muestral
En la practica no solo no conocemos si el proceso es estacionario, sino que tambien
ignoramos si existen terminos deterministas relevantes as como el orden de un
eventual proceso AR(p) que gobierna al termino de error. Existen por ello una serie
de recomendaciones para obtener la especificacion correcta de la regresion auxiliar
DF:
1. Inicie con la regresion DF que incluye constante y tendencia determinista.
2. A esta u ltima, ana dale una buena cantidad de rezagos de la variable dependiente para controlar por autocorrelacion; una formula ad hoc de escoger el
numero maximo de rezagos es:
" 
 41 #
T
Lmax = 12
100
3. Antes de decidir sobre la raz unitaria y los terminos deterministas, debe reducir el numero de rezagos hasta llegar a una cantidad o ptima:
Use el criterio de Akaike (obtenga un mnimo)
Paralelamente, use la significancia estadstica de los parametros asociados a dichos rezagos

390

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Verifique, mediante el correlograma y el estadstico Ljung-Box que los
rezagos supervivientes realmente eliminan la evidencia de autocorrelacion
El criterio que prima sobre los demas es el de Akaike.

4. Habiendo ya definido el numero de rezagos, compruebe si hay evidencia de


raz unitaria:
Si no hay raz unitaria, verifique la significancia de los componentes deterministas. Dado que la serie es, en principio, estacionaria, los valores
crticos de la normal estandar son adecuados para esta tarea.
a) Si los parametros son significativos, entonces ha terminado.
b) Si la tendencia no es significativa, vuelva a aplicar la prueba sin
e sta (siga los pasos desde el principio). Si al hacerlo cambia la conclusion respecto a la raz unitaria (es decir, si ahora s la acepta),
entonces regrese a la regresion auxiliar con tendencia.
c) Si la constante no es significativa, siga los mismos pasos que en los
incisos anteriores.
Si s hay raz unitaria, verifique, en primera instancia, la significancia
de la tendencia determinista (recuerde que en este caso, dicha tendencia
en realidad es cuadratica y no hace mucho sentido). Los valores crticos
de la normal estandar ya no son validos. Use los que aparecen abajo de
estas instrucciones.
Si la tendencia no es significativa, elimnela de la regresion auxiliar
y vuelva a correr la prueba.
a) Si la evidencia de Raz Unitaria cambio (es decir, ahora no hay),
entonces retome la especificacion anterior.
b) Si la evidencia de Raiz Unitaria no cambio, ahora verifique la
constante. Siga los mismos pasos que con la tendencia.
Valores crticos para los componentes deterministas en la Dickey-Fuller
:
En esta seccion damos los valores crticos de los elementos deterministas para evaluar la significancia estadstica de los mismos en la regresion auxiliar de la prueba
Dickey-Fuller cuando la prueba arroja evidencia de Raz Unitaria:

DE ERROR
11.3. MECANISMO DE CORRECCION
DF
(1)

10 %
2.83

5%
3.16

391
1%
3.80

Cuadro 11.1: Valores Crticos asintoticos para el estadstico t de la constante y de la


tendencia cuando se incluye tendencia y constante en la regresion auxiliar.
DF
(2)

10 %
2.52

5%
2.82

1%
3.42

Cuadro 11.2: Valores Crticos asintoticos para el estadstico t de la constante cuando


se incluye solo constante en la regresion auxiliar.

Para terminar, mostramos un diagrama que creemos hara mas facil el empleo de
la prueba Dickey-Fuller. En dicho diagrama se hace abstraccion de la seleccion de
rezagos para controlar por autocorrelacion. Ello se hace para que el diagrama no
quede demasiado recargado. No obstante, no debe olvidar que cada vez que estime
una regresion auxiliar de Dickey-Fuller, debe incluir el numero adecuado de tales
rezagos.

11.3.4. Cointegracion
El concepto de Cointegracion es, en realidad, sumamente sencillo e intuitivo. Cuando estudiamos la regresion espuria, establecimos que e sta se da cuando las variables
no son estacionarias; si lo piensa con detenimiento, se dara cuenta que cada variable, xt y yt tiene un componente de tendencia estocastica independiente del de la
otra. La cointegracion es un caso especial en que las series siguen siendo no estacionarias, pero, a diferencia del caso espurio, comparten en componente de tendencia
estocastico. La primera relacion cointegrada que vera es la siguiente:

yt = y + y xt + uyt
xt = xt1 + uxt
t
X
=
uxt ,
i=1

(11.12)

(11.13)


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

392

Raz Unitaria

Inicio: Estimar Prueba ADF incluyendo constante y Tendencia;


evaluar con base en sta si hay evidencia de raz unitaria o no

Verifique Significancia de la Tendencia Significativa


(valores crticos no estndar)
No
Significativa

Significativa Verifique Significancia de la Tendencia


(valores crticos estndar)

Raz unitaria con tendencia


cuadr. y lineal

Sin Raz Unitaria*

Verifique Significancia de la Constante


(valores crticos no estndar)
No
Significativa

Raz unitaria sin


deriva

Raz Unitaria*

Sin
Raz Unitaria
Significativa

Significativa

Verifique Significancia de la Constante


(valores crticos estndar)
Proceso estacionario

Raz unitaria con


deriva

Estimar Prueba ADF sencilla; evaluar con base en


sta si hay evidencia de raz unitaria o no
Raz Unitaria

Proceso estacionario
en tendencia.

No
Significativa

Estimar Prueba ADF incluyendo constante; evaluar


con base en sta si hay evidencia de raz unitaria o no

Estimar Prueba ADF incluyendo constante; evaluar


con base en sta si hay evidencia de raz unitaria o no
Raz Unitaria

Sin Raz Unitaria

Raz Unitaria*
Sin Raz Unitaria*

No
Significativa

Estimar Prueba ADF sencilla; evaluar con base


en sta si hay evidencia de raz unitaria o no
Sin Raz Unitaria

Proceso estacionario
de media cero

* : Note como, cada vez que al quitar un regresor cambia la decisin respecto a la Raz Unitaria, se retoma la especificacin
anterior.

Figura 11.7: Modo de empleo sugerido de la DF

donde uz I(0) para z = x, y. Con base en lo explicitado en los apartados anteriores, es facil saber que xt I(1). Que podra decirse de la otra variable, yt ? Sera,
como siempre, cuestion de desarrollar un poco su ecuacion:

DE ERROR
11.3. MECANISMO DE CORRECCION

393

yt = y + y xt + uyt
= y + y (xt1 + uxt ) + uyt
t
X
= y + y
uxt + uyt .
i=1

Con base en el desarrollo anterior, resulta ahora facil tambien darse cuenta que
yt I(1). La peculiaridad dePeste caso es que la fuente de no estacionariedad de
ambas variables es la P
misma, ti=1 uxt . Es como si las dos fueran remolcadas en el
tiempo por el mismo ti=1 uxt . Observe el comportamiento de tales variables en la
simulacion del grafico (11.8), panel b y comparelo con el que tienen dos variables
no estacionarias independientes, en el mismo grafico, panel b.

Ahora bien, el concepto original de cointegracion, formulado por Granger (1980)


y Engle y Granger (1987), interpreta las ecuaciones (11.12) y (11.13) de una manera sutilmente diferente. Habra notado que especificamos con harta claridad que
las innovaciones de la primera ecuacion, uyt , era estacionarias, I(0). Bueno, pues
reacomodemos un poco los terminos de esa ecuacion:

yt y y xt = uyt
I(1) y y I(1) = I(0)
Dicho acomodo puede resultar trivial a primera vista, pero observelo con mas detenimiento. Del lado derecho de la ecuacion aparece una combinacion lineal de dos
variables I(1) que arroja un proceso I(0). En otras palabras, la cointegracion, segun
Granger, estriba en una combinacion lineal particular de variables no estacionarias
que tiene como resultado, una variable con un orden de integracion menor, en este
caso, estacionario. La definicion formal de Granger es la siguiente:
Definicion 26 Los componentes del vector wt = (yt , xt ) se dicen cointegrados de
orden d, b, denotado wt CI(d, b), si:
1. Todos los componentes del vector wt estan integrados del mismo orden d,


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

394

(a)

(b)

10

15

10
5

0
yt

yt

0
5

5
10

10

15

15

20
10

10

15

20

20
10

25

xt
(c)

20

25

10
Resid. espurios/cointegrados

y coint.
t

20
xt, yt y y2,t

15

(d)

30

10
0
10
y indep.
20
0

10

xt

50

100

150

Tiempo

200

250

5
0
5
10
u coint.

u espurio

15
0

50

100

150

200

250

Tiempo

Figura 11.8: Variables cointegradas y Espurias: (a) Diagrama de dispersion entre


dos variables independientes; (b) Diagrama de dispersion entre dos variables cointegradas; (c) Variables cointegradas y espurias; (d) residuales cointegrados y espurios
2. Existe un vector B = (y , y ) tal que la combinacion lineal Bwt resulte ser
integrada de orden (d b), donde b > 0. Dicho vector se denomina V ECTOR
C OINTEGRANTE.

DE ERROR
11.3. MECANISMO DE CORRECCION

395

Para ilustrar todo lo anterior, se generaron tres variables: xt I(1), ytIndep I(1)
y ytCoint I(1), de tal suerte que, en particular, ytCoint , xt CI(1, 1). Posteriormente es estimaron dos ecuaciones, ytCoint = 1 + 1 xt + uC,t y ytIndep =
2 + 2 xt + uI,t . Note que la segunda especificacion es tpicamente espuria; la
primera es cointegrada. Finalmente, se recuperaron los residuales de ambas regresiones. Puede observar su evolucion en el tiempo en el grafico (11.8), paneles c y d.
N OTA USTED ALGUNA DIFERENCIA SIGNIFICATIVA ?
Si es usted observador, habra notado que los residuales de la regresion espuria tienen
un comportamiento ridculamente parecido al de una raz unitaria, es decir, al de un
proceso I(1). Eso, no esta usted para saberlo ni yo para contarlo, pero hace mucho
sentido. Una combinacion lineal cualquiera de variables I(1) arrojara residuales que
tambien seran I(1). La u nica combinacion lineal que arroja residuales integrados
de orden cero es la que ofrece el famoso vector cointegrante! Lo anterior da pie a

una prueba de cointegracion muy sencilla. Esta


consiste en aplicarle una prueba de
raz unitaria, como la Dickey-Fuller que vimos anteriormente, a los residuales de la
regresion. Si dicha prueba encuentra evidencia de estacionariedad en los residuales,
usted tendra ante s una regresion cointegrada.
Ahora bien, existen algunas sutiles diferencias entre esta prueba de raz aplicada a
los residuales estimados y una prueba de raz aplicada a una serie observada cualquiera:
1. La primera diferencia importante reside en el hecho de que usted esta aplicando la prueba a una serie que no es observada, si no estimada. Ello, implica
que la prueba se puede equivocar por razones adicionales. El error puede provenir no de la prueba en s, si no de diferencias debidas a que los residuales
estimados no son identicos a las innovaciones. La distribucion de la prueba de
raz unitaria, por lo mismo, no es igual. Es necesario obtener nuevos valores
crticos para llevarla a cabo.
2. Cuando vimos la prueba Dickey-Fuller, pusimos el e nfasis en la seleccion de
componentes de tendencia deterministas. Dicha problematica no debe presentarse en una prueba de raz sobre los residuales, pues e stos deberan estar centrados en cero y no debera haber ningun elemento de tendencia determinista.
As, la prueba de raz unitaria se suele hacer u nicamente con la especificacion
mas sencilla de Dickey-Fuller, es decir, sin constante ni tendencia.
Todas estas diferencias hacen que el nombre de la prueba ya no sea Dickey-Fuller;
a la prueba de raz unitaria sobre residuales se le conoce como prueba Engle y
Granger, en honor a sus proponentes.

396

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Ejercicio 19 Simule tres variables integradas de orden uno: una variable xt


I(1) con o sin deriva, como prefiera; dos variables yti para i = Coint, Indep. Una
de ellas debe estar cointegrada con xt mientras que la otra debe ser independiente.
Estime dos regresiones, una entre variables cointegradas, la otra entre variables
independientes. Recupere los residuales y aplqueles la prueba Engle y Granger.
Realice las operaciones anteriores 1, 000 veces (es decir, ejecute un experimento de
Monte Carlo). Compare la distribucion simulada del estadstico de prueba Engle y
Granger con la distribucion de la prueba Dickey-Fuller mostrada anteriormente en
el curso. Es importante destacar que la comparacion es mucho mas ilustrativa si,
en vez de comparar histogramas, compara percentiles.
Los valores crticos de la prueba Engle-Granger son, por las razones antes expuestas, distintos. El siguiente cuadro, reproducido del libro de Walter Enders, pagina
441
T
50
100
200
500
50
100
200
500

1%
Dos Variables
-4.123
-4.008
-3.954
-3.921
Cuatro Variables
-5.017
-4.827
-4.737
-4.684

5%

10 %

1%

-3.461
-3.398
-3.368
-3.350

-3.130
-3.087
-3.067
-3.054

-4.592
-4.441
-4.368
-4.326

-4.324
-4.210
-4.154
-4.122

-3.979
-3.895
-3.853
-3.828

-5.416
-5.184
-5.070
-5.003

5%
Tres Variables
-3.915
-3.828
-3.785
-3.760
Cinco Variables
-4.700
-4.557
-4.487
-4.446

10 %
-3.578
-3.514
-3.483
-3.464
-4.348
-4.240
-4.186
-4.154

Cuadro 11.3: Valores Crticos de la prueba Engle-Granger (fuente: Enders, 2004).

11.3.5. Mecanismo de Correccion de Error


Como bien vimos en la seccion anterior, doso masvariables cointegradas basicamente comparten el componente de tendencia estocastica. Ello redunda en una
relacion de equilibrio de largo plazo entre tales variables. Si observa nuevamente la
figura (11.9) seguramente notara que dos series cointegradas se mueven de forma
sincronizada a traves del tiempo. No obstante, en esa misma figura debera usted notar tambien que, en periodos de muy corto plazo, las variables pueden tener reaccio-

DE ERROR
11.3. MECANISMO DE CORRECCION

397

nes que las alejan de dicha relacion de equilibrio de largo plazo. Tales alejamientos
se deben a las innovaciones en el sistema (los choques).

100

200Cointegradas
300
400
Series

500

100 Series200Independientes
300
400

500

Figura 11.9: Series cointegradas e independientes

As pues, las innovaciones tienden a degradar la sincrona entre las variables cointegradas; la idea del MCE es que debe existir en la relacion un mecanismo que permita corregir las desviaciones de corto plazo de la relacion de equilibrio. La figura
(11.10) refleja correctamente lo dicho hasta ahora. Note como las variables xt y yt
tienen un comportamiento sincronizado a lo largo de toda la muestra (T = 500). Es
cierto que la variable dependiente (azul) tiende a ser mas volatil que la explicativa
(verde), pero la tendencia de largo plazo es la misma. Por otra parte, cuando nos
acercamos (panel b) y solo tenemos en cuenta 50 observaciones, resulta evidente
que los choques de corto plazo alejan ambas variables de su relacion de equilibrio.
Esto se manifiesta en las innovaciones (rojo); dichas innovaciones son concebidas,
en este marco conceptual, como desequilibrantes.

Las matematicas necesarias para establecer un MCE no han sido expuestas en este
manual puesto que quedan fuera del material adecuado. Si bien no resultan especialmente complejas, s requieren una presentacion mas detallada que no tiene cabida


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

398

(a)
80

Valor

60
40
20
0
0

50

100

150

200

250

300

350

400

450

500

Observacin
(b)
80
60
40
20
0
100 110 120 130 140 150

Figura 11.10: Variables cointegradas e innovaciones (xt en verde; yt en azul y; uyt


en rojo): Panel (a) simulacion (T = 500)de un proceso cointegrado. Panel (b) Acercamiento (solo 50 observaciones)
en el manual.27 No obstante lo anterior, partiremos de la siguiente base: las condiciones que aseguran que un sistema de dos o mas variables esta cointegrado son
exactamente las mismas que garantizan que dichas variables pueden representarse
en un MCE. Este valioso resultado lo obtuvo Granger en 1987:
Teorema 19 Representacion de Granger: Para un conjunto cualquiera de variables integradas de orden uno, I(1), el modelo de Correccion de Error y el modelo
de cointegracion son representaciones equivalentes.
27

Para ello, se recomienda ampliamente utilizar un manual de econometra de series de tiempo.

DE ERROR
11.3. MECANISMO DE CORRECCION

399

La manera mas sencilla de presentar el MCE es mediante un ejemplo:


Ejemplo 21 Suponga que estamos interesados en la relacion entre impuestos e ingreso:
t = + yt + ut ,
donde t representa la recaudacion de un cierto impuesto y y el ingreso, ambos del
periodo t = 1, 2, . . . , T . Finalmente, suponga que estudia las variables y estima la
relacion (por MCO) y obtiene lo siguiente:
1. t I(1) y yt I(1),
2.
> 0 y > 0,
3. ut I(0).
En otras palabras, las dos series son integradas de orden uno, existe una combinacion lineal entre ellas que resulta ser integrada de orden cero (cointegran) y
los parametros son todos positivos. El obtener evidencia de cointegracion permite confiar en que la regresion representa la ecuacion de equilibrio de largo plazo.
Ello implica que impuestos e ingreso mantienen un vnculo fortsimo. Dicho vnculo
queda reflejado en la recta de regresion; las desviaciones de dicha recta (denotadas
errores o innovaciones) solo nos alejan momentaneamente de la relacion de equilibrio, pero rapidamente algo se encargara de regresarnos a la recta. Ese algo es el
mecanismo de correccion de error.
Si las variables en niveles, t y yt , son I(1), la primera diferencia de las mismas
debera ser I(0): (t ) I(0) y (yt ) I(0). Eso ya lo sabamos, pero ahora
conviene estudiar desde otra perspectiva a la primera diferencia. Dicha diferencia,
(t ) = t t1 por ejemplo, representa el cambio en los impuestos del periodo
t 1 al t. Si efectivamente existe una relacion de equilibrio de largo plazo entre
variables, entonces el cambio debera estar direccionado, al menos parcialmente,
a la correccion del desequilibrio en el periodo pasado, ut :
1. Suponga que el desequilibrio en t 1 es ut1 > 0. Ello implica que t1 >
+ yt1 . Solo hay dos formas de empezar a corregir dicho desequilibrio
(recuerde que > 0): disminuimos los impuestos (t < 0) o aumentamos
el ingreso (yt > 0). As, el mecanismo de correccion de error debera tener signo negativo para el ajuste via impuestos y positivo para el ajuste via
ingreso.

400

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

2. Suponga que el desequilibrio en t 1 es ut1 < 0. Ello implica que t1 <


+ yt1 . Nuevamente, solo hay dos formas de empezar a corregir dicho
desequilibrio (recuerde otra vez que > 0): aumentamos los impuestos
(t > 0) o disminuimos el ingreso (yt < 0). Note como el mecanismo
de correccion de error debera tener el mismo signo que en el caso anteior:
negativo para el ajuste via impuestos y positivo para el ajuste via ingreso.
Al MCE lo representa el error. La version mas sencilla del primero esta en funcion u nicamente del segundo. Note que hay dos ecuaciones, una por cada variable
cointegrada:
t = ut1 + ,t
yt = y ut1 + y,t
Lo anterior corresponde a las ecuaciones de corto plazo (las ecuaciones que miden los ajustes de periodo a periodo) en oposicion a la cointegrante, que suele ser
considerada como la de largo plazo. Esta ecuacion, si la estudia detenidamente, notara que en cada ecuacion solo aparecen variables estacionarias (I(0)). Lo anterior
permite, entre otras cosas, llevar a cabo inferencia tradicional sobre ellas. En realidad, lo mas importante en estas ecuaciones radica en el estudio de las s, referidas
usualmente como parametros de velocidad de ajuste (por obvias razones). Es importante verificar que el signo sea el adecuado y tomar en cuenta si el parametro es
estadsticamente significativo (puesto que trabaja con variables estacionarias, puede
utilizar el estadstico t para ello).
En el estudio de estos parametros es justamente donde se puede insertar el concepto
de exogeneidad. Todo esto se ve en la siguiente seccion. Recomendamos llevar a
cabo el siguiente ejercicio antes de seguir avanzando.
Ejercicio 20 Lleve a cabo la estimacion sugerida en el ejemplo anterior usando
datos para Mexico. Dichos datos pueden ser descargados en la Secretara de Hacienda y Credito Publico (SHCP) y en el Instituto Nacional de Estadstica y Geografa (INEGI). Como impuesto, use el impuesto al valor agregado (mensual); como
ingreso, use el PIB (trimestral). Recuerde que el dato de recaudacion de un mes corresponde a lo declarado el mes anterior, por lo que debera rezagar toda la serie
para que coincidan los periodos en medicion. Busque eventuales transformaciones
logartmicas con base en la prueba Ramsey-RESET; no olvide ajustar estacionalmente las series (puede usar el metodo X-12 ARIMA, disponible en GRETL). Busque evidencia de cointegracion y estime el MCE. Segun sus calculos cual es la
elasticidad-ingreso de los impuestos?

DE ERROR
11.3. MECANISMO DE CORRECCION

401

11.3.6. Probando exogeneidad debil


Es finalmente, mediante el estudio de los signos que podremos saber si una variable
es debilmente exogena. En nuestro ejemplo, deberamos esperar, si existe realmente
un MCE, que < 0 y y > 0. De esa forma, un error en el tiempo t 1 ajustara
en la direccion correcta ambas variables. Note que los signos correctos dependen,
no solo de la variable sino tambien de los signos de los parametros en la relacion
cointegrada. Por ejemplo, si fuera negativa, habramos tenido que voltear los signos. El estudio de los parametros i , desgraciada y afortunadamente, no acaba ah.
Al estimar el MCE debemos ineludiblemente verificar que los signos sean los correctos, pero existen varias combinaciones posibles, algunas de ellas validas. Lo
anterior lo representamos en el siguiente cuadro:
Caso
1
2
3
4
5
6
7
8
9

Signo

<0
<0
>0
=0
=0
>0
<0
>0
=0

Interpretacion
Y
>0
=0
=0
>0
<0
<0
<0
>0
=0

Los desequilibrios se ajustan va impuestos e ingreso


Los desequilibrios se ajustan va impuestos
Los desequilibrios se incrementan va impuestos
Los desequilibrios se ajustan va ingreso
Los desequilibrios se incrementan va ingreso
Los desequilibrios se incrementan va impuestos e ingreso
Hay correccion va impuestos pero desajuste via ingreso
Hay correccion va ingreso pero desajuste via impuestos
Los desequilibrios no se ajustan

Cuadro 11.4: Interpretacion de signos en el MCE.

Si nos encontramos en una combinacion que asegura una correccion del error ya
sea a traves de todas las variables o solo una de ellas (casos 1, 2, 4), habremos
confirmado que todas estas variables estan cointegradas. Siguiendo al pie de la letra
el teorema de representacion de Granger, si existe un MCE, entonces las variables
cointegran. Todos los demas casos son, en resumidas cuentas, malas noticias: puede
ser que no haya nada que regrese las variables a la relacion de equilibrio (caso
9) o, peor aun, que el MCE funcione al reves e incremente los desajustes periodo a
periodo. Estas u ltimas dos posibilidades senalaran que no existe un MCE funcional,
por lo que no hay cointegracion.
En lo que concierne a la exogeneidad, resulta que el estudio de los signos de las velocidades de ajuste permite determinar las variables que son debilmente exogenas.

402

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Con las ecuaciones del MCE, sabemos que variables son las que se mueven ante
un desequilibrio. Siguiendo el ejemplo de impuesto e ingreso, si nuestras estimaciones determinaran que, ante dicho desequilibrio, se ajustan los impuestos, pero no el
ingreso (caso 2), entonces podramos inferir queel parametro que acompana
la variable de impuestos es debilmente exogena al ingreso. Si ambas variables se
ajustan ante un desequilibrio, entonces no habra exogeneidad debil.

11.4.

Probando las demas exogeneidades

Si nuestras variables no tienen componente de tendencia estocastica alguno, no hace


sentido buscar cointegracion ni, claro esta, MCE. En ese caso, nos tendremos que
conformar con la prueba de Hausman para estudiar la exogeneidad estricta.
En lo que concierne la exogeneidad fuerte, la misma definicion provee, en cierta forma, la solucion. Si hay evidencia de ED, una prueba de Granger-Causalidad donde
no haya evidencia suficiente para rechazar la hipotesis nula permitira tipificar a la
variable como fuertemente exogena. Finalmente, probar la super exogeneidad es
mas sutil. De entrada se requiere tambien evidencia en favor de la ED; respecto a
la invarianza de los parametros del modelo condicional, es necesario hacer pruebas
de estabilidad de todos, es decir, de los parametros del modelo condicional y del
marginal. Hay varios posibles escenarios:
1. Si no hay evidencia de no-estabilidad en los parametros del modelo condicional, pero s de los parametros del modelo marginal, entonces, es necesario
incluir esos mismos cambios en el primero y probar si son significativos; si
no lo son, no tendremos evidencia que refute la SE.
2. Si no hay evidencia de no-estabilidad en los parametros de ninguno de los dos
modelos, entonces, basicamente no tenemos evidencia de nada; no se puede
inferir nada respecto a la SE.
La estabilidad de los parametros no solo es importante para las cuestiones hasta ahora tratadas. Tambien importa mucho considerarla al momento de disenar la
especificacion. Podemos considerar que no tomar en cuenta algun cambio estructural importante constituye un problema similar al de omitir una variable relevante.
As pues dedicaremos una seccion a conocer algunas de las pruebas de estabilidad
de los parametros mas socorridas.


11.5. ESTABILIDAD DE LOS PARAMETROS

11.5.

403

Estabilidad de los parametros

La estabilidad de los parametros resulta fundamental, si queremos que nuestra estimacion, hecha con base en una muestra t = 1, 2 . . . , T , tenga alguna relevancia
fuera de e sta (t = T +1, T +2, . . .). Para que as sea, o, mejor dicho, para poder tener
mas confianza en que nuestra estimacion seguira siendo valida fuera de la muestra,
conviene que los parametros permanezcan inalterados, al menos durante nuestra
muestra.28 As, la estabilidad del modelo es necesaria no solo para hacer inferencia
econometrica, sino tambien para predicciones validas. Dado que los modelos que
hemos estudiado hasta ahora estan completamente definidos en funcion de parametros, la estabilidad del modelo es equivalente a la estabilidad de los parametros.
La inestabilidad, puede ser causada por una simple omision de una variable importante o tambien debida a algun tipo de cambio de regimen; la existencia [de
inestabilidad] dificulta en extremo la interpretacion de los resultados econometricos
y es particularmente importante en el analisis de poltica economica; lo anterior cobra plena relevancia si se considera la cuestion de la exogeneidad y especialmente
la de super exogeneidad, propuesta por Engle, Hendry y Richard en 1983 as como
la Crtica de Lucas. Sin estabilidad parametrica, no es posible usar los resultados de
nuestras estimaciones para concebir polticas economicas validas.
Con objeto de medir la estabilidad, veremos una serie de pruebas, siendo la mas
famosa la de Chow, si bien las de CUSUM y CUSUMQ tambien son comunmente
utilizadas. Presentaremos tambien la prueba de Hansen, la cual, a diferencia de la
de Chow, no requiere definir exogenamente el punto de quiebre puesto que se define
con base en los datos.

11.5.1. Prueba quiebre de Chow


La prueba de quiebre de Chow29 se construye con base en una prueba de diferencia
de varianzas, que como ya hemos visto anteriormente, conduce a una distribucion
F bajo la hipotesis nula. La idea central es dividir la muestra en 2 o mas submuestras. Dichas submuestras pueden corresponder a condiciones distintas y en sus
observaciones extremas, las fechas de los cambios de tales condiciones. Lo importante es que cada submuestra tenga algun elemento que nos haga sospechar que los
parametros pueden cambiar (diferencias de genero, regimen cambiario, de ingreso,
tamano,...). Como ya adelantamos, el estadstico natural para esta prueba es una F.
28
29

No hay forma de garantizar que eso persistira en periodos posteriores.


Ver Rao (1952) y Chow (1960).


CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

404

Antes de dar las instrucciones para aplicar la prueba resulta conveniente dar una
intuicion. En la figura que veran a continuacion aparece el diagrama de dispersion entre dos variables simuladas (T = 210). La variable x se genero como una
normal, xt N (0, 9), mientras que la variable y se construyo con base en tres
sub-especificaciones distintas, cada una de ellas, correspondiendo a un tercio de la
muestra:
1. yt = 2 + 4 xt + uyt para T = 1, 2, . . . , T3
2. yt = 5 + 1 xt + uyt para T =

T
3

3. yt = 8 2 xt + uyt para T =

2T
3

+ 1, . . . , 2T
3
+ 1, . . . , T

Existen, evidentemente, dos quiebres estructurales. Si el econometrista no los toma en cuenta, obtendra un ajuste similar al que presenta la figura (11.11): Si el

10
5

VAR

5
10

VAR

15

VAR

20
25
30
8

Figura 11.11: Ajuste de una regresion lineal usando datos con quiebres. Fuente:
datos simulados (elaboracion propia).

econometrista tiene la precaucion de recuperar los residuales y graficarlos, se llevara una sorpresa poco agradable: En la figura (11.12) refleja, en el panel (a), los
residuales y en el panel (b), esos mismos residuales, pero al cuadrado. No resulta demasiado dificil inclinarse rapidamente por la hipotesis de que hay problemas,


11.5. ESTABILIDAD DE LOS PARAMETROS

405

(a)

(b)

10

140

120
5
100
0

80

60

40
10
20

15

50

100

150

200

50

100

150

200

Figura 11.12: Residuales de una regresion lineal usando datos con quiebres. Panel
(a) residuales de una especificacion mal especificada. Panel (b) residuales de esa
misma especificacion pero elevados al cuadrado. Fuente: datos simulados (elaboracion propia).

tanto de autocorrelacion como de heteroscedasticidad. De manera colateral se acaba


de ilustrar que un error de especificacion (puesto que los quiebres no estan modelados en la especificacion estimada) puede arrojar los tpicos sntomas de autocorrelacion/heteroscedasticidad. Cuando se observe este tipo de residuales, considere
seriamente la posibilidad de enmendar su especificacion.
Lo importante, en relacion a nuestro tema de inestabilidad parametrica, es constatar
que la varianza del error es notoriamente distinta en distintas fases de la estimacion.
La idea brillante de Chow radica en hacer una prueba que busque evidencia de
cambios en la varianza del error. El utilizar una prueba de F es entonces natural,
puesto que e sta es, en su origen, una prueba de comparacion de varianzas.
Para aplicar la prueba se ajusta una regresion a cada submuestra (asumiremos que
solo hay dos, de tamano T1 y T2 con T = T1 + T2 , para efectos de presentacion) y
se estudia la diferencia de los parametros entre ambas. Una diferencia significativa
sera evidencia de cambio estructural en la relacion. Cada submuestra debe contener mas observaciones que parametros a estimar (Por que?). La prueba de punto
de quiebre de Chow compara la suma de residuales al cuadrado de la estimacion
hecha con base en toda la muestra a las sumas de residuales al cuadrado de cada

406

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

submuestra. El estadstico de prueba es:


F=
donde:

[SRCT (SRCT1 + SRCT2 )] /K


(SRCT1 + SRCT2 )/(T 2K)

1. H0 : No hay evidencia de cambio estructural,


2. Ha : S la hay.
El estadstico de prueba se distribuye, bajo la hipotesis nula, como una FK,T 2K g.l. .
Esta prueba facilmente puede extenderse a mas cambios estructurales. Una de las
limitaciones principales de la prueba de Chow es que, si una de las submuestras es
muy pequena, ello quiza dificulte o de plano imposibilite la estimacion (Por ejemplo, si se trata de un periodo de guerra de 2 o 3 anos, T1 difcilmente podra ser igual
a 2 o 3). Para estos casos, conviene mas usar la Prueba de Pronostico de Chow.

11.5.2. Prueba pronostico de Chow


Si una de las submuestras es muy pequena (digamos T2 , los anos de guerra) y por
ende inadecuada para la prueba de quiebre de Chow, entonces conviene utilizar esta
version, que es la de pronostico. Esta prueba estima dos modelos: (i) Uno que usa
toda la muestra (T ), y; (ii) uno que utiliza un sub-periodo muy largo (digamos los
anos de paz, T1 ). Al numero de datos restante le llamaremos T2 ; T = T1 + T2 .
Una diferencia grande entre ambas estimaciones proporciona evidencia favorable
respecto a la no estabilidad de los parametros a lo largo de toda la muestra. El
estadstico de prueba es:
F=
donde:

(SRCT SRCT1 )/T2


SRCT1 /(T1 K)

1. H0 : No hay evidencia de cambio estructural,


2. Ha : S la hay.
El estadstico de prueba se distribuye, bajo la hipotesis nula, como una FT2 ,T1 K g.l. .
Note que los resultados de ambas pruebas no tienen porque coincidir.


11.5. ESTABILIDAD DE LOS PARAMETROS

407

11.5.3. Prueba de Hansen


La gran limitante de ambas pruebas de Chow es que el usuario debe definir la o las
fechas de los rompimientos de manera completamente exogena. Ello puede llevar
a que, en algunas fechas s se rechace la hipotesis nula de parametros constantes,
mientras que en otras no. Bruce Hansen propuso en 1992 una prueba de constancia
de parametros en la que esa crtica no aplica, puesto que el rompimiento se define
endogenamente. La teora subyacente a esta prueba no esta al alcance de este curso,
por lo que nos limitaremos a enumerar los pasos.
1. Estime la especificacion de interes:
yt = 1 x1t + 2 x2t + 3 x3t + . . . + K xKt + ut
donde x1t es posiblemente una columna de unos y corresponde a la constante.
2. Recupere los residuales estimados:
ut = yt 1 x1t 2 x2t 3 x3t . . . K xKt
3. Construya la siguiente variable:
fit =

xit ut
i = 1, . . . , K
2
2
ut
i=K +1

Note como quedan K + 1 f s por cada observacion t. Ello obedece a que el


cambio estructural puede suscitarse en alguno de los parametros estimados
o bien en la varianza (que, a fin de cuentas, es tambien otro parametro que
estimamos). Sabiendo que, por construccion, el Metodo de MCO asegura las
siguientes igualdades:
X

xit ut = 0 i = 1, . . . , K

u2t
2 = 0

es facil ver que la variable que construimos tambien es igual a cero:


X

fit = 0 i = 1, 2, . . . K + 1

408

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

4. Construya una suma parcial de las i variables f :

Sit =

t
X

fij

j=1

5. Pruebas Individuales (es decir, para cada parametro estimado mas uno): construya los siguientes estadsticos de prueba:

donde, Vi =

PT

t=1

T
1 X 2
Li =
S i = 1, 2, . . . , K + 1
T Vi t=1 it

fit2

6. Prueba Conjunta:
Con base en cada estadstico de prueba Li es posible probar la estabilidad de
cada uno de los parametros estimados de manera individual, incluyendo la
varianza.
7. Prueba conjunta. Para probar la estabilidad de la ecuacion de manera conjunta, construya los siguientes elementos:

P 2 P
P
f1,t
f
f
.
.
.
f
f
1,t
2,t
1t
K+1,t
P 2
P

f2,t
f2t fK+1,t

a) V =

..
.
.

.
P .2
fK+1,t

S1,t
S2,t

b) St = .. t = 1, 2, . . . , T
.
SK+1,t

8. Construya el siguiente estadstico de prueba:

T
1 X 1
Lc =
S V St
T t=1 t

Note que queda un escalar.


11.5. ESTABILIDAD DE LOS PARAMETROS

409

Ahora que ya tenemos todos los elementos, solo hacen falta las instrucciones de
lectura de la prueba; como siempre, nada mas es necesario conocer la hipotesis nula,
la alternativa as como los valores crticos, necesarios para comparar los valores
calculados y tomar la decision. En el caso de las pruebas individuales:
1. H0 : No hay cambio estructural en el parametro,
2. Ha : S hay cambio estructural en parametro.
En el caso de la prueba conjunta:
1. H0 : No hay cambio estructural en los parametros,
2. Ha : S hay cambio estructural en al menos uno de los parametros.
La prueba de Hansen realmente es distinta a las pruebas que hemos presentado
por lo general. En particular destaca que la distribucion bajo la hipotesis nula no es
estandar (es decir que no es Normal, ni F, ni 2 ), por lo que el autor tuvo que tabular
los valores crticos en el artculo donde presento la prueba.30 El primer renglon de la
tabla corresponde a los valores crticos que hay que usar en las pruebas individuales;
los demas renglones sirven para evaluar pruebas conjuntas.
En lo que concierne a las pruebas de hipotesis individuales, los estadsticos de prueba tenderan a distribuirse alrededor de cero; cuando e stos se alejan mucho de cero
existira evidencia para rechazar la hipotesis nula.
Es importante hacer notar que, si bien la prueba no exige que se le indique exogenamente la localizacion ni el numero de cambios estructurales, ni tampoco la o las
variables a las cuales e stos estan asociados, tampoco ofrece dicha fecha. Es decir,
si acaso hay un rompimiento y la prueba lo detecta, e sta no indicara la fecha en
la que ocurrio (pero s, al menos potencialmente, la variable por la que hay que
preocuparse).

30

Disponible en la pagina del autor en version documento de trabajo en la direccion


http://www.ssc.wisc.edu/bhansen/papers/cv.htm. En esa pagina buscar el artculo: Testing for parameter instability in linear models, Journal of Policy Modeling (1992), 14, 517-533.

410

CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD

Captulo 12
Especificaciones Dinamicas y
Expectativas
Hasta este momento, hemos aprendido a estimar una funcion de regresion, examinar
posibles fallos o rompimientos de supuestos tales como el de independencia de los
residuales, y el de homoscedasticidad. Recientemente hemos aprendido tambien
la importancia del supuesto de ortogonalidad as como las graves consecuencias
cuando e ste no se cumple. Conocemos, ademas, las pruebas necesarias para asegurar (estadsticamente) el correcto desempeno de la regresion, la utilidad de las
variables binarias para modelar cambios estructurales. No obstante, queda un apartado de suma importancia aun no abordado; podramos considerarlo como un pilar
fundamental del puente entre la economa teorica y la economa aplicada: las propiedades dinamicas de los modelos. La economa ha sabido desde mucho tiempo
atras que las relaciones de dependencia entre variables rara vez son instantaneas.
Con frecuencia, un choque (shock en ingles) en una variable se transmite a otra(s),
no en el mismo perodoes decir, no solo de forma instantaneasino de forma paulatina y decreciente a lo largo del tiempo. Como han respondido a esta regularidad
emprica los economistas y los econometristas? Los primeros creando e inventando
modelos dinamicos en el tiempo y los segundos disenando especificaciones que incorporan, de una forma u otra dicho dinamismo. Uno de los orgenes que dan pie a
esta dinamica de la que ahora tanto hablamos radica en la incorporacion de las expectativas. Las expectativas, de hecho, cobran una importancia primordial en practicamente cualquier actividad economica que podamos concebir. Como bien senala
Maddala, los niveles de produccion dependen de las ventas esperadas, la inversion
de las utilidades, tambien esperadas claro esta, las tasas de interes de largo plazo
dependen de las expectativas sobre las de corto plazo as como de la inflacion espe411

412

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

rada. En este captulo veremos como, en muchas ocasiones, son tales expectativas
las que incitan a especificar modelos dinamicos. Veremos ejemplos de expectativas naives (ingenuas), adaptativas y racionales. En lo que respecta a estas u ltimas,
por cierto, aprovecharemos para conocer un poco mas a fondo la famosa C R I TICA
DE L UCAS . En terminos mas practicos y a manera de respuesta austera es posible decir que los econometristas propusieron inicialmente, con objeto de lidiar con
los problemas de dinamica, la inclusion de rezagos en la especificacion. Soluciones mas sofisticadas han aparecido con la incorporacion de tecnicas de series de
tiempo, mismas que fueron brevemente resenadas en el captulo anterior. De entrada, plantearemos un modelo muy sencillo para ilustrar la relevancia de la dinamica
temporal en el estudio de un mercado; sirve de pretexto para ilustrar el concepto de
expectativas naives. El modelo en cuestion ya haba surgido previamente; se trata
del modelo de telarana.

12.1.

Expectativas naives:El modelo de Telarana

El modelo de Telarana como algunos lo refieren en espanol, se remonta a los anos


30, cuando Kaldor (1934) empezo a hablar sobre la dinamica del equilibrio en un
mercado. Posteriormente, Nerlove (1958) afino el concepto. Este modelo fue disenado para capturar la volatilidad en precios en un mercado de granos (agrcola) y
la trayectoria de e stos (los precios) hacia el equilibrio. Nos quedaremos con ese concepto y asumiremos que conocemos las funciones de demanda y oferta del mercado
de maz en Mexico1 Las ecuaciones relevantes son:
dt = a pt
st = b + pt + t
st = d t

(12.1)
(12.2)
(12.3)

donde dt y st representan la demanda y la oferta de maz, respectivamente; pt es


el precio del maz imperante en el mercado; pt es el precio que los productores
esperan en el periodo t 1 que impere en el periodo t, y; t es un choque de oferta (sequas, lluvia en demasa, inundaciones, tractores estropeados, bueyes enfermos,. . . ), estocastico, iid con media cero. Asumiremos tambien que a, b, y son
todos positivos y que a > b P OR QU E ?
1

Asumiremos tambien que no hay capacidad de almacenamiento de granos, para simplificar el


estudio.


12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA

413

Este modelo implica que el mercado se vaca al precio pe . No obstante, los granjeros ignoran cual sera ese precio al momento de sembrar (periodo t 1). Basan la
decision en sus expectativas del precio, pt . La cantidad resultante de esa decision
es b + pt mas un choque aleatorio (que puede representar una nevada tarda, buen
clima, poca lluvia,...). Vamos a suponer que los granjeros elaboran sus expectativas
de manera naive (ingenua):

pt = pt1

(12.4)

Tanto la oferta como la demanda son dos funciones lineales. Omitamos por un momento los choques estocasticos (t = 0 para todo t). Entonces tendremos:2

Cantidad
a

Oferta

Demanda
Precio
p0

pe

Figura 12.1: Mercado de Maz, segun el modelo de Telarana

Si establecemos un precio esperado inferior al de equilibrio, los productores ofreceran una cantidad menor a la o ptima, lo que provocara que aumente el precio en
el siguiente periodo (porque con esa cantidad, los consumidores estaran dispuestos
a pagar mas). Al siguiente periodo, los productores habran pronosticado un precio
mayor al o ptimo y produciran en demasa, por lo que el precio bajara. La trayectoria
2

Note que los ejes estan puestos acorde a las ecuaciones presentadas y no como suelen aparecer
en los manuales de economa.

414

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

del precio esta representada por la lnea anaranjada punteada. Notese como dicha
trayectoria converge al precio de equilibrio.
Ejercicio 21 Calcule el Precio y la cantidad de equilibrio (elimine los subndices e
iguale precios) en este mercado asumiendo que los choques estocasticos son todos
iguales a cero; trace ademas una oferta y una demanda de maz que generen una
dinamica de precios no-convergente.
Mediante el ejercicio anterior, queda claro que no en todos los escenarios hay convergencia. Es interesante averiguar cuales son las condiciones para que s se logre
dicho precio de equilibrio. En otras palabras, hay que encontrar las condiciones de
estabilidad del sistema.3 Combinemos las ecuaciones (12.1), (12.2), (12.3) y (12.4)
para formar una ecuacion en diferencia estocastica:
a pt = b + pt + t
a pt = b + pt1 + t
ab
t
pt =
pt1

(12.5)
(12.6)
(12.7)

Nada mas queda resolver esta ecuacion: de momento, esbozaremos el metodo que se
utilizara en este curso para llevar a cabo la resolucion de una ecuacion en diferencia.
Lo aplicaremos como si fuera una receta de cocina.
1. Formar la ecuacion homogenea y encontrar las soluciones correspondientes,
2. Encontrar una solucion particular,
3. Formar la solucion general,
4. Eliminar las constantes arbitrarias.

12.1.1. Ecuacion homogenea:


La ecuacion homogenea se obtiene al conservar u nicamente la parte dinamica de la
ecuacion en diferencia:



pt =
pt1

Relacione esto con lo visto en el captulo anterior.


12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA

415

La verdad es que encontrarle solucion a la ecuacion homogenea es muy facil. Se


propone de antemano una que funciona y a la que denotaremos con un super ndice
h:
pht

t

Si reemplaza esta solucion en la ecuacion homogenea, descubrira que es, efectivamente solucion (obtendra una identidad). No obstante, aqu conviene anadir a la
solucion una constante cualquiera, A:
pht

=A

t

Si vuelve a reemplazar, nuevamente descubrira que e sta tambien es solucion. As pues,


tenemos una infinidad de soluciones homogeneas, dado que la constante A puede
adoptar cualquier valor.

12.1.2. Solucion particular

Esta
se puede obtener mediante la iteracion de la ecuacion, asumiendo que no hay
condicion inicial. Vamos a recordar nuestra ecuacion original y a reparametrizarla
para hacer el calculo mas expedito:
pt =

ab
t

pt1

| {z } |{z}
|{z}

Entonces nos queda:

wt

pt = + pt1 + wt
cuya solucion es:
pt =

X
i=0

i

X

i=0

wti

Si asumimos que | |< 1, entonces podemos avanzar aun mas.4


Definamos Z como y supongamos que la siguiente suma, St , es finita y solo llega hasta T :

St = 1 + Z + Z 2 + Z 3 + . . . + Z T Multipliquemos por Z:ZSt = Z + Z 2 + Z 3 + . . . + Z T +1 y
4

416

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

+
pt =
1 i=0

i

wti

Retomando nuestros antiguos valores, llegamos a la solucion particular, denotada


por un super ndice p:

ppt

i

ab
1 X
ti
=

+ i=0

(12.8)

En realidad ya obtuvimos nuestra condicion de estabilidad. La necesitamos para


avanzar en la solucion particular. Se trata de | |< 1, que escrita con los parametros
originales queda:5

<1

12.1.3. Combinacion lineal de las soluciones


La solucion general es tan solo una combinacion lineal de las soluciones homogeneas
y la particular. Llevar a cabo dicha combinacion es trivial. Lo mas sencillo es sumar
tales soluciones:

pt

i
t


1 X

ab

ti + A
=
+ i=0

12.1.4. Eliminacion de las constantes


Ya lo u nico que falta es la eliminacion de la constante arbitraria. Ello se lleva a cabo
mediante la incorporacion de una condicion inicial, en este caso p0 (el precio en el
periodo cero). Veamos como queda la solucion general evaluada en cero:
restemos esta u ltima a la primera expresion: (1 Z) St = 1 Z T +1 . Si Z 6= 1, entonces podemos
T +1
as | Z |< 1 podemos afirmar que, conforme T crece,
pasar dividiendo St = 1Z
1Z . Si adem
1
T +1
Z
0. Es por eso que lmT St = 1Z
si y solo si |Z| < 1
5
Ya no se necesita el valor absoluto, puesto que conocemos los signos de dichos parametros.


12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA

p0
p0

417

i
0


ab
1 X

=
i + A

+ i=0




i
1 X
ab
i + A

=
+ i=0

Podemos despejar la constante A:


i

1 X
ab
+
A = p0
i
+ i=0

Introducimos el valor de esa constante en la solucion General:

pt

"
i
i # 
t


1 X
1 X

ab
ab

+
ti + p0
i
=
+ i=0

+ i=0

Factorizamos los elementos de la expresion:

pt

" 
i
t 
i #

1 X
ab
X

=
ti
i + ...
+ i=0

i=0

t 


ab
...
p0

Ejercicio 22 Simplifique la expresion:


i
t 
i


X

X
ti
i

i=0
i=0
As, nuestra solucion queda muy sencilla, al fin y al cabo:

pt

# 
" t1 
i
t 

ab
ab

1 X
=
p0
ti +

+ i=0

+
#
" t1 

i
t
1 X

e
= p
ti +
[p0 pe ]
i=0

418

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

Note como este resultado es en extremo intuitivo. La solucion de la ecuacion en


diferencia no es otra cosa sino el precio de equilibrio en ausencia de choques estocasticos mas la suma ponderada de los choques (dicha ponderacion, atenua el
impacto de los choques conforme van quedando en el pasado) mas la diferencia
entre el precio de equilibrio y el precio inicial, ponderada por su distancia en el
pasado. La interpretacion economica tambien es muy evidente. El sistema tiene una
dinamica convergente o divergente dependiendo de la inclinacion de las curvas de
oferta y demanda. De hecho, el sistema solo es estable si la curva de oferta estaen
valor absolutomas inclinada que la de la demanda.

12.1.5. El impacto de los choques


El efecto de un choque es facilmente calculable. Si tomamos nuestra ecuacion resuelta, podemos calcular el cambio del precio en el periodo t ante un choque en ese
mismo periodo.
pt
1
=
t

Notese como dicho cambio es negativo. Ello resulta logico, dado que el choque,
siendo positivo, implica una aumento en la oferta, por lo que el precio debera bajar. Tambien es facil calcular un cambio en el precio un periodo posterior ante ese
mismo choque:
 
pt+1
1
=
t

Este cambio es positivo, lo cual concuerda con lo que vimos graficamente. En el
primer periodo hubo sobre oferta. Los productores reaccionan disminuyendo demasiado esa misma oferta, por lo que en el segundo periodo, falta oferta y el precio
logicamente aumenta. Generalizando el resultado anterior, obtenemos:

m
pt+m
1
=
t

 m
m+1

(1)
=

DE I MPULSO -R ESPUESTA y define el patron


La anterior se denomina F UNCI ON
de comportamiento de una serie en el tiempo ante un choque estocastico; puede ser
representada graficamente:

SOBRE EXPECTATIVAS NAIVES


12.2. MAS

419

Funcin
ImpResp.

10
Tiempo

11

Figura 12.2: Funcion Impulso-Respuesta en el Modelo de Telarana.

La intencion al presentar con mas detalle el modelo de Telarana es, en esencia, dejar
claramente establecida la importancia que pueden cobrar las propiedades dinamicas
de un sistema. En este caso, la dinamica fue impuesta mediante un mecanismo
que dicta las expectativas, en este caso, un mecanismo que denotamos naive. No
obstante, esta racionalizacion de los rezagos en especificaciones econometricas no
es la u nica; existen otras mas sencillas e igualmente intuitivas. Todo el material que
se detalla a continuacion da pie a un debate que versa sobre las expectativas en
economa y su implementacion en econometra, que es con lo que cerraremos este
captulo.

12.2.

Mas sobre Expectativas naives

Las expectativas naives pueden plantearse de una manera mas sencilla en una especificacion que nos resultara, de hecho, familiar. Suponga, por ejemplo, que deseamos estudiar el comportamiento de la inversion. Es razonable suponer que las decisiones de inversion se toman con base en los beneficios esperados. As, una especificacion sencilla sera la siguiente:
yt = + xt+1 + ut
donde:

420

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

1. yt es la inversion en t.
2. xt+1 representa los beneficios esperados para el periodo t + 1.6
3. ut es, como siempre, el termino de error.
A menos que dispongamos de algun fantastico prestidigitador, es razonable pensar
que las expectativas de beneficio del periodo t + 1 habra que formarlas u nicamente
con informacion disponible hasta t. Al igual que con el modelo de Telarana, podemos sugerir la regla mas sencilla posible:
xt+1 = xt
Bastara entonces con reemplazar para obtener una especificacion estimable. Una
sugerencia ligeramente mas interesante es suponer que el aumento de los beneficios
en t + 1 con respecto a t sera igual al que ocurrio entre t y t 1:
xt+1 xt = xt xt1
Basta entonces una simple manipulacion para obtener algo que pueda resultar u til:
xt+1 = 2xt xt1
Nada mas queda reemplazar en la original:

yt = + (2xt xt1 ) + ut
Existen otras variantes que permiten incorporar expectativas naives. Los trabajos en
los que se utilizaron datan de los anos cincuenta y sesenta. En realidad el uso de
este tipo de modelos no se recomienda en la actualidad; no obstante, son usados a
veces como comparativo en la evaluacion de modelos predictivos (lo que en ingles
se senomina benchmark). Para resumirlo en pocas palabras, si el modelo predictivo
tiene un peor desempeno que el de expectativas naives, es que es muy malo.
6

No encuentra usted algo curioso en esta frase? Vuelvala a leer teniendo en mente lo dicho en
el apartado de causalidad. Algo en el futuro motiva las acciones presentes!

12.3. MODELOS CON REZAGOS DISTRIBUIDOS

12.3.

421

Modelos con rezagos distribuidos

En la subseccion pasada vimos como utilizar algo de la informacion pasada para


construir las expectativas. Podramos tratar de formalizar lo anterior. Las primeras propuestas para incorporar elementos dinamicos en las especificaciones econometricas consisten en modelos que incluyen rezagos tanto de las variables explicadas como explicativas. Detras de esa estrategia subyace la intuicion de que,
por ejemplo, los cambios de poltica economica pueden dejar sentir su impacto en
la variable de interes no solo en el periodo contemporaneo a dichos cambios, sino
tambien posteriormente. En ese sentido, la inclusion de variables rezagadas como
regresores cobra sentido.

yt = + 0 xt + 1 xt1 + 2 xt2 + . . . + q xtq + 1 yt1 +


2 yt2 + . . . + p ytp + t
p
q
X
X
j ytj + t
i xti +
yt = +
i=0

j=1

Para denotar este tipo de modelos usaremos la notacion ADL(p, q) [AUTORE GRESSIVE D ISTRIBUTED L AGS , O BIEN , EN CASTELLANO , R EZAGOS D IS TRIBUIDOS AUTOREGRESIVOS ] . Ahora bien, estos modelos padecen limitaciones muy evidentes; destaca especialmente la difcil decision relativa al numero de
rezagos a incluir. Existe una restriccion muy obvia en este sentido: p + q < T,
Por que? En caso de no satisfacer dicha condicion no dispondremos de observaciones suficientes para estimar los parametros del modelo. En realidad no basta con
respetar la condicion previa. Si se respeta el precepto de PARSIMONIA,7 cosa que
siempre deberamos hacer, el numero de parametros a estimar debera reducirse lo
mas posible. Supongamos un modelo ADL (0, ):
yt = +

i xti + t

i=0

Estimarlo resulta, naturalmente, imposible; el numero de parametros es infinito.


No obstante, podramos imponer una estructura (consistente en una serie de ponderaciones) que reduzca el numero de parametros a estimar. Tendramos as una
estructura secuencial que los relacione. Esta estructura debera garantizar que los
7

Ahondaremos en este concepto mas adelante.

422

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

parametros decrezcan en el tiempo, asegurando as que la importancia del pasado


disminuya entre mas remoto sea e ste. Definamos ahora un ponderador e incorporemos e ste de la siguiente manera a la ecuacion previa:8
yt = +

wi xti + t

i=0

Donde 0 < w < 1. Conforme retrocedemos en el tiempo, hacia el pasado, constatamos que el efecto de xti , i acaba resultando marginal o despreciable. Resulta
de hecho interesante calcular el efecto dinamico de largo plazo, definiendolo de la
siguiente manera: la respuesta de largo plazo es la suma de los pesos multiplicada
por .
Resulta bastante facil calcular dicho efecto. Utilicemos lo que sabemos sobre los
lmites de una serie que decrece exponencialmente. Calculemos lo que se conoce
como la R ESPUESTA DE L ARGO P LAZO:

X
i=0

wi =

Respuesta de largo plazo


1w

Dicha Respuesta puede ser leda de dos formas:


1. Corresponde al impacto que tendra sobre la variable dependiente el agregarle una unidad a cada uno de los rezagos (incluyendo el rezago cero) que
aparecen entre las explicativas.
2. Corresponde al impacto que tendra en yt una modificacion de una unidad en
variable x donde esta muy, pero muy lejos en el pasado.
Nuevamente tendremos que admitir que un modelo as especificado no es estimable
dado que el numero de observaciones de la serie xt es finito. No obstante, existe una
manipulacion que nos permite sortear tal dificultad. Rezague la ecuacion y obtenga
la expresion de yt1 ; multiplique esta u ltima por el ponderador y reste lo obtenido
a la ecuacion original de yt :
8

La idea de imponer un ponderador es de Koyck (1954) [un economista holandes]. El modelo que
desarrollamos en las siguientes lneas suele denominarse de rezagos geometricamente distribuidos.
Estuvo originalmente planteado para explicar el nivel de ventas con base en el gasto en publicidad
presente y pasado. El valor de los parametros de tales rezagos decaen, como veremos mas adelante,
a una tasa geometrica. Informacion obtenida por Gustavo Alfonso Rodrguez Ayala.

12.4. EXPECTATIVAS ADAPTATIVAS

423


+ xt + xt1 + 2 xt2 + . . . + t

+ xt1 + xt2 + 2 xt3 + . . . + t1

+ xt1 + xt2 + 2 xt3 + . . . + t1

(1 ) + xt + xt1 + 2 xt2 + . . . + t

xt1 + 2 xt2 + . . . t1
= (1 ) + xt + t t1
| {z }

yt =
yt1 =
yt1 =
yt yt1 =

ut

yt = (1 ) + xt + yt1 + ut

Note que la u ltima expresion podra ser estimada por MCO. Por desgracia subsiste
un problema. El termino de error asociado a esta especificacion ya no responde
a los conocidos supuestos del metodo de estimacion lineal. Dicha afirmacion es
bastante intuitiva, considerando que en la especificacion esta la variable yt1 , donde
esta includo t1 , el mismo termino que aparece en el residual. Posteriormente
veremos que esto es en extremo importante.

12.4.

Expectativas Adaptativas

Las Expectativas Adaptativas, es un concepto econometrico empleado desde hace


mas de 75 anos. Fisher (1925), en su artculo Our unstable dollar and the so-called
business cycle las empleo probablemente por primera vez; no obstante, e stas cobraron popularidad en el estudio de la hiperinflacion en los anos 50. Conocidas

tambien como LA HIP OTESIS


DE APRENDIZAJE DEL ERROR , las Expectativas
Adaptativas estipulan que los cambios en la variable estan relacionados con el error
de las expectativas anteriores con respecto a la realizacion correspondiente. Lo anterior es mas facil comprenderlo con la expresion:
yt = + xt + t
donde la variable xt marca el nivel esperado de la realizacion de xt . Las expectativas sobre xt denominadas xt se van adaptando conforme llega nueva informacion.
Concretamente, la adaptacion de las expectativas sobre la variable x se gesta de la
siguiente manera; el agente compara su expectativa anterior con la realizacion y
corrige el errorparcialmenteal construir la expectativa del siguiente periodo:

424

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

x x
| t {z t1}

Cambio en expectativas

Error en t1

}|
{
= xt1 xt1

donde 0 < < 1. Si reacomodamos los terminos, obtenemos:



xt = xt1 xt1 + xt1
xt = xt1 + (1 ) xt1
La ecuacion anterior la rezagamos, obteniendo as la que rige al sistema en t 1; la
multiplicamos ademas por (1 ):
(1 ) xt1 = (1 ) xt2 + (1 )2 xt2
A esta u ltima expresion, la podemos volver a rezagar un periodo y tambien multiplicar de nueva cuenta por (1 ):
(1 )2 xt2 = (1 )2 xt3 + (1 )3 xt3
Este procedimiento lo podemos seguir haciendo una y otra vez. Note como, cada vez
que lo aplicamos, la variable de las expectativas va quedando mas y mas atras. Para
que sirve esto? Bueno, pues para entender su utilidad retomemos la ecuacion original, y reemplacemos las expectativas por las ecuaciones que acabamos de calcular.
Si hacemos el reemplazo infinitas veces, la variable de expectativas desaparece de
la expresion:
xt = xt1 + (1 ) xt1

xt = xt1 + (1 ) xt2 + (1 )2 xt2


..
.

xt =
(1 )j1 xtj
j=1

A estas alturas, es importante percibir que la expresion a la que llegamos se parece


mucho a nuestro modelo ADL(0, ). Note que el nuevo parametro que obtuvimos, funcion de , no es otra cosa mas que una suma ponderada. Ello es facil de
corroborar, puesto que los pesos que impusimos, (1 )j1 , suman uno:

12.4. EXPECTATIVAS ADAPTATIVAS

X
j=1

(1 )j1 =

425

1
1 (1 )

11+
= 1
=

Al sustituir todas las expresiones obtenidas en la especificacion original, es decir


yt = + xt + t , es facil ver que podramos llegar a una expresion de la forma:

yt = +

X
j=1

(1 )j1 xtj + t

(12.9)

Dicha expresion puede manipularse de tal suerte que obtengamos la siguiente ecuacion (que reparametrizamos para efectos de presentacion):
yt = 0 + 1 yt1 + 2 xt1 + ut
Este tipo de expectativas fue popularizado por Cagan y Friedman.9
Ejercicio 23 Resuelva la ecuacion (12.9) como en el caso de Modelos con Rezagos
Distribuidos y encuentre a que corresponden los parametros y como esta constituido el termino de error:10
Como bien puede constatarse, el modelo de Expectativas Adaptativas y el ponderador propuesto por Koyck para manipular un modelo con rezagos distribuidos
conllevan a resultados analogos. No obstante, es importante tener en cuenta que el
razonamiento que nos llevo a incluir un rezago de la variable dependiente entre las
variables explicativas fue distinto. El primero es meramente algebraico mientras que
el segundo parte de un planteamiento mas economico, uno que emplea el concepto
de expectativas, tan apreciado por los economistas. A este respecto, rescatamos un
parrafo de Albert T. Somers resaltado en el libro de Gujarati que bien vale la pena
conocer:
9

Cagan (1956) The monetary dynamics of hyperinflation; Friedman (1957) A theory of the
consumption function.
10
Solucion: Yt = + xt1 + (1 ) yt1 + ut ; ut = t (1 ) t1 .

426

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

[La hipotesis de Expectativas Adaptativas] proporciona un medio relativamente


simple de disenar modelos de expectativas en la teora economica mientras que a
la vez, postula una forma de comportamiento por parte de los agentes economicos
que parece ser eminentemente razonable. La creencia de que la gente aprende de
la experiencia es, obviamente, un punto de partida mas razonable que el supuesto implcito de que ella esta totalmente desprovista de memoria, caracterstica de
la tesis de expectativas estaticas. Ademas, la afirmacion de que experiencias mas
distantes ejercen un efecto menor que las experiencias mas recientes estara de
acuerdo con el sentido comun y parecera estar ampliamente confirmado por la
simple observacion.

12.5.

Modelo de ajuste de inventarios

En la seccion anterior propusimos que, en la verdadera especificacion, la variable


explicativa adecuada es la que representa las expectativasno observadasde otra
mas (xt ). Que pasara si en vez de eso pusieramos dichas expectativas en la variable
dependiente? Obtendramos lo que se suele denominar M ODELO DE AJUSTE DE
fue propuesto por Nerlove en 195811 y puede expresarse de la
INVENTARIOS . Este
siguiente manera:12
t + t
yt =
+ x
Sera conveniente intentar entender este caso mediante un ejemplo; Digamos que la
ecuacion anterior constituye la representacion de la oferta de un producto. Podra
suceder que el nivel deseado de produccion a ofertar no coincida con el nivel realizado, ello por diversas causas:
1. Por cuestiones inherentes al sistema como puede ser ignorancia de algun factor,
2. Por cuestiones de imposibilidad material o tecnica.
En estos casos, el cambio observado en la variable en cualquier momento del tiempo
t es solo una fraccion del cambio deseado durante ese periodo. En otras palabras,
solo se podra lograr un ajuste parcial del nivel deseado:
11
12

Distributed lags and demand analysis for agricultural and other commodities.
Anadiremos tildes a los parametros para distinguirlos de los anteriores.

DE MODELOS DINAMICOS

12.6. ESTIMACION

427

cambio de nivel deseado

z }| {
(yt yt1 )
h

i
t + t yt1
=
+ x

yt yt1 =

yt

t + t yt1
=
+ x
t + (1 ) yt1 + t
=
+ x

donde 0 < < 1


Note como en este caso no hay problema de autocorrelacion en el termino de error.
Ejercicio 24 Resuelva el modelo iterativamente y encuentre la estructura del error,
que por cierto es bastante especial.13
Ejercicio 25 Combine el modelo de Expectativas Adaptativas y el de ajuste parcial
en uno solo y resuelvalo de tal manera que obtenga una especificacion estimable:
yt = + xt + ut

12.6.

Estimacion de modelos dinamicos

Para entender la estimacion de especificaciones dinamicas, conviene retomar una


de las racionalizacionesde los rezagosque estudiamos anteriormente. Veamos el
modelo de rezagos distribuidos:
yt = (1 ) + yt1 + xt + t t1
Como ya habamos mencionado anteriormente, obtenemos un termino de error con
una estructura autoregresiva de primer orden. Note que lo mismo ocurre con el modelo de Expectativas Adaptativas, pero no con el de ajuste parcial. El objeto de
presentar estos tres casos es el siguiente: incluir rezagos en la especificacion, si
bien resulta intuitivo y permite, como lo podran confirmar en muchas ocasiones,
un mejor ajuste de la regresion, puede tener consecuencias graves sobre nuestros
estimadores. El hecho de incluir rezagos de yt entre las explicativas debe estar respaldado por una justificacion teorica; puede ser la forma en la que se generan las
13

P (1 )i xti + P (1 )i ti .
Solucion: yt =
+
i=0
i=0

428

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

expectativas, la manera en que se ajustan los inventarios,. . . No obstante, pensandolo


mejor, las razones capaces de justificar dichos rezagos pueden ser en extremo variadas; algunas se han concretado en teoras economicas, pero otras probablemente
a nadie se le hayan ocurrido. Es la muestra, y mas concretamente, el proceso que
la genero, el que valida la presencia de rezagos. En algunos casos, la estructura del
error se tornara autocorrelacionada, mientras que en otros no. Eso no lo podemos
saber a priori; lo tenemos que estudiar ya con la especificacion estimada. La experiencia indica que estas especificaciones dinamicas tienden a padecer de autocorrelacion, aunque esto no es sistematico. Es importante entender que el rompimiento
del supuesto de independencia de los residuales puede ocurrir y por ello es necesario siempre estar al pendiente de dicha eventualidad. Como ya hemos senalado en
muchas ocasiones, la autocorrelacion no suele ser un problema gravsimo; lamentablemente, en especificaciones dinamicas, dicha afirmacion pierde terreno. As, la
pregunta pertinente es: Es grave esta autocorrelacion? En el modelo lineal simple
con el que hemos trabajado hasta ahora, las consecuencias de la autocorrelacion son
bien conocidas:
Estimadores insesgados,
Estimadores consistentes,
Estimadores ineficientes.
Ocurrira lo mismo en caso de anadir un componente dinamico en la especificacion?
yt = + yt1 + xt + ut
Supongamos que ut es un ruido blanco y satisface todos los supuestos que siempre
hacemos sobre e ste; supongamos ademas un modelo mas sencillo, excluyendo la
variable xt y centrando la restante, yt . Tales simplificaciones no limitan el alcance
de los siguientes resultados:

yt = yt1 + ut
= 2 yt2 + ut1 + ut
= 3 ut3 + 2 ut2 + ut1 + ut

X
=
i uti
i=0

DE MODELOS DINAMICOS

12.6. ESTIMACION

429

Note que se asumio que no hay condicion inicial. En ese caso, el estimador de
sera:

=
=
=
=
plim()

P
yy
P t 2t1
y
P t1
(yt1 + ut )yt1
P 2
y
P t1
yt1 ut
+ P 2
yt1

P
plim T1
yt1 ut
P 2 
+
plim T1
yt1

La consistencia de nuestro estimador P


depende del lmite en probabilidad de la expre1
sion contenida en el numerador; T ( yt1 ut ). Supongamos, como de costumbre,
que las covarianzas estan consistentemente estimadas por los momentos muestrales.
Si ut es un ruido blanco independiente e identicamente distribuido, entonces:

 X X

1
i
ut1i ut = 0
plim
T

En terminos mas precisos, lo que calculamos responde al nombre de covarianzas


del termino de error ut con sus propios rezagos (cuyo nombre adecuado es AUTO COVARIANZA ). Al estar dichas autocovarianzas consistentemente estimadas, e stas
convergiran a cero conforme el tamano de muestra aumente. Por ende el estimador
del parametro es consistente.
Que pasara si nuestro termino de error no es iid?, si e ste tuviera relacion con su
pasado inmediato, ut = ut1 +t , donde t iidN (0, 2 )?14 Entonces tendramos
un problema con nuestro estimador. Retomemos el elemento que determina si nuestro estimador tiene las propiedades deseadas y calculemos su esperanza:
hX
 i
E (yt1 ut ) = E
i ut1i ut
Es importante saber calcular esta esperanza, pues de no ser cero, habra una relacion entre una variable explicativa y el termino de error. Ello conllevara al error
que ya hemos abordado en captulos anteriores: no-ortogonalidad . Sabemos que si
14

A dicha ecuacion, como ya habamos senalado, se le conoce como modelo Autoregresivo de


primer orden; se denota AR(1).

430

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

esto ocurre, los estimadores seran sesgados e inconsistentes. Para poder calcular la
esperanza anterior, necesitamos antes conocer algunos resultados intermedios que
intervienen en el calculo. En particular, necesitamos calcular todas las autocovarianzas de nuestro termino de error. Empecemos por la autocovarianza cero, es decir la
varianza:15
E u2t



= E 2 u2t1 + 2t + 2t ut1
2
=
1 2
= 2

Ahora obtengamos la primera autocovarianza:

E (ut ut1 ) = E [(ut1 + t ) ut1 ]



= E u2t1
= 2
En lo que concierne a la segunda autocovarianza:

E (ut ut2 ) =
=
=
=

E [(ut1 + t ) ut2 ]
E [( (ut2 + t1 ) + t ) ut2 ]



E 2 ut2 + t1 + t ut2
2 2

Con base en estos dos resultados, es bastante facil obtener todas las demas autocovarianzas:
E (ut uti ) = i 2 i = 1, 2, . . .
Donde, es importante recordarlo, 2 =
ranza que realmente interesa, que es:
15

2
.
12

Finalmente, podemos obtener la espe-

Si no recuerda estos terminos, lea la primera parte del curso y revise la seccion destinada al
correlograma.

DE GENERAL A SIMPLE
12.7. PARSIMONIA: METODOLOGIA

E (yt1 ut ) = E

hX

431

 i
i uti ut



= E ut1 ut + ut2 ut + 2 ut3 ut + . . .
= 2 + 2 2 + 2 3 2 + . . .


= 2 1 + + 2 2 + . . .
2
=
1

Huelga decir que, en este caso, el lmite de la series solo existe s | |< 1. Descubrimos que hay relacion entre explicativa y termino de error; tenemos un problema
de ortogonalidad. Reviste particular importancia el hecho de que, en esta clase de
especificaciones, la autocorrelacion tiene consecuencias mucho mas graves cuando se gesta en especificaciones dinamicas. Afortunadamente, conocemos algunas
soluciones cuando se rompe este supuesto, como es el metodo de Variables Instrumentales.

12.7.

Parsimonia: metodologa de General a simple

Hemos estudiado hasta la saciedad los efectos del rompimiento de alguno de los
supuestos en nuestros estimadores de MCO. Todo lo anterior aplica de igual manera,
claro esta, en el caso de las especificaciones dinamicas. No obstante es necesario
agregar algunos elementos; al trabajar en especificaciones dinamicas, dos preguntas
fundamentales deben formularse invariablemente:
1. Existe evidencia de autocorrelacion en mi especificacion dinamica?
2. Cuales y cuantos rezagos se han de incluir en la especificacion para representar adecuadamente la dinamica de la relacion?
En lo que respecta a la primera cuestion, basta con senalar los resultados obtenidos
previamente: la combinacion de la autocorrelacion con rezagos de la variable dependiente en tanto explicativas puede provocar la inconsistencia de los estimadores,
quiza la mas grave de las consecuencias posibles. Dicho esto, solo resta enfatizar
la importancia de las pruebas de autocorrelacion en los residuales estimados de especificaciones dinamicas. En la primera parte del curso estudiamos varias, entre las

432

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

que destacan las siguientes: la prueba DW de Durbin-Watson, la prueba LM de


Breuch-Godfrey, el correlograma y el estadstico Q de Ljung-Box. Es importante

saber que la prueba DW... N O ES V ALIDA


C UANDO A LGUNOS R EGRESORES
S ON R EZAGOS DE LA VARIABLE D EPENDIENTE ! Por tanto no se debe usar
dicha prueba en estos casos. Habremos de conformarnos con las restantes.
La segunda pregunta esbozada al principio de la seccion permite ahondar en un tema
del que poco hemos hablado hasta ahora: (i) sabiendo la importancia que reviste la
manera en que especifiquemos la regresion y conociendo sus graves consecuencias
cuando lo hacemos mal, y; (ii) teniendo en cuenta la importancia de la incorporacion
de la dinamica en las relaciones economicas, la pregunta crucial, para fines practicos
es:

DIN AMICA

C OMO
DISE NAMOS
LA ESPECIFICACI ON
?
Habremos de recurrir a la teora economica; e sta puede servirnos de gua primigenia, pero existen algunas limitantes obvias. La teora economica suele ser demasiado abstracta o estipularse en terminos demasiado generales. En una ecuacion de
demanda, por ejemplo, es valido preguntarse lo siguiente Que tantos precios de
bienes complementarios y/o sustitutos es conveniente incorporar? A falta de respuestas concretas, conviene tener presente el concepto de PARSIMONIA :
Comentario 5 Parsimonia: en igualdad de condiciones la solucion mas sencilla es
probablemente la correcta. Ver la navaja de Occam, Pluritas non est ponenda
sine neccesitate, o bien, Entia non sunt multiplicanda praeter necessitatem: (i)
La pluralidad no debe postularse sin necesidad, (ii) No ha de presumirse la existencia de mas cosas que las absolutamente necesarias. [William de Ockham: Filosofo
medieval ingles; monje franciscano (1280/1288-1349) excomulgado por el Papa
por cuestiones relativas al voto de Pobreza (que Ockham crea insuficientemente
respetado)]. Es importante resaltar el fragmento en igualdad de condiciones. La
navaja de Occam no sugiere que se prefiera una teora sencilla a otra mas compleja
si la evidencia favorece e sta u ltima. Conviene tambien resaltar que el concepto de
Navaja de Occam ha encontrado cierta oposicion entre filosofos (vease Leibniz,
Kant, Menger,. . . )
La parsimonia cobra toda su razon de ser en la cuestion de los rezagos. En ningun
libro de economa esta dicho cuantos rezagos han de incluirse. Se debe entender, a
raz de todo esto que el diseno de una especificacion involucra probar muchas de
e stas y quedarse con la mejor. No existe aun procedimiento alguno que satisfaga

DE GENERAL A SIMPLE
12.7. PARSIMONIA: METODOLOGIA

433

a todos. La solucion pragmatica, como veremos mas adelante, consiste en optimizar


algun criterio de bondad del ajuste. Previo a ello, ahondaremos sobre la propuesta
inglesa (mencionada anteriormente) respecto al proceder en la elaboracion de la
especificacion.
Durante mucho tiempo, el desarrollo de la econometra estuvo supeditado a restricciones de ndole computacional [es decir, capacidad de computo]. De hecho, la
falta de poder de calculo exhortaba a los econometristas aplicados a empezar el diseno de la especificacion con un modelo sencillo; lo anterior podra denotarse como
E NFOQUE Simple General. En ese caso, por ejemplo, al detectarse un problema de autocorrelacion, la solucion consista en la aplicacion de un sencillo
procedimiento: el metodo de Cochrane-Orcutt. Dicho metodo esta fundamentado
en una autocorrelacion basica de tipo AR(1). El defecto principal de este proceder es muy elemental; conocemos ya las consecuencias de incorporar una variable
irrelevante y las de omitir una que es importante y debio quedar claro que lo mas
grave es lo segundo. A la luz de lo anterior, resulta preferible un enfoque E NFO QUE General Simple, en el que la eliminaci
on de variables irrelevantes o
bienpara efectos de este captulode rezagos innecesarios esta fundamentada en
la aplicacion de una batera de pruebas. Como ya habamos senalado, se recomienda que, a falta de informacion a priori, el numero de rezagos se haga optimizando
2 , AIC y
un criterio de bondad del ajuste. Ya conocemos algunos de e stos: R2 , R
BIC. Todos ellos fueron estudiados en la primera parte del curso; los dos primeros
hay que maximizarlos, el segundo penaliza un poco la inclusion de demasiados
parametros al igual que los u ltimos dos, solo que e stos son mas duros a la hora de
castigar por incluir mas variables. As pues, el numero de rezagos a incluir en la especificacion debe, inequvocamente, superar todas las pruebas habidas y por haber
y, en la medida de lo posible, optimizar alguno de los dos criterios antes mencionados. Concentremonos momentaneamente en los mas conocidos de e stos, el AIC,
(ver ecuacion 3.9) o el BIC (ver ecuacion 3.8). El criterio de Informacion de Akaike, por ejemplo, penaliza cuando la especificacion incluye demasiados

 parametros.
Esto es facil de observar en la formula, en el segundo termino 2K
. Es muy poT
sible que la inclusion de mas rezagos reduzca la suma de residuales al cuadrado,
con lo que el AIC debera disminuir. No obstante, si esta disminucion es pequena,
sera probablemente opacada por el aumento del termino en cuestion.
Es sabido que el AIC y el BIC son particularmente u tiles bajo diversos escenarios:
Comparacion de la capacidad de prediccionfuera de muestrade las especificaciones,
Comparacion entre modelos no-anidados (es decir, entre modelos en los que

434

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
no existe una restriccion parametrica que permita transitar entre ellos),
Seleccion del numero de rezagos.

En conclusion, el numero de rezagos ha de determinarse usando un criterio de bondad del ajuste, aunque debe primar siempre la satisfaccion de los supuestos restantes.

12.8.

Expectativas Racionales

P UEDES ENGA NAR


A ALGUNAS PERSONAS TODO EL TIEMPO , Y TAMBI EN

PUEDES ENGA NAR


A TODOS ALGUNA VEZ ; PERO NO PUEDES ENGA NAR
A
TODOS TODO EL TIEMPO . A. L INCOLN

12.8.1. La hipotesis de Expectativas Racionales


Al estudiar las Expectativas Adaptativas establecimos que e stas se formaban con

base en el error de expectativas presente, zt1 zt1


, corregido parcialmente (en
una proporcion ). En esta formulacion, ese factor de correccion no solo es inferior
a la unidad (y superior a cero), sino que ademas es constante. La idea fundamental
de las Expectativas Racionales, propuestas por John Muth,16 se deriva de la crtica a razonamientos analogos al de Expectativas Adaptativas. Segun Muth, e stas no
corresponden a la manera en que funciona la economa. Si el sistema economico
cambia, entonces la manera en que se forman las expectativas tambien debera hacerlo; las Expectativas Adaptativas son incapaces de ello. Una sugerencia plausible
es permitir que el parametro se vea afectado por las mismas razones por las que
cambia la economa, pero ello ya se asemeja mas a un parche. Por otro lado, Muth
sugiere una serie de elementos que son bastante razonables; entre ellos destacan los
siguientes:
1. Es logico suponer que el error de pronostico de las expectativas, t = zt zt
sea cero (de otra forma, implicara que los agentes se equivocan sistematicamente de la misma forma). Ello establece que dichas expectativas no esten
sesgadas:
E(t ) = 0
16

Muth (1961) Rational Expectations and the theory of price movements.

12.8. EXPECTATIVAS RACIONALES

435

Si dicha esperanza no fuera nula, si las expectativas estuvieran sistematicamente equivocadas, los agentes deberan ser capaces de corregirlas.
2. Las Expectativas Racionales tambien exigen que los errores de prediccion no
esten correlacionados con el conjunto de informacion pasada; de no ser as,
ello implicara que el agente no empleo toda la informacion disponible para
formular su expectativa. As pues, las expectativas deberan ser iguales a la
verdadera variable mas un cierto termino de error independiente:17
zt = zt + t
Si llamamos It1 al conjunto de informacion disponible en t 1. entonces, al
sacar esperanza de la variable de interes, condicionada a It1 :
E(zt /It1 ) = zt
La u ltima expresion, la que senala que, basados en la informacion hasta t 1,
la esperanza de la variable es, de hecho, la expectativa, ha resultado ser la pieza
fundamental del trabajo econometrico que versa sobre la hipotesis de Expectativas
Racionales. Asumir Expectativas Racionales consiste esencialmente en asumir que
las expectativas de los agentes son correctas en promedio. Aun si el futuro no es
completamente predecible, las expectativas de los agentes no estan sistematicamente sesgadas; e stos hacen uso de toda la informacion relevante para formarlas. La
utilizacion de este tipo de expectativas, de hecho, conlleva tres importantes implicaciones:
NICA expectativa matematica de la variable aleatoria zt condiExiste una U
cionada en un conjunto dado de informacion It1 .
Los agentes economicos se comportan como si conocieran dicha expectativa
condicional. Ello exige que conozcan, no solo el modelo, sino tambien el
valor de los parametros de e ste.
El econometrista desconoce los parametros del modelo, pero los puede estimar basandose en la segunda implicacion, es decir asumiendo que el comportamiento de los agentes es racional.
17

Una derivacion importante de lo anterior es que V ar(zt ) = V ar(zt ) + V ar(t ), por ende:
V ar(zt ) V ar(zt ).

436

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

12.8.2. Crticas a las Expectativas Racionales


La inconsistencia temporal
Comentaremos algunas crticas que se le han hecho al aparato matematico de las Expectativas Racionales. Resalta el argumento que senala que los agentes economicos
racionales no se comportan necesariamente de esta manera. Una posicion bastante
bien fundamentada es la de la Inconsistencia Temporal. En palabras del economista
Jorge Pareja:18
Uno de los problemas que surge inmediatamente en los medios academicos y se
debate con cierto grado de profundidad, es la racionalidad del agente economico.
La forma como el agente economico visualiza el futuro inmediato, es actualizando
su consumo futuro un periodo atras, esto se deduce del modelo intertemporal del
consumo y hace unos 70 anos, el Dr. Anthony Samuelson, introdujo el modelo exponencial para calcular de manera continua este descuento, que finalmente es una
variable del tipo ratio. El modelo exponencial cumple plenamente con los procesos de optimizacion, que muestran a un agente racional, dispuesto a cumplir con la
teora microeconomica que dice que hay un efecto incurso en el descuento intertemporal, que es la impaciencia, as el agente economico prefiere consumir ahora, que
despues. Para la Escuela de los Economistas Conductistas o Experimental, Thaler,
Rubinstein, Loewenstein, Prelec; etc. Existen diversas anomalas que no apoyan la
teora de las decisiones y tampoco la tesis del descuento intertemporal exponencial,
as los agentes economicos no tienen toda la capacidad como tampoco informacion
completa para tomar decisiones sobre muchas variables, ademas que la Teora ortodoxa no considera los efectos del altruismo y la institucionalidad, incursos dentro
de los procesos de toma de decisiones. Estos u ltimos economistas sugieren el uso
de modelos hiperbolicos o cuasi-hiperbolicos, para describir de una mejor manera, el proceso de la toma de decisiones del agente economico. Sin embargo en este
modelo surge un problema o anomala: La inconsistencia Temporal.
La inconsistencia temporal es el fenomeno que resulta de los cambios del plan
o ptimo elegido por el agente economico, esto es; los agentes economicos tienen
incentivos para modificar y readoptar nuevos planes o ptimos, de modo tal que estos
planes optimos cambian con el tiempo, resultando ser que el plan o ptimo antiguo
en realidad es menos o ptimo que el actual, as no habra planes consistentes dentro
de las posibilidades a elegir por el agente y por ello no podra haber un plan o ptimo
u nico. Ello indica que no hay garanta de que el agente economico cumpla con el
primer plan o ptimo elegido.
18

Tomado de:

http://cienciaeconomica.blogspot.com/2008/12/inconsistencia-temporal-en-las.html.

12.8. EXPECTATIVAS RACIONALES

437

De la Inconsistencia temporal tambien puede decirse, quiza mas claramente, lo siguiente:19


Los economistas describen como inconsistencia temporal una situacion en la
cual las personas tienen incentivos para abandonar un plan o ptimo a largo plazo
reoptimizando constantemente sus polticas. Es importante senalar que estas reoptimizaciones son o ptimas en cada momento del tiempo (de aqu su nombre), pero
no lo son desde el punto de vista del plan original a largo plazo y, por lo tanto, dan
lugar a resultados inferiores. De manera que un intento plenamente racional de
maximizar el bienestar de una persona puede terminar por empeorar su situacion.
La historia de Ulises y las sirenas ofrece una clara ilustracion del problema de la inconsistencia temporal y una posible solucion. Segun Homero, el poeta de la antigua
Grecia, las sirenas eran criaturas cuyo hermoso canto embelesaba a los marineros
y los atraa hacia unos arrecifes cercanos donde se estrellaban las embarcaciones. Como el canto de las sirenas era tan bello, el plan o ptimo de los marineros
hubiese sido navegar cerca de ellas, escucharlas cantar, pero mantenerse lejos de
los arrecifes. Pero un marinero que sabe que cuando oiga a las sirenas no va a
poder resistirse a su llamado y va a terminar naufragando se dara cuenta de que
la poltica o ptima ex ante presenta una inconsistencia temporal, es decir: deja
de ser o ptima en el momento en que oye el canto de las sirenas. En consecuencia,
el marinero se mantendra alejado de ellas, salvara su nave, pero se perdera el espectaculo. Esta solucion es superior a escuchar a las sirenas y estrellarse contra los
arrecifes pero inferior a escuchar a las sirenas y no estrellarse. Ulises, que era el
hombre mas astuto de toda Grecia, saba que solo poda obtener la mejor solucion
posible mediante un compromiso ex ante. Pidio a sus tripulantes que se taparan los
odos con cera, que lo amarraran al mastil del barco, y que no hicieran caso de las
o rdenes que les diera cuando navegaran cerca de las sirenas. Cuando las sirenas
comenzaron a seducir a Ulises con su canto, e l pidio a gritos a los marineros que lo
desamarraran y dirigieran el barco hacia ellas, pero sus hombres, cumpliendo sus
o rdenes originales, mantuvieron el rumbo y as escaparon del peligro. Ulises haba
entendido que u nicamente atado de manos podra comprometerse desde antes con
la mejor solucion posible que era escuchar el canto de las sirenas sin estrellar la
nave.
En otras palabras, [. . . ] la accion de colocarse cera en los odos, implica autoregulacion, por una utilidad mucho mas importante futura [. . . ].20 Ejemplos famosos
de inconsistencias temporales pueden citarse en la mana de la gente respecto a ins19
20

Extrado de la pagina web: http://www.iadb.org/res/ipes/2007/charts/box9_2_sp.cfm?language=sp.


Jorge Parejam, ibid.

438

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

cribirse a un gimnasio pagando la cuota anual y no asistiendo nunca, o bien en el


rompimiento casi sistematico de las dietas, etc.
A manera de resumen, y de manera mas coloquial, la inconsistencia temporal,
documentada en multiples experimentos y asentada teoricamente, implica que
los agentes economicos no se conocen tan bien como creen (pagan una subscripcion a un gimnasio por todo un ano, creyendo que con eso s iran; pero
despues de un rato, aun as dejan de ir; la gran excepcion es Ulises; e l s se
conoca bien), es decir, no tienen toda la informacion disponible ni tampoco el
modelo sobre el cual emplearla. Se estara entonces violando una implicacion
fundamental de las expectativas racionales.
Lo anterior constituye uno de los principales menoscabos a la teora de las
expectativas racionales, pues deja en duda la validez de la racionalidad de los
agentes.
El costo de las expectativas
Las expectativas verdaderamente racionales deben tomar en cuenta que la informacion referente al futuro es costosa. El pronostico o ptimo quiza lo sea no por ser el
mas preciso, dado que ese en particular resultara demasiado oneroso. La Escuela
neo-keynesiana lleva al extremo este argumento al senalar que el futuro es impredecible por lo que las expectativas no pueden ser racionales.

Posibles multiples
equilibrios
Mas importante aun, es importante considerar que las Expectativas Racionales se
construyeron, al menos en primera instancia, bajo la hipotesis de mercados eficientes. Ello implica que, para cualquier momento t la economa se encuentra en
un equilibrio u nico (ver primera implicacion), determinado de antemano; la gente
debio entonces haber formado sus expectativas alrededor de ese u nico equilibrio.
Si autorizamos la posibilidad de que haya mas que un equilibrio, las implicaciones mas interesantes de las Expectativas Racionales ya no aplican. De hecho, las
expectativas determinaran la naturaleza del equilibrio alcanzado, revirtiendo as la
causalidad con la que trabajo Muth.
El problema de la agregacion
Tambien podemos senalar que las Expectativas Racionales aplican a un nivel microeconomico, es decir, a un agente economico. No resulta claro que dicha hipotesis

12.8. EXPECTATIVAS RACIONALES

439

pueda ser empleada en datos macroeconomicos. Aun si todos los agentes forman
sus expectativas de forma racional, el agregado macroeconomico puede exhibir un
comportamiento que no necesariamente corresponde a la racionalidad descrita a
nivel microeconomico.
El problema de la denominacion
Maddala sugiere que muchas de estas crticas podran ser evitadas cambiandole el
nombre a las expectativas; propone llamarles expectativas C ONSISTENTES CON
EL M ODELO puesto que la formulaci
on de e stas depende implcitamente del modelo del que se partio. Lovell (1986) sugirio por su parte denominarlas expectativas suficientes. Ello obedece a que las expectativas, tal como las planteamos,
correspondenvagamentemas a un estimador que emplea toda la informacion disponible en la muestra. En todo caso, con objeto de no incurrir en confusiones innecesarias, seguiremos llamandolas racionales, ER.

12.8.3. Probando las Expectativas Racionales


La literatura que versa sobre las llamadas pruebas de racionalidad es en extremo
vasta; un subconjunto de dichas pruebas no requieren del modelo para ser llevadas
a cabo. Habitualmente emplean informacion derivada de muestras o encuestas para
hacerse de observaciones de las expectativas. Esencialmente, e stas construyen el
error de pronostico de las expectativas, xt xt y verifican que no este correlacionado
con el conjunto de informacion It1 . Esbozaremos en esta seccion algunas pruebas
sencillas:
Propiedad de no-sesgo de las ER
Como bien vimos en la definicion de las ER, e stas deben ser un estimador insesgado
de la verdadera variable. Retomando la definicion de dichas expectativas,

zt = 0 + 1 zt + t
Podramos estimar esto u ltimo por MCO y construir la siguiente prueba de hipotesis:
H0 : 0 = 0 y 1 = 1,

440

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Ha : 0 6= 0 o 1 6= 1,

Es importante notar que basta con que uno de los dos parametros no tenga el valor
adecuado para que la hipotesis de las Expectativas Racionales pierda validez.
Una forma analoga de probar las ER es mediante la construccion del error de
pronostico y la estimacion de e ste contra la variable de interes rezagada. En principio, si las ER son validas, el error de pronostico no debe estar correlacionado con
la informacion disponible en t 1. La variable zt1 definitivamente forma parte de
It1 , por lo que en la ecuacion. . .
zt zt = 0 + 1 zt1 + ut
. . . tanto la constante como la pendiente deben ser nulas:
H0 : 0 = 0 y 1 = 0,
Ha : 0 6= 0 o 1 6= 0,
Finalmente es posible formular la siguiente ecuacion:

zt zt = 0 + 1 (zt1 zt1
) + ut

en donde, tambien los parametros deben ser ambos nulos para satisfacer la definicion de las Expectativas Racionales. Note que, en este caso, nuestra especificacion
esta planteada a manera de una ecuacion en diferencia de primer orden. Se trata de
un modelo AR(1). Si el parametro 1 es distinto de cero, ello implicara que dejamos informacion en el pasado susceptible de explicar la variable de interes; en otras
palabras, no usamos toda la informacion disponible: no seran e stas ER.

12.8.4. La Crtica de Lucas


La Crtica de Lucas, cuyo nombre hace honor al trabajo del economista Robert
Lucas en materia de poltica macroeconomica,21 senala que resulta inutil intentar
predecir los efectosen la economade un cambio de poltica economica con la
u nica base de las relaciones observadas en datos historicos, especialmente en datos
agregados (es decir, macroeconomicos). En su artculo de 1976, Lucas senala que,
21

Lucas, Robert (1976). Econometric Policy Evaluation: A Critique.

12.8. EXPECTATIVAS RACIONALES

441

cuando los agentes forman sus expectativas racionalmente, las conclusiones ob


tenidas de las estimaciones de los M ODELOS DE E CUACIONES S IMULT ANEAS
quedan completamente invalidadas. La razon de lo anterior obedece a que, acorde a
lo dicho por Lucas, los parametros de dichos modelos no son estructurales, es decir
que no son I NSENSIBLES A LA P OL I TICA M ONETARIA [P OLICY-I NVARIANT,
] . Conclusiones de poltica economica seran, en consecuencia, enEN INGL ES
ganosamente desatinadas.
La Crtica de Lucas sugiere que la prediccion de los efectos de un poltica economica requiere la modelizacion de los parametros profundos, es decir las preferencias,
la tecnologa, las restricciones de recursos,. . . En cierta forma, se sugiere el estudio de variables que gobiernan el comportamiento individual; solo en esa medida,
considera este enfoque, sera posible conocer la reaccion de los agentes ante un cambio de poltica dado. Sera necesario despues agregar dichas decisiones individuales
para poder as calcular el impacto macroeconomico del famoso cambio de poltica
economica.
De manera ligeramente mas tecnica podemos senalar que la Crtica de Lucas, en relacion a la evaluacion econometrica de poltica economica, senala que es inapropiado estimar modelos econometricos de la economa en los cuales la variable endogena es una funcion irrestricta de variables exogenas o predeterminadas.
La fundamentacion microeconomica de los modelos macroeconomicos ha mostrado
ser una vertiente fertil en los u ltimos tiempos. Estos u ltimos suelen ser denominados

M ODELOS DE E QUILIBRIO G ENERAL ES TOC ASTICOS


D IN AMICOS
[DYNA MIC S TOCHASTIC G ENERAL E QUILIBRIUM M ODELS , DSGE M ODELS , EN
] . En todo caso, tales modelos son materia de otro curso. Veamos un ejemINGL ES
plo que ilustra con bros la famosa Crtica de Lucas:22
Ejemplo 22 La Curva de Phillips es un caso interesante para evaluarlo a la luz de
la Crtica de Lucas. La correlacion negativa historica descubierta en los anos 50
entre inflacion y desempleo podra considerarse no-valida si el Banquero Central
intenta utilizarla para fines de poltica economica (concretamente, monetaria). Si
dicha autoridad aumentara de manera permanente el nivel de inflacion con la intencion de mantener baja la tasa de desempleo, las empresas revisaran a la alza
sus pronosticos de inflacion (dejando as de estar enganadas, o bien sorprendidas,
por e sta) y tomar decisiones de contratacion y despido distintas a las previstas en
un principio.
Si bien la Crtica de Lucas definitivamente toco una fibra sensible de la econometra,
22

Extrado de Wikipedia.

442

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

su influencia y su impacto positivo en esta u ltima es innegable. En primera instancia


focalizo un problema concreto que, en cierta forma, haba sido ignorado anteriormente. Por otra parte fue en cierta medida el origen de un estudio mas profundo
respecto a la exogeneidad. Este tema ya lo habamos tratado en este curso. Los
desarrollos de Engle Hendry y Richard en este sentido han permitido la construccion de una ventana que permite, en la medida de lo posible, evaluar la invarianza
de los parametros ante cambios en las variables exogenas. Recordaran que, en este
caso, nos encontraramos con variables super exogenas.
Ya para terminar, no resulta demasiado aventurado recalcar que esta crtica, de la
que tanto hemos hablado, fueal menos parcialmentesimiente de la joven literatura
de los modelos DSGE, y su muy particular modo de empleo, denotado calibracion,
a caballo entre la estadstica y la intuicion economica. Finalmente, vale la pena recordar que Lucas reposo, a su vez, sobre una serie de supuestos cuya pertinencia ha
sido puesta a prueba. Si dichos supuestos se revelan inapropiados, la crtica misma
perdera relevancia.
Comentario 6 23 Cuando Robert Lucas Jr. publico en los anos setenta un artculo referente al concepto de Expectativas Racionales propuesto por John F. Muth
y Thomas J. Sargent aprovecho para estudiar las las fallas en la poltica macroeconomica a traves del tiempo y proponer una explicacion. Dicha explicacion se
basaba en la racionalidad de los agentes, lo que implica que e stos aprenden de
sus propios errores y responden de forma o ptima a los cambios acaecidos en la
economa. Los agentes no cometen continuamente los mismos errores. Este argumento, harto razonable, se contrapuso a otros como los esbozados por las Expectativas Adaptativas. Segun las Expectativas Racionales el individuo toma su decision
basandose, no solo en lo que sucedio en el periodo anterior, sino que tambien utiliza la informacion que tienen en el periodo actual. Las Expectativas Racionales
hacen que el diseno de polticas macroeconomicas, especialmente la monetaria, se
vuelve mas complicado.
Lo anterior llevo al cambio en la formulacion de poltica macroeconomica, como
menciono Mark H. Willes en los anos setenta refiriendose a la poltica monetaria:
Se debe construir un conjunto de polticas en las que el publico tenga fe y confianza, as las tomara en cuenta para la formar sus propias expectativas de inflacion
futura y gasto. La poltica debe ser creble. La forma de hacerla creble es anunciarla, implementarla, y evitar hacer un cambio abrupto. La consideracion de la
racionalidad de las expectativas ha tenido efectos visibles. Hoy en da, el objetivo
23

Cortesa de Jose Alfonso Campillo.

12.8. EXPECTATIVAS RACIONALES

443

de inflacion es anunciado a principios de ano por muchos Bancos Centrales alrededor del mundo.
Pero Lucas fue mas alla, en su famoso artculo de 1976; comenta que... Es absurdo el tratar de predecir los efectos del cambio en la poltica economica basados en
la relacion de los datos historicos, especialmente en datos historicos de variables
muy agregadas. Lucas argumento que es necesario enfocarnos en los cambios de
las elecciones del agente ante cambios de la poltica macroeconomica para asegurar la validez de nuestras conclusiones. Las aportaciones de Lucas pusieron en tela
de duda el paradigma keynesiano as como todo desarrollo carente de fundamentos
microeconomicos, como La Curva de Phillips. En buena medida, lo anterior condujo a los economistas Finn Kydland y Edward Prescott a reconsiderar los modelos
macroeconomicos, utilizando bases microeconomicas para que estuvieran mejor
fundamentados. Surge entonces la acuciante interrogante: es posible hacer poltica economica y evaluarla econometricamente bajo el imperio de las Expectativas
Racionales? Afortunadamente s; la Crtica de Lucas no aplica si las relaciones entre parametros son estables y e stos son insensibles ante cambios en unos u otros. La
respuesta a este problema, fue propuesta por Robert Engle, David Hendry y Jean
Francois Richard y la denominaron Super Exogeneidad.
La Super Exogeneidad es un concepto que incluye como condicion necesaria a
la exogeneidad debil. Sin entrar en detalles innecesarios, podemos senalar que la
exogeneidad debil de una variable respecto a un parametro en la especificacion de
interes exige que no exista relacion entre la distribucion marginal (es decir, entre
la distribucion asociada a la variable explicativa) y la condicional (nuestra especificacion). Cumpliendose la exogeneidad debil, la siguiente condicion exige la
invariabilidad del parametro de interes cuando existen cambios en los parametros
de la distribucion marginal. Esta definicion garantiza que, si la relacion entre dos
variables se conserva intacta pese a cambios parametricos en la variable explicativa, entonces variar esta u ltima [lo que podra interpretarse como hacer cambios
de poltica economica] no invalida nuestras estimaciones. Estas condiciones son
muy restrictivas, pero resuelven el problema de la Crtica de Lucas. La super exogeneidad debe de ser estudiada antes de hacer, por ejemplo, una reforma fiscal.
No obstante, la realizacion de dicho estudio no es obvia puesto que encontrar una
variable super exogena en la vida real puede ser muy difcil, al menos en el ambito
economico. Un ejemplo de super exogeneidad de gran interes, si bien nos salimos
del a mbito economico, podemos encontrarlo en el debate del cambio climatico:
Los cambios en la actividad industrial mundial han tenido efectos sobre el comportamiento del sistema climatico?

444

CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS

Captulo 13
Modelos de ecuaciones simultaneas
13.1.

Historia de los modelos macroeconometricos

El concepto E CUACIONES S IMULT ANEAS


evoca casi invariablemente en este
campo a los modelos macroeconometricos y en esta seccion utilizaremos sobre todo
el segundo termino. Los inicios de la construccion de modelos macroeconometricos
suelen ser identificados en el trabajo pionero de Jan Tinbergen1 de 1939 que versaba
sobre los cclos de negocios de los anos treinta; cabe senalar que Tinbergen ya haba
trabajado anteriormente en cuestiones macroeconometricas; el de 1939 es, simplemente, su trabajo mas conocido. El estudio de Tinbergen consiste en un modelo
estimado con datos anuales en el que aparecen 31 ecuaciones denotadas D E C OM PORTAMIENTO y 17 I DENTIDADES C ONTABLES , como la de la Producci
on, es
decir:

P IB = Consumo P rivado + Gasto P ublico + Inversi


on + . . .
. . . + Exportaciones Importaciones
Dicho modelo fue estimado mediante el metodo de MCO para el periodo 1919
1932.2 Algunas de las variables usadas en e ste pueden considerarse como exogenas,
aunque no todas; ello es importante a la luz de lo que sabemos sobre el supuesto de
ortogonalidad. Tinbergen nunca resolvio su modelo en el sentido moderno,3 pero
1

Primer premio Nobel, en 1969, junto con Ragnar Frisch.


Note que solo hay 14 observaciones para cada variable!
3
Enfoque que estudiaremos a lo largo de este captulo.
2

445

446

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

s dedico grandes esfuerzos en el estudio analtico de las propiedades dinamicas de


e ste.4
El trabajo sobre los modelos macroeconometricos reanudo con muchos bros despues de la segunda guerra mundial. Uno de los actores principales en este desarrollo
fue Lawrence Klein,5 quien construyo sus primeros modelos a mediados de los anos
cuarenta cuando colaboraba en la Cowles Commission. Los resultados de sus esfuerzos fueron publicados en una monografa de dicha institucion en el ano 1950. La
monografa inclua tres modelos:
1. El modelo I contiene tres ecuaciones de comportamiento y tres identidades
contables; ha sido considerado como un instrumento pedagogico por excelencia.
2. El modelo II contiene una funcion de consumo y dos identidades.
3. El modelo III incluye 12 ecuaciones de comportamiento y 4 identidades;
hoy en da es mejor conocido como el precursor del famoso modelo KleinGoldberger, del que hablaremos inmediatamente.
El modelo Klein-Goldberger fue desarrollado en 1955 como un proyecto de investigacion en el seminario de Economa Cuantitativa de la Universidad de Michigan;
utiliza datos anuales divididos en dos sub-muestras: 1929 1941 y 1946 1952
consista en 15 ecuaciones de comportamiento, 5 identidades y fue estimado mediante el metodo de Maxima Verosimilitud con informacion limitada;6 con base en
los resultados de estimacion del modelo que se hicieron predicciones macroeconometricas fuera de muestra (para el ano 1953).
Los anos sesenta podran ser considerados como los anos maravillosos de este tipo
de modelos macroeconometricos. Uno de los pinaculos de e stos es el modelo conocido como Brookins, que empleaba datos trimestrales para alimentar casi 400
ecuaciones. Si bien el e xito de e ste nunca logro las expectativas que se tenan, su
proceso de elaboracion brindo innumerables aportaciones teoricas.7
Una decada despues, a principios de los setenta, fue posible constatar un gran e xito
comercial de los modelos macroeconometricos, especialmente por su fina capacidad
predictiva (en los primeros tiempos). Entre los mas destacados estan los siguientes:
4

Lo hizo mediante la reduccion del mismo a una ecuacion en diferencia lineal de los beneficios
de la oferta privada
5
De hecho, por su trabajo obtuvo el premio Nobel en 1980.
6
Metodo no abordado en este curso.
7
En 1972 el modelo Brookins dejo de emplearse.


13.2. SINOPSIS METODOLOGICA

447

(i) el modelo DRI (Data Resources Inc en ingles); (ii) el modelo Wharton, y; (iii) el
Chase.
Esa misma decada fue tambien el comienzo del fin. Los modelos macroeconometricos sufrieron los embates simultaneos desde dos frentes: el ataque teorico y el contexto mundial. En lo que respecta al primero, ya hemos hablando de
forma extensa en un captulo previo; se trata de la Crtica de Lucas. Las crisis
mundial tambien afecto a nuestros entranables modelos puesto que, e stos perdieron efectividad en la que concierne a la predictividad as como en la evaluacion de
poltica economica. Es justo decir que, ante la adversidad, el ingenio humano ha
probado ser un extraordinario motor de desarrollo. Los fallos detectados en estos
modelos macroeconometricos, ya sean los referidos al pobre desempeno predictivo
o evaluativo o bien los argumentados teoricamente (en relacion a la estabilidad de
los parametros) han vaciado los tinteros de muchos econometristas. La incorporacion de metodos de series de tiempo [modelos ARM A(p, q)], el desarrollo de la
econometra no-estacionaria o bien de la no-parametrica, la propuesta de una macroeconoma emprica ateorica [Sims], los modelos DSGE,. . . , son tan solo una
muestra de los muchos frutos que dio las crticas decadas de los setenta. Hoy en da
los modelos macroeconometricos ya no constituyen el bastion primordial de la econometra. No obstante persisten en tanto instrumento de analisis economico, aunque
han ido quedando poco a poco a la sombra de los Vectores Autoregresivos, V AR.8

13.2.

Sinopsis Metodologica

Los modelos macroeconometricos que pretenden explicar el funcionamiento de la


economa comparten tpicamente la caracterstica de estar presentados bajo la forma
de sistemas de ecuaciones interdependientes; e stas describen las relaciones entre variables economicas bajo ciertos supuestos de tecnologa y comportamiento. Dichos
supuestos se formulan con base en la teora economica; es e sta la que dispone que
variables deben ir de cada lado de las ecuaciones. La econometra esta abocada a
la especificacion, a la prueba y a la estimacion de los parametros que aparecen en
tales sistemas.
8

Estos u ltimos son ampliamente utilizados en Macroeconometra. El conjunto de ecuaciones de


corto plazo con Mecanismo de Correccion de Error estudiadas en el captulo anterior, representa,
de hecho, un V AR. Como justamente incluye un MCE, a dicho V AR se le suele denominar V EC
(Vector Error Correction, por sus siglas en ingles).

448

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

13.2.1. Otra vez variables exogenas y endogenas


Cuando se disena un modelo de ecuaciones simultaneas, es usual hacer la distincion entre variables endogenas (determinadas en el seno del sistema) y variables
exogenas (determinadas fuera del sistema). Si bien ya hemos discutido ampliamente las cuestiones relativas a la exogeneidad y a las definiciones que se derivan, es
conveniente reafirmar los que vamos a usar en este captulo, que corresponden a los
establecidos por la C OWLES C OMMISSION : Los cambios o movimientos de las
variables exogenas y/o predeterminadas son consideradas como autonomos, independientes del comportamiento de las variables endogenas.
En los sistemas de ecuaciones mas sencillos, que son los que utilizamos anteriormente, el comportamiento de la variable endogena es explicado por variables exogenas u nicamente. Estamos refiriendonos, claro esta, a la regresion uni-ecuacional con
la que nos hemos venido familiarizando.
Cuando abordamos el estudio del supuesto de ortogonalidad descubrimos que era
posible manipular las ecuaciones estructurales y reducirlas de tal suerte que las variables endogenas quedaran u nicamente en funcion de exogenas. Estas ecuaciones
en forma reducida pueden ser interpretadas como relaciones causales de estmulorespuesta. Muchas ecuaciones surgidas de una teora de equilibrio competitivo tienen su origen en hipoteticos experimentos de estmulo-respuesta. Las curvas de demanda, por ejemplo, representan la cantidad que la gente comprara en un mercado
precio-aceptante. Las condiciones del experimento estan dadas por los determinantes de la demanda.
Los modelos en forma reducida naturales (es decir aquellos en los que no fue necesaria una manipulacion algebraica) son mas bien raros. Tpicamente, los economistas proponen sistemas interdependientes donde al menos algunas de las ecuaciones
contienen dos o mas variables endogenas. Tales modelos implican una interpretacion causal mucho mas compleja que la considerada hasta ahora, dado que cada
variable es determinada no solo por una sola ecuacion, sino simultaneamente por
el sistema entero. Como ya sabemos desde hace tiempo, bajo esas condiciones el
metodo de estimacion M CO no funciona; la simultaneidad nos genera estimadores
sesgados e inconsistentes.

13.2.2. Un modelo de oferta y demanda


El ejemplo mas ilustrativo, a la vez que elemental de un modelo de ecuaciones simultaneas es uno de equilibrio parcial de Demanda/Oferta en un solo mercado. Dicho mercado incluye dos conjuntos de agentes economicos [los oferentes y los de-


13.2. SINOPSIS METODOLOGICA

449

mandantes] cuyo comportamiento es descrito por una relacion estructural estocastica. Los demandantes deciden las cantidades que compraran con base en el precio al
que se les ofrece el bien, mientras que los oferentes utilizan esta u ltima informacion
(es decir el precio) para ajustar la cantidad producida. Un magico mecanismo, objeto de mucho estudio y digno de maravillar al que lo estudie, permite que el mercado
se vace en cada periodo.
Modelo estructural
El modelo estructural de un mercado ya haba sido planteado anteriormente. No
obstante, vale la pena retomarlo aqu. Es importante senalar que, por comodidad,
plantearemos el modelo de una manera inusual con respecto al resto del texto. Dejaremos aislado el termino de error. La razon de este proceder quedara clara conforme
avancemos en el tema:

M odelo Estructural :

y1t + 12 y2t + 11 = u1t Demanda


y1t 21 + y2t + 21
= u2t Of erta

El ejemplo que presentaremos, un mercado, nos permite momentaneamente representar el sistema de ecuaciones anterior usando una notacion menos generica:

M odelo Estructural :

pt + 12 qt + 11 = u1t Demanda
pt 21 + qt + 21
= u2t Of erta

Se debe tener muy claro que cada ecuacion representa el comportamiento de un


grupo de agentes economicos. La simultaneidad tambien debera resultar evidente
al aparecer, en ambas ecuaciones, las dos variables de interes.
Restricciones de la teora economica
En el sistema anterior, dado que se esta representando un mercado, es facil acudir a
la teora economica y as establecer una serie de restricciones razonables sobre los
parametros; note que la nueva presentacion del sistema hace un poco mas obscura
la interpretacion de e stos. Suponga que y1 representa el precio mientras que y2 representa la cantidad. Usando lo anterior y reacomodando los terminos a la manera
de los economistas, obtenemos:

450

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

pt = 11 12 qt + u1t
21
1
1
pt =

qt +
u2t
21 21
21
Con base en lo anterior, podemos establecer las primeras restricciones a priori:
12 > 0: Pendiente negativa de la demanda,
21 < 0: Pendiente positiva de la oferta,
11 < 0: Equilibrio en el cuadrante positivo,
21 > 0: Equilibrio en el cuadrante positivo bis,
0 < 11 <

21
:
21

Equilibrio en el cuadrante positivo tris.

Los terminos de error, u1 y u2 pueden concebirse como choques en las funciones de


oferta y demanda.
Resulta evidente que podramos incluir otras variables relevantes. No obstante, con
objeto de hacer la presentacion lo mas didactica posible, haremos caso omiso de
ello inicialmente. Nuestro problema, como siempre es estimar los parametros de
interes, solo que esta vez, los parametros estan repartidos en dos ecuaciones. Tomando en cuenta que disponemos de series de observaciones, una de precios y otra
de cantidades, vale la pena recordar la dificultad inherente:

C OMO
E STIMAR D OS F UNCIONES D ISTINTAS A PARTIR DE UN S OLO
?
D IAGRAMA DE D ISPERSI ON
Dicha dificultad ya la habamos abordado con detalle al principio del curso. Vale la
pena repasar la seccion que estudia los efectos de simultaneidad, as como la figura
al principio del captulo de Variables Instrumentales, que repetimos en este apartado
[figura (13.1)]. En esta u ltima, debe quedar claro la dificultad intrnseca de estimar
dos ecuaciones cuando no tenemos informacion particular de una y otra. Mas importante aun es la relacion bi-direccional entre ambas variables de interes, el precio

y la cantidad. Estas
se afectan la una a la otra y no parece haber forma de aislarlas.
Como ya habamos visto, la solucion consiste en aportar informacion adicional (en
ese caso, nuestro modelo estructural debera modificarse). Ahora bien, que tanta
informacion deberemos anadir? Esa es la pregunta mas difcil de contestar en el
estudio de los modelos de ecuaciones simultaneas... Tan importante es que le adju
dicaremos un nombre y lo estudiaremos con detenimiento: IDENTIFICACI ON


13.3. EL PROBLEMA DE LA IDENTIFICACION

451

Figura 13.1: Ecuaciones simultaneas

yt

yt

xt
yt

xt
xt

13.3.

El problema de la identificacion

Hemos ya probado que el problema de simultaneidad se da porque los terminos de


error, u1 y u2 , estan relacionados con las variables que usamos como regresores
(que no son exogenos, como debieran). Ello impide que la estimacion por MCO sea
consistente. Entender intuitivamente que es la identificacion resulta facil. Si existe
alguna manera de estimar una ecuacion del sistema de manera consistente, entonces
diremos que esa ecuacion esta identificada. Lo mismo aplica, obviamente, para cada
ecuacion del sistema. Por ello, la identificacion debe hacerse, no de manera global,
sino estudiando cada una de las ecuaciones de comportamiento de nuestro sistema.

13.3.1. Que es la identificacion?


En esta seccion abordaremos con un enfoque mas tecnico la cuestion de la identificacion. El poder obtener estimadores consistentes exige que usemos informacion
apropiada; en este sentido es importante recalcar los siguientes elementos:
No es un mero problema de metodo de estimacion.
Tampoco lo es, u nicamente, del tamano de muestra.
El objetivo es encontrar estimadores de parametros estructurales interpretables a la luz de la teora economica.

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

452

El problema de la identificacion puede plantearse muy sencillamente de forma matricial. Re-expresemos el sistema de ecuaciones antes propuesto de la siguiente manera:
BYt + CXt = Ut
Las nuevas matrices son:


1
12
B =
21 1


y1t
Yt =
y2t


11
C =
21


u1t
Ut =
u2t
Xt = 1

(13.1)

Asumimos ademas que: Ut iidN (0, ), donde es una matriz de varianzacovarianza positiva-definida.
V ar(Ut )

=
=
=
def

E (Ut Ut )
 2

u1t
u1t u2t
E
u1t u2t u22t

 2
1 0
0 22

En lo que respecta la notacion, es importante recalcar lo siguiente:


1. Yt : incluye u nicamente variables endogenas.
2. Xt : incluye u nicamente variables exogenaso predeterminadasentre las que
se podra incluir tendencias deterministas, constantes, variables que satisfagan los requerimientos de los instrumentos. Por el momento solo aparecen en
ella las constantes.


13.3. EL PROBLEMA DE LA IDENTIFICACION

453

Volvamos a reducir el sistema9 [es decir, encontremos las ecuaciones reducidas]


solo que esta vez lo haremos de manera mas expedita:
B 1 (BYt + CXt ) = B 1 (Ut )
Yt + B 1 CXt = B 1 Ut
1
Yt = |B{z
C} Xt + B 1 Ut
| {z }

Vt

Y t = Xt + V t

(13.2)

Que hay con los nuevos residuales, Vt = B 1 Ut ? Vt iidN (0, )


La normalidad resulta obvia, puesto que se multiplica a algo normalmente distribuido por constantes. Lo normal tiene media cero; por ello, la esperanza no cambiara con la multiplicacion. Aqu lo importante es ver que es la matriz .
B =
B

Ut

1
12
21 1

1
12
=
21 1


u1t
=
u2t

1
1 12 21

Podemos reparametrizar la primera matriz:


"

1
112 21
12
112 21

12
112 21
1
112 21

b11 b12
b21 b22

Ahora s, podemos estudiar los residuales:


Vt = B 1 Ut

 

u1t
b11 b12

=
u2t
b21 b22


b11 u1t + b12 u2t
=
b21 u12 + b22 u2t
9

Note que invertimos una matriz; ello implica que es cuadrada (e invertible). Por que estamos
tan seguros de ello?

454

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

Finalmente, podemos calcular las esperanzas que nos interesan:

E (Vt ) = 0

h
 i
V ar (Vt ) = E B 1 Ut Ut B 1

= B 1 B 1
La ecuacion en forma reducida muestra que cada variable endogena es funcion de
TODOS los terminos de error estructurales. Si tratamos de correr una de las regresiones basados u nicamente en una ecuacion estructural, como ya lo vimos, tendremos la certeza de obtener estimadores sesgados e inconsistentes.

13.3.2. Mas sobre la identificacion


La identificacion es tambien, esencialmente, lo que requerimos para poder transitar
del modelo reducido al modelo estructural, y en especfico a sus parametros, una
vez estimado el modelo reducido. Lo que a continuacion se presenta es otra manera
de entender ese puente. Recordemos nuevamente el sistema estructural
BYt + CXt = Ut
Con el sistema de ecuaciones que hemos venido utilizando ha quedado claro que,
aun conociendomas bien estimandolos parametros del modelo reducido, , no
hay manera de regresarnos a los parametros que realmente nos interesan, es decir,
las s y las s. Para asegurarnos que el concepto de identificacion, que de hecho
es clave en econometra, sea correctamente entendido, todava podemos senalar lo
siguiente. Consideremos el numero de parametros reducidos (vea la ecuacion 13.2):
solo son dos. Consideremos ahora el numero de parametros estructurales (vea la
ecuacion 13.1): aun normalizando 11 = 1 y 22 = 1 nos quedan cuatro parametros
a estimar. Es importante recalcar que los parametros reducidos pueden interpretarse
como ecuaciones que estan en funcion de los parametros estructurales. Nos enfrentamos pues a la difcil, vaya, imposible tarea de resolver cuatro incognitas con solo
dos ecuaciones. Ello redunda en una infinidad de matrices B y C que satisfacen
= B 1 C.


INFORMACION
13.4. INCORPORANDO MAS

13.4.

455

Incorporando mas informacion

Hasta ahora hemos utilizado un sistema de ecuaciones muy sencillo con objeto de
entender claramente las cuestiones relativas a la identificacion. Es momento de emplear una version mas compleja, que incluya mas variablesexogenas o predeterminadasen nuestras ecuaciones. Lo anterior, como pueden intuir con base en lo visto
de Variables Instrumentales, permitira resolver nuestro problema de identificacion.
El nuevo modelo que estudiaremos es:

y1t + 12 y2t + 11 x1t + 12 x2t = u1t


21 y1t + y2t + 21 x1t + 23 x3t + 24 x4t = u2t
Donde, como anteriormente, el sistema corresponde a un mercado; la variable y1 es
el precio mientras que y2 es la cantidad. Las restricciones economicas logicas son,
esencialmente las mismas. Hemos incluido nuevas variables; x1 , podra representar
la ordenada en el origen [lo que permite incorporar constantes en ambas ecuaciones]; x2 podra ser el ingreso de los consumidores que participan en ese mercado.
Las restantes variables, x3 y x4 , podran representar cuestiones que afectan especficamente la produccion, como podran ser, el nivel salarial, el concepto de ajuste de
inventarios (vease captulo anterior), etc. . .
Las variables endogenas rezagadas, as como las variables exogenas (sean e stas contemporaneas o bien esten rezagadas) forman el conjunto de variables predeterminadas. La propiedad fundamental compartida por todas radica en su independencia
del termino de error contemporaneo y futuro, es decir, que satisfacen el supuesto de predeterminacion, el requerimiento de exogeneidad mas laxo propuesto por la
Cowles Commission (Vea la definicion 17, pagina 358). De hecho, sera conveniente
explicitar dicho supuesto:

E [yn,ti , un,t+j ] = 0 n = 1, 2 i = 1, 2, . . . j = 0, 1, . . .
E [xk,tj , un,t+j ] = 0 k = 1, 2, 3, 4 j = 0, 1, . . .
Huelga decir que la representacion matricial antes propuesta, BYt + CXt = Ut tambien es valida en este caso. La diferencia estriba en las dimensiones de los distintos
elementos:

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

456


1
12
B =
21 1


y1t
Yt =
y2t


11 12 0
0
C =
21 0
23 24


u1t
Ut =
u2t


Xt = [x1t , x2t , x3t , x4t ]

Podemos de nueva cuenta obtener la forma reducida de este sistema estructural, que
es:
Yt = B 1 CXt + B 1 Ut
Yt = Xt + Vt
Los coeficientes reducidos seran, en esta ocasion:
= B 1 C



1
11 12 0
0
1
12
=
21 0
23 24
1 12 21 21 1


1
11 12 21
12
12 23 12 24
=
23
24
1 12 21 21 11 + 21 21 12


1
12 21 11 12 12 23 12 24
=
1 12 21 21 11 21 21 12 23 24
Reparametricemos esta expresion:

11 12 13 14
21 22 23 24

Y volvamos, por un momento, a nuestra notacion escalar:


13.5. CONDICIONES DE IDENTIFICACION

457

y1t = 11 x1t + 12 x2t + 13 x3t + 14 x4t + v1t


y2t = 21 x1t + 22 x2t + 23 x3t + 24 x4t + v2t
En la expresion anterior es facil verificar como la forma reducida hace que cada variable endogena sea funcion de todas y cada y una de las variables predeterminadas.
Nuevamente, la cuestion relevante es saber si, una vez estimados los parametros re podemos regresar a los parametros estructurales. Veremos como en esta
ducidos, ,
ocasion s podemos. Es conveniente empezar con los parametros correspondientes a
las variables endogenas. En este caso resulta muy facil obtenerlos; basta con hacer
las siguientes operaciones:10
12 = 13 1
23
21 = 22 1
12
Las anteriores expresiones denotan el transito entre los parametros del modelo reducido y los del modelo estructural. Note que e stas se pueden interpretar como las
restricciones que permiten dicho transito. Ya teniendo 12 y 21 es posible11 calcular
1
. De esta manera podremos recuperar 12 , 23
el inverso del determinante, 112
21
y 24 . Para terminar, podemos calcular 11 y 21 despejandolas de las expresiones
de 11 y 22 . As, queda claro que el modelo de ecuaciones de este mercado, tal y
como esta especificado resulta en un sistema identificado: ambas ecuaciones estan
identificadas. Es importante hacer notar que, en otras especificaciones, podramos
obtener una sola ecuacion identificada. En buena medida, nuestro objetivo radica
en que la ecuacion que nos interesa este identificada (las demas no nos interesan
en demasa). Sabiendo lo anterior, podemos estimar el modelo reducido y luego
recuperar los parametros estructurales.

13.5.

Condiciones de identificacion

Resulta indispensable conocer con antelacion si, en el sistema de ecuaciones que


se pretende estimar, los parametros de interes estan identificados. Asuma, como
10

Si tiene paciencia, descubrira que hay dos expresiones para obtener 12 ; la ecuacion esta de
hecho sobre-identificada.
11
De hecho, tenemos un problema de sobre-identificacion con respecto al parametro 12 , que
as al abordar
tambien podemos obtenerlo al hacer: 12 = 14 1
24 . al respecto ahondaremos m
ladesgraciadamente no tan famosa como debieraCrtica de Liu.

458

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

en las secciones anteriores, un sistema de ecuaciones estructurales con G variables


endogenas. Podremos entonces expresarlo como BYt + CXt = Ut , donde t =
1, 2, . . . , T , dim(B) es (G G), dim(C) es (G K) y Yt , Xt y Ut son vectorescolumna de dimensiones (G 1), (K 1) y (G 1), respectivamente. Estudiemos
la matriz de parametros B:

B=

11
21
..
.

12
22

. . . 1G
2G
. . . ..
.

G1 G2 . . . GG

Es importante recalcar que, a diferencia de los desarrollos anteriores, en este caso no


normalizamos los parametros.12 Es usual normalizar los parametros que aparecen
en la diagonal, es decir, reemplazar ii por uno para i = 1, . . . , G.
Este modelo, BYt + CXt = Ut , puede ser escrito de forma mas compacta aun. Definamos dos nuevas matrices. La primera, A, incluira todos los parametros, incluyendo aquellos que son cero segun nuestro modelo original. Definiremos tambien
la matriz Z, que contendra todas las variables, endogenas, exogenas y predeterminadas:

A = [B C]

11 12 . . . 1G
21 22
2G

= ..
.
. . ...
.
G1 G2 . . . GG

11
21
..
.

12 . . .
22
...

1K
2K
..
.

G1 . . . . . . GK

De la matriz que contiene todas las variables, solo describiremos una columna, la
t-esima:
12

Antes, por ejemplo, el parametro que acompanaba a yi en la i-esima ecuacion era igual a la
unidad.


13.5. CONDICIONES DE IDENTIFICACION

459

Zt

y1t
..
.



yt
yGt
=
=

xt
x1t
.
..
xkt

Dejamos al lector la tarea de verificar que A Zt = Ut . Por ahora seguimos proponiendo nuevas notaciones; denotemos i al i-esimo renglon de la matriz A. A
manera de ejemplo, 1 Zt no es otra cosa mas que. . .
11 y1t + 12 y2t + . . . + 1G yGt + 11 x1t + 12 x2t + . . . + 1k xKt
E STRUCTURAL DEL S ISTEMA. Note que
. . . es decir, L A P RIMERA E CUACI ON
en esta representacion del modelo, todas las variables, tanto endogenas como exogenas, aparecen en todas las ecuaciones. En ello difiere de los modelos que habamos
usado como ejemplo. Necesitamos entonces establecer un sistema de restricciones
que nos permitan representar el modelo tal y como lo especificamos originalmente
(en el ejemplo anterior, no todas las exogenas aparecen en todas las ecuaciones. En
otras palabras, algunos de los parametros son restringidos a un valor igual a cero).

13.5.1. Restricciones de exclusion


Para acabar de entender las condiciones de identificacion, nos concentraremos en
la primera ecuacion del sistema. E S I MPORTANT I SIMO R ECALCAR QUE E STE
E JERCICIO DEBE H ACERSE PARA CADA UNA DE LAS E CUACIONES! En
otras palabras, se estrudia ecuacion por ecuacion el problema de la identificacion
(no se usa el sistema el sistema completo). En el ejemplo que hemos venido desarrollando, al igual que en los anteriores, no todas las variables estan necesariamente
presentes en cada ecuacion estructural. Digamos por ejemplo que, en un modelo
con tres variables endogenas (y1 y2 y y3 ), las primeras dos s aparecen en las tres
ecuaciones mientras que la tercera, y3 , solo lo hace en las ecuaciones estructurales dos y tres. Lo anterior constituye una restriccion que podramos expresar de la
siguiente manera:13
13

Se elabora una expresion por cada restriccion.

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

460

11 12 13 . . . 1G 11 . . . 1k

0
0
1
0
..
.
0

= 1

0
0
1
0
..
.
0

= 0

DE EXCLUSI ON
. Note que
La expresion anterior se conoce como R ESTRICCI ON
tendremos bastantes de este tipo de restriccion, varias para la primera ecuacion del
sistema as como para las demas.

13.5.2. Restricciones homogeneas lineales


Aprovechando la estructura de restricciones que acabamos de crear, podemos imponer ademas, a priori, restricciones que involucren dos o mas elementos de 1 ,
Digamos que, en 1 , los coeficientes asociados a y2 y y4 son iguales [o as lo creemos]. Esta restriccion puede expresarse como:

11 12 13 . . . 1G 11 . . . 1k

0
1
0
1
0
..
.
0

= 0

0
1
0
1
0
..
.
0

HOMOG ENEA

LINEAL .
A esta expresion se le denomina R ESTRICCI ON

13.5.3. Reagrupando las restricciones estructurales


Ya que tenemos todas las restricciones de la primera ecuacion, reagrupemos todo
en una matriz de restricciones, a la que llamaremos , con (G + K) renglones.14
Podremos entonces sintetizar todas las restricciones relativas a la primera ecuacion:
14

Por que?


13.5. CONDICIONES DE IDENTIFICACION

461

1 = 0
En donde, asumiendo que solo existen las dos restricciones antes presentadas:

0
0
0
1

1
0

0 1

0
0

..
..
.
.
0
0

El numero de columnas es igual al numero de restricciones, que denotaremos R.


Por ende, las dimensiones de son las siguientes: dim() = (G + K) R

13.5.4. Restricciones entre el modelo estructural y el reducido


Ademas de las restricciones sobre las que ya hemos hablado, que estan derivadas a
priori de la especificacion del modelo estructural, existe otro tipo de restricciones;
se trata de restricciones sobre los parametros contenidos en 1 [seguimos en el caso
de la primera ecuacion] relativas a la relacion entre los coeficientes estructurales y
los reducidos.

L O ANTERIOR ES EL ELEMENTO FUNDAMENTAL PARA LA COMPRENSI ON


DESARROLLANDO . L AS RESTRICCIONES DE EXCLUSI ON

DE LO QUE SE EST A

AS I COMO LAS LINEALES HOMOG ENEAS


SON IMPUESTAS POR EL USUARIO .
DE ESTAS

E NTRE M AS
SE IMPONGAN , MENOS PAR AMETROS
ESTRUCTURA
LES TENEMOS QUE RECUPERAR . S I EL N UMERO ES REDUCIDO HASTA EL
PUNTO EN QUE COINCIDE CON LAS RESTRICCIONES NO IMPUESTAS POR

REDUCI NOSOTROS , SINO QUE GENERA EL TR ANSITO


DE LA ECUACI ON

DA A LA ESTRUCTURAL , ENTONCES HABREMOS OBTENIDO UNA ECUACI ON


IDENTIFICADA .
Para elucidar dichas restricciones, iniciemos el desarrollo con la expresion de los
parametros reducidos y hagamos unas cuantas manipulaciones:

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

462

= B 1 C
B = C
B + |{z}
C = 0
|{z}
GK

(13.3)

GK

B + CIK = 0

Donde IK es una matriz identidad K K. Recomendamos que verifique el resultado de esta expresion usando un ejemplo sencillo donde, por ejemplo, G = 2 y
K = 3. Obtendra un sistema identico al expresado en la ecuacion 13.4. Ahora aprovecharemos una de las matrices antes definidas para dar una expresion alternativa;
recuerde que A = [B C], la matriz que contiene todos los parametros, posee las
siguientes dimensiones:
dim(A) = G (G + K)
Definamos la matriz W de la siguiente manera:



W =
IK
Con base en lo anterior, podemos inferir rapidamente que dim(W ) = (G+K)K.
Podemos entonces expresar la ecuacion (13.3) de la siguiente manera:
AW =0
lo que corresponde a:15

15

11
21
..
.

12
22

. . . 1G
2G
. . . ..
.

11
21
..
.

12 . . .
22
...

1K
2K
..
.

G1 G2 . . . GG G1 . . . . . . GK

11 . . . 1K
..
...
..
.
.

G1 . . . GK

0
0
1
.
..
.
..
..
.
0 ...
1

=0

Note que aqu todava no normalizamos las s de las variables endogenas en la diagonal.


13.5. CONDICIONES DE IDENTIFICACION

463

Note que, en realidad, lo que estamos haciendo corresponde al ejemplo en el que


comprobamos la identificacion de los parametros; en ese caso lo hicimos usando la
notacion escalar; ahora empleamos la matricial. Estudiemos con particular atencion
los elementos del primer renglon del producto anterior:
11 11 + 12 21 + . . . + 1G G1 + 11 = 0
11 12 + 12 22 + . . . + 1G G2 + 12 = 0
.
..
. = ..
11 1K + 12 2K + . . . + 1G GK + 1K = 0

(13.4)

Dichas ecuaciones expresan T ODAS LAS R ESTRICCIONES QUE E XISTEN EN

TRE PAR AMETROS


E STRUCTURALES Y PAR AMETROS
R EDUCIDOS DE LA

P RIMERA E CUACI ON . Llamemoslas, en su conjunto, REP ER1 [Relacion entre parametros Estructurales y Reducidos de la ecuacion uno]. Lo anterior puede
expresarse, matricialmente, de manera mas elegante:
REP ER1 : 1 W

13.5.5. Elucidando la identificacion


Como ya hemos senalado, la identificacion en un sistema de ecuaciones simultaneas
debe hacerse ecuacion por ecuacion. Hasta el momento, hemos logrado expresar de
manera sencilla todas las restricciones que se imponen en una ecuacion en particular, tanto las referentes a la especificacion como las que surgen de la relacion
entre el modelo estructural y el reducido. Para poder saber si una ecuacion dada
esta identificada, necesitamos juntar en una sola expresion todas las restricciones.
Empecemos por recordar dichas restricciones:
1. Restricciones de exclusion y homogeneas lineales: 1
2. Restricciones REP ER1 : 1 W
Juntarlas en una sola expresion es facil; basta con concatenar horizontalmente las
matrices W y :
dim=(G+K)(K+R)

z }| {
[W ]

464

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

Para entender la manera en la que es posible averiguar si la ecuacion esta identificada debemos detallar mas las dimensiones de esta meta-matriz de restricciones.
Si dim(1 ) = 1 (G + K) y dim ([W ]) = (G + K) (K + R), entonces, la
meta-matriz de restricciones sera:
dim (1 [W ]) = 1 (K + R)
As pues 1 [W ] = 0 puede ser considerado como un sistema en el que aparecen
K + R ecuaciones. Lo relevante ahora es saber cuantas incognitas tenemos:
E N LO QUE RESPECTA [W ]:
1. Los elementos que aparecen en W son los que estan en (los parametros reducidos) as como en una matriz identidad de dimension K. En
principio, conocemos la matriz o bien la estimamos, por lo que sus
elementos no nos son desconocidos. Con respecto a la matriz identidad,
pues, obviamente, ah tampoco hay elementos desconocidos.
2. Por otra parte, las restricciones a priori sobre el modelo estructural, ya
sean las de exclusion o las homogeneas lineales, fueron impuestas por
nosotros En la matriz , por ende, tampoco hay elementos desconocidos.
E N LO QUE RESPECTA 1 : Pues resulta evidente que es en este vector donde
estan todas nuestros elementos desconocidos; por una parte estan los parametros asociados a las variables endogenas, 1i i = 1, 2, . . . , G, y por otra
estan los que acompanan a las variables exogenas o predeterminadas, 1j
j = 1, 2, . . . , K.
En este desglose debera quedar claro que estamos buscando resolver K +G incognitas mediante K + R ecuaciones. Si deseamos que la ecuacion este identificada, entonces el numero de ecuaciones debe ser igual al numero de incognitas. No obstante,
como generalmente normalizamos uno de los parametros asociados a las variables
endogenas, perdemos una incognita, por lo que la condicion de identificacion es
ligeramente menos dura. Las ecuaciones las construiremos con base en la matriz
[W ].
DE S ER L INEALMENTE I NDEPENDIENTES
D ICHAS E CUACIONES H ABR AN
(el que dos de ellas, por ejemplo, no lo sean, implica que en realidad son solo una
ecuacion) por lo que su numero esta directamente representado por el rango de e sta.
As, la condicion de identificacion puede ser expresada tecnicamente como:


13.5. CONDICIONES DE IDENTIFICACION

465

([W ]) = G + K 1

DE R ANGO, solo puede ser impleEsta condicion, conocida como la C ONDICI ON


mentada en sistemas de ecuaciones relativamente chicos. Calcular el rango de la
matriz [w ] y satisfacer la condicion exige que dicha matriz tenga G + K 1 columnas independientes. Para que ello pueda suceder, lo primero que se debe cumplir
es que la matriz tenga, cuando menos G + K 1 columnas. Lo segundo que debe
suceder es que esas columnas deben ser independientes. A la primera condicion se
DE O RDEN [N ECESARIA P ERO N O S UFICIENTE ].
le denomina C ONDICI ON
Es muy facil implementarla, basta con contar el numero de variables exogenas,
endogenas, y de restricciones presentes en la ecuacion para saber si se cumple.
Existen otras derivaciones analogas a la anterior para saber si una ecuacion en un
sistema de ecuaciones esta o no identificada. No obstante, es importante tener claro
que la que realmente cuenta es la Condicion de Rango estudiada previamente.

13.5.6. Reglas practicas


La discusion anterior constituye una explicacion detallada del procedimiento que
permite saber si una ecuacion en especfico, en un sistema de ecuaciones simultaneas,
esta identificada. En la practica usaremos un procedimiento mas sencillo. Para ello,
necesitaremos, para variar, expander un poco la notacion; aprovecharemos para recordar algunas que establecimos recientemente:
1. G: Numero total de variables endogenas en el sistema
2. gi : Numero total de variables endogenas en la i-esima ecuacion
3. K: Numero total de variables predeterminadas (incluye exogenas, obviamente) en el sistema
4. ki : Numero total de variables predeterminadas (incluye exogenas, obviamente) en la i-esima ecuacion
Ahora daremos una version en extremo sencilla de la condicion de orden. Es impor DE O RDEN ES N ECESARIA PERO N O S UFI tante recordar que la C ONDICI ON
CIENTE para asegurar la identificaci
on de una ecuacion):

466

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

Definicion 27 En un modelo con G ecuaciones simultaneas, se dice que una ecuacion satisface la condicion de orden (es decir, esta potencialmente identificada)
siempre y cuando el numero de variables predeterminadas que no aparecen en
dicha ecuacion (excludas) no sea inferior al numero de variables endogenas includas en esa misma ecuacion, menos uno. Lo anterior se puede expresar mas
facilmente de la siguiente manera:

K ki gi 1

Si K ki = gi 1 se dice que la ecuacion estapotencialmenteexactamente


identificada; Si K ki < gi 1 se dice que la ecuacion esta sub-identificada.
Ahora veamos como trabajar con la condicion de rango, que es, dicho sea de paso,
S UFICIENTE para asegurar la identificacion de la ecuacion. Una regla
C ONDICI ON
practicay sencillapara la condicion de rango es menos evidente. No obstante,
proveemos la siguiente, extrada del libro de Gujarati:
Definicion 28 En un modelo con G ecuaciones simultaneas, una ecuacion esta identificada si y solo si es posible calcular al menos un determinante no nulo con base
en las matrices de dimensiones (G 1) (G 1) que se puedan formar con los
coeficientes asociados a las variables (tanto endogenas como predeterminadas) excludas de esa ecuacion en particular pero includas en las demas.
La explicacion de ambas reglas resulta mas facil exponerla con base en un ejemplo. Usaremos una version modificada del ejemplo expuesto en el libro de Gujarati,
simplificado y adaptadode diversas formasa nuestro proceder habitual. Supongamos el siguiente sistema de ecuaciones:
y1t + 12 y2t + 13 y3t + 11 + 12 x2t = u1t
y2t + 23 y3t + 21 + 22 x2t + 23 x3t = u2t
31 y1t + y3t + 31 + 34 x4t = u3t

(13.5)
(13.6)
(13.7)

Lo primero que haremos es replantear este sistema en una tabla que haga mas
facil su lectura (vea la tabla 13.1). Empezaremos con la condicion de orden de las
tres ecuaciones:


13.5. CONDICIONES DE IDENTIFICACION
Ecuacion y1
13.5
1
13.6
0
13.7
31

y2
12
1
0

y3
13
23
1

Constante
11
21
31

467
x2
12
22
0

x3
0
23
0

x4
0
0
34

Cuadro 13.1: Representacion de los parametros de un sistema de 3 ecuaciones.

1. K k1 = 4 2 = 2; g1 1 = 3 1 = 2 K k1 = g1 1: identificacion
exacta.
2. K k2 = 4 3 = 1; g2 1 = 2 1 = 1 K k2 = g2 1: identificacion
exacta.
3. K k3 = 4 2 = 2; g3 1 = 2 1 = 1 K k3 g3 1: sobreidentificacion.
Segun esta regla, las dos primeras ecuaciones estan exactamente identificadas y
la u ltima esta sobre-identificada. Veamos ahora que dice la condicion de rango.
Debemos encontrar al menos un determinante no-nulo de las matrices 2 2 que
se puedan formar con los coeficientes de variables excludas en nuestra ecuacion.
Note que, en la primera ecuacion, las u nicas variables excludas en su especificacion
son x3 y x4 . Ademas, dichas variables s aparecen en las otras dos ecuaciones. Ello
implica que solo podemos utilizar los coeficientes asociados a e stas para construir
una matriz de dimensiones (G 1) (G 1) = 2 2. Solo es posible generar una
matriz as, y la denotaremos :
=

23 0
0 34

Resulta evidente que el determinante de esa matriz no es cero, siempre y cuando 23


y 34 sean ambos distintos a cero:
| | = 23 34
6= 0
Ello implica que la matriz tiene rango completo:
() = 2

468

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

Con base en lo anterior podemos estar seguros de que la primera ecuacion esta exactamente identificada.
Para concluir esta seccion, es importante explicar la manera en que interactuan ambas reglas de identificacion:
1. Si la condicion de orden senala que una ecuacion esta exactamente identificada y la de rango encuentra una o mas sub-matrices (G 1) (G 1) con
determinante no nulo: la ecuacion esta exactamente identificada.
2. Si la condicion de orden senala que una ecuacion esta sobre-identificada y la
de rango encuentra una o mas sub-matrices (G1)(G1) con determinante
no nulo: la ecuacion esta exactamente identificada.
3. Si la condicion de orden senala que una ecuacion esta exacta/sobre-identificada
y la de rango no encuentra una sub-matriz (G1)(G1) con determinante
no nulo: la ecuacion esta subidentificada.
4. Si la condicion de orden senala que una ecuacion esta sub-identificada: la
ecuacion esta subidentificada (no hace falta calcular la condicion de rango).
Ejercicio 26 Retome el ejemplo de esta seccion y calcule la condicion de rango de
las otras dos ecuaciones. Que obtiene usted?

13.5.7. Variables Exogenas: algunas sugerencias


Ya en las postrimeras del estudio de ecuaciones simultaneas conviene presentar un
ejemplo intuitivo para entender mejor los trucos de la modelacion de sistemas de
ecuaciones simultaneas.
Se ha hablado muy poco de la distincion entre exogenas y exogenas en terminos
economicos (puesto que en terminos econometricos, lo hemos hecho hasta el cansancio). Pensemos entonces en un ejemplo muy sencillo: un mercado de pescados
en un pueblo costero.16 Tenemos, como siempre, oferentes, que son los pescadores, y demandantes, los habitantes del pueblo. Como siempre, tambien, tenemos
observaciones a traves del tiempo (diarias!) del comportamiento de dicho mercado. Como ya saben, resulta obvio que si especificamos el modelo de la siguiente
manera,
16

Inspirado de un ejemplo que aparece en un documento de LC Adkins:


http://www.learneconometrics.com/gretl/ebook.pdf.


13.5. CONDICIONES DE IDENTIFICACION

469

qt = + pt ,
qt = + pt ,

e ste no puede estar identificado. Debemos incluir variables exogenas. Cuales podran
o, mejor dicho, deberan ser tales variables? La definicion de las variables exogenas
no es trivial (volveremos a discutir esto mas adelante). Pero en este mercado, hay
candidatos cuyas caractersticas son muy halaguenas:
1. Variables exogenas que solo afectan la oferta: pluviometra, e poca de vedas,
condiciones del mar, tormenta (esta podra ser dicotomica). Es razonable suponer que el deseo de comer pescado no esta dictado por el clima; dicha
variable solo afecta, en principio, a los pobres pescadores.
2. Variables exogenas que solo afectan la demanda: cristianos, como porcentaje
del total, da de la semana, cuaresma (esta tambien podra ser dicotomica).
Es sabido que los miembros de la religion catolica tienden a consumir mas
pescado en ciertas e pocas del ano y tambien ciertos das.
3. Variables que posiblemente afecten tanto a la demanda como a la oferta: precio de la carne de res, precio del pollo, precio del cerdo, precio del avestruz,
e poca del ano (de hecho, si la veda coincide con la cuaresma, tales variables
deberan ingresar a esta lista),. . . Si bien estas variables muy posiblemente
tengan efectos en el mercado de pescado, no es tan claro si afectan a la demanda, a la oferta o quiza a ambas.
Si bien no se pretende descubrir el hilo negro del negocio de la pesca en esta corta
subseccion, si aspiramos a dejar claro que la busqueda de las variables exogenas (y
de hecho, tambien la discriminacion entre endogenas y exogenas) es mas dificil de
lo que parece. En realidad, el e xito de la estimacion de este tipo de modelos depende
en gran medida del acierto con que se tomen estas decisiones.
A manera de conclusion de este captulo, senalamos tan solo lo siguiente: si se
pretende estimar un sistema de ecuaciones simultaneas, es fundamental hacer el estudio de identificacion de cada una de las ecuaciones. Una vez que se sabe que
la ecuacion que nos interesa esta identificada, solo falta estimarlas. Para ello, ya
no necesitamos extendernos; basta con emplear el metodo que estudiamos extensamente: el sistema de ecuaciones estructural puede estimarse mediante el metodo

470

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

de Variables Instrumentales. Hay hartas variantes y refinamientos de dicho metodo, pero ello no impide que 2SLS permanezca como el metodo por excelencia en
econometra ante cualquier problema de ortogonalidad.

13.6.

El efecto desplazamiento (Crowding out)

13.6.1. Que es el Crowding out?


El efecto desplazamiento, o bien Crowding Out en ingles, se refiere a la relacion
que existe entre inversion privada e inversion publica. En pocas palabras, la primera
podra reducirse (podra ser desplazada) si aumenta la segunda. Ello obedece a que
la inversion publica se financia con deuda publica; lo anterior puede reducir los
canales de financiamiento de los agentes privados y por ende forzarlos a invertir
menos. Lo anterior implica una distorcion en los mercados de fondeo.
Cualquier inversion por parte del Gobierno habra de ser financiada, (i) emitiendo deuda, (ii) imprimiendo dinero (y eventualmente generando inflacion), y; (iii)
aumentando impuestos. En cualquier caso, dicha inversion tendra efectos sobre la
inversion, pero tambien sobre el consumo privado (puesto que constituye un costo de oportunidad de esas variables).17 El efecto desplazamiento, no obstante, no
esta aceptado de manera unanime. Hay investigadores que consideran que la inversion publica tiene efectos positivos sobre la economa y que su relacion con la
inversion privada es mas bien de complementariedad. En palabras de Felipe Fonseca:18
... Existe un creciente consenso respecto al efecto positivo que genera la inversion
publica en los procesos de crecimiento de las economas [...] Si bien el trabajo
seminal de Barro (1990) sobre los determinantes del crecimiento economico, e ste
obtien un impacto no significativo de la inversion publica en las tasas de crecimiento economico, [...] una serie de estudios han dado cuenta de resultados en el
sentido opuesto [...] En dichos estudios, se argumenta que la razon para esperar un
efecto positivo de la inversion publica en el crecimiento economico es la expansion
de la capacidad productiva en un a rea o sector determinado.
Al margen de esta discusion, podramos intentar aprovechar nuestros recien adquiridos conocimientos en materia de ecuaciones simultaneas para elucidar el efecto
crowding out en Mexico.
17

Esta definicion somera habra de ser expandida. Los elementos basicos fueron inspirados del
artculo de Wikipedia: http://es.wikipedia.org/wiki/Efecto_desplazamiento.
18
Ver Fonseca Hernandez (2009).

13.6. EL EFECTO DESPLAZAMIENTO (CROWDING OUT)

471

13.6.2. Metodologa y datos


La base de datos
La infomacion economica que utilizaremos ha sido extrada del INEGI, Banco de
Mexico y de la Reserva Federal de los Estados Unidos19 , y comprende las siguientes
variables:
1. Producto Interno Bruto (Ingreso): Y ,
2. Producto Interno Bruto (Ingreso): Yp ,20
3. Consumo de Gobierno (Gobierno): Cg ,
4. Consumo privado (Consumo): Cp ,
5. Inversion privada (Inversion Privada): Ip ,
6. Inversion publica (Inversion Publica): Ig ,
7. Importaciones (Importaciones): M ,
8. Exportaciones (Exportaciones): X,
9. Tasa de interes real de Cetes a 28 das (Tasa): i,
10. Ingresos tributarios (Impuestos): T ,
11. Tipo de Cambio Real (TCR): RER,
12. Producto Interno Bruto de Estados Unidos (PIBeeuu): Y .
13. Crisis de 2008, variable dicotomica21 , (Crisis08), DU .
La base de datos tiene una periodicidad trimestral y comprende observaciones para
el periodo 2003 (primer trimestre) 2011 (cuarto trimestre). Puede ser descargarda
en: https://dl.dropbox.com/u/1307356/Arxius%20en%20la%20web/Cursos/EcuacionesSimultaneas.gdt
Toda la informacion comprende datos que han sido ajustados estacionalmente y, si
corresponde, estan en pesos base 2003 (inclusive el PIB de Estados Unidos; solo el
tipo de cambio real no fue ajustado).
19

Base de Informacion Economica: http://www.inegi.org.mx/sistemas/bie/,


Banxico:
http://www.banxico.org.mx/
y
FRED
database:
http://research.stlouisfed.org/fred2/.
20
Este PIB esta construido solo tomando en cuenta consumo e inversion.
21
La variable es igual a cero antes del segundo trimestre de 2008 y es igual a uno hasta el segundo
semestre de 2009 (y cero despues).

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

472
14.4

Inversin privada
lnversin pblica

Millones de pesos, base 2003 (en logs)

14.2
14
13.8
13.6
13.4
13.2
13
12.8
12.6
12.4
2003

2004

2005

2006

2007
2008
ao

2009

2010

2011

Figura 13.2: Evolucion de la inversion privada y la inversion publica


Ejercicios Econometricos
Separaremos el ejercicio econometrico en dos partes. En la primera, estableceremos
un modelo bastante sencillo, lo que nos permite abordar de nueva cuenta el problema de la identificacion de una manera aun mas practica. Empezaremos por disenar
un modelo muy sencillo:
Cp,t + 11 + 12 Yp,t = u1,t
Ip,t + 21 + 23 Yp,t + 22 Ig,t = u2,t
Yp,t + 31 + 31 Cp,t + 32 Ip,t = u2,t

(13.8)
(13.9)
(13.10)

Note que, en este sistema de ecuaciones, estamos interesados particularmente en


la segunda ecuacion, la de la inversion privada. Resumiendo nuestra hipotesis, si
existe un efecto de crowding out, el parametro que acompana a la variable de inversion publica, 22 debera ser positivo (si plantea la ecuacion despejando la variable
de inversion privada, notara que el signo hace mas sentido). Podramos utilizar las
tecnicas sugeridas en la seccion anterior para decidir si la tercera ecuacion satisface las condiciones de orden y de rango. No obstante, dejaremos eso para despues. Intentemos estimar las ecuaciones en GRETL. Para ello, abra el programa
y active la pestana Modelo. La u ltima opcion de esa pestana refiere a ecuaciones
simultaneas; de clic en dicha opcion. En el cuadro que aparece, seleccione Mni-

13.6. EL EFECTO DESPLAZAMIENTO (CROWDING OUT)

473

mos Cuadrados en dos etapas como metodo de estimacion y capture las ecuaciones.
Esta u ltima debera quedarle como se muestra a continuacion:
equation
equation
equation
endog Cp

Cp
Ip
Yp
Ip

0 Yp
0 Yp Ig
0 Cp Ip
Yp

Debe capurar la lista de variables endogenas despues de las ecuaciones; el programa


se encarga de elucidar las variables exogenas y/o predeterminadas. Si efectivamente
esta usando el programa GRETL, descubrira rapidamente que e ste calcula automaticamente la condicion de orden, misma que algunas de las ecuaciones aparentemente
no logran satisfacer. Siendo esa condicion necesaria (aunque no suficiente), deberemos pensar en una especificacion mejor:
Cp,t + 11 + 12 Yp,t + 12 Cg,t + 13 DUt = u1,t
Yp,t + 21 + 21 Cp,t + 23 Ip,t + 23 DUt + 24 Yp,t1 = u2,t
Ip,t + 31 + 32 Yp,t + 33 DUt + 25 Ig,t = u3,t

(13.11)
(13.12)
(13.13)

El nuevo sistema incluye ahora informacion de la crisis del 2008, que presumiblemente afecto a las tres variables, as como el gasto publico, que dejamos en la
ecuacion del consumo (debera, eventualmente, poder capturar los efectos sobre
el consumo privado), etc. Note como fueron capturadas diversas variables exogenas/predeterminadas, con objeto de identificar las ecuaciones. Capture el nuevo sistema y trate de estimarlo.:
equation
equation
equation
endog Cp

Cp
Yp
Ip
Ip

0 Yp Cg Crisis08
0 Cp Ip Crisis08 Yp_1
0 Yp Crisis08 Ig
Yp

Esta vez las ecuaciones del sistema s satisfacen la condicion de orden, lo que permite, identificar los parametros estructurales. Si estudia los valores de los parametros
estimados, notara que los signos corroboran la idea de que el gasto y la inversion
publicos distorcionan y desplazan el consumo y la oferta privados.
Limitaciones y otras posibilidades
El ejemplo que se ha dado para ilustrar la estimacion de un sistema de ecuaciones
simultaneas tiene algunas limitaciones. En este manual se ha estudiado a fondo el

474

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

metodo de MC2E, por lo que fue este u ltimo el que usamos. No obstante, la ecuacion de comportamiento del ingreso es, en realidad, bastante criticable. Por la forma
en que construimos en ingreso, dicha ecuacion corresponde en realidad a una identidad imcompleta. En otras palabras, tenemos un error de especificacion notorio en
la segunda ecuacion. La solucion obvia es reemplazarla por una identidad. Lamentablemente, el metodo de MC2E no permite tomar en cuenta identidades; para ello,
sera necesario estimar el sistema usando maxima verosimilitud con informacion
completa (MVIC). Puesto que esa tecnica no se abordo, nos limitaremos a presentar los resultados usandola ciegamente en el programa. Nuevamente, habra que
cambiar la especificacion:
Cp,t + 11 + 12 Yp,t + 12 Cg,t + 13 DUt = u1,t
Yp,t Cp,t Cg,t Ip,t Ig,t = 0
Ip,t + 31 + 32 Yp,t + 33 DUt + 25 Ig,t = u3,t

(13.14)
(13.15)
(13.16)

Es importante senalar que, si quisieramos calculcar la condicion de rango (o de


orden), el procedimiento sera igual. Solo recuerde que ahora los parametros no los
tiene que estimar, sino simplemente igualar a 1. La captura en GRETL debera
verse as:22
equation Cp
equation Ip
identity Yp
endog Cp Ip
instr const

0 Yp Cg Crisis08
0 Yp Ig Crisis08
= Cp + Cg + Ip + Ig
Yp
Cg Crisis08 Ig

El resultado es el siguiente (note que presentamos la ecuaciones de manera clasica):


Cp,t = 912787 + 0.72Yp,t 1.34Cg,t 52684.7DUt
Yp,t = Cp,t Cg,t Ip,t Ig,t
Ip,t = 1.39 106 + 0.4033Yp,t + 87635DUt 1.63095Ig,t

(13.17)
(13.18)
(13.19)

Todos los parametros son estadsticamente significativos a 5 % (la mayora lo son al


1 %). En cuanto a la bondad del ajuste, ambas R2 son superiores a 98 %. Los residuales de ambas ecuaciones superan las pruebas de homoscedasticidad y de normalidad (aunque no de autocorrelacion). El parametro que corresponde al efecto del
gasto publico sobre el consumo privado tiene el signo correcto. Lo mismo sucede
con el caso de la inversion. Hay efecto desplazamiento.
22

No olvide cambiar el metodo de estimacion.

13.6. EL EFECTO DESPLAZAMIENTO (CROWDING OUT)

475

Este ejercicio es muy sencillo y, sobre todo, emplea una base de datos demasiado
corta (36 observaciones). Es obvio que puede mejorarse. No obstante, el resultado econometrico parece ser bastante robusto, aunque hay que tomar en cuenta los
efectos que habra en nuestra apreciacion del mismo si consideraramos la posibilidad de que algunas variables no fueran estacionarias. En todo caso, el grueso de
la literatura referente a las ecuaciones simultaneas fue hecho antes de la revolucion
de las races unitarias, por lo que, momentaneamente, haremos un parentesis a ese
respecto. A cambio de eso, se sugiere enfaticamente hacer los siguientes ejercicios.
Ejercicio 27 Calcule tanto la condicion de orden como la de rango a la ecuacion
de inversion privada de los tres sistemas de ecuaciones presentados en este captulo.
Ejercicio 28 La especificacion utilizada es en extremo sencilla. Habra notado que
la base de datos contiene otras variables. Habra notado tambien que ninguna de
las variables esta en logaritmos o bien que no hay mucho e nfasis en las cuestiones
dinamicas (rezagos). Proponga y estime un mejor modelo, actualizando la base de
datos, incluyendo eventualmente mas ecuaciones y/o mas variables exogenas. No
olvide demostrar que la ecuacion de inversion privada esta identificada.

476

CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS

Captulo 14
Eplogo
El material que presenta este curso queda, en lo esencial, inserto en el trascendental
enfoque de la famossima Comision Cowles,1 cuyo nombre se deriva del hecho
que la mayor parte de los que construyeron este paradigma, lo hicieron al amparo
de dicha comision, radicada en Chicago a finales de los anos cuarenta as como en
los anos cincuenta.
La Comision Cowles, en particular, sostena que la macroeconoma es susceptible de ser representada por un sistema de ecuaciones simultaneas, generador de
todas las variables. Entre los postulados principales de este enfoque destaca la distincion entre variables exogenas y endogenas y dicha distincion, como bien se ha
visto, fue refinada en los anos ochenta con objeto de incorporar en la metodologa
econometrica la Crtica de Lucas. En cierto sentido, (i) la separacion las variables
exogenas y endogenas [como lo sugera la Comision Cowles], (ii) y la estructura causal impuesta en los sistemas de ecuaciones constituyen ambas decisiones a
priori del econometrista. Mas grave aun, y eso en correspondencia con el estado
del arte de la e poca, ambas decisiones no pueden considerarse como falsables. Las
crticas a la econometra propuesta por la Comision Cowles no son pocas ni carecen
de fundamento; vale la pena enumerarlas:
1. Tipificacion de las variables: la clasificacion entre variables exogenas y endogenas es, en ocasiones, arbitraria.
2. Crtica de Liu: es posible que existen muchas variables que deberan ser includas en las ecuaciones de un sistema que, de hecho, no aparecen, puesto
1

Si bien sufre multiples e importantes alteraciones debidas a las aportaciones mas recientes en el
campo.

477

CAPITULO
14. EPILOGO

478

que el econometrista las omitio con objeto de lograr los requisitos de indentificacion de la especificacion. En palabras mas llanas, es posible manipular
arbitrariamente la especificacion de una ecuacion con el mezquino y vulgar
interes de asegurar la identificacion de los parametros.
3. Crtica de Lucas: a este respecto, con objeto de no ser demasiado redundantes
con lo que ya se ha dicho, solo senalaremos que los modelos de ecuaciones
simultaneas tenan por objeto pronosticar los efectos de cambios en las variables exogenas sobre las endogenas (asumiendo por ejemplo que dichas variables exogenas corresponden a variables de control de alguna autoridad, como
la tasa de interes de corto plazo o las tasas impositivas, etc.). No obstante,
si hay alteraciones en las variables exogenas y los agentesmaximizadores
son capaces de preveerlas, modificaran su comportamiento. De ser cierto, los
coeficientes estimados en un sistema de ecuaciones no puedan ser asumidos
como independientes de los cambios en variables exogenas. La respuesta a
esta crtica, como ya lo saben, vino dada por definiciones mas precisas de la
exogeneidad.
La evolucion reciente de la econometra se traduce en una vasta cantidad de propuestas las unas mas sofisticadas que las otras. Destaca la hibridacion de las tecnicas de series de tiempo con la econometra, que ha dado pie a la macroeconometra
moderna. Son los principios tecnicos de esta ramificacion as como sus potenciales
aplicaciones a cuestiones empricas, las que se estudian en los siguientes cursos:

E CONOMETR I A DE S ERIES DE T IEMPO


Y

M ACROECONOMETR I A

Captulo 15
Ejercicios (ii)
P REGUNTA # 1
Preguntas de conocimientos generales: responda brevemente (cinco renglones, no
mas) a las siguientes preguntas:
1. Que efecto tiene la autocorrelacion sobre los estimadores?
2. Que efecto tiene la heteroscedasticidad sobre los estimadores?
3. En que consiste el supuesto de Ortogonalidad? Que efecto tiene sobre la
regresion cuando dicho supuesto no se cumple?
4. Que efecto tiene la multicolinealidad sobre los estimadores?
5. Que es un diagrama de Venn?
6. Cual es la diferencia entre el modelo estructural y el reducido?
7. Como verificara si algunas variables son redundantes?
8. Para que sirve la prueba de Hausman?
9. En que consiste el metodo de estimacion de MC2E?
10. En que consiste el metodo de estimacion de MCG?
P REGUNTA # 2
Cual es el caso mas grave de los mencionados a continuacion?
479


CAPITULO
15. EJERCICIOS (II)

480
Variable dependiente medida con error
Variables explicativas medidas con error

P REGUNTA # 3
Cuales deben ser las propiedades de una variable instrumental si se quiere que e sta
sea valida?
Proporcione las condiciones tecnicas; explique su significado (5 lneas max.)
P REGUNTA # 4
Cada pregunta vale 10 puntos.
1. En que consiste el Metodo de Variables Instrumentales?
2. Que problema resuelve?
3. Si tuviera que aplicarlo con una regresion especfica, Como lo ejecutara?
4. Es importante el numero de variables instrumentales adicionales que se incluyan en este metodo de estimacion?
P REGUNTA # 5
Que entiende usted por Granger-Causalidad? Detalle como especificara la prueba.
P REGUNTA # 6
Asuma la siguiente relacion entre xt y yt :
yt = xt + wt
El problema es que nuestros datos estan mal medidos:
yt = yt + uyt
xt = xt + uxt
uyt iidN (0, y2 ), uxt iidN (0, x2 ), wt iidN (0, w2 )
Demuestre si este estimador es consistente o no.

481
P REGUNTA # 7
En clase se vio un estimador de Variables instrumentales en el que el numero de
columnas de la matriz Z, l , era igual al numero de columnas de la matriz X . No
obstante, tambien vimos que era posible que l > K . Pero no se demostro que, en
ese caso, el estimador era consistente. Asuma la relacion Y = X + U en la que
se cumplen todos los supuestos excepto el de ortogonalidad. Asuma tambien que
dispone de una matriz Z de instrumentos validos (recuerde que necesita los detalles
tecnicos). La formula de variables instrumentales cuando l > K es la siguiente
(por cierto, para derivarla, basta con formular el estimador de Mnimos Cuadrados
Generalizados, pero e sta no es la cuestion):
IV = (X Z(Z Z)1 Z X)1 X Z(Z Z)1 Z Y
|
|
{z
}
{z
}
Pz

Pz

= (X Pz X)1 X Pz Y

Demuestre la consistencia de este estimador (no olvide los factores de normalizacion)


P REGUNTA # 8
Explique que sabe usted de exogeneidad:
a) En el sentido de la Comision Cowles
b) En el sentido de Engle, Hendry y Richard
P REGUNTA # 9
Asumamos el siguiente modelo:
Yt = b0 + b1 Xt + Ut
X t = a 0 + a 1 Y t + a 2 Zt + V t
Donde se cumplen los siguientes supuestos:
E(Ut )
E(Ut2 )
E(Ut U )
E(Vt )
E(Vt2 )
E(Vt V )
E(Ut Vt )

=
=
=
=
=
=
=

0
u2
0
0
v2
0
0


CAPITULO
15. EJERCICIOS (II)

482

La persona encargada de las estimaciones solo conoce la primera relacion (la que
tiene a Yt como variable dependiente) y por ende la estimara sin tomar en cuenta la
segunda.
Que supuesto de la regresion se rompe? Demuestrelo,
Que ocurrira con los estimadores obtenidos?
P REGUNTA # 10
Indique las condiciones que requiere satisfacer una variable para ser:
a) Fuertemente exogena con respecto a otra,
b) Super exogena con respecto a otra
P REGUNTA # 11
Considere el siguiente modelo, yt = +

wi xti + t , donde 0 < w < 1.

i=0

Resuelvalo de tal forma que obtenga una expresion que s sea estimable.
Comente acerca de las propiedades del termino de error resultante.
P REGUNTA # 12
Cuando se estima una especificacion dinamica, El cumplimiento de cual supuesto
es importante verificar? Por que? Justifique.
P REGUNTA # 13
En que consiste la metodologa de General a Simple? Senale cual es el principal
argumento que aboga a favor de dicha metodologa.
P REGUNTA # 14
Cual es la diferencia entre el modelo estructural y el reducido?
P REGUNTA # 15
Que entiende usted por condicion de Orden y Condicion de Rango?

483
P REGUNTA # 16
Cual es, concretamente, la condicion de orden?
Calculela en el modelo siguiente:
Y1t + 12 Y2t + 11 X1t + 12 X2t = U1t
21 Y1t + Y2t + 21 X1t + 23 X3t + 24 X4t = U2t
P REGUNTA # 17
Que efecto tiene la no-ortogonalidad entre variables explicativas y termino de error
sobre los estimadores?
P REGUNTA # 18
Indique tres casos en los que se rompe el supuesto de ortogonalidad.
P REGUNTA # 19
Que efecto tiene la multicolinealidad sobre los estimadores?
P REGUNTA # 20
Para que sirve la prueba de Hausman? Cual es la logica detras de e sta? Como se
lleva a cabo?
P REGUNTA # 21
Explique la Crtica de Lucas.
P REGUNTA # 22
Suponga que se dispone de T = 120 observaciones de K = 7 variables explicativas,
x1t , x2t , ..., xkt ,as como de una variable dependiente, yt . Se sospecha que existe un
rompimiento estructural en un cierto punto de la muestra, en la observacion 40. Con
base en esto u ltimo, se parte la muestra en dos; posteriormente se estima la regresion
por MCO de la variable dependiente contra todas las demas (la primera puede ser
considerada como un vector en el que solo aparecen unos) usando: (i) todos los
datos; (ii) solo los datos de la primera parte de la muestra, y; (iii) solo los datos de
la segunda parte de la muestra. De cada regresion se obtienen las siguientes sumas
de residuales al cuadrado (no necesariamente en el mismo orden): (1) 545, (2) 777
y (3) 1607.


CAPITULO
15. EJERCICIOS (II)

484

1. Indique cual de las tres sumas corresponde a la regresion que empleo todos
los datos. Justifique su respuesta (la explicacion es lo que mas importa)
2. Con la informacion proporcionada es posible hacer una prueba de cambio
estructural. Cual es?
3. Cual es la hipotesis nula de esa prueba?, y la alternativa?
4. Como se distribuye el estadstico bajo la hipotesis nula?
5. Calcule dicha prueba.
6. Si efectuo bien los calculos, le debio salir un estadstico de prueba tal que su
p-valor es 0.006. Acepta o rechaza la hipotesis nula?
P REGUNTA # 23
Conteste las siguientes preguntas:
1. Que entiende usted por la hipotesis de expectativas racionales?
2. Cual es la propiedad que una variable debe tener, estadsticamente, para que
la Crtica de Lucas no aplique? Explique.
3. Indique dos maneras de probar que la hipotesis de expectativas racionales se
cumple.
P REGUNTA # 24
Suponga que dispone de dos variables, xt y yt . Suponga ademas que, en una especificacion lineal de tipo yt = + xt + ut tenemos evidencia de que la variable
explicativa es debilmente exogena en el sentido de Engle, Hendry y Richard [es decir, con respecto al parametro de interes, en este caso,]. Con base en lo anterior, se
lleva a cabo una prueba de estabilidad del sobre ambas variables A que conclusion
llegara usted si?
a) Se identifican cambios estructurales en xt pero no en yt
b) Se identifican cambios estructurales en xt y en yt
c) No se identifican cambios estructurales en xt ni en yt

485
P REGUNTA # 25
Suponga una variable yt que se genera de la siguiente manera:
yt = + uyt
Donde es un parametro fijo y uyt representa las innovaciones que son iid con
esperanza nula y varianza constante u2 . El estimador de Mnimos Cuadrados Ordinarios de Beta es y, es decir la media de la variable, cuya varianza poblacional es
2
u
, donde T es el tamano de muestra. Un investigador algo necio insiste en estimar
T

la relacion yt = 1 + 2 xt . Dicho investigador usa la clasica formula:


2 xi.
h 1 = y
2
Cabe recordar que la varianza poblacional de este estimador es: u2 T1 + P (xxt x)2 .
Por simplicidad, asuma que la variable explicativa no es estocastica. Dado todo lo
anterior, demuestre que:
a) y es, de hecho, el estimador de MCO de 1 .
b) El valor de la R2 en la regresion del econometrista.
P REGUNTA # 26
En este ejercicio, las variables estan centradas. Suponga que la variable dependiente
se genera de la siguiente manera:
yt = xt + zt + ut
Pero el investigador es medio tarugo y solo estima:
yt = xt + vt
Suponga ademas que la variable xt es normal centrada en cero y con varianza constante x2 ; estudie el comportamiento asintotico de bajo los escenarios:
a) zt = xt + t ,
b) zt = t
donde ut y wt son ruidos iid normales centrados en cero y con varianzas constantes,
u2 y 2 , respectivamente.
P REGUNTA # 27


CAPITULO
15. EJERCICIOS (II)

486

Suponga que las variables xt y yt se generan de la siguiente manera:


yt = xt + ut
xt = x + w t
xt = xt + vt
vt = + zt
para g = u, w, z, gt iidN 0, g2

Suponga ademas que el econometrista solo tiene acceso a la variable xt y que pretende estimar la regresion:
yt = xt + t
a) Es el estimador sesgado o insesgado?
b) Calcule la consistencia del estimador.
P REGUNTA # 28
Suponga que la verdadera especificacion es:
yt = xt + ut
donde yt y xt son variables centradas. Suponga ademas que se cumplen todos los supuestos de la regresion. Un avezado econometrista estima correctamente el modelo
t + ut ] pero despues se hace bolas y corre una segunda regresion:
[yt = x
yt = yt + t
t]
donde yt representa los valores estimados de la primera regresion [
yt = x
a) Cual es su intuicion? Que cree que arroje como estimador la segunda
regresion?
b) Demuestrelo.
c) Proceda igual pero con variables no centradas y regresiones que incluyen
la constante. Aproveche el resultado anterior!
P REGUNTA # 29

487
Suponga un modeloP
yt = + xt + ut estimado por MCO. Por que podemos estar
tan seguros de que ut = 0? Si en vez de ese modelo, usamos
P yt = xt + ut (sin
que las variables esten centradas!), se puede afirmar que
ut = 0? Explique su
respuesta.
P REGUNTA # 30
Suponga el siguiente sistema de ecuaciones simultaneas:
y1t = 1 + 1 x1t + 2 x2t + 3 y2t + u1t
y2t = 2 + 4 x2t + 5 y1t + u2t
y3t = 3 + 6 x1t + u3t

(15.1)
(15.2)
(15.3)

Esta identificada la segunda ecuacion? Proporcione solo las condiciones necesarias.


P REGUNTA # 31
Suponga que desea estudiar la relacion entre xnt y ytn y emplea para ello el siguiente
modelo:
yt = xt + ut
donde yt = ytn yn y xt = xnt xn y la correlacion entre las variables originales
es cero: xn ,yn = 0
Demuestre que = 0. Ayuda: la formula del coeficiente de correlacion es:
P
(zt z)(wt w)

z,w = pP
P
(zt z)2 (wt w)
2

El resultado del ejercicio anterior puede generalizarse de la siguiente manera: Los


estimadores (parametros) asociados a un subconjunto de variables explicativas en
una regresion [por ejemplo, 3 y 4 en la regresion yt = 1 + 2 x2t + 3 x3t +
4 x4t + ut ] seran iguales a cero si dichas variables asociadas (en el ejemplo seran
x3t y x4t ) no estan correlacionadas ni con la variable dependiente (yt ) ni con las
demas explicativas (otra vez, en nuestro ejemplo, seran x1t y x2t ).
Asuma, para el siguiente ejercicio, que se cumplen las condiciones de este resultado.
Debe recordar ademas que, por construccion, los residuales de una regresion tienen
una correlacion igual a cero con las variables independientes.


CAPITULO
15. EJERCICIOS (II)

488

P REGUNTA # 32
Suponga que se estiman las siguientes regresiones:
yt =
1 x1t +
2 x2t + u1t
yt = x2t + vyt
2t + vxt
x1t = x
vxt + u2t
vyt =

(15.4)
(15.5)
(15.6)
(15.7)

donde yt = ytn yn , x1t = xn1t xn1 (no es una constante) y x2t = xn2t xn2 .
Demuestre que:
1. =
1
2. u1t = u2t
P REGUNTA # 33
Suponga que estima el siguiente modelo:
st = + rt + ut
Donde, St es el tipo de cambio peso/dolar, rt es el diferencial de tasas de interes
entre Mexico y Estados Unidos y ut es el termino de error. Como probara usted la
presencia de autocorrelacion? En caso de que encontrara evidencia de autocorrelacion que hara usted?
P REGUNTA # 34
Defina los siguientes conceptos y ejecute los calculos solicitados:
1. Estacionariedad debil.
2. Operador diferencia, . Desarrolle 3 (xt ).
3. Orden de integracion, I(d). Si xt I(1), que puede decir de (xt )?
4. Operador rezago, L. Desarrolle (1 2L + 3L2 5L5 )xt .
P REGUNTA # 35

489
Suponga que dos variables (xt y yt ) fueron generadas independientemente como
procesos I(1) sin deriva. Que pasara si intentara usted estimar la regresion yt =
+ xt ?
P REGUNTA # 36
Suponga que tiene usted datos de E.E.U.U. respecto al salario (w) de una poblacion;
sabe ademas, la edad (E) y el color de piel de cada individuo (con tres clasificaciones u nicamente: negro, blanco o moreno), el numero de anos de escolaridad y su
promedio (escolar, tambien). Que problema le ve a la ecuacion siguiente?
wi = + 1 Ei + 2 N egroi + 3 Blancoi + 4 M orenoi + ut
Donde las variables N egro, Blanco y M oreno son variables dicotomicas que valen
uno si el individuo tiene la piel de dicho color y cero si no.
Suponga que corrige el problema de especificacion del inciso anterior. Explique
ahora porque la ecuacion (corregida) sigue sin ser un buen modelo para determinar si hay dicriminacion por salario en esa poblacion. Proponga una especificacion
mejor con la informacion provista en este ejercicio; explique porque es mejor su
propuesta.
P REGUNTA # 37
Cierto o falso? Un econometrista corre una regresion entre dos variables (se incluye constante); todos los supuestos se cumplen, solo que la variable dependiente
esta medida con error; el error es un ruido blanco centrado en cero con varianza
constante. El estimador de la pendiente tiene sesgo.
P REGUNTA # 38
Un econometrista corre una regresion entre dos variables (yt = + xt + ut ); todos
los supuestos se cumplen, solo que la variable dependiente esta medida con error; el
error es un ruido distribuido como normal, con varianza constante y esperanza igual
a E 6= 0. Hay consistencia en el estimador de ? Suponga que xt N (0, x2 ),
yt = + xt + ut , yt = yt + Et y Et N (E , E2 ).
P REGUNTA # 39
El padre de Juan tiene cinco hijos; les puso nombres raros: Diez, Veinte, Treinta,
Cuarenta... Como crees que se llama el quinto?

490

CAPITULO
15. EJERCICIOS (II)
P REGUNTA # 40

Complete la siguiente serie: 7 = 5, 5 = 5, 10 = 4, 9 = 5, 15 = 6, 16 = 9, 100 =


4, 14 = . . . , 28 = . . ..
P REGUNTA # 41
En este manual se explica la prueba Dickey-Fuller, misma que sirve para probar la
hipotesis nula de raz unitaria. Dicha prueba es muy sensible a cambios estructurales
en la variable y por lo mismo, e stos deben ser incorporados a la prueba, de la misma
manera que se incorporaron elementos deterministas, como la constante y la deriva.
Suponga que el proceso que genero realmente los datos (PGD) es el siguiente:
yt = y + yt1 + y DUyt + uyt ,


donde y = 0.14 y y = 0.21 son parametros, uyt N 0, 21 corresponde a las
innovaciones, y t = 1, . . . , T con T = 500, es el tamano de la muestra; DUyt es una
variable dicotomica que vale cero si t < 251 y uno si t 251. uy0 = y0 = 0.
1. resuelva la ecuacion del PGD, Note que le debera quedar la suma de la variable dicotomica con distintos rezagos. Si tiene dificultades resolviendo dicha
suma, haga un ejemplo sencillo en una hoja con T = 10. Notara que llega a
una suma facil de interpretar.
2. Escriba el codigo de Matlab que permita realizar la siguiente variante de la
prueba Dickey-Fuller (se asume que la variable dicotomica s es conocida por
el econometrista):
(yt ) = + yt1 + DUyt
3. Aplique la prueba a una variable generada iid, distribuida normalmente con
esperanza cero y varianza igual a 2.

4. Recupere el valor numerico del estadstico t asociado a beta.


5. Al haber modificado la regresion auxiliar de la prueba Dickey-Fuller, los valores crticos usuales para dicha prueba ya no sirven. Realice un Monte Carlo
en el que genere la variable y bajo la hipotesis nula y obtenga los valores crticos del estadstico t al 1 %, 5 % y 10 %. Es como calcular el histograma solo
que no se pide el grafico. Se obtienen 500 replicas del estadstico de prueba,
se ordenan de menor a mayor (el comando es sort) y se extraen las que corresponden a los percentiles solicitados (el comando es quantile). Recuerde
que la prueba es una sola cola (la del lado negativo).

491
P REGUNTA # 42
Considere las siguientes siete situaciones:
1. Se estima la regresion yt = + xt + ut ; se sabe que 2 = (xt )2 ( es una
constante cualquiera),
2. Se estima la regresion yt = + 1 x1t + 2 x2t + ut ; se sabe que:
a) x1t = x2t + v1t , donde v1t iidN (0, 1/3),

b) ut = ut1 + v2t , donde v2t iidN (0, 1/2).


3. Se estima la regresion yt = + xt + ut ; se sabe que E(xt ut ) 6= 0,
4. Se estima la regresion yt = + xt + ut ; se sabe que:
a) zt I(1) para z = x, y,

b) una combinacion lineal de ambas variables que resulta ser I(0).


5. Se estima la regresion yt = 1 x1t + 2 x2t + . . . + 7 x7t + ut ; se sabe que
T = 7,
6. Se estima la regresion yt = + 1 x1t + 2 x2t + ut ; se sabe que x1t x2t ,
7. Se estima la regresion yt = + xt + ut ; se sabe que V AR(ut ) = K 4 , donde
K es una constante cualquiera.
En algunas de estas situaciones la estimacion de la regresion podra tener alguna(s)
de las siguientes dificultades:
a Hiperventilacion,
b Heteroscedasticidad,
c Alopecia,
d Micronumerosidad,
e Cointegracion,
f Alopata,


CAPITULO
15. EJERCICIOS (II)

492
g No ortogonalidad,
h Hipermetropa,
i Regresion espuria,
j Multicolinealidad,
k Autocorrelacion,
l No hay ningun problema,

m El problema no aparece en ninguna de las opciones a-k,


n ausencia de grados de libertad.
Identifique, entre las siguientes opciones, la que identifica correctamente el problema de cada regresion:
: [k], [i] y [h], [c], [e], [i], [m], [a]
: [b], [j] y [k], [g], [e] y [l], [d], [l], [l]
: [c], [f] y [i], [g], [b], [j], [m] y [n], [h]
: [b], [j] y [k], [g], [e] y [l], [n], [l], [l]
: [b], [k], [g], [e], [d], [l], [l]
: [k], [j] y [k], [g], [e] y [l], [d], [l], [l]
: [b], [j], [g],[l], [d], [l], [l]
: [b], [j], [g],[l], [d], [i], [l]
: [b], [a], [d], [i], [l], [l], [b]
: [b], [j], [g], [e] y [l], [d], [l], [b]
: [b], [j], [g],[l], [d], [m], [l]
: ninguna de las anteriores.
: Hay dos secuencias de respuesta correctas entre las once primeras. Cuales?

493
: Hay tres secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay tres secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay cuatro secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay cinco secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay seis secuencias de respuesta correctas entre las once primeras. Cuales?
Tome en cuenta que, entre las 18 opciones que se ofrecen, solo hay una respuesta
correcta.
P REGUNTA # 43
Suponga que la verdadera relacion entre dos variables es la siguiente:
yt = + xt + ut .
Suponga ademas que se cumplen todos los supuestos habidos y por haber, por lo que
los estimadores de MCO de y son insesgados y consistentes. Ahora imagine que
el econometrista comete un error de especificacion y estima la siguiente regresion:
t + vt .
yt = x
Suponga, ademas, que:
1 P
D
1. T 2 Tt=1 xt N (0, x2 ),
P
P
2. T 1 Tt=1 x2t x2 ,
3. xt ut (son ortogonales).
D

Donde quiere decir converge a esa distribucion y quiere decir converge


en probabilidad. Note adem
as que, para que se den esas convergencias, la primera

suma debe ser dividida por T y la segunda por T . Ello quiere decir que ambas
sumas crecen a una cierta velocidad proporcional a una potencia del tamano de
muestra.

Es consistente o inconsistente el estimador ?


P REGUNTA # 44
Suponga que esta frente a alguien que sabe mucha estadstica pero nada de econometra. El estadstico quiere justamente hacer un estudio de demanda por dinero
y le pide consejo respecto a las pruebas que debe realizar y el o rden en que debe
ejecutarlas. Escrbale la lista, explicandole las razones del orden de las pruebas. De
hecho, no escatime en explicaciones.

494

CAPITULO
15. EJERCICIOS (II)

Parte III
Herramental matematico basico

495

Apendice A
Tendencia central y dispersion
En primera instancia cabe recordar al famoso operador sumatoria. El smbolo es la
letra griega mayuscula y la forma en la que la utilizaremos en este curso es:
T
X

Xt = X1 + X2 + X3 + .... + XT

t=1

Por lo general todas nuestras sumatorias iran desde que t es igual a 1 hasta T . Para
simplificar un poco la notacion omitiremos eso a menos que justamente la sumatoria
cubra otro perodo. Ahora procedemos a resumir algunas reglas fundamentales: sea
una constante,
1.
2.
3.

=T
Xt =
(Xt + Yt ) =

Xt
Xt +

Yt

Con este operador podemos recordar algunos elementos basicos de estadstica.

1. Media de la Variable aleatoria X:


X
= 1
X
Xt
T
497

APENDICE
A. TENDENCIA CENTRAL Y DISPERSION

498

2. Variable en desviaciones:
X

Xt X

Xt X
X

Xt XT
X
X
=
Xt
Xt

= O

3. Medida de dispersion: la varianza


V ar (X) =
=
=
=
=

1
T
1
T
1
T
1
T
1
T

X
X

Xt X

2


2 2Xt X

Xt2 + X
X
X
2 T 2X

Xt2 + X
Xt


X
2
1 X
2 X 2
2
Xt 2
Xt
Xt + 2
T
T
X

1 X 2
Xt
Xt2
T

4. Covarianza:


1X
Yt Y
Xt X
T

X
X
1 X

Y T
=
Xt Yt Y
Xt X
Yt + X
T
1X
1 X X
=
Xt
Yt
Xt Y t 2
T
T
1 X X
1 X X
X
Xt
Y
+
Yt
t
t
T 2
T2

1 X
1X X
=
Xt
Yt
Xt Y t
T
T

Cov(X, Y ) =

Apendice B
Operador Esperanza
B.1. definicion
Buena parte del curso requerira el calculo de las esperanzas de estimadores con el
objeto de conocer el eventual sesgo de los mismos. Si bien el operador esperanza
ya ha sido inculcado en cursos anteriores, vale la pena darle una pequena revisada.
Si bien hay varias medidas centrales relevantesmedia y moda por ejemplo, la que
mas usaremos es la media.
Definicion 29 El valor esperado de una variable aleatoria es:
P
(X discreta)
x Xi Pi
= E(X) =
R
Xf (x)dx (X continua)
x
donde, Pi y f (x) fungen como ponderadores.

Cabe senalar que el smbolo


no es otra cosa mas que una S estilizada.1 Lo
anterior es una medida de tendencia central. Tambien existen medidas de dispersion.
Las que mas usaremos son: la varianza y su raz, la desviacion estandar.

En tiempos de la invencion del calculo (Leibniz y Newton), dicho smbolo no exista. Para
explicitar una suma se escriba la palabra entera (SUMA). Posteriormente, se acordo una simbologa
aceptada por todos.

499


APENDICE
B. OPERADOR ESPERANZA

500

Definicion 30 La varianza de una variable aleatoria es:

B.2.

x2 = V ar(X) = E(X )2
P
2
(X discreta)
x (Xi ) Pi
=
R
(X )2 f (x)dx (X continua)
x

Algunas reglas del operador esperanza

Conviene familiarizarse con el manejo del operador esperanza; entre otras cosas es
necesario saber que, siendo a y b dos constantes:
1. E(aX + b) = aE(X) + b


2. E (aX)2 = a2 E (X 2 )

3. En lo que concierne a la varianza:

V ar (X) =
=
=
=

E(X )2
E(X 2 ) + 2 2E(X)
E(X 2 ) + 2 2
E(X 2 ) 2

As, el operador varianza tiene sus reglas muy particulares. Suponga dos variables aleatorias, x e y, as como dos constantes, a y b; entonces:
a) V ar(axt + byt ) = a2 V ar(xt ) + b2 V ar(yt ) + 2abCov(xt , yt )
b) V ar(axt byt ) = a2 V ar(xt ) + b2 V ar(yt ) 2abCov(xt , yt )
c) V ar(a) = 0

Apendice C
La distribucion normal
La distribucion normal tambien es conocida como distribucion Gaussiana,1 pues
tiene la forma de ese tipo de funciones, f (x) = a exp
formula de la distribucion normal es:

(xb)2
2c2

. Concretamente, la

(x)2
1
f (x; , 2 ) = exp 22
2

donde y 2 son la esperanza y la varianza de x, respectivamente. Es conocido que


esta distribucion tiene forma de campana (ver grafico C.1). Cuando = 0 y 2 = 1,
la distribucion normal se denomina estandar.

La distribucion normal es ubicua en estadstica por diversas razones, entre las que
destacan: (i) es muy tratable analticamente; (ii) es la distribucion resultante del Teorema del Lmite Central; (iii) su forma acampanada la hacen idonea para estudiar
gran cantidad de fenomenos naturales.
Existe una inmensay accesibleliteratura que estudia esta distribucion, por lo
que solo nos concentraremos en algunas de sus propiedades, particularmente las
que nos pueden llegar a ser de utilidad.Destaca que los momentos son muy faciles
de obtener:

0
p
E[x ] =
p !!
1

Johann Carl Friedrich Gauss (1777-1855). Cientfico Matematico (y fsico) de nacionalidad


Alemana. Contribuyo de manera importante en los campos de la teora de numeros, la estadstica, el
analisis, la geometra diferencial, la geodesa, la geofsica, la electrostatica, la astronoma y la o ptica.

501

NORMAL

APENDICE
C. LA DISTRIBUCION

502

1.4

1.2

N(0,0.3)

1.0

N(0,1)

0.8

0.6

N(3,0.7)
N(0,2)

0.4
N(0,4)
0.2

0.0

Figura C.1: Ejemplos de Densidad Normal


donde !! implica doble factorial: el producto de todos los enteros impares, por ejemplo: 7!! = 1 3 5 7
Destaca que s la distribucion normal esta centrada en cero, los momentos impares
seran siempre cero. (Destaca tambien, claro, que todos los momentos son funcion
de la esperanza y la varianza, es decir, de los dos primeros momentos). La fuente de
este apendice es, por cierto, Wikipedia.

Apendice D

Algebre
matricial
Este apendice no pretende ser exhaustivo, ni mucho menos. Tan solo habra de ser
considerado como un formulario ad hoc para efectos de este manual. En otras palabras, solo presentaremos resultados que son u tiles para el desarrollo de los resultados de libro. Este apendice se presenta a sugerencia de Juan Pablo de Bottom,1 a
manera de teorema:
Teorema 20 Sea A una matriz de K K. Entonces, las siguientes 12 afirmaciones
son equivalentes (es decir, cualquiera de ellas implica las restantes 6.):2
1. A es invertible,
2. | A |6= 0 (determinante distinto de cero),
3. (A) = K (rango igual a K),
4. Las columnas y los renglones de A son linealmente independientes,
5. La u nica solucion al sistema homogeneo Ax = 0 es la solucion trivial x = 0,
6. El sistema Ax = b tiene una solucion u nica para cada K-vector b,
7. El numero 0 no es un vector caracterstico (eigenvector) de A,
1

De hecho, e l lo escribio con base en Grossman (1995); Poole (2010).


En realidad, una matriz invertible tiene muchas mas propiedades. Por ejemplo, la forma escalonada por renglones de A tiene K pivotes, v(A) = 0, (nulidad de A, nucleo/kernel), A se
puede expresar como el producto de matrices elementales,. . . . No obstante, con las siete enumeradas tenemos suficiente.
2

503

504

APENDICE
D. ALGEBRA
MATRICIAL

Apendice E
Independencia entre la varianza
estimada y los parametros MCO
Para obtener el resultado de indepencia entre los parametros estimados por MCO y
el estimador de la varianza, empezaremos por definir claramente el objetivo, que es:
h
i
2
2
2

Cov(,
) = E ( )(
)


= E
2 2
= 0

Note que ya omitimos las esperanzas de los estimadores, pues ya esta probado que
ambos son estimadores insesgados. As, nuestro objetivo es demostrar que esa covarianza
es cero. Como se puede ver del desarrollo anterior, necesitamos calcular

2

. De hecho, para que la covarianza sea cero, esta esperanza debera ser
E
igual a 2 . Eso es lo que vamos a probar:

i

h

2 = E (X X)1 X Y U U T 1
E
Note que dividimos por T y no por T K. El divisor correcto es el segundo,
pero haremos abstraccion de ello, para dejar mas simples las especificaciones. Para
deshacernos de todos los elementos estimados (todos los gorros) y del vector de
la variable dependiente, (i) reemplazaremos Y por la verdadera especificacion, y,
505

506 APENDICE
E. INDEPENDENCIA ENTRE PARAMETROS
Y VARIANZA
(ii) haremos uso de nuestra famosa matriz idempotente, Mx = I X(X X)1 X ,
cuyas propiedades estan explicadas en el curso (ver p. 142):




2 = T 1 E ( + (X X)1 X U )U Mx U
E


= T 1 E (U Mx U + (X X)1 X U U Mx U


= T 1 2 T + E (X X)1 X U U Mx U

Solo resta obtener una esperanza. Note que en e sta solo hay variables explicativas
deterministas (de acuerdo con la primera parte del curso) y el termino de error.
Explicitemos la esperanza. P RIMERO, note que:
dim (X X)1 X U U Mx U = K 1

S EGUNDO, el termino (X X)1 X generara una matriz de K T compuesta de


expresiones dependientes u nicamente de X:

q11 q12 . . . q1T


q21 q22 . . . q2T

(X X)1 X = ..
..
..
...
.
.
.
qK1 qK2 . . . qKT

No importa, para efectos de este desarrollo, la formula especfica de los elementos


qij . Baste saber que son funcion exclusiva de variables explicativas deterministas.
T ERCERO, podemos hacer lo mismo con el otro elemento determinista, Mx :

W11 W12 . . . W1T


W21 W22 . . . W2T

Mx = ..
..
..
...
.
.
.
WT 1 WT 2 . . . WT T

Al igual que en el caso anterior, lo importante es recordar que solo hay variables
explicativas en esa matriz. C UARTO, las matrices que solo incluyen al termino de
error son:

u1 u1 u1 u2 . . . u1 uT
u2 u1 u2 u2 . . . u2 uT

U U = ..
..
.. ,
...
.
.
.
uT u1 uT u2 . . . uT uT

507
y,

u1
u2

U = .. .
.

uT

Q UINTO, Al realizar el calculo (X X)1 X U U (la primera parte), obtendramos


una matriz de dimensiones K T cuyo elemento i = 1, 2, . . . , K, j = 1, 2, . . . , T
sera:
T
X

qit uj ut

t=1

S EXTO, al realizar el calculo Mx U (la segunda parte), obtendramos un vector de


dimensiones T 1 cuyo i-esimo elementos i = 1, 2, . . . , T sera:
T
X

Wit ut

t=1

S EPTIMO
(y u ltimo), al multiplicar las dos expresiones anteriores, el resultado,

1
((X X) X U U Mx U ), es un vector de dimensiones T 1, cuyo i-esimo elemento
sera:
T
X
t=1

qit u1 ut

T
X

W1t ut +

t=1

T
X
t=1

qit u2 ut

T
X

W2t ut + . . . +

t=1

T
X
t=1

qit uT ut

T
X

W T t ut

t=1

Note como, en el i-esimo elemento (es decir en cualquiera) el termino ui se multiplica por todos los demas terminos ut y luego se vuelve a multiplicar por todos los
terminos ut . En otras palabras, solo nos puede quedar (omitiendo q y W ):
u i uj uk
Si recordamos que el termino de error es iid, no importan los valores de i, j y
k; sean cuales sean, la esperanza de ui uj uk siempre sera cero. Si i = j = k, el
tercer momento de una normal centrada en cero es cero tambien. Lo mismo ocurre
si i = j 6= k o bien i 6= j 6= k, etc. En otras palabras:


2

= 2
E

508 APENDICE
E. INDEPENDENCIA ENTRE PARAMETROS
Y VARIANZA
Retomando la expresion de la covarianza, demostramos que e sta es igual a cero:

Cov(,
2 ) = 2 2
= 0
Note que lo que obtuvimos es independencia lineal. Los estimadores de la Varianza
y los parametros no estan correlacionados. Afortunadamente para nosotros, tanto
como los residuales, U se distribuyen normalmente. Bajo estas extraordinarias
condiciones, ausencia de correlacion implica independencia.

Apendice F
Origen de MCO: Legendre
En este apendice se reproducen las paginas de libro en las que fue propuesto por primera vez el metodo de Mnimos Cuadrados Ordinarios. Se presenta la portada del
libro Nouvelles Methodes Pour la Determination des Orbites des Com`etes, escrito en 1805 por Adrien-Marie Legendre, as como las paginas del apendice donde
el metodo se detalla con gran claridad. Este libro fue digitalizado por Universite de
Strasbourg.1

http://num-scd-ulp.u-strasbg.fr:8080/327/

509

510

APENDICE
F. ORIGEN DE MCO: LEGENDRE

Figura F.1: Nouvelles Methodes Pour la Determination des Orbites des


Com`etes, A.M. Legendre (1805), Portada. Fuente: Universite de Strasbourg
http://num-scd-ulp.u-strasbg.fr:8080/327/.

511

Figura F.2: A.M. Pagina 72 del libro de Legendre

512

APENDICE
F. ORIGEN DE MCO: LEGENDRE

Figura F.3: A.M. Pagina 73 del libro de Legendre

513

Figura F.4: A.M. Pagina 74 del libro de Legendre

514

APENDICE
F. ORIGEN DE MCO: LEGENDRE

Figura F.5: A.M. Pagina 75 del libro de Legendre

Apendice G
MCO usando Excel 2007
Para poder estimar una regresion usando el programa Excel es necesario tener habilitado el modulo de Analisis de datos. Si no es el caso en su version, ejecute los
siguientes pasos:
1. Abra el programa Excel,
2. Con el raton, seleccione la pestana DATOS,
3. Coloque el raton bajo H ERRAMIENTAS DE DATOS y de clic con el boton
derecho del raton,
4. Seleccione P ERSONALIZAR BARRA DE H ERRAMIENTAS ...,
5. En el menu emergente, de clic en C OMPLEMENTOS (opciones a la izquierda),

6. En el menu emergente, de clic en H ERRAMIENTAS PARA A N ALISIS


,
7. De clic en I R ... y espere mientras se instala el modulo (siga las instrucciones).
Una vez instalado dicho modulo, podra observar como, en la pestana DATOS apare
DE DATOS . Si da
ce una nueva opcion, en el extremo derecho del liston: A N ALISIS
. Aparece
clic ah, aparece un menu emergente; una de las opciones es R EGRESI ON
entonces un menu en el que debe usted indicar cual es la variable dependiente, la o
las independientes, si desea que haya constante en la especificacion,...

515

516

APENDICE
G. MCO USANDO EXCEL 2007


Indice
alfabetico
Determinante de una matriz, 42, 122, 168
Ajuste de Inventarios, 406, 435
172, 200
Autocorrelacion, 4446, 48, 57, 67, 101,
120, 190193, 196, 203205, 209
211, 213220, 226, 252, 254, 257, Ergodicidad, 352
Estabilidad, 252, 329, 341343, 347, 382,
259, 288, 407, 408, 411, 413
383, 386, 388, 394, 396, 427
Autocovarianza, 353
Estacionariedad, 44, 48, 107, 108, 120,
190, 254, 351353, 355, 369
Causalidad, 251, 329335, 418
Estacionariedad estricta, 353
Coeficiente de correlacion, 3235, 146, Exogeneidad, 316, 329, 338340, 346,
149, 172175, 212, 213, 215
348350, 383, 422, 428, 458
Exogeneidad Debil, 339347, 349, 350,
Cointegracion, 350, 376378
382, 423
Comision Cowles, 30, 47, 338, 426, 428,
Exogeneidad Estricta, 338, 382
457
Exogeneidad Fuerte, 345, 382
Condicion de Rango, 445
Consistencia, 50, 5456, 76, 77, 189, 190, Expectativas, 391393, 399, 401
219, 223, 225227, 251254, 262, Expectativas Adaptativas, 403, 405407,
414, 422
263, 266, 271274, 277, 280, 284
286, 297, 299, 302, 304, 312, 313, Expectativas Naiveshyperpage, 392, 399,
400
316, 318, 325, 326, 338, 349, 408
Expectativas Racionales, 414416, 418
411, 428, 431, 434
420, 422, 423
Consistencia temporal, 416, 417
Correlograma, 370
Granger-Causalidad, 287, 336, 337, 345,
Crtica de Liu, 437, 457
346, 349, 382
Crtica de Lucas, 339, 340, 346, 383, 392,
420, 421, 423, 427, 457, 458
HAC (Matriz de Varianza-Covarianza RoCriterio de Informacion de Akaike, AIC,
busta a la autocorrelacion y a la
150, 337, 413
heteroscedasticidad), 226
Criterio de Informacion de Schwarz, SIC HCCME (Matriz de Varianza-Covarianza
Robusta a la heteroscedasticidad),
(BIC), 150, 337, 413
517

518

INDICE
ALFABETICO

Prueba RESET de Ramsey, 253, 288, 289,


226
291
Heteroscedasticidad, 45, 190195, 203
209, 214, 219, 220, 225, 226, 252,
Raz Unitaria, 369, 370
257, 288
Homoscedasticidad, 44, 48, 57, 67, 101, Rango de una matriz, 122, 131, 167, 177,
182
116, 120, 189191, 197, 203, 205
Regresion espuria, 355
208, 220, 223, 252, 259, 391
Sesgo, 50, 5254, 56, 57, 61, 62, 70, 72,
Idempotencia, 133, 134, 143, 144, 484
73, 76, 77, 102, 124, 128, 129,
Identificacion, 281, 298, 306, 430432,
133, 137, 138, 189, 190, 194, 203,
434, 435, 437, 439, 443, 444, 449,
206, 219, 223, 224, 227, 251
458
254, 260263, 266, 271, 277, 280,
Instrumentos, 87, 213, 254, 286, 299, 300,
281, 284, 285, 301, 302, 314, 315,
304306, 312314, 316318, 432
318, 338, 408, 410, 419, 428, 434
Instrumentos Debiles, 314, 315
Super
Exogeneidad,
340, 346, 348, 382,
Instrumentos Exogenos, 315
383, 423
Mnimos Cuadrados Generalizados, MCG,
Teorema de Gauss-Markov, 56, 61, 63,
193, 195, 196, 200, 202, 205, 206,
128130, 151, 195, 206
214, 219, 313
Mejores Estimadores Lineales Insesga- Variables Instrumentales (Metodo), 286,
dos, MELI, 61, 77, 128, 195, 206,
288, 297, 299, 300, 305, 306, 309,
252, 297
312316, 318, 411, 430, 435, 450
Modelo Autoregresivo, 369
Modelo de Telarana, 340, 341, 344, 392,
393, 399, 400
Modelo Estructural, 441, 443, 444
Modelo Reducido, 434, 437
Modelos de Correccion de Error, 350, 377
Observaciones aberrantes, 294
Ortogonalidad, 254, 257, 261, 263, 271,
277279, 284, 286, 297, 301, 302,
312, 314, 318, 338, 391, 409, 411,
425, 428, 450
Parsimonia, 252, 401, 411, 412
Predeterminacion, 435
Prueba de Sargan, 316

Bibliografa
A LDRICH , J. (1995): Correlations genuine and spurious in Pearson and Yule,
Statistical Science, 10(4), 364376.
B OX , G., AND G. J ENKINS (1970): Time Series Analysis: Forecasting and Control.
San Francisco, Holden Day.
B REUSCH , T., AND A. PAGAN (1980): The Lagrange Multiplier Test and its Applications to Model Specification in Econometrics, Review of Economic Studies,
47, 239254.
C HOW, G. (1960): Tests of equality between sets of coefficients in two linear regressions, Econometrica: Journal of the Econometric Society, pp. 591605.
DAVIDSON , R., AND J. M AC K INNON (1993): Estimation and inference in econometrics. Oxford University Press New York.
D ICKEY, D., AND W. F ULLER (1979): Distribution of the estimators for autoregressive time series with a unit root, Journal of the American statistical association, pp. 427431.
E NDERS , W. (1995): Applied econometric time series. Wiley New York.
E NGLE , R., AND C. G RANGER (1987): Co-integration and error correction: representation, estimation, and testing, Econometrica: journal of the Econometric
Society, pp. 251276.
E NGLE , R., D. H ENDRY,
51(2), 277304.

AND

J. R ICHARD (1983): Exogeneity, Econometrica,

E RICSSON , N., AND J. I RONS (1994): Testing exogeneity. Oxford University Press,
USA.
519

520

BIBLIOGRAFIA

F ISHER , I. (1925): Our unstable dollar and the so-called business cycle, Journal
of the American Statistical Association, 20(150), 179202.

F ONSECA H ERN ANDEZ


, F. (2009): El impacto de la inversion publica sobre la
inversion privada en Mexico, 1980-2007, Estudios Economicos, pp. 187224.
F RISCH , R. (1933): Editors Note, Econometrica, 1, 14.
G OLDFELD , S., AND R. Q UANDT (1965): Some tests for homoscedasticity, Journal of the American Statistical Association, 60(310), 539547.
G RANGER , C. (1969): Investigating causal relations by econometric models and
cross-spectral methods, Econometrica, 37(3), 424438.
(1981): Some properties of time series data and their use in econometric
model specification, Journal of econometrics, 16(1), 121130.
G RANGER , C., AND P. N EWBOLD (1974): Spurious regressions in econometrics,
Journal of econometrics, 2(2), 111120.
G RANGER , C., N. S WANSON , M. WATSON , AND E. G HYSELS (2001): Essays
in Econometrics: Collected Papers of Clive WJ Granger. Cambridge University
Press.
G RANGER , C., AND A. W EISS (1983): Time series analysis of error-correction
models, Studies in Econometrics, Time Series, and Multivariate Statistics, pp.
255278.
G RANGER IV, C., N. H YUNG , AND Y. J EON (2001): Spurious regressions with
stationary series, Applied Economics, 33(7), 899904.
G REENE , W. (1997): Econometric analysis. Prentice Hall Upper Saddle River, NJ.
G ROSSMAN , S. (1995): Multivariable calculus, linear algebra, and differential
equations. Saunders College Pub.
G UJARATI , D. (1988): Basic econometrics. McGraw-Hill New York.
G UJARATI , D., AND D. P ORTER (2010): Econometra. McGraw-Hill New York.
H AMILTON , J. (1994): Time Series Analisys. Princeton.


BIBLIOGRAFIA

521

H ANSEN , B. (1992): Tests for parameter instability in regressions with I (1) processes, Journal of Business & Economic Statistics, pp. 321335.
H AYASHI , F. (2000): Econometrics. Princeton University Press Princeton.
H ENDRY, D. (1980): Econometrics-Alchemy or Science?, Economica, 47(188),
387406.
H ENDRY, D., AND G. A NDERSON (1977): Testing Dynamic Specification in Small
Simultaneous Systems: An Application to a Model of Building Society Behaviour
in the United Kingdom, Frontiers in Quantitative Economics, 3, 361383.
H ENDRY, D., AND G. M IZON (1978): Serial correlation as a convenient simplification, not a nuisance: A comment on a study of the demand for money by the
Bank of England, The Economic Journal, 88(351), 549563.
H ENDRY, D., AND M. M ORGAN (1995): The Foundations of Econometric Analysis.
Cambridge University Press.
H ENDRY, D., A. PAGAN , AND J. S ARGAN (1984): Dynamic Specification, Handbook of Econometrics, 2, 10231100.
H ENDRY, D., F. S RBA , AND S. Y EO (1978): Econometric modelling of the aggregate time-series relationship between consumers expenditure and income in the
United Kingdom, The Economic Journal, 88(352), 661692.
H UME , D. (1740): A Treatise of Human Nature.
(1748): An Enquiry Concerning Human Understanding.
J EVONS , W. (1965): The Theory of Political Economy, reprint of Jevons (1871),
New York: Kelley.
J OHNSTON , J., AND J. D INARDO (1998): Econometric Methods. McGraw Hill.
J OLLIFFE , I. (2005): Principal component analysis. Wiley Online Library.
K IM , T.-H., Y.-S. L EE , AND P. N EWBOLD (2003): Spurious Regressions With
Processes Around Linear Trends or Drifts, Discussion Papers in Economics.
K LEIN , L., AND A. G OLDBERGER (1955): An Econometric Model of the United
States, 1929-1952. North-Holland Pub. Co.

522

BIBLIOGRAFIA

L APLACE , P. (1814): A Philosophical Essay on Probabilities.


L EAMER , E. (1983): Lets take the con out of econometrics, American Economic
Review, 73(1), 3143.
L ECHNER , M. (2006): The Relation of Different Concepts of Causality in Econometrics, Discussion Paper of the Department of Economics, University of St.
Gallen.
L EGENDRE , A. (1805): Nouvelles methodes pour la determination des orbites des
com`etes. F. Didot.
L UCAS J R , R. (1976): Econometric Policy Evaluation: A Critique., 1, 1946.
M ADDALA , G. (1988): Introduction to Econometrics. Collier Macmillan.
M C C LOSKEY, D., AND S. Z ILIAK (1996): The Standard Error of Regressions,
Journal of Economic Literature, 34(1), 97114.
M OORE , H. (1914): Economic Cycles: Their Law and Cause. The Macmillan company.
M ORGAN , M. (1990): The History of Econometric Ideas. Cambridge University
Press.
N ELSON , C., AND C. P LOSSER (1982): Trends and random walks in macroeconmic time series:: Some evidence and implications, Journal of monetary economics, 10(2), 139162.
N EWEY, W., AND D. K ENNETH (1987): West, 1987, A simple, positive semidefinite, heteroskedasticity and autocorrelation consistent covariance matrix,
Econometrica, 55(3), 703708.
`
N ORIEGA , A., AND D. V ENTOSA -S ANTAUL ARIA
(2006): Spurious Regression
Under Broken Trend Stationarity, Journal of Time Series Analysis, 27, 671684.
(2007): Spurious Regression And Trending Variables, Oxford Bulletin of
Economics and Statistics, 7, 47.
(2008): Spurious Cointegration: the Engle-Granger test in the presence of
Structural Breaks, RePEc, 7, 17.


BIBLIOGRAFIA

523

P HILLIPS , P. (1986): Understanding Spurious Regressions in Econometrics,


Journal of Econometrics, 33, 311340.
P INDYCK , R., AND D. RUBINFELD (1998): Econometric models and economic
forecasts. McGraw-Hill New York.
P OOLE , D. (2010): Linear algebra: A modern introduction. Brooks/Cole Publishing Company.
R AMSEY, J. (1969): Tests for specification errors in classical linear least squares
regression analysis, Journal of the Royal Statistical Society, 31(2), 350371.
R AO , C. (1952): Advanced statistical methods in biometric research., .
R EICHENBACH , H. (1971): The Direction of Time. 1956, Berkeley: University of
Cali.
S ARGAN , J. (1958): The estimation of economic relationships using instrumental
variables, Econometrica: Journal of the Econometric Society, pp. 393415.
(1964): Wages and prices in the United Kingdom: a study in econometric
methodology, Econometric analysis for national economic planning, 16, 2554.
S KYRMS , B. (1980): Causal Necessity: A Pragmatic Investigation of the Necessity
of Laws. Yale University Press.
S TOCK , J., AND M. WATSON (2003): Introduction to Econometrics, 2/E. AddisonWesley.
S UPPES , P. (1970): A probabilistic theory of causality. North-Holland.
T INBERGEN , J. (1939): Statistical testing of business-cycle theories II. Business
cycles in the United States of America, 1919-1932, Geneva: League of Nations,
Economic Intelligence Service, 1939.
V ENTOSA -S ANTAULARIA , D. (2009): Spurious regression, Journal of Probability and Statistics, 2009, 127.
`
V ENTOSA -S ANTAUL ARIA
, D. (2006): Que es la Econometra?, Acta Universitaria, 16(3), 4765.
`
V ENTOSA -S ANTAUL ARIA
, D., AND J. V ERA -VALD E S (2008): GrangerCausality in the presence of structural breaks, Economics Bulletin, 3(61), 114.

524

BIBLIOGRAFIA

W HITE , H. (1980): A heteroskedasticity-consistent covariance matrix estimator


and a direct test for heteroskedasticity, Econometrica, 48(4), 817838.
(2001): Asymptotic theory for econometricians. Academic press New York.
W RIGHT, P. (1928): The Tariff on Animal and Vegetable Oils. The Macmillan company.
Y ULE , G. (1897): On the theory of correlation, Journal of the Royal Statistical
Society, 60(4), 812854.
(1926): Why do we Sometimes get Nonsense-Correlations between TimeSeries?A Study in Sampling and the Nature of Time-Series, Journal of the
Royal Statistical Society, 89(1), 163.

También podría gustarte