Documentos de Académico
Documentos de Profesional
Documentos de Cultura
`
DANIEL V ENTOSA -S ANTAUL ARIA
Version Diciembre 2012. Documento hecho en LATEX
Indice
general
I Econometra para primerizos
17
1. Introduccion
1.1. Parabola de Leamer . . . . . . . . . . . . .
1.2. Fisher tomando el te . . . . . . . . . . . . .
1.3. Para que hacer econometra? . . . . . . .
1.4. Orgenes . . . . . . . . . . . . . . . . . . .
1.4.1. La trayectoria de los cometas . . . .
1.4.2. Manchas solares y ciclos venusinos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
23
24
31
32
32
33
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
41
41
44
49
49
54
56
69
72
72
74
79
79
81
85
86
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
90
93
95
96
96
102
104
112
113
114
114
116
118
118
119
121
122
123
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
130
131
132
136
137
140
141
142
144
146
147
147
154
159
159
160
170
2.8.
2.9.
2.10.
2.11.
INDICE
GENERAL
4. La multicolinealidad
4.1. Multicolinealidad perfecta . . . . . . . . .
4.2. Multicolinealidad imperfecta . . . . . . . .
4.3. Deteccion de la multicolinealidad . . . . .
4.3.1. Analisis informal . . . . . . . . . .
4.3.2. Metodos mas formales . . . . . . .
4.4. Analisis de Componentes Principales . . . .
4.5. Regresion usando componentes principales
.
.
.
.
.
.
.
173
175
179
182
183
183
186
191
195
195
195
202
6. Autocorrelacion y Heteroscedasticidad
6.1. Autocorrelacion y Heteroscedasticidad . . . . . . . . . . . .
6.2. Mnimos Cuadrados Generalizados . . . . . . . . . . . . .
6.2.1. Ejemplos de aplicacion de MCG . . . . . . . . . . .
6.3. Consecuencias del rompimiento de supuestos sobre MCO . .
6.3.1. Sesgo bajo autocorrelacion o heteroscedasticidad? .
6.3.2. Varianza bajo autocorrelacion o heteroscedasticidad
6.4. Pruebas de Deteccion . . . . . . . . . . . . . . . . . . . . .
6.4.1. Deteccion de la Heteroscedasticidad . . . . . . . . .
6.4.2. Deteccion de la autocorrelacion . . . . . . . . . . .
6.5. Matrices de Varianza-covarianza Robustas . . . . . . . . . .
205
207
209
211
219
219
220
222
223
226
235
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7. Ejercicios (i)
245
265
269
9. Especificacion y Ortogonalidad
9.1. Las variables independientes y la ortogonalidad
9.2. El supuesto de ortogonalidad . . . . . . . . . .
9.3. Que causa problemas de ortogonalidad? . . . .
9.3.1. Errores de Medicion en las Variables . .
9.3.2. Efectos de simultaneidad . . . . . . . .
275
275
279
281
281
295
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
GENERAL
.
.
.
.
.
.
301
303
304
304
307
311
.
.
.
.
.
.
.
.
.
315
317
324
332
332
333
338
339
343
345
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
349
350
350
353
355
356
358
358
359
370
371
375
384
391
396
401
402
403
403
406
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
411
412
414
415
416
416
418
419
421
423
426
427
431
434
434
436
439
440
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
445
445
447
448
448
451
451
454
455
457
459
460
460
461
463
465
468
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
GENERAL
477
479
III Apendices
495
497
B. Operador Esperanza
499
B.1. definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
B.2. Algunas reglas del operador esperanza . . . . . . . . . . . . . . . . 500
C. La distribucion normal
501
D. Algebra
matricial
503
505
509
515
Indice
de figuras
1.1.
1.2.
1.3.
1.4.
Estadstica y Probabilidad . . . . . . . . . . . .
Distribucion del reto Coca-Pepsi . . . . . . . .
Ciclo de Comercio segun Jevons (1884) . . . .
Ciclo de Negocios segun Moore (Moore, 1914)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
26
33
34
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
2.10.
2.11.
2.12.
2.13.
2.14.
2.15.
2.16.
INDICE
DE FIGURAS
10
6.1.
6.2.
6.3.
6.4.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
228
232
233
234
Sesgo en un estimador . . . . . . . . . . . . . . . . .
Indicadores de Actividad cientfica . . . . . . . . . . .
Sesgo de una estimacion por MCO bajo simultaneidad.
Relacion entre residuales y valores ajustados . . . . . .
Heteroscedasticidad, autocorrelacion y ortogonalidad .
No-linealidad mal asumida . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
280
282
299
311
313
314
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
364
368
371
381
384
387
392
394
397
398
404
405
INDICE
DE FIGURAS
11
12
INDICE
DE FIGURAS
Indice
de cuadros
1.1. Combinatorias del Reto Coca . . . . . . . . . . . . . . . . . . . . . 27
2.1. Relacion Ingreso-Esperanza de vida . . . . . . . . . . . . . . . . . 42
2.2. Analisis de Varianza (ANOVA) . . . . . . . . . . . . . . . . . . . . 113
11.1.
11.2.
11.3.
11.4.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
391
391
396
401
13
14
INDICE
DE CUADROS
Agradecimientos
Al escribir las mas de 500 paginas de este curso descubr con gran horror la frecuencia con la que me equivoco. Algunos de estos errores son tan solo tipograficos; otros
mas son de plano humillantes; los peores son las pifias matematicas. Afortunadamente, mucha gente, primero en el seno del departamento de economa y finanzas
de la Universidad de Guanajuato, y ahora en el CIDE, me ha ayudado a enmendarlos, especialmente los alumnos. Quiero agradeceren orden cronologicocon
particular e nfasis a:
Oscar Manjarrez Castro, Miguel Amador, Jose Alfonso Garca Campillo, Lizeth
Adriana Garca Belmonte, Sandra Carolina Segovia Juarez, Lupita Garrido Espinoza, Liliana Lopez Rentera, Berenice Martnez Rivera, Gustavo Alfonso Rodrguez
Ayala, Guillermo Cisneros Gutierrez, Catalina Martnez Hernandez, Gustavo Salazar Monjaras, Omar Gallardo Martnez, Lizet Adriana Perez Cortes, Christoph
Schulze, Carlos Uriel Rodrguez Ramrez Salvador, Esmeralda Marisol Moreno
Yanez, Karla Elizabeth Gonzalez Sainz, Pablo Ortiz Casillas, Juan Pablo de Botton Falcon, Efran Garca Gonzalez, Sandra Thala Espana Gomez, Luis Antonio
Gomez Lara y Jean-Luc Demonsant.
Para mi desgracia, los errores que aun quedan son mi entera responsabilidad.
15
16
INDICE
DE CUADROS
Parte I
Econometra para primerizos
17
19
H ACER E CONOMETR I A ES COMO T RATAR DE E NTENDER LAS L EYES DE
LA E LECTRICIDAD U SANDO UN R ADIO DE T RANSISTORES . G. O RCUTT
20
Captulo 1
Introduccion
Existen dificultades al aplicar la estadstica a fenomenos sociales o empresariales.
Realizar un experimento para despues analizar estadsticamente los resultados exige un elemento fundamental, que es el diseno de dicho experimento. Pero en economa,1 la experimentacion no solo resultara costosa, sino que en muchos casos
sera poco e tica o sencillamente imposible. Es por eso que la estadstica debe ser
utilizada con sumo cuidado cuando los datos no provienen de un experimento controlado. El hecho es que en muchas ocasiones tendremos que conformarnos con
registros publicos o privados de poca calidad estadstica. Es importante entonces
conocer tecnicas que permitan aminorar un poco las consecuencias de la naturaleza no-experimental de nuestro a mbito laboral. Una rama muy versada en ello es la
E CONOMETR I A. Esta u ltima constituye el brazo emprico de la economa.
El termino E CONOMETR I A fue creado originalmente para designar; (1) el desarrollo de teora economica pura con base en el herramental matematico y; (2) el
desarrollo de tecnicas de estimacion e inferencia emprica. Lo anterior quedo plasmado en el acta constitutiva de la sociedad econometrica (Econometric Society),
fundada el 29 de diciembre de 1930 cuyo objetivo primario era:
21
CAPITULO
1. INTRODUCCION
22
de igual forma, resulta muy u til diferenciar con claridad la estadstica y la probabilidad. La asociacion entre ambas es, virtualmente generalizada, dado el gran numero
de cursos que las mezclan. Resulta importante tener claras las diferencias considerando que la econometra se traslapa en numerosas ocasiones con la inferencia estadstica. Observe el diagrama (1.1). En e l se pretende establecer la diferencia entre
la teora de la Probabilidad [encargada de cuantificar posibilidades] y la estadstica
[que se ocupa de estudiar fenomenos aleatorios observados e inducir propiedades
probabilsticas]. La probabilidad es de caracter deductivo (va de lo general a lo particular) mientras que la estadstica es inductiva. En ese sentido, es posible considerar
al estadstico (o en nuestro caso, econometrista) como un detective que, con base en
evidencia (es decir, observaciones), puede descubrir al culpable (infiere cual es el
modelo probabilstico adecuado). Cuando se parte del estudio teorico del fenomeno
estadstico y se construyen resultados que posteriormente habran de cotejarse con
la observacion de dicho fenomeno (es nuestro diagrama, la flecha que va de izquierda a derecha), basicamente se esta llevando a cabo un ejercicio deductivo, mientras
que, cuando se parte de la observacion del fenomeno y se intenta llegar al modelo
teorico (la flecha que va de derecha a izquierda), el ejercicio es de naturaleza inductiva. Ambos procedimientos conllevan una parte de incertidumbre, solo que e sta es
diferente segun cual es. El procedimiento deductivo (en lo que nos ocupa) conlleva implcitamente una incertidumbre estocastica mientras que el inductivo conlleva
una incertidumbre que podramos denotar como inductiva. Ambas categoras seran
mejor comprendidas a lo largo de este curso.
Teora de la probabilidad
Deduccin
Observacin del
Fenmeno aleatorio
Fenmeno aleatorio
Induccin
Inferencia Estadstica
1.1. PARABOLA
DE LEAMER
23
cada faz del dado tiene una probabilidad de ocurrencia de 16 . En ningun momento
el dado existio. El camino del estadstico es el opuesto; partiendo de observaciones
debe llegar al modelo de probabilidad adecuado (por ejemplo, inferir con base en
las realizaciones de un dado si e ste esta o no cargado). Note que hacer el camino a
la inversa de la teora de probabilidad conlleva una incertidumbre que la primera no
tiene. Para lo que a nosotros nos interesa, conviene quedarnos con esta definicion
de la inferencia:
BASADA EN OBSERVACIONES
I NFERENCIA ESTAD I STICA : I NDUCCI ON
1.1.
Parabola de Leamer
Leamer (1983) Let s take the con out of Econometrics, American Economic Review, 73 (1), pp.
31-43.
CAPITULO
1. INTRODUCCION
24
levanta y manifiesta su inconformidad. Su argumento es que la diferencia de rendimientos no esta causado por el guano que arrojan las aves, sino por la sombra
que proyecta el a rbol; e l mismo tiene un arbusto en su jardn y sus calculos as lo
indican. A raz del comentario se gesta una agria discusion que solo es zanjada por
otro granjero, muy lucido que senala que no es posible discriminar entre las dos
hipotesis de trabajo: hay un problema de identificacion.
1.2.
Fisher tomando el te
25
si lo piensan bien, tiene una chance entre dos de atinarle de chiripa. Que pasara
si, en vez de probar un vaso servido al azar, probara S IETE vasos servidos al azar?
Cual sera la probabilidad de atinarle, por puro azar a la marca del refresco que
esta servido en cada vaso? Pues no es difcil calcularlo,
7
1
= 0.0078125
2
Pero nuevamente, no se vayan con la finta de este sencillo calculo e infieran rapidamente que alguien que no le atina a ni un solo vaso tiene el paladar muy torpe. La
probabilidad de no atinarle, tambien por puro azar, a la bebida en los siete vasos
es:
7
1
= 0.0078125
2
De hecho, lo mas probable es que alguien que no reconoce los sabores sea capaz
de atinarle a unos cuantos vasos, por mero azar. Lo que resulta difcil de creer es
que le atine a todos de chiripa (o la inversa, que no le atine a ninguno). Cuales
son las probabilidades de atinarle a un vaso? Puede que le atine al primero, pero
tambien es posible que le atine al segundo, o bien solo al tercero. Existen, si lo ven
7 casos en los que le atinara a alguno de los siete vasos.
Solo hay un caso en el que le atinara a todos y tambien, solo hay un caso en el
que no le atinara a ninguno. Cuantas posibilidades hay de que le atine a dos
vasos cualesquiera? Ya no es tan facil, puede atinarle al primero y al segundo, al
primero y al tercero, al segundo y al tercero,... Ya son muchos mas. Afortunadamente es facil saber cuantas combinaciones hay. Simplemente necesitamos calcular la
combinatoria de 7 tomados 2, es decir:
7
2
Hagamos todos los casos posibles (ver tabla 1.1).
Hay, de hecho, 128 casos posibles. Ahora s podemos empezar a tomar decisiones respecto al paladar de la gente. Lo primero es corroborar el primer calculo
que habamos hecho. Dijimos que la probabilidad de atinarle a todos los vasos de
chiripao no atinarle a ningunoera 0.0078125. Eso es lo que se obtiene tambien
al hacer el siguiente calculo:
1
= 0.0078125
128
CAPITULO
1. INTRODUCCION
26
0.35
0.3
Probabilidad
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
Nmero de xitos (cuantas veces le atin a la bebida del vaso)
Figura 1.2: Distribucion del reto Coca-Pepsi. Note como el a rea total es igual a uno.
Con base en lo anterior es facil ver que (i) la probabilidad de atinarle exclusivamente a un vaso es: 0.0546; (ii) atinarle a dos vasos: 0.1640; (ii) a tres: 0.2734; (iv)
a cuatro: 0.2734; y luego se invierten. Que caso nos parece ser probatorio de que
el individuo tiene un fino paladar? Si no le atina a ninguno, o bien le atina a todos,
parece inverosmil que ello se deba al azar. Si adoptamos una filosofa frecuentista,
veramos que son siete casos de cada mil. As pues, podemos tomar la decision, en
caso de encontrarnos con alguien as, de decidir que eso no pudo deberse al azar
y que esa persona realmente sabe distinguir la coca de la pepsi. El que falle una,
o bien que las hierre todas menos una, nuestros calculos muestran que se trata de
una probabilidad de 0.05, es decir una entre veinte. Eso no resulta tan inverosmil,
as es que, en caso de ocurrir, se lo atribuiremos al azar.
Ejercicio 1 Con objeto de hacer mas elocuente la presentacion del metodo de regresion, intentaremos hacer un ejemplo usando unos cuantos datos extrados de una
muestra sumamente informal. La informacion, de hecho, sera provista por ustedes
y, eventualmente, por sus familiares y amigos. El interes de este ejemplo radica en
que resalta algunos de los elementos mas importantes en todo estudio, sea e ste econometrico o no. En realidad, lo mas fundamental en un estudio es establecer con
claridad la pregunta a la que se le desea dar respuesta. En este caso, formularemos
27
Combinatoria
7
0
7
1
7
2
7
3
7
4
7
5
7
6
Casos posibles
1
21
35
35
21
7
7
Total
128
CAPITULO
1. INTRODUCCION
28
Mnimos Cuadrados Ordinarios. La idea es determinar si el genero tiene incidencia alguna en las costumbres de puntualidadde los individuos que conforman la
muestra (ya si la muestra fuera representativa de cierta poblacion, es otra historia).
No obstante la unicidad de nuestra pregunta (genero-puntualidad), existen muchos
otros factores que pueden explicar por que la gente es impuntual/puntual: acceso
a un medio de transporte eficaz, vivienda cercana al centro de estudio/trabajo, situacion familiar, etc. Si diera la casualidad que todos los hombres de la muestra
fueran solteros mientras que todas las mujeres estuvieran casadas con 7 hijos cada
una, muy posiblemente encontraramos evidencia de que las mujeres son mas impuntuales. Pero la conclusion sera erronea, pues sera la situacion de maternidad
la que provoca la impuntualidad. Si resultara que todos los hombres viven a 200
kilometros de su lugar trabajo y no dispusieran de un medio de transporte rapido
mientras que las mujeres viven al lado del centro de trabajo y encima de todo pueden llegar a e ste usando, por ejemplo, el metro, entonces encontraramos que son
los hombres los mas impuntuales. Ello tambien estara mal concludo, puesto que
las diferencias en puntualidad seran en realidad debidas a otros factores.
No tomar en cuenta otros factores ademas del que nos interesa (genero) para estudiar la puntualidad tendra la grave consecuencia de sesgar la inferencia estadstica. Por ello es importante tomar en cuenta tales factores, es decir, controlar los
resultados por tales factores. Si hacemos correctamente el control de otras caractersticas de los individuos, nuestro ejercicio estadstico tiene muchas mas posibilidades de arrojar resultados validos. As las cosas, se sugiere que se levante la
siguiente encuesta entre sus conocidos y familiares:
1. Que distancia tiene que recorrer para llegar a su centro de trabajo/estudio?
Estime la distancia en kilometros (podra usar Google Maps para ello).
2. Se desplaza en automovil, usa el transporte publico, camina, hace ronda
para llegar al centro de trabajo/estudio?
3. Que edad tiene?
4. Tiene hijos?
5. Por la manana, debe compartir el bano con mas de una persona?
6. En promedio, que tan puntual es? Responda senalando cuantos minutos suele llegar tarde/temprano.
7. Es usted hombre o mujer?
29
En principio, debera juntar, como mnimo, unas 30 respuestas a semejante cuestionario para que el ejercicio tenga alguna oportunidad de arrojar resultados relevantes; podra usted usar un cuestionario en lnea como este:
https://docs.google.com/spreadsheet/viewform?formkey=dG95X212S2taNUFyX1l6MWV2TWFfR0E6MQ
Recuerde que la pregunta a la que daremos respuesta es: Quien es mas impuntual?
la mujer o el hombre?
Estimaremos por MCO la siguiente relacion lineal:
yi = + 1 x1i + 2 x2i + . . . + 10 x10i + ui
donde,
1. yi es la variable que mide la impuntualidad del i-esimo individuo,
2. , i , para i = 1, 2, . . . , 10 son los parametros que miden la relacion lineal
entre impuntualidad y cada una de las variables ( es solo la ordenada en el
origen de la recta),
3. x1i es la edad del i-esimo individuo,
4. x2i es la distancia entre el hogar y el trabajo/centro de estudio del i-esimo
individuo,
5. x3i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
tiene auto, 0 si no,
6. x4i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
usa transporte publico, 0 si no,
7. x5i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
se desplaza en taxi, 0 si no,
8. x6i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
hace ronda, 0 si no,
9. x7i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo comparte
bano por las mananas, 0 si no,
30
CAPITULO
1. INTRODUCCION
10. x8i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
tiene hijos, 0 si no,
11. x9i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo
trabaja, 0 si estudia,
12. x10i es una variable que solo puede valer 1 o 0; valdra 1 si el i-esimo individuo es mujer, 0 si es hombre,
13. ui es un termino de error. No podemos esperar que estos factores antes enumerados puedan explicar completamente la impuntualidad; todo aquello que
no podamos explicar se ira a este termino de error. La idea es que las variables que s inclumos sean capaces de explicar la mayor parte del comportamiento de la gente, que lo poco que no pudimos explicar sea poco y por
ende inocuo.
Note que no inclumos una variable para la posibilidad de que el individuo camine.
La razon de ello se estudiara en en captulo destinado a la multicolinealidad;
por el momento, simplemente ignore la cuestion. Los resultados no los podemos
adelantar, puesto que es un ejercicio que depende de datos que aun no conocemos.
Para llevarlo a cabo la estimacion de la recta usaremos el modulo de regresion
del programa Excel 2007. Vea en el apendice G, en la pagina 515 de este manual
para saber como hacer funcionar dicho modulo. En principio, solo tiene que saber que y es la variable dependiente mientras que todas las demas, son variables
independientes/explicativas. MCO le proporcionara estimaciones numericas de los
parametros y i , para i = 1, 2, . . . , 10. Las formulas para obtener tales estimadores seran objeto de escrupuloso estudio mas adelante; de momento no se preocupe
por ello tampoco.
Asumamos que ya logro estimar la recta de regresion por MCO. Como debe interpretar los resultados y as, eventualmente, dar respuesta a la pregunta orginal?
Pues vera que es una mera cuestion de sentido comun. Con un par de ejemplos,
quedara esto muy claro:
Nos vamos a concentrar en el parametro estimado que acompana a la variable
Genero, x10i . Supongamos que dicho estimador es igual a 8; supongamos igualmente que el estimador de es igual a 5. Note como ello implicara que el i-esimo
individuo, si es mujer, debera ser, segun nuestro modelo, ocho minutos mas puntual. Para ver lo anterior, olvidemonos por un momento de todos los demas factores
(igualemos a cero todas las demas variables). La ecuacion se reducira a
1.3. PARA QUE HACER ECONOMETRIA?
31
yi = 5 8x10i ,
si nuestro individuo es mujer. Siendo que x10i = 1 en ese caso, obtendramos que
semejante individuo suele llegar, segun nuestro modelo, 3 minutos antes de las citas. Si el individuo es hombre, entonces llegara 5 minutos tarde en promedio, segun
nuestro modelo, no lo olvide. Ahora bien, el valor del parametro estimado es de
suma importancia para la interpretacion de los resultados, economica por lo general, pero no podemos dejar de lado la interpretacion estadstica. El estimador
de 10 es una variable aleatoria y, por lo mismo, esta sujeta a cierta incertidumbre/variabilidad. Podra ser estadsticamente indistinguible de cero. Si as fuera,
nuestra conclusion sera que el genero no influye en la puntualidad de los individuos. Afortunadamente, si el parametro realmente es cero, entonces una normalizacion del mismo tendra una distribucion normal estandar. Ello nos permite hacer
inferencia estadstica; en otras palabras, podemos hacer una prueba de significancia estadstica. Notara que el resultado ofrecido por el programa arroja en una
columna un estadstico denominado estadstico t. La hipotesis nula de dicho estadstico es que el parametro es igual a cero. No podremos rechazar dicha hipotesis
si el estadstico t esta entre 1.96 y 1.96.4 Con base en esta prueba, llegue a una
conclusion respecto a la relacion entre el genero y la impuntualidad.
1.3.
901 DEL
3, SECCI ON
.
D OLARES
Y / O 6 MESES DE PRISI ON
No obstante los riesgos en los que aparentemente incurriremos, nosotros nos dedicaremos a utilizar el herramental estadstico tpico de los economistas para realizar
4
Las razones de ello y la teora detras de esta prueba sera detallada mas adelante.
CAPITULO
1. INTRODUCCION
32
1.4.
Orgenes
1.4. ORIGENES
33
Galton y otros autores contemporaneos ya haban hechos sus pininos, pero ninguno de ellos era
economista
CAPITULO
1. INTRODUCCION
34
No obstante, Moore tuvo varios discpulos, menos destacados quiza individualmente, pero que
en conjunto coadyuvaron a la construccion del cuerpo cientfico de la econometra
1.4. ORIGENES
35
Ver, por ejemplo, la breve resena que al respecto hace Ventosa-Santaul`aria(2006) o, mejor aun,
la soberbia investigacion de Morgan(1994).
36
CAPITULO
1. INTRODUCCION
Captulo 2
El modelo de Regresion lineal simple
2.1.
Preambulo
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
38
muy difciles de obtener (como las referidas a las preferencias). En u ltima instancia, resulta muy conveniente (y altamente recomendable) fundamentar el estudio
en teora economica que nos proporcione pistas respecto a las relaciones entre variables as como al sentido de causalidad. Consideremos brevemente las variables
que nos interesan. No solo existe una teora que nos senala la relacion entre ellas;
empricamente dicha relacion se antoja obvia, cuando menos estadsticamente.
2
1910
1930
1940
1950
1960
1970
1980
M2 (EEUU)
2
4.5
5.5
6
PIB real (EEUU)
6.5
7.5
Figura 2.1: Series de tiempo del PIB real y del Agregado Monetario M2 de E.E.U.U.
y Diagrama de Dispersion. Fuente: Base de datos historica de Nelson y Plosser
(1982).
Pero bueno, aqu nos estamos adelantando un poco. Hace un siglo le hubieramos
hecho diferente. Propuesto a finales del siglo antepasado, el coeficiente de correlacion ha probado ser un instrumento simple, pero a la vez poderoso. El coeficiente
de correlacion es una cantidad que permite medir el grado de asociacion entre 2
variables aleatorias.
Definicion 1 El coeficiente de correlacion entre dos variables aleatoria es:
x,y =
donde:
cov (x, y)
[V ar(x)]1/2 [V ar(y)]1/2
2.1. PREAMBULO
39
Variable y
Variable x
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
40
def
(x x )
(y y )
p
p
,
V ar(x)
V ar(y)
(x x ) (y y )
.
x
y
"
#
2
2
(x
)
(y
)
2
(x
)
(y
)
x
y
x
y
E(z 2 ) = E
+
0.
x2
y2
x y
Todos los denominadores en la expresion anterior son, para efectos del operador
esperanza, terminos constantes, por los que salen de dicho operador. Note ademas
que el tercer elemento corresponde a la definicion del coeficiente de correlacion:
Desarrollando,
var(x)
var(y)
z }| { z }| {
E(x x )2 E(y y )2
+
2
x2
y2
1 + 1 2x,y
2x,y
x,y
0,
0,
2,
1.
Ya tenemos un lado de la desigualdad; ahora solo falta obtener el otro lmite. Definamos, como anteriormente (aunque cambiando el signo):
1
2.2. EL CONCEPTO DE LA REGRESION
z
E(z 2 ) 0
41
(x x ) (y y )
+
x
y
#
2
2
(y
)
2
(x
)
(y
)
(x
)
y
x
y
x
0
+
+
E(z 2 ) = E
x2
y2
x y
"
1 + 1 + 2x,y 0
2x,y 2
x,y 1
Con esto queda demostrado que:
1 x,y 1
2.2.
El concepto de la regresion
El ingreso per capita esta medido en dolares PPC (paridad poder de Compra).
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
42
Pas
Mexico
Francia
Japon
Nigeria
Esperanza de vida
75.63
80.59
82.02
47.44
Resulta aparente una relacion directa entre nivel de ingreso y esperanza de vida. Los
dos pases mas ricos, Francia y Japon, tienen un ingreso alto y una elevada esperanza de vida; el pas pobre, Nigeria, tambien coincide con la esperanza de vida mas
reducida. Mexico, en tanto pas de ingreso medio, ofrece una esperanza de vida muy
superior a la de Nigeria, pero no tanto como la de las otras dos naciones. As pues,
todo indica que hay relacion. Note como no se ha mencionado la palabra C AU . Podramos representar este hallazgo
SALIDAD , sino simplemente R ELACI ON
graficamente:
85
Japn
Mxico
80
75
Francia
70
65
60
55
50
Nigeria
45
40
0
5,000
10,000
15,000
20,000
25,000
30,000
Figura 2.3: Ingreso per capita y esperanza de vida en Mexico, Francia, Japon y
Nigeria. Fuente: CIA world factbook.
La relacion lineal, en todo caso, no es tan obvia. Podramos representar una funcion
creciente, pero no necesariamente lineal. De hecho, con tan pocos datos (cuatro ob-
2.2. EL CONCEPTO DE LA REGRESION
43
85
80
75
70
65
60
10,000
20,000
30,000
Ingreso per cpita (medido en Dlares PPP)
40,000
50,000
Figura 2.4: Ingreso per capita y esperanza de vida en 220 pases (excepto algunos
en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook.
Note como la tendencia positiva en la relacion es ahora mas obvia. Tambien resulta
mucho mas obvio que la lnea es incapaz de pasar por todos los puntos (dejara de
ser una lnea, claro esta). Esto resulta de que nuestro analisis es, muy probablemente
incompleto y por lo tanto, no lo desarrollaremos mas en esta seccion; de momento,
basta con asimilar la utilidad del diagrama de dispersion.
La tecnica de Mnimos Cuadrados Ordinarios (MCO) consiste en encontrar los
parametros de la recta anaranjada de la figura. Lo primero es recordar la forma de la
ecuacion que genera una recta as; debe tener una O RDENADA EN EL O RIGEN y
una P ENDIENTE :
yt = + xt + ut
El termino ut corresponde al error; e ste es necesario dado que no podemos esperar
poder explicar todo con nuestra recta. Parte quedara como Error, o residual. Ello
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
44
2.3.
donde:
yt : Variable explicada o dependiente o inclusive regresando,
2.3. MINIMOS
CUADRADOS ORDINARIOS: MCO
45
Diagrama de Dispersin
20
y10t
0
10
20
30
20
10
10xt
20
(2.1)
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
46
Definamos
t
yt =
+ x
2
t
u2t = yt
x
Sumando...
2
X
=
yt
xt
P 2
ut
Y ahora s, optimizando arg mn,
P
X
u2t
t ,
= 2
yt
x
P
X
u2t
t xt .
= 2
yt
x
X
u2t
2.
yt
xt xt = 0
Desarrollamos:
1.
X
yt
xt = 0
X
X
X
yt
xt = 0
X
X
yt
T
xt = 0
(2.2)
2.3. MINIMOS
CUADRADOS ORDINARIOS: MCO
2.
xt yt
xt = 0
X
X
X
xt yt
xt
x2t = 0
X
X
yt
T
xt = 0
X
X
X
xt yt
xt
x2t = 0
Despejamos
de la primera...
P
P
P
P
yt xt
xt yt
=
=
T
T
...y reemplazamos en la segunda
P
P
yt xt X
X
X
xt yt
xt
x2t = 0
T
Despejamos :
X
xt yt
P
yt xt X 2 X 2
+
xt
xt = 0
T
T
#
" P
2
X
X
1X X
( xt )
=
x2t
yt
xt
xt yt
T
T
P
P P
1
yt xt xt yt
T
=
P
P
1
( xt )2 x2t
T
P P
P
yt xt
xt yt T1
=
P 2 1 P 2
xt T ( xt )
47
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
48
Ahora obtengamos
:
P
P
yt xt
T
T
= y x
Sustituyendo el valor de :
= y
P P
xt yt T1
yt xt
P 2 1 P 2 x
xt T ( xt )
yt xt
t
t
P 2 T1 P 2
=
1
xt T ( xt )
T
cov(x,
y)
=
var(x)
1
T
X
u2t
= 2
yt
xt
P
X
u2t
t xt
= 2
yt
x
P 2
P 2
P x2t
= P
2
u
t
2
u
t
2 xt 2 xt
x2t 4
X
xt
2
X 2
X
= 4T
x2t 4
xt
X
X 2
2
= 4 T
xt
xt
49
(xt x)2
X
(x2t + x2 2xt x
X
1 X 2
(x2t
xt
T
X 2
X
xt
T
(x2t
X
X 2
2
0 4 T
(xt
xt
La expresion obtenida no es otra cosa sino 4 V ar (xt ) T 2 , es decir la formula de la
varianza, que es positiva por definicion. As pues podemos concluir que la MATRIZ
H ESSIANA O D ISCRIMINANTE es definida-positiva y, por ende, al optimizar lo
que obtenemos es un mnimo.
2.4.
Haremos caso omiso de los grados de libertad que se pierden al estimar la varianza.
Es importante mencionar que la regresion es como una esperanza condicional: E (yt /xt ) =
+ xt , al condicionar en x, i.e. al decir dado x asumimos, de una forma u otra, que conocemos
dicha variable. Si no fuera el caso, sacaramos la media, es decir, una esperanza incondicional.
4
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
50
L OS S UPUESTOS DE MCOa
La relacion entre las variables x y
1. C ORRECTA E SPECIFICACI ON
y es lineal y esta dada por:
yt = + xt + ut
2. O RTOGONALIDAD Usaremos dos versiones de este supuesto:
a) Las x s son variables no estocasticas cuyos valores son fijos
(no tienen propiedades probabilsticas).
b) la Covarianza entre x y el termino de error es cero:
Cov(xt , ut ) = 0 o bien xt ut ; de ah el nombre del supuesto.
3. El error, u, tiene una esperanza igual a cero E(u) = 0.
4. H OMOSCEDASTICIDAD La varianza del termino de error es la
misma para todas las observaciones:
E(u2 ) = 2
( INDEPENDENCIA ) El termino de error
5. N O AUTOCORRELACI ON
es una variable aleatoria iid:
E (ui uj ) = 0 i 6= j
6. El termino de error se distribuye como una variable normal: ut
N (0, 2 )
7. E STACIONARIEDAD ( D E BIL ) Las variables no tienen un componente de tendencia estocastico ni determinstico:
E (yt ) = para todo t
E (yt ) (ytj ) = j para todo t y cualquier j
a
51
El supuesto mas importante es probablemente el primero, el de Correcta Especificacion. Resulta obvio que si suponemos un Proceso Generador de Datos, DGP ,
incorrecto para la variable y, el resto de nuestro esfuerzo sera perfectamente inutil
y la estimacion quedara viciada por construccion. Por desgracia, la relevancia de
este supuesto solo queda igualada con la dificultad intrnseca de validarlo.5 En lo
que concierne al segundo supuesto, el de Ortogonalidad, usaremos la primera version (variable xt no estocastica) salvo que se indique lo contrario. e sto se impone,
de momento, con fines didacticos; muchas demostraciones quedan en extremo simplificadas al asumir que la o las variables explicativas no pertenecen a la esfera
probabilstica. Levantar este supuesto y reemplazarlo por la segunda version, que
es mas laxa no es particularmente complicado; de hecho, tal accion se lleva a cabo en etapas ulteriores del curso (Econometra para segundones). El supuesto de
ortogonalidad es, al igual que el primero, en extremo importante. La satisfaccion
del mismo [en su version Cov(xt ut )] puede quedar en entredicho en una cantidad
considerable de circunstancias, mismas que abordaremos, claro esta; de hecho, su
importancia es tal que dedicaremos gran parte de este manual a su estudio. De momento, asumiremos que s se cumple y eso en su version mas sencilla [la variable
x no es estocastica]. Los supuestos 4 y 5 resultan de gran trascendencia tambien,
aunque menor que la de los dos primeros. El rompimiento de e stos (denominado
heteroscedasticidad y autocorrelacion, respectivamente) degrada considerablemente la calidad de la estimacion.
Conviene tener claro algunos aspectos del tercer supuesto. Asumir que el termino de
error tiene esperanza cero cobra mucho sentido si recordamos que, en dicha variable, echamos todo aquello que no incorporamos a la especificacion. Lo hacemos
porque creemos que los elementos no considerados tienen una importancia marginal
y no alteran la medicion del fenomeno que realmente nos importa. La equivalencia
con el diseno de un experimento estadstico quiza aclare las cosas. En este u ltimo,
incorporar el componente aleatorio a la seleccion de muestra permite anular los
efectos sobre la variable de interes de otras variables que no nos importan. Dicho
azar permite que todo aquello que queremos excluir
se cancele por s solo. Lo
P
1
que ocurre con su contrapartida emprica, T
ut , resulta obvio, si recordamos
la primera
ecuaci
o
n
normal
igualada
a
cero.
En
otras
palabras, por construccion,
P
1
T
ut = 0.
5
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
52
Independencia y homoscedasticidad
20
10
10
10
10
20
20
10
Autocorrelacin
20
20
10
20
10
10
Heteroscedasticidad
20
10
0
10
20
20
10
10
Figura 2.6: (a) Supuestos de homoscesdasticidad y no-autocorrelacion; (b) Autocorrelacion; (c) Heteroscedasticidad
Existen otros resultados interesantes que vale la pena destacar. Desarrollando la
especificacion estimada, obtenemos:
yt =
+ xt + ut
X
X
yt =
T +
xt +
ut
T 1
y =
+ x + T 1
ut = y
x
ut
(2.3)
N ORMAL
Que nos recuerda eso? Pues simple y sencillamente a la 1a E CUACI ON
dividida por T , que igualamos a cero:
y
x = 0
53
Como ya dijimos, el metodo MCO hace que, por construccion, la media de los residuales sea cero inequvocamente. P OR ELLO , SEA CUAL SEA NUESTRA ESTIMA , TENGA LOS PROBLEMAS QUE TENGA , LA MEDIA DE LOS RESIDUALES
CI ON
CERO. No obstante, la expresion anterior
ESTIMADOS SIEMPRE , SIEMPRE SER A
hace evidente que las medias de las variables pasan exactamente por la recta de
regresion.
Resta comentar los supuestos 6 y 7. El primero, el de normalidad nos sirve para
introducir la probabilidad en el modelo de regresion. Con ello, es posible atribuir
propiedades probabilsticas a nuestros estimadores y, en u ltima instancia, llevar a
cabo inferencia estadstica. Su ausencia hace del metodo de MCO un simple ejercicio geometrico.6 Supongamos que ut iidN (0, u2 ); las implicaciones de ello
pueden esgrimirse graficamente:
yt
0
0
0
50
50
50
100 0 0.20.4
100 0 0.20.4
100 0 0.20.4
xt
54
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
: Suponga 6= t
N O AUTOCORRELACI ON
Cov (ut , u ) = E [ut E(ut )] [u E(u )]
= E (ut ) (u )
= 0
P
(
ut u)(xt x)
p
= p
var(
ut ) var(x)
55
Desarrollando la expresion:
X
X
X
u (xt x) =
ut xt x
ut
| {z }
cero
X
=
ut xt
X
t xt
=
yt
x
X
X
X
=
yt xt
xt
x2t
yt xt
xt
x2t = 0
0
u,x = p
=0
var(
u)var(x)
u yt yt
uy y
u
| {z }
cero
X
t
=
u
+ x
X
X
ut xt
=
ut +
| {z }
| {z }
0
= 0
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
56
L INEAL
C OMBINACI ON
DE LAS
O BSERVACIONES M UESTRALES , xt .
=
P
(xt x)2
Definimos...
(xt x)
Kt P
(xt x)2
Kt (yt y)
Kt = P
= 0
X
1
(xt x)
(xt x)2
57
2.
X
Kt xt =
=
=
=
P
(xt x) xt
P
(x x)2
P 2t
P
xt x xt
P 2 1 P 2
xt ( xt )
P 2 T1 P 2
xt ( xt )
P 2 T1 P 2
xt T ( xt )
1
3.
X
Kt2
(xt x)2
= P
2
(xt x)2
X
1
(xt x)2
= P
2 2
(xt x)
1
= P
(xt x)2
Kt (yt y)
X
Kt yt y
Kt
| {z }
0
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
58
desarrollo:7
=
=
K t yt
Kt ( + xt + ut )
X
X
X
Kt xt +
K t ut
=
Kt +
| {z }
| {z }
0
1
X
= +
K t ut
Propiedad de No-Sesgo de los parametros estimados
Aqu veremos finalmente si nuestros estimadores son sesgados; si no lo son, ello
= . Dado que
implica E()
y dependen de la variable aleatoria yt , ellos
mismos son variables aleatorias:
yt = + xt + ut
|{z}
| {z }
determinista
aleatorio
=
E()
Como se observa en la u ltima linea del desarrollo anterior, la esperanza del estimador de la pendiente es el verdadero valor de dicha pendiente. En otras palabras,
7
En lo que concierne a ,
el hecho de ser tambien una combinacion de las y quedara demostrado
colateralmente al estudiar su varianza.
8
Intente ver en el proximo desarrollo la relevancia del cumplimiento del supuesto de correcta
especificacion. Note que, de forma implcita, tal cumplimiento resulta condicion sine qua non para
la validez de la prueba.
59
= y x
K t yt .
X
x
K t yt ,
T
X yt
xKt yt .
=
T
yt
Factorizamos,
X1
T
xKt yt ,
(2.5)
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
60
consistencia del otro. Antes de continuar con el estudio de la consistencia, es importante hacer una aclaracion al respecto; e sta trata de las propiedades de los estimadores cuando el tamano de la muestra tiende a infinito, es decir, para fines practicos,
cuando la muestra es muy grande. Por que hacer esto? Pues simplemente porque
existen situaciones en las que los estimadores son sesgados, pero consistentes: el
estimador tiende a su verdadero valor si la muestra es suficientemente grande. Lo
anterior ampla la paleta de posibilidades; veremos mucho mas adelante que existen
estimadores en extremo u tiles que, pese a ser sesgados, son tambien consistentes;
su uso es por ende muy recomendable. Por eso, al momento de hacer estimaciones,
si sabemos que solo contamos con consistencia, debemos asegurarnos que nuestra
muestra sea grande.9
Definicion 3 Sea T un estimador de basado en una muestra de tamano T. T es
un estimador consistente si y solo si:
lm P | T |< = 1
T
Ahora s, retomemos:
= +
K t ut
P
(xt x)ut
= + P
(xt x)2
Para poder continuar esta demostracion, hemos de modificar uno de los supuestos
de manera importante. Nuestro segundo supuesto, el que dicta que las variables
explicativas no son estocasticas, ha resultado en extremo practico en muchos de los
desarrollos hasta aqu expuestos. No obstante, en este apartado, resulta mas sencillo
9
61
asumir que las variables explicativas s son estocasticas. Ello permite emplear Leyes
de Grandes Numeros sobre e stas.
Concretamente, utilizaremos los siguientes resultados:10
Teorema 1 (Kolmogorov) sea {xt } una secuencia de variables aleatorias i.i.d. que
satisface las siguientes condiciones:
1. E | xt |<
2. E(xt ) = x
entonces,
T
1X
P
xt x
T t=1
62
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
= +
plim()
plim
(xt x)ut
x2
{
X z
}|X
}|X {
1
1
1
xt ut plim
xt plim
ut
plim
T
T
T
{z
}
|
z
= +
1
T
63
x2
donde,
P
1.
xt ut es i.i.d. por el segundo teorema y, por ende, puede aplicarsele el primero.
P
2.
xt es i.i.d., por ende, puede aplicarsele el primer teorema; queda x .
P
3.
ut es i.i.d., por ende, puede aplicarsele el primer teorema; queda 0.
= y x
(2.6)
y = + x + u
No, obstante, en el lmite, s ocurre:
plim(
y ) = + plim(
x) + plim(
u)
= + x
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
64
y x
plim(
y ) x
+ x x
Kt (yt y)
X
K t yt
Kt y
X
X
Kt yt y
Kt
| {z }
0
X
K t yt
X
Kt ( + xt + ut )
X
X
X
Kt +
xt Kt +
K t ut
X
+
K t ut
X
65
2
E , podemos manipular la expresion de
Para calcular la varianza de ,
arriba y escribirla de la siguiente manera:
X
=
K t ut
2
X
2
=
K t ut
(2.7)
= (K1 u1 + K2 u2 + ... + KT uT )2
= K12 u21 + K22 u22 + ... + KT2 u2T + 2K1 K2 u1 u2
E
= K12 E(u21 ) + K22 E(u22 ) + K32 E(u23 ) + ... + KT2 E(u2T )
Aprovechando el supuesto de homoscedasticidad, podemos reemplazar las esperanzas por 2 y luego factorizar:
= K 2 2 + K 2 2 + K 2 2 + ... + K 2 2
V ar()
1
2
3
T
X
2
2
=
Kt
2
= P
V ar()
(xt x)2
Kt2 =
2
V ar = P
(xt x)2
1
. As pues,
(xt
x)2
Comentario 1 Hay una forma aun mas facil de obtener la formula de la varianza
12 La prueba, ademas, nos permite usar el operador varianza, mismo que rara
de .
vez aprovechamos:
11
12
66
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
= +
K t ut
X
= 0 + var
var()
K t ut
X
=
Kt2 var(ut )
X
= 2
Kt2
= P
2
(xt x)2
Varianza de
El calculo de la varianza P
de
es un poco mas complicado. En secciones anteriores habamos visto que
= ( T1 xKt )yt . A partir de esta expresion
aplicabamos el operador esperanza, pero ahora no. En vez de eso, sustituimos el valor de yt :
X1
xKt ( + xt + ut )
T
X1
1
1
+ xt + ut
xKt xKt xt xKt ut
=
T
T
T
X
X
X
1X
= + xt +
ut
x
Kt x
Kt xt
x
K t ut
T
| {z }
| {z }
X
1X
x
K t ut
ut + x x
=
| {z }
T
=
T
1
=
T
1
=
T
ut x
K t ut
X
X
1X
ut
K t ut
xt
T
X
X
1
x t K t ut
X
R t ut
(2.8)
67
1
=
T2
1
=
T2
1
=
T2
X
R t ut
2
(R1 u1 + R2 u2 + R3 u3 + ... + RT uT )2
R12 u21 + .... + RT2 u2T + 2R1 R2 u1 u2 + ...
1
2 2
2 2
E
R
u
+
....
+
R
u
+
2R
R
u
u
+
...
1
2
1
2
1 1
T T
T2
1
2 2
2 2
R
+
.....
+
R
1
T
T2
X
1
Rt2 2
T2
2 X 2
Rt
T2
X 2
2 X
1
xt Kt
T2
X
X 2
2 X
2
xt Kt +
12
xt Kt
T2
2
=
T2
X X
X 2 X
2
xt
Kt +
xt
Kt
T 2
| {z }
| {z }
0
13
P
( xt ) 2
2
T+P
V ar(
) =
T2
(xt x)2
P
P
( xt ) ( xt )
1
2
P
+
=
T
T T (xt x)2
x2
2 1
V ar(
) =
+P
T
(xt x)2
P 1
(xt
x) 2
Note que la u ltima expresion establece que el estimador de es tambien, al igual que el de ,
una combinacion lineal de las y.
68
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
Covarianza entre
y Unicamente
nos falta obtener la covarianza entre esti
madores, Cov(
, ). Esta, en realidad, exige un proceder muy sencillo. Basta tener
presentes, de los desarrollos anteriores, las siguientes expresiones:
1. Ecuacion (2.7):
X
=
K t ut
2. Ecuacion (2.8):
X
1X
ut x
K t ut
T
= u x
E (
u) =
i
1 hX X
E
ut
K t ut
T
1
=
E K1 u21 + . . . KT u2T + t
erminos cruzados
T
= 0
Cov(
, ) = E (
)( )
h
i
= E u x( ) ( )
h
i
= E ( )
u
x E( )2
| {z }
|
{z
}
var ()
0
2
= P x
Cov(
, )
(xt x)2
69
plim(
) =
=
plim()
2
V ar(
) = 2 T1 + P(xxt x)2
= P 2 2
V ar()
Insesgados
Robustos
V arianzas
(xt
x)
Vimos tambien que los estimadores de MCO son combinaciones lineales de la variable aleatoria y (y por tanto tambien son combinaciones lineales de la variable
aleatoria u):
1. Ecuacion 2.5:
=
2. Ecuacion 2.4: =
1
T
xKt yt ,
K t yt .
Los estimadores son insesgados y por ello pertenecen a la CLASE DE ESTIMADO RES LINEALES INSESGADOS . Su gran importancia te
orica y practica se debe a que
70
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
q t yt ,
= ,
E()
P
P
donde15
qt = 0,
qt xt = 1.
=
=
=
=
=
=
V ar()
q t yt
qt ( + xt + ut )
X
X
qt +
qt xt +
q t ut
X
X
qt + +
q t ut
| {z }
=0
X
+
q t ut
X
2
X
qt2
E
= 2
q t ut
71
qt = 0
qt xt = 1
Kt = 0
Kt xt = 1
Kt2 =
1
(xt
x )2
X
1
1
X
x
qt = P
x
q
P
t
t
2
(xt x) | {z }
(xt x)2
| {z }
1
1
1
P
2 = P
(xt x)
(xt x)2
> V ar()
V ar()
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
72
2.5.
momentos. Estos
podran ser cotejados con sus contrapartes empricas:
16
2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
Teorico (poblacion)
E(ut ) = 0
E(ut xt ) = 0
1
T
73
Supuesto
P (muestral)
1
ut = 0
P T
(xt x)(
ut u) = 0
0
|{z}
momento te
orico
momento muestral
1 X
yt
xt = 0
T
P
xt
1X
= 0
yt
T
T
y
x = 0
1X
xt ut = 0
T
1X
t = 0
xt yt
x
T
1X 2
1X
xt yt
x
xt = 0
T
T
74
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
Aquellos con buena memoria habran identificado en estos dos desarrollos a las
E CUACIONES N ORMALES:
1. yt
x = 0
P
P 2
2. T1
xt yt
x T1
xt = 0
= y x
. . . que reemplazamos en la segunda. . .
X 2
1X
xt yt y x x
xt
T
T
1X
X 2
xt yt yx + x2
xt
T
T
1X
xt yt yx
T
P
P P
1
1
x
y
xt yt
t
t
T
P 2 T1 P 2
1
xt T ( xt )
T
= 0
= 0
X 2
X
1
1
2
xt
=
xt 2
T
T
P P
xt yt T1
xt yt
P 2 1 P 2
xt T ( xt )
el enfoque de M AXIMA
V EROSIMILITUD. Esta u ltima escontrario a lo que se
podra pensar dada la extension de su tratamiento en este documento uno de los
metodos mas socorridos, tanto en estadstica como en econometra. Su fundamento
radica en el aprovechamiento de las propiedades probabilsticas asumidas en un
modelo. En nuestro caso en particular, conviene utilizar el supuesto (6), que estipula
un termino de error distribuido normalmente:
2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
75
ut iidN (0, 2 )
Es importante tener en mente que la especificacion del modelo sigue siendo la misma:
yt = + xt + ut
As pues, nos concentraremos en encontrar estimadores de los parametros tratando de satisfacer al maximo el supuesto (6). Si el ruido, ut , es realmente normal,
entonces, la densidad probabilstica de yt nos podra servir de punto de partida. Obtengamos sus momentos:
E(yt ) = + xt
V ar(yt ) = E (yt xt )2
= E(u2t )
= 2
Conviene resaltar el uso del supuesto de homoscedasticidad en el u ltimo paso del
desarrollo anterior. Ahora bien, es facil constatar que al ser ut normal, yt tiene que
serlo tambien, puesto que dicha variable es simple y sencillamente la suma de una
variable normal y una constante. As, nos podemos centrar ya en la funcion de
densidad de probabilidad conjunta:
f (y1 , y2 , ....yT / + xt , 2 )
Para poder trabajar con esta u ltima, es necesario saber si existe independencia entre
las y s. Por ello, sacamos la covarianza. Asuma que k es un entero distinto de t:
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
76
f y1 , y2 , ....yT / + xt , 2 = f y1 / + x1 , 2 f y2 / + x2 , 2 . . .
T
1 X
exp 2
f (y /)f (y2 /) . . . f (yT /) =
(yt xt )2
{z
} (2) T2 T
| 1
2
F uncion de verosimilitud, L
yt
xt
2.5. OTROS PROCEDIMIENTOS DE ESTIMACION
77
En palabras aun mas llanas, Maxima Verosimilitud funciona jugando con los valores de
, y
2 de tal forma que la funcion normal cuadre lo mejor posible
con los datos observados. Ahora bien, la Funcion de Verosimilitud que tenemos
resulta ligeramente compleja, lo que dificulta su manipulacion. Al aplicarle logaritmos, el resultado es una gran simplificacion. Dado que se trata de una transformacion monotona, los parametros que optimizan L tambien maximizan al logaritmo,
def
ln (L) = l.
1 X
(yt xt )2
2
2
T
T
T
1 X
2
= ln(2) ln( ) 2
(yt xt )2
2
2
2
T
2 X
F ()
(yt xt ) = 0
= 2
2
X
X
yt
T
xt = 0
2. Con respecto a (tambien, de la esperanza condicionada):
F ()
2 X
t )xt = 0
(yt
x
=
2 2
X
X
X
yt xt
xt
x2t = 0
Como en el caso de MOM, constatamos sin demasiado asombro que las ecuaciones resultantes no son otras sino las E CUACIONES N ORMALES
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
78
3. Lo interesante de Maxima Verosimilitud, es que estamos ajustando una distribucion. En el caso de la distribucion Normal solo hacen falta dos momentos;
la esperanza y la varianza. En lo que concierne al ajuste de la esperanza
condicionada en x, ello corresponde a los parametros estimados de y .
Pero aun falta la varianza; queda todava por derivar con respecto a 2 :17
F ()
T 1
1 1 X
t )2 = 0
(yt
x
=
+
2
2 2 2 4
1 X
T
t )2 = 0
(yt
x
= 2+ 4
2
2 |
{z
}
P
u
2t
2
1 X
T
yt
xt
= 0
2+ 4
2
2
T 2 1 X 2
+
u = 0
2
2X t
u2t = T
2
P 2
ut
2
=
T
Note como el estimador de 2 es sesgado, puesto que no esta ajustado por los
grados de libertad. Dicho ajuste tiene, por el momento,
una explicaci
on intui t por ut .
tiva. En el segundo paso del desarrollo, sustituimos yt
x
Para ello, debimos recurrir a los estimadores de los parametros. Por cada estimacion empleada en el calculo de la varianza, se pierde un grado de libertad.
Esta cuestion quedara mas claraesperemosen la siguiente seccion.
17
2.6.
79
El estimador de la varianza
"
1
T 1
X
T
t=1
(yt y)2 = y2
(yt y)2 =
=
=
=
=
(yt y)2 =
[(yt ) (
y )]2
X
(yt )2 + (
y )2 2(yt )(
y )
X
X
(yt )2 + T (
y )2 2(
y )
(yt )
P
X
yt T
2
2
T
(yt ) + T (
y ) 2(
y )
T
X
(yt )2 + T (
y )2 2(
y )(
y )T
X
(yt )2 T (
y )2
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
80
1 X
E
(yt y)2
T 1
1 X
1
= E
T (
y )2
(yt )2
T 1
T 1
T
1 X
E(yt )2
E(
y )2
=
T 1|
T
1
{z
}
V arianza teorica
1 X 2
T
=
y
T 1
T 1
E(
y )2
| {z }
V arianza de la media
Del operador VARIANZA las constantes tambien salen, pero al cuadrado (por
que?):
2
X
1
V ar(
y) =
V ar
yt
T
La variable con la que trabajamos es iid y por ello es valido invertir el orden entre
la sumatoria y la varianza (por que?):
V ar(
y) =
=
=
=
2 X
1
V ar(yt )
T
2 X
1
y2
T
T y2
T2
y2
T
"
1 X
E
(yt y)2
T 1 t=1
81
T y2
T y2
T 1 T 1 T
T
1
)
T 1 T 1
T 1
)
= y2 (
T 1
= y2 (
"
1 X
(yt y)2
E
T 1 t=1
= y2
Este
recibe parcialmente sus calificaciones del semestre: curso 7 materias y solo
6 de los profesores le dieron calificaciones:
[10, 9, 10, 7, 10, 4, ?]
En Administracion Escolar, no obstante, le proporcionaron el promedio general:
x = 8
Cuanto se saco en la u ltima materia? En realidad, eso es muy facil de calcular; se
trata u nicamente de despejar la calificacion desconocida de la formula del promedio. Note como el hecho de conocer el promedio nos obliga a fijara congelar, si
autorizamos la expresionel valor de la u ltima observacion. Aqu lo que ha ocurrido es que se perdio un grado de libertad.
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
82
debera ser T 2. Empezaremos por trabajar con variables centradas, pues eso nos
ahorra la manipulacion de todo lo relativo a la constante:
Retomemos la especificacion as como la expresion que muestra que las medias
pasan por ella y restemoslas:
yt = + xt + ut
X
X
yt = T +
xt +
ut
y = + x + u
Note como, al igual que con la especificacion estimada, las medias pasan por la
recta de regresion, con la salvedad de que la media de los residuales teoricos no necesariamente es cero (como de hecho s lo es, por construccion, la de los residuales
estimados):
yt = + xt + ut
y = ( + x + u)
yt = xt + ut u
(2.9)
Las variables centradas las denotamos inicialmente con prima. No obstante, para no
hacer tan recargada la notacion, denotamos, como antes, con letras minusculas a las
variables centradas. Esto eventualmente puede causar confusion, as es que, cada
vez que usemos variables centradas se advertira al lector. Ahora, hagamos el mismo
procedimiento de centrado con la especificacion estimada. Como era de suponerse,
en este caso no aparece ut .
yt = xt + ut
(2.10)
(2.11)
83
t
ut = xt + (ut u) x
t + (ut u)
= ( )x
Elevamos al cuadrado:
2 x2 + (ut u)2 + 2( )x
t (ut u)
u2t = ( )
t
u2t = ( )2
x2t +
(ut u)2 2( )
X
u2t
xt (ut u)
hX
i
x2t E( )2 + E
(ut u)2
h
i
X
2E ( )
xt (ut u)
h
i
X
X
+ (T 1) 2 2E ( )
=
x2t V ar()
xt (u u)
P
Note que el segundo termino, E [ (ut u)2 ] corresponde a la varianza de una variable iid, como la que vimos en el ejemplo anterior. Es por ello que la reemplaza2
mos por (T 1) 2 . De igual manera, probamos con anterioridad que var = P x2 :
t
Reemplazando:
X
u2t
i
X
=
+ (T 1) 2E ( )
xt (u u)
h
i
X
= 2 + (T 1) 2 2E ( )
xt (ut u)
X
2
x2t P 2
xt
P
Ahora solo falta ver que pasa con el u ltimo termino,
xt (ut u). Para ello, conviene retomar una expresion desarrollada anteriormente:
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
84
K t yt ,
x2t
X
X
=
xt (ut u)
X
xt (ut u) =
x2t ( )
P
Ahora que ya tenemos una ecuacion equivalente a xt (ut u) pero expresada en
procedamos a obtener su esperanza:
terminos de y ,
h
i
h
i
X
X
2E ( )
xt (ut u) = 2E ( )
x2t ( )
X
= 2E( )2
x2t
2 X 2
xt
= 2 P 2
xt
= 2 2
Retomando todo desde el principio:
X
2 X 2
xt + (T 1) 2 2 2
= P 2
xt
2
2
2
2
X = + T 2
= (T 2) 2
u2t
E
P 2
ut
= 2
E
T 2
E
u2t
85
P 2
ut
T 2
es un estimador insesgado de 2 .
x2t
(ut u) 2
xt +
ut = ( )
P 2
X
2 X
ut
1
1
2
plim
plim
= plim
x2t
(ut u)
T
T
T
{z
}
|
X
2 (LLN )
2
1X 2
= plim
xt plim
T
{z
}
|
2
Converge
plim
= plim 2 + plim 2 2 plim
= 0
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
86
2.7.
En las anteriores secciones, hemos desarrollado detalladamente el metodo de Mnimos Cuadrados Ordinarios; tambien presentamos, ya mas someramente, tecnicas
alternativas de estimacion (MOM y MV). En los tres casos se ha puesto mucho e nfasis en la importancia del cumplimiento de los supuestos. Son e stos los que facultan
las propiedadestan deseablesde nuestros estimadores. Ya mas concretamente
disponemos, hasta ahora, de lo siguiente:
1. Desarrollamos los estimadores, determinamos que eran insesgados y robustos
y calculamos sus respectivas varianzas.
2. Establecimos que los estimadores
y son MELI, es decir, lineales, de mnima varianza e insesgados.
3. Encontramos un estimador insesgado de la varianza del termino de error:
P
u2t
2 =
T 2
2
E
= 2
4. A lo largo de todos los desarrollos, nos hemos topado sistematicamente con
el supuesto de O RTOGONALIDAD. De hecho, mas que toparnoslo, lo hemos
empleado una y otra vez. En el proximo curso de econometra confirmaremos que dicho supuesto es fundamental. Por ahora baste recordar que al ser
cumplirse, tenemos:
E (xt ut ) = 0
2.7. INFERENCIA ESTADISTICA
EN MCO
87
ut
|{z}
N ormal(0, 2 )
Al
P estudiar al parametro estimado , recurrimos constantemente a la formula =
Kt yt que es de hecho la prueba de que dicho estimador es una combinacion de las
observaciones de la variable dependiente. Lo mismo se puede decir de la ordenada
en el origen,
. Al ser los estimadores una funcion lineal de yt , es decir una suma
ponderada de las y, la normalidad se les transmite:
1
x2
N ,
+P
T
(xt x)2
2
N , P
(xt x)2
2
88
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
+ xt + ut
|{z}
=0
=0
d
T (
yT ) N (0, 2 )
3. Las propiedades de nuestro estimador de la varianza:
P 2
u
= 2
E
T 2
P 2
u
p
2
T 2
Como ya senalamos, esta prueba es utilizada muy frecuentemente en econometra.
Si bien dicha utilizacion es sencilla y su lectura no requiere de mas de unos cuantos
segundos, conviene entender como funciona. La demostracion la haremos para el estimador de la pendiente, que es el caso interesante. Vamos a partir de la normalidad
de dicho estimador; N (0, 2 ). A tal variable normal es posible transformarla
para obtener una distribucion Normal Estandar:
2.7. INFERENCIA ESTADISTICA
EN MCO
Z =
89
N (0, 1)
Z =
N (0, 1)
0.5
0.4
0.3
Nivel
0.2
0.1
0
5
10
90
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
2.7. INFERENCIA ESTADISTICA
EN MCO
91
Z
tT g.l. = p x
T
Si queremos aplicar esta definicion a nuestro problema, debemos empezar por en2
contrar a la distribucion normal estandar y luego
del denominador. Asu a la
miendo que la hipotesis nula es cierta, N 0, 2 . Solo hace falta dividir por
2 para obtener una varianza unitaria:
2
P
(xt
x )2
N (0, 1)
Ya tenemos pues, el numerador. Sin realizar la demostracion momentaneamente, establecemos que nuestro estimador de la varianza, ligeramente adaptado, del parametro se distribuye como una 2 ;
2 (T 2)
2T 2 g.l.
2
Tomando por cierto este u ltimo resultado,20 se antoja la idea de reemplazar a 2 por
92
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
q
2
P
/
(xt
x)2
p
p
=
[
2 (T 2) / 2 ] / (T 2)
[
2 / 2 ]
P
(xt
x )2
2
P
(xt
x )2
=
=
=
qP
qP
(xt x)2
(xt x)2
= q
(xt
x)2
2
P
(xt
x )2
= q
2
Para resumir todas las operaciones pasadas, basta senalar que primero obtuvimos
luego colocamos la raz
una distribucion normal en el numerador al transformar a ;
2
cuadrada de una dividida por sus grados de libertad en el denominador. Eso, por
la definicion (7), sabemos que es una t de student. Lo malo es que, a priori parece
no ser calculable, puesto que involucra parametros que desconocemos. Afortunadamente, al desarrollar la expresion, vemos como dichos parametros desconocidos
desaparecen. Al final, nuestro estadstico de prueba es:
Z=
Todo parece haber salido bien. No obstante, los mas detallistas habran notado que
no respetamos al 100 % la definicion (7). En efecto, para realmente obtener una distribucion t de student falta asegurar la independencia entre la normal del numerador
y la 2 del denominador. Esto, lo establecemos en el siguiente teorema:
2.7. INFERENCIA ESTADISTICA
EN MCO
93
L (xT ) L (x) ,
p
KT K,
L (KT xT ) L (K x) ,
d
L (KT + xT ) L (K + x) .
21
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
94
)
(
N (0, 1)
(2.12)
p
p
1
plim
22
N (0, 1)
2.7. INFERENCIA ESTADISTICA
EN MCO
As, calcular
)
(
equivale a calcular
)
(
95
(
demos dejar como . Acabamos de demostrar que esta u ltima expresion
converge a una normal estandar. Es por el razonamiento anterior que podemos usar
la expresion con puros estimados confiando en que asintoticamente la distribucion
sera la normal estandar. Nos quedamos entonces con el primero, cuyos elementos
s tenemos. Este resultado nos permite hacer la prueba de significancia estadstica
de los parametros de manera individual (es decir sobre cada parametro); la distribucion bajo la hipotesis nula es una Normal Estandar, por lo que los valores crticos,
con un nivel de 5 % seran los ya antes mencionados: 1.96 y 1.96. Es importante
tener siempre presente que el resultado solo es valido para tamanos de muestra grandes. Lo anterior se presta a muchas arbitrariedades; se sugiere que T tenga cuando
menos mas de 100 observaciones.
0.5
0.4
Normal Estndar
0.3
0.2
t de Student, 4 g.l.
0.1
0.0
1.96
1.96
96
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
2.8.
Lo visto en las secciones anteriores nos ha permitido caracterizar en detalle al metodo de MCO. Sabemos ahora que nuestros estimadores pueden ser en extremo apropiados siy solosi los supuestos que yacen atras se cumplen. Vimos tambien
que es posible empezar a verificar, al menos parcialmente, la pertinencia de nuestra
especificacion por medio de la significancia de los parametros. Es momento ya de
incorporar en nuestro haber, una serie de herramientas que nos permitan saber si el
ajuste de nuestro modelo a los datos es correcto, adecuado y/o mejorable. Dicho herramental podra ser ajustado y adaptado para realizar pruebas con una significancia
economica. De momento, iniciaremos con los instrumentos mas basicos. Para medir
la calidad del ajuste de la regresion, tenemos que evaluar si la recta que estimamos
es una representacion adecuada de la nube de puntos que aparece en el diagrama de
dispersion.
Note que definimos el p-valor en funcion de una prueba de dos colas. Si se tratara de una prueba
con una sola cola, como la 2 o bien la F, entonces no es necesario hacer la suma de las dos
probabilidades; basta con la primera probabilidad.
24
Ingenuos.
20
25
15
20
Variable Dependiente
Variable Dependiente
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
10
5
0
5
10
15
20
97
15
10
5
0
5
10
10
0
10
Variable Explicativa
20
15
20
10
0
10
Variable Explicativa
20
yt
Variacion no explicada
Variacion explicada
xt
98
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
yt y = yt y + (yt yt )
= (yt yt ) + (yt yt )
Fijemonos con mas detenimiento en el primer termino:
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
99
t
yt yt = yt
x
t + ut
t
=
+ x
x
yt yt = ut
Del anterior resultado se constata que dicho elemento no es otra cosa sino el residual
estimado de nuestra regresion. Ahora bien, lo anterior fue desarrollado para una sola
observacion; si lo que queremos es tener en cuenta a todas, habra que sumarlas. No
obstante, ya sabemos el resultado de sumar a una variable centrada:
X
(yt y) =
(y y)
= yT yT
= 0
* : Este termino nos estorba. En los dos anteriores, aislamos la variabilidad explicada y la no explicada. Conviene deshacernos del tercero; desarrollandolo:26
X
(yt yt ) (yt y)
t y
(
ut )
x
X
t ut yut
ut x
X
X
X
ut
xt ut y
ut
X
ut y
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
100
(yt yt ) (yt y) = 0
(yt y)2 =
(yt yt )2 +
(yt y)2
(2.13)
SCE SCR
+
SCT
SCT
SCR
SCE
=1
SCT
SCT
A menos que se acepten conceptos tales como pesos al cuadrado, dolares al cuadrado y cantidad de manzanas producidas al cuadrado.
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
101
+
x
ut
|{z}t
yt
yt = yt + ut
Elevamos al cuadrado:
yt2 = yt2 + u2t + 2yt ut
X
X
X
yt2 +
u2t +
yt ut
yt2 =
| {z } | {z }
| {z }
X
SCT
SCE
2
Reemplazamos yt2 por la expresion que lo genera, xt :
X
28
2
xt + SCE
SCT =
X
SCT = 2
x2t + SCE
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
102
P 2t = 1
SCT}
yt
| {z
(2.14)
P
yt2 :
R2
R = P
(yt y)2
Note, que de la ecuacion (2.14), se infiere un resultado que nos sera u til posteriormente:
SCR = 2
x2t
(2.15)
La R2 representa nuestra primera medida de bondad de ajuste. Existen todava muchas mas medidas de ajuste y sobre todo, pruebas sobre la calidad estadstica de la
regresion. En esta seccion veremos dos mas: los intervalos de confianza y la prueba
F.
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
103
tstudent, T 2 g.l
t =
a
N (0, 1)
Con las pruebas de significancia, tenamos que escoger un nivel de confianza; ello
nos permita determinar los valores crticos. El nivel de confianza basicamente
senala la probabilidad de equivocarnos.29 Si la hipotesis nula es cierta, tenemos
un 95 % de probabilidad de que el estadstico t cae adentro del intervalo.
Como se lee nuestra prueba de significancia? Pues de hecho, la expresion explcita
de e sta es:
Pr 2.05
2.05 = 0.95
| {z } < t < |{z}
V C95 %
V C95 %
Pr V C95 % < t < V C95 % = 0.95
Pr V C95 %
29
< V C95 %
<
= 0.95
Al descartar las puntas extremas de la distribucion, incurrimos en el riesgo de que nuestro estadstico de prueba si pertenezca a Ho pero haya cado ah. Nosotros lo descartaremos erroneamente
(asumiremos que no fue engendrado por el proceso estipulado en Ho ). Es lo que se llama N IVEL o
bien E RROR T IPO I.
30
Recuerde que en la formula del estadstico t primigenea, restabamos 0 . Despues, como lo que
nos interesaba es que e ste u ltimo fuera cero, lo obviamos en las expresiones. A partir de aqu, lo
volvemos a dejar explcito.
104
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
Pr V C95 %
< < V C95 %
= 0.95
Multiplicamos por 1:
> > V C95 %
= 0.95
Pr + V C95 %
Pr + / V C95 %
= 0.95
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
105
x2t 2T g.l.
x
T1
z
T2
t=1
Definicion 9 Sean x y z dos variables aleatorias independientes distribuidas ambas como 2 con T1 y T2 grados de libertad respectivamente, entonces:
donde la variable xt es, por cierto, una variable centrada. Entonces, al estandarizar,
xt
iidN (0, 1).
x2t
=
2
T 1
X
x2t = (T 1)
2
2
x
=
(T
1)
t
2
2
X xt 2
2
= (T 1) 2
{z }
|
[N (0,1)]2
2T 1 g.l.
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
106
Pero mas importante es destacar que el lado derecho se distribuye como una 2 :
(T 1)
2
2T 1 g.l.
2
(2.16)
Para que sirve este resultado? Pues aun nos faltan algunos elementos para poder
responder a esta pregunta (si bien es e ste el que usamos para mostrar la distribucion
de los estadsticos t anteriormente). Ahora suponga que tenemos dos procesos como
el anterior; dos variables aleatorias independientes entre s x, z, ambas N (0, i2 )
para i = z, x. Del resultado obtenido, podemos deducir lo siguiente:
x2
(T1 1) 2 2T1 1 g.l.
x
2
(T2 1) z2 2T2 1 g.l.
z
Teniendo dos 2 y fundamentados en la definicion (9) podemos construir una distribucion F:
h
i
2
(T1 1) x2 /(T1 1)
x
h
i
FT1 1,T2 1
z2
(T2 1) 2 /(T2 1)
z
x2 /x2
FT1 1,T2 1
z2 /z2
Este resultado es, al menos potencialmente, muy interesante. Pero el hecho es que
no lo podramos calcular, puesto que desconocemos las verdaderas varianzas de
ambas variables. No obstante, podramos formular una hipotesis, la hipotesis nula
de hecho, que estipulara que las varianzas de ambos procesos son iguales. Con
ello estaramos creando una prueba estadstica de igualdad de varianzas entre dos
procesos:
Que pasa si x2 = z2 ?
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
107
x2 /x2
x2
=
z2 /x2
z2
x2
FT1 1 g.l.,T2 1 g.l.
z2
(2.17)
De ser cierta H0 , el2 calculo resultado de dividir los estimadores de las varianzas de
ambos procesos, x2 no solo debera distribuirse como una F de Fisher, sino que
z
ademas debera ser cercano a la unidad. Es importante entender que si la hipotesis
nula no es cierta, entonces la simplificacion que hicimos en la ecuacion (2.17) resultara erronea, por lo que nuestro estadstico de prueba ya no se distribuira como
F. Cabe destacar que la F se calcula por convencion con el estimador de varianza
mayor arriba y el menor abajo, de tal forma que el coeficiente quede siempre mayor
a 1, mucho mayor si la hipotesis nula no es cierta.
0.7
0.6
0.5
0.4
Distribucin F4,7,g.l.
0.3
0.2
0.1
0
0
(yt y)2 =
SCT =
(yt yt )2 +
SCE
(yt y)2
SCR
108
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
Dicha expresion nos puede servir para asignar los grados de libertad a cada suma
cuadratica. Los elementos que aparecen en ella constituyen, en cada caso, un preludio de calculo de varianza.
1. Al primero, SCT , resulta facil asignarle los g.l. correspondientes; Para su
elaboracion se emplean las T observaciones de yt , por lo que hay T grados
de libertad. No obstante, como empleamos en dicho calculo un estimador de
la media, se pierde uno. As pues, al final solo nos quedan T 1 grados de
libertad (ver demostracion en la seccion anterior).
2. Ya tenemos los grados de libertad del lado izquierdo de la expresion. Del lado
derecho, en conjunto, debe haber el mismo numero de g.l. Podemos empezar
con el primer termino de la expresion, SCE. e ste no es otra cosa mas que la
formulaincompletadel estimador de la varianza; por lo mismo, ya sabemos cuantos grados de libertad tiene: T g.l. menos los dos que se pierden por
haber estimado y . Nos quedan pues T 2 grados de libertad.
3. En cuanto al tercer elemento, SCR, es difcil indagar cuales son sus grados de
libertad directamente. No obstante, dado que tales grados deben ser iguales
a la izquierda y a la derecha del signo de igualdad, sabemos que T 1 =
g.l.SCR + T 2. As, resolviendo tan sencilla expresion, descubrimos que
SCR tiene 1 grado de libertad.
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
109
2
=
(T 2)
2
2
Y por lo que demostramos en la seccion anterior:
SCE
2T 2, g.l.
2
Ya tenemos nuestra primera 2 . Nada mas falta la otra. Veamos ahora SCR, la Suma de Cuadrados de la Regresion. Recordemos la ecuaci
Pon (2.15); con base en
ella, podemos aprovecharnos del hecho que SCR = 2 (xt x)2 . Ahora bien,
que representa esta ecuacion? Calculemos su esperanza:31
Necesitaremos, para ello:
P
1. = + Kt ut
P 2
2.
Kt = P (x1x)2
t
El segundo termino, lo manipulamos un poco para hacer mas evidente su uso en las
operaciones ulteriores:
X
1
(xt x)2 = P 2
Kt
Ahora s, retomando la expresion cuya esperanza queremos calcular y reemplazando
sus elementos por lo arriba explicitado:
2
(xt x)2 =
Desarrollandolo:
K t ut
2
2 1
X
+
K t ut P 2
Kt
P
P
2
2 Kt ut [ Kt ut ]2
1
P 2 = P 2+ P 2 + P 2
Kt
Kt
Kt
Kt
Ahora s, apliquemos el operador esperanza a cada uno de los tres terminos que
aparecen.
31
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
110
2
P
P
2 Kt E (ut )
2 Kt ut
P 2
P 2
=
Kt
Kt
= 0
3. El tercer elemento requiere mas trabajo. Primero, hay que sacar a lo no estocastico del operador esperanza:
"P
#
X
2
[ K t ut ] 2
1
P 2
E
= P 2E
K t ut
Kt
Kt
X
K t ut
2
= E K12 u21 + K22 u22 + . . . + KT2 u2T + T erminos Cruzados
X
K t ut
2
= E K12 2 + K22 2 + . . . + KT2 2
X
Kt2
= 2
2.8. ANALISIS
DE VARIANZA Y BONDAD DE AJUSTE
E 2
111
X
X
2
1
2
2
P
P
(xt x)
=
Kt2
+
2
2
Kt
Kt
2
= P 2 + 2
K
Xt
2
(xt x)2 + 2
=
2
(xt x)2 2 = a2 1
2
1
(xt x)2 2 21, g.l.
Ya solo resta construir nuestra distribucion F. Es importante recordar que la segunda 2 solo es cierta bajo Ho : = 0. Dividamos pues nuestras distribuciones 2 ,
32
112
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
no sin antes normalizarlas por sus grados de libertad, como senala la definicion de
la distribucion F:33
(SCR/ 2 ) /1
SCR
=
2
(SCE/ ) / (T 2)
SCE/ (T 2)
SCR
=
2
F1, T 2, g.l.
Todo esto de que nos sirve?, que prueba estamos haciendo? La distribucion F
solo se producira si, en la 2 del numerador la hipotesis nula es cierta. Dicho esto,
podemos establecer ya formalmente la prueba:
Ho : = 0
Ha : 6= 0
P
SCR
2 (xt x)2
F =
=
F1, T 2 g.l.
2
Resumiendo, y tambien abusando de la pobre lengua espanola, la prueba F nos dice
que tanto explicamos la variabilidad de la variable dependiente con nuestra regresion; puede ser vista como una prueba de pertinencia del modelo. Mas adelante, este
mismo enfoque nos servira para disenar pruebas mas complejas, que involucren a
mas parametros simultaneamente.
2.9. LA FALACIA DE LA REGRESION
Fuente de
Variacion
Regresion (SCR)
No explicada (SCE)
Total SCT
113
Suma de
Cuadrados, SC
grados de
libertad, gl
(yt y)2
k1
(yt y)2
P 2
Ut
T 2
T 1
SC
gl
P
2 (xt x)2
y2
2.9.
La Falacia de la regresion
N ON C AUSA P RO C AUSA
La falacia de la regresion es el resultado de un fenomeno estadstico conocido co A LA M EDIA. Por media se entiende el promedio de alguna
mo R EGRESI ON
variable en una poblacion determinada. Regresion en este contexto indica la tendencia de los valores o realizacion de la variable a acercarse a la media, o tender
hacia la media, alejandose de valores extremos. Por ende, regresion a la media indica la tendencia que tienen algunas variables a desplazarse hacia la media, alejandose
de tales valores extremos.34 Algunos ejemplos reveladores pueden ser:
M AS
SOBRE LAS CALIFICACIONES : Recuerde a nuestro ilustre
Ejemplo 4 A UN
alumno, Equis Arriaga. Finalmente obtuvo todas sus calificaciones del 7o semestre.
Descubrio que le haba ido especialmente mal (reprobo cuatro de siete materias y
en las que aprobo lo hizo con calificacion apenas aprobatoria de siete). Cuando fue
a enterar a sus padres adoptivos, el Sr. Ye y la Senora Zeta de Ye, e stos lo reprendieron, le quitaron el coche y el dinero para el transporte publico (que se desplazara a
pie, para que meditara profundamente), le prohibieron ir a fiestas y le quitaron su
I-pod. En octavo semestre, Equis obtuvo calificaciones muy parecidas a las que
haba obtenido en los primeros 6 semestres (paso 1 materia en extraordinario y las
34
Fuente: Tim van Gelder, Critical Reflections y Thomas Gilovich, How We Know What Isnt So:
The Fallibility of Human Reason in Everyday Life
114
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
demas las volvio a cursar, aprobandolas, en el peor de los casos, con 8, siendo su
promedio general de 8.5). Los padres, al enterarse, se felicitaron mucho de haber
impuesto un castigo tan ejemplar a su hijo, creyendo que fue e ste el que provoco la
mejora de sus calificaciones. Si asumimos que las calificaciones obedecen a las leyes de la probabilidad, entonces habra que advertir a tales padres que el castigo
impuesto nada tuvo que ver con la mejora en las calificaciones. En realidad, lo que
ocurrio fue que septimo semestre fue un realizacion mala atpica y ya despues, por
la consabida Regresion a la Media, todo volvio a la normalidad en el 8o semestre.
La tendencia de la gente a ver relaciones entre sus acciones y supuestas reacciones es, en muchas ocasiones, resultado de la falacia de la regresion. Es importante
tomar esto en cuenta antes de saltar a conclusiones precipitadamente.
Ejemplo 5 C HARLATANES Y CURAS MILAGROSAS : Uno de los campos donde
el fenomeno de la falacia de la regresion es mas fertil, es en el de la enfermedad.
Quien no ha escuchado a personas jurar y perjurar que, estando gravsimos, acudieron a un medico brujo o a una terapia nada ortodoxa (ingesta de orina, intervencion quirurgica psquica-es decir, sin bistur) y sintieron en consecuencia un
gran alivio en sus sntomas? La explicacion a este fenomeno obedece nuevamente
a la regresion a la media. Cuando las personas acuden a tales extremos (como ir a
hacerse una limpia) suele coincidir con la etapa mas crtica de la enfermedad. En
dicha etapa, los sntomas son mas virulentos, y, en tiempos posteriores, se atenuan
por su regresion a los sntomas medios. La gente, al ver la atenuacion, la atribuye
injusta y erroneamente al curandero.
Ejemplo 6 G ALTON Y LA ESTATURAS EN LA SOCIEDAD : El concepto de regresion a la media proviene de Galton, quien, en un estudio descubrio que los
hijos de padres altos (chaparros) no lo eran tanto como dichos padres. Es decir que
las generaciones mas jovenes tendan a la media. A esto le llamo la regresion a la
mediocridad.
2.10.
Problemas de la Econometra
2.10. PROBLEMAS DE LA ECONOMETRIA
115
se van sustituyendo por otros que nacen). Tal estrategia ha resultado adecuada para
poder llevar a cabo un analisis u til de la dinamica economica; no obstante, como ya
lo habamos senalado desde el principio del curso, tarde o temprano es necesario cotejar lo dicho por la teora con los datos recolectados en la practica. La econometra
es un vehculo para llevar a cabo tal escrutinio de la teora, pero...Que tan facil
es hacerlo? Las tecnicas son, en parte, las que hemos estado estudiando a lo largo
del curso, y si bien no son elementales, su dominio tampoco resulta tan difcil. El
problema que aqu desarrollamos estriba en los datos. Hasta ahora los ejemplos que
hemos puesto los hemos llevado a la practica mediante ecuaciones macroeconomicas cuyas variables son agregadas. Imaginemos por ejemplo una sencilla funcion de
consumo elaborada por un economista algo pasado de moda...
Cit = i + i yit + uit
La razon del doble subndice obedece a la inspiracion microeconomica de la ecuacion. Se trata del consumo del individuo i en el tiempo t; e ste tiene su propio Consumo Mnimo as como su propia Propension Marginal a Consumir. Cuando le
muestra a su colega econometrista la funcion que invento y le pide que se cerciore
de su validez mediante una estimacion, empiezan los problemas. El econometrista
tiene en mente estimar Ct = + yt + ut ; se dirigira rapidamente a la pagina de
internet del servicio de informacion estadstica y descargara los datos de consumo
e ingreso de la economa que le interese. Quiza ni se detenga a pensar que los datos
que ha obtenido corresponden a variables macroeconomicas o agregadas. No tiene
el consumo de un individuo en el tiempo t, sino la suma de los consumos de todas
las personas en el tiempo t. Lo mismo ocurre con el ingreso. Lo grave del asunto es
que, para pasar del individuo a la sociedad en su conjunto sin que la ecuacion del
economista pierda validez, es necesario incluir mas supuestos que no resultan faciles de digerir. Si sumamos los datos para tener la version agregada de las variables,
I
X
def
Cit = Ct
i=1
Ct =
I
X
i=1
i +
I
X
i=1
i yit +
I
X
i=1
uit
116
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
2.10. PROBLEMAS DE LA ECONOMETRIA
117
E STACIONARIEDAD ( D EBIL
): Las variables no tienen un componente de tendencia estocastico ni determinista:
E (yt ) = para todo t
E (yt ) (ytj ) = j para todo t y cualquier j
Si leemos con cuidado las expresiones de arriba, podremos ver que la estacionariedad debil basicamente estipula que una serie siempre tiene la misma media, ya sea
que se tomen los datos del principio de la muestra, los de en medio o los del final.
Lo mismo ocurre con la varianza (tomese el subndice j = 0); e sta no debe depender del tiempo. Pero es facil imaginar casos en los que esto no ocurre en economa.
Suponga que usted quiere estimar una especificacion en la que la variable riqueza este involucrada. tiene datos de dicha riqueza por habitante desde 1900 hasta el
2000. Vea dicha variable en el siguiente grafico:
1400
1200
1000
800
600
400
200
1900
1920
1940
1960
1980
2000
Ao
118
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
C L ASICA
N O S IRVE. La solucion al problema, porque la hay!, tambien se estudia
en series de tiempo. En la segunda parte este manual se aborda, no obstante, con un
poco mas de detalle esta cuestion (vea la pagina 371).
2.11.
Nuestra atencion ha sido puesta hasta ahora en las propiedades del modelo de regresion y en algunos metodos de inferencia estadstica que de e l se derivan. Dicha
informacion nos puede parecer un tanto a rida, pero resulta fundamental si queremos ser capaces de examinar con pericia nuestras estimaciones. El objetivo es formar un criterio verdaderamente informado y no solo a un usuario cuya u nica virtud sea saber apretar botones. Vamos a darnos un pequeno respiro e introducirnos
mas en el terreno de la econometra aplicada. Hemos hecho un uso extensivoy
quiza podramos decir abusivodel primer supuesto. e ste nos senala que si queremos que todo salga bien, es imprescindible que la especificacion sea correcta. Es
ya de por s difcil saber cuales son las variables pertinentes al momento de disenar
nuestra especificacion, pero si a eso le agregamos elmuy restrictivosupuesto
de linealidad, entonces nuestro campo de accion queda verdaderamente restringido.
Pocos fenomenos en la naturaleza son lineales.35 Que hacer con nuestro pobre modelo lineal?,36 que nos asegura que la relacion entre x y y es lineal?, Que pasa si
eso no es cierto? Algunas situaciones son franqueables; es posible seguir respetando
35
2.11. FORMAS FUNCIONALES Y ESPECIFICACION
119
nuestro primer supuesto mientras los parametros permanezcan lineales, aun si las
variables y y x ya no lo son. Otra solucion es utilizar metodos de estimacion NoLineales; pero esa solucion la estudiaremos mas tarde. En esta seccion hablaremos
mejor de algunos trucos de que disponen los econometristas para tratar fenomenos
que se resisten a MCO por su no-linealidad. Concretamente, hablaremos de cuatro
modelos distintos:
1. El modelo Log-Log
2. El modelo Log-Lin
3. El modelo Lin-Log
4. El modelo Recproco
y x
x y
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
120
=
=
x
x
x
Si usamos una regla de la cadena, podramos desarrollar de forma distinta a esta
derivada:
ln y
ln y y
=
x
y x
1 y
=
y x
Igualando con el resultado anterior...
1 y
=
y x
x
... y reacomodando los terminos, obtenemos:
y x
x y
y/x
En esta seccion aplicamos la tecnica de diferenciacion logartmica, misma que resulta muy
comoda cuando la expresion a derivar es complicada.
38
Lo anterior puede, de hecho, constituir un problema
2.11. FORMAS FUNCIONALES Y ESPECIFICACION
121
xt yt
= xt
y xt
xt y/x
122
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
En este caso obtendramos una elasticidad que se va modificando conforme
la variable x evoluciona.
2. Multiplicar por x:
x yt
= x
y xt
x y/x
Con ello obtendramos un promedio para todo el perodo de la elasticidad.
xt yt
yt xt
Podemos encontrar una elasticidad para cada observacion.
xt =
t
yt /xt = x
= + ln xt + ut
yt
=
xt
En esta ocasion, para obtener la elasticidad, hay que multiplicar, ya sea por y1t o bien
por y1 segun se desee una elasticidad cambiante o en promedio, respectivamente.
2.11. FORMAS FUNCIONALES Y ESPECIFICACION
y/x =
yt
123
V ariante
P romedio
Note como la tendencia positiva en la relacion es ahora mas obvia. Tambien resulta
mucho mas obvio que la lnea es incapaz de pasar por todos los puntos (dejara de
39
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
124
85
80
75
70
65
60
10,000
20,000
30,000
Ingreso per cpita (medido en Dlares PPP)
40,000
50,000
Figura 2.15: Ingreso per capita y esperanza de vida en 220 pases (excepto algunos
en los que la incidencia del SIDA deteriora los datos). Fuente: CIA world factbook.
ser una lnea, claro esta). Esto resulta de que nuestro analisis es, muy probablemente, incompleto. La educacion y el presupuesto de cada gobierno destinado a salud
podran ser otras dos variables de suma importancia que valdra la pena considerar.
No obstante, aun incorporandolas el ajuste no sera perfecto, ni mucho menos. Las
causas que explican la esperanza de vida son, si bien no infinitas, s muchas. No
podemos esperar incorporarlas todas. Ademas, no todas son tan importantes; la incidencia de algunas de ellas es marginal. Podramos tratar de encontrar un equilibrio
en el que el grueso del comportamiento de la esperanza de vida este:
explicado con relativamente pocas variables (3 o 4)y que lo que falte incida
poco:
ligeras desviaciones de la recta, unas arriba otras abajo, de manera balanceada;
todas a mas o menos la misma distancia de dicha recta;
errores sin ningun patron particular.
Estas tres caractersticas son, de hecho, objeto de mucho estudio. Sus nombres tecnicos ya los conocemos, de hecho; son: (i) Correcta especificacion del modelo; (ii)
2.11. FORMAS FUNCIONALES Y ESPECIFICACION
125
1
+ ut
xt
LINEAL SIMPLE
CAPITULO
2. EL MODELO DE REGRESION
126
1
xt
Esto nos da resultados mas logicos. Por ejemplo, segun nuestro modelo, un pas
como Mexico debera tener una esperanza de vida cercana a 72.6 anos, mientras
que un pas con un ingreso muy alto no podra esperar a tener una esperanza de
vida mayor a 74 anos. Evidentemente este modelo tambien tiene limitaciones; hay
muchos pases con esperanzas superiores a esos 74 anos; no obstante, es posible
que esos anos adicionales no provengan de un alto ingreso, sino mas bien de otras
cuestiones, tales como el sistema de salud, la condicion de equidad de genero, la
educacion, etc...
He aqu otro ejemplo sencillo de relacion inversa. Se trata de Argentina, con datos
de 1989 al ano 2000.42
yt = 73.92 16, 400
2.5
3.5
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.3
0.31
0.32
42
Captulo 3
3.1.
Cuando se presento el modelo con una sola variable explicativa quiza se pudo vislumbrar que hacer lo mismo en un modelo mas grande sera, si bien no mas complicado, s exageradamente mas tedioso de resolver. Por eso, habremos de continuar
nuestros desarrollos cambiando la notacion, de tal suerte que todo quede expresado
en terminos de matrices. Como veremos paulatinamente, ello facilita enormemente
algunas operaciones. Sea el modelo de regresion multiple:
yt = 1 + 2 x2t + 3 x3t + ... + K xKt + ut
Donde, como siempre:
127
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
128
1. yt es la variable explicada.
2. 1 es el intercepto u ordenada en el origen.
3. xit son variables explicativas, i = 1, 2, 3, . . . , K.
4. i son los parametros asociados a tales variables, i = 2, 3, 4, . . . , K.
5. ut es el termino de error.
Los supuestos tambien son los mismos; no obstante, uno de ellos requiere una aclaracion adicional, una clausula tecnica adicional:
:La relacion entre las variables explicativas,
1. C ORRECTA E SPECIFICACI ON
Xs, y la dependiente, Y , es lineal y esta dada por la especificacion.
, NO EXIS 2. O RTOGONALIDAD :Las x son variables no-estocasticas.1 A DEM AS
Sobre este supuesto aplica la misma advertencia que en el modelo univariado; se trata de una
version didactica del supuesto Cov(xt , ut ) = 0.
2
Esta es la clausula tecnica referida anteriormente. No se trata propiamente de un supuesto, sino
de una caracterstica que deben poseer las variables explicativas.
3
De ello se deriva que: E(X U ) = X E(U ) = 0.
4
Todas las sumatorias van desde 1 hasta T excepto si se indica lo contrario.
3.1. LA ESPECIFICACION
129
Tendramos que calcular K derivadas5 y resolver, en consecuencia, un sistema con
K incognitas. Lo anterior, hecho con esta notacion escalar resultara muy tedioso,
y francamente difcil si el numero de parametros, K, es muy grande. De ah la
conveniencia de pasar todo a notacion matricial.6
y1 = 1 1 + 2 x21 + . . . + K xK1 + u1
y2 = 1 1 + 2 x22 + . . . + K xK2 + u2
y3 = 1 1 + 2 x23 + . . . + K xK3 + u3
..
.
yT = 1 1 + 2 x2T + . . . + K xKT + uT
Usando notacion matricial, esto se vera as:
Y = X + U
Donde:
y1
y2
Y = ..
1. La variable explicada |{z}
.
T 1
yT
1 x12
1 x22
1
2
3. Los parametros = ..
|{z} .
K1
5
6
. . . x1K
. . . x2K
..
...
.
. . . xT K
130
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
u1
u2
4. El termino de error |{z}
U = ..
.
T 1
uT
D2
D D = D1 D2 . . DT .. Lo anterior equivale a:
.
DT
X
D12 + D22 + ... + DT2 =
Dt2
Todas las columnas y todos los renglones son linealmente independientes entre s. Lo anterior
se vera con mas detalle en la seccion dedicada al problema de multicolinealidad.
3.1. LA ESPECIFICACION
131
3.1.2. Optimizacion
Ahora s, volviendo a nuestro problema de minimizacion de cuadrados, es necesario
definir la suma de los errores:
U = Y X
U U = (Y X) (Y X)
Y = X + U
U = Y X
U U = Y X
Y X
= Y
Y Y X X Y + X X
|{z}
| {z } | {z } | {z }
11
11
11
11
= Y Y 2 X Y + X X
U U
Y Y 2 X Y + X X
= 2X Y + 2X X
Ya solo falta igualar a cero (as, nos deshacemos del 2, que podemos factorizar):
8
Cortesa de Laura Gasca Tovar: tanto Y X como X Y son escalares, por lo que se infie
re que estamos lidiando con matrices de 1 1. Observamos tambien que (Y X) = X Y ;
as pues, una expresion es la traspuesta de la otra. Sabiendo que se trata de un escalar (simetrico por
definicion), resulta obvio que arrojan lo mismo.
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
132
X Y + X X = 0
(X X) = X Y
= (X X)1 X Y
Esta u ltima formula es tan importante y recurrente, que bien vale la pena recordarla.
Muchos estimadores, que estudiaremos posteriormente, estan derivados de e sta.
= (X X)1 X Y
Un primer resultado, copia del que ya habamos inferido para el caso univariado,
puede ser obtenido facilmente:
X U =
=
=
=
=
X (Y X )
X Y X X
X Y (X X)(X X)1 X Y
X Y X Y
0
Al igual que antes, el metodo de MCO hace de los residuales estimados una variable
sin relacion con las explicativas. Aqu conviene recordar el segundo supuesto, el de
ortogonalidad. Este
implica que el termino de error debe ser independiente de las
explicativas. Justamente, como MCO fuerza los residuales estimados a ser independientes con respecto a las variables explicativas, no es posible probar directamente
si la especificacion es la correcta.
3.1. LA ESPECIFICACION
133
1. Y = X + U
2. = (X X)1 X Y
As pues, tomando la segunda y reemplazando Y por la especificacion:9
= (X X)1 X (X + U )
= (X X)1 X X + (X X)1 X U
= + (X X)1 X U
Empleamos el operador esperanza...
= + (X X)1 X E(U )
E()
= +0
E() =
Para calcular las varianzas de los estimados, se requiere un pequeno apartado:
La Matriz de Varianza Covarianza de los residuales
Obtener la matriz senalada en el ttulo de esta subseccion requiere, en primera instancia, saber como construirla. Como bien indica su nombre, en esta matriz deben
aparecer las varianzas de todo ut para todo t = 1, 2, . . . T as como todas las covarianzas posibles:
u1
u2
E(U U ) = E .. u1 u2 . . . uT
.
uT
u21
u1 u 2 . . . u 1 u T
u2 u 1
u21 . . . u2 uT
= E ..
..
..
.
.
.
.
.
.
uT u1 uT u2 . . . u2T
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
134
Si aplicamos los supuestos Numero Cuatro y Cinco, las esperanzas a calcular resultan obvias:
2 0
0 2
E(U U ) = E ..
..
.
.
0 0
...
...
...
0
0
..
.
. . . 2
= 2 IT
K1
X
i=1
K i = K (K 1)
1
(K 1)2 + K 1
2
1 2
K +12K +K 1
2
1
= K2 K K2 K
2
1
=
K2 K
2
= K2 K
3.1. LA ESPECIFICACION
135
i
h
= E ( )( )
V ar()
h
i
= E (X X)1 X U (X X)1 X U
V ar()
=
=
=
V ar() =
(X X)
def
... 1
1 x12 . . .
1 x22 . . .
. . . xT 2
1 x32 . . .
. . . xT 3
..
...
...
. 1 ...
.
1 xT 2 . . .
x1K x2K . . xT K
P
P
T
x
.
.
.
x
2t
Kt
P 2
P
P x2t
x
.
.
.
x2t xKt
2t
P
P
P
x3t
x
x
.
.
.
x
x
2t
3t
3t
Kt
..
..
..
...
.
.
.
P
P 2
P
x2t xKt . . .
xKt
xKt
1
x12
x13
.
.
.
1
x22
x23
..
.
x1K
x2K
x3K
..
.
xT K
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
136
Tan solo con ver como esta conformada la matriz X X, resulta facil adivinar su
simetra. La demostracion, de hecho, es trivial. En primera instancia, definamos lo
que se entiende por simetra. Una matrizcuadradaA es simetrica s:
A = A
En el caso que nos interesa, X X, veremos que la simetra se da por construccion.
Recordemos que X es una matriz de T K. Entonces, X X sera de K K. Si la
trasponemos...
= (X) (X )
= X X
X X = (X X)
(X X)
Pasando al elemento que esta postmultiplicando del otro lado y recordando que la
matriz A s es simetrica...
(A1 ) = (A )1
(A1 ) = A1
queda la simetra de dicha matriz demostrada.
3.2.
Teorema de Gauss-Markov
El estimador de MCO, = (X X)1 X Y es MELI, es decir: M EJOR ESTIMA DOR L INEAL E I NSESGADO . Lo anterior quiere decir que la diferencia
entre la ma
triz de varianza-covarianza de los estimadores de MCO, var y la de cualquier
otro estimador lineal e insesgado, var resultara en una matriz semi-definida
positiva, que es, en notacion matricial, el equivalente a una suma mayor o igual a
cero en nuestra notacion anterior.
137
3.2.1. Demostracion
Dado que debe ser un estimador lineal
Imaginemos un estimador alternativo, .
e insesgado, tambien debe ser, como en el caso del estimador de MCO, una combinacion de la variable Y :
= AY
Donde A es, como anteriormente, una matriz compuesta de elementos no-estocasticos. Para poder hacer comparaciones con el estimador de MCO, debemos incorporar de alguna manera a e ste en la formula anterior. Lo mas facil, como siempre, es
sumarlo y luego restarlo:
i
h
1
1
= (X X) X Y + A (X X) X Y
|
{z
}
C
= (X X) X Y + CY
h
i
1
= (X X) X + C Y
(3.1)
E (X X)
X YY C
= E
h
+ (X X)
XU Y C
h
1
= E X C + U C + (X X) X U X C + . . .
i
1
. . . (X X) X U U C
Mas adelante se demuestra que CX = 0 (y que por tanto X C = 0); ademas, como
que E(U ) = 0, podemos eliminar los terminos que son cero y tambien los que de
11
.
Implcitamente estamos haciendo uso del primer supuesto: C ORRECTA E SPECIFICACI ON
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
138
E (X X)
X YY C
= (X X)
X E (U U ) C
= 2 (X X)
|X{zC}
=0
= 0
(X X)
i
X + C (X + U )
= + CX + (X X)
X U + CU
(3.2)
12
Es posible sacar a C del operador esperanza puesto que esta compuesto por X, que es no estocastica y por A, que es la matriz de ponderadores; e sta tambien debe ser no-estocastica, como en
MCO.
139
Queda claro que el estimador alternativo es insesgado (as se requiere). Ahora s toca
el turno a su varianza:
var = E
Reemplazamos por la expresion (3.2) convenientemente reacomodada:
1
1
V ar = E (X X) X U + CU (X X) X U + CU
= 2 (X X)
+ 2 CC
(3.3)
En el caso anterior (regresion univariada), nos habamos topado con que la varianza
del estimador alternativo tambien era igual a la de MCO mas un elemento mayor o
igual a cero, con lo que quedaba demostrado que no exista un estimador de menor
varianza que el de MCO. En este caso, habra que demostrar que CC siempre es
positiva o igual a cero. Al tratar con matrices, esta propiedad es referida como
matriz semidefinida positiva. Si CC es, en efecto, una matriz semidefinida positiva, el teorema estara demostrado. De hecho, afortunadamente, dicho resultado ya
existe, y esta plasmado en el siguiente teorema.
Teorema 8 Sea C una matriz de rango completo, de dimensiones T K. Entonces
C C es una matriz definida positiva y CC es una matriz semidefinida positiva.
El teorema anterior nos dice que la matriz se sumara a la varianza del estimador de
MCO (o en el peor de los casos, no agregara nada, pero tampoco restara) por lo
que queda demostrado que MCO provee los estimadores mas eficientes, como en el
caso de una sola variable explicativa.
Para entender mejor la demostracion, es importante primero recordar algunas cuestiones sobre las matrices.13 En muchos problemas de optimizacion, la funcion objetivo a maximizar (minimizar) tiene la siguiente forma:
q =
T X
T
X
xi xj aij
i=1 j=1
13
Esta explicacion esta basada en la provista por el libro Econometric Analysis de William H.
Greene (1997), 3a edicion.
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
140
q = x Ax
donde A es una matriz simetrica (y por ende, cuadrada). Es posible que q sea positivo, negativo o nulo, todo depende de los valores de la matriz A y de x. No obstante,
existen matrices A tales que, independientemente de x 6= 0, hacen que el valor de q
siempre sea negativo (o siempre sea positivo, o siempre sea no negativo). De hecho,
existe una clasificacion:
3.2.2. Intuicion
Recuerdese que las varianzas quedan definidas en la diagonal de la matriz. En el
caso de la formula expresada en la ecuacion (3.3), las varianzas del nuevo estimador,
seran, al final de cuentas, el resultado de sumar los elementos de la diagonal
de 2 (CC )1 con los de la matriz 2 (X X)1 . La varianza de tales estimadores
solo podra ser menor a la de los de MCO si los elementos de la diagonal fueran
negativos. Ahora bien, es facil ver que la matriz C tiene las dimensiones K T .
Independientemente de cual es el valor de los elementos que la componen, su forma
sera la siguiente:
C11
C21
C = ..
.
C
C12
C22
141
. . . . . . C1T
C2T
..
...
.
CK1 CK2 . . .
CKT
.
= ..
.
..
..
.
C1T C2T . . . CKT
CCii
T
X
Cij2
j=1
donde i = 1, . . . , K. Todo esto redunda en lo siguiente: sean cuales sean los valores
que conforman la matriz C, los elementos de la diagonal de la matriz CC son
el resultado de una suma de cuadrados. Dichas sumas solo pueden ser positivas o
biensi los elementos que la componen son todos nulosiguales a cero. De lo
son iguales
anterior se deriva que las varianzas de los estimadores alternativos ()
a las varianzas de los estimadores de MCO mas algo que solo puede ser positivo o
nulo. Por ende,
var i var i i = i, . . . , K
3.3.
Como en la primera parte del curso, uno de los elementos mas importantes a desarrollar es el estimador de la varianza del error,
2 . Al igual que antes, una vez obtenida su formula, procederemos
a verificar que el estimador es insesgado. Recordemos
P 2
Ut
que en el modelo simple T 2 = 2 y tambien que E(
2) = 2.
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
142
Para obtener el equivalente de estas expresiones en el modelo multivariado, requeriremos de algunas expresiones de referencia. Para empezar, identificaremos en nuestros calculos una matriz que nos resultara sumamente u til. Recordemos lo visto
hasta ahora:
2. El residual estimado:
U = Y X
3. combinando estas u ltimas dos expresiones:
U = Y X(X X)1 X Y
4. Factorizando Y:
U =
I X(X X)1 X Y
|
{z
}
Mx
143
2. Idempotencia:
Mx Mx = (I X(X X)1 X )(I X(X X)1 X )
= I X(X X)1 X X(X X)1 X + . . .
. . . X(X X)1 X X(X X)1 X
= I 2X(X X)1 X + X(X X)1 X
= I X(X X)1 X
= Mx
=
=
=
=
Mx Y
Mx (X + U )
Mx X + Mx U
Mx U
(3.4)
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
144
u2t = U U
= U Mx Mx U
Aprovechando el resultado expuesto en la ecuacion (3.4) y tambien de la indempotencia de la matriz Mx , podemos simplificar la expresion y posteriormente calcular
su esperanza:
E(U U ) = E(U Mx U )
Lamentablemente, los pasos siguientes exigen el conocimiento de algunas propiedades adicionales de las matrices. En particular, necesitamos saber que es la traza
de una matriz y cuales son sus propiedades.
La traza de la matriz Lo primero es definir que es la traza:
Definicion 10 Traza: es la suma de todos los elementos diagonales de una matriz cuadrada. Sea A una matriz K K cuyo elemento n-esimo renglon, m-esima
columna sea anm . Entonces, su traza es:
tr (A) =
K
X
aii
i=1
Las propiedades de la traza pueden llegar a ser bastante sorprendentes. Sea c una
constante y A, B, C, D matrices tales que dim (AB) = K K, dim (AC) = K
K, dim (AD) = K K y b un vector T 1. Entonces:
1. tr (cA) = c tr (A)
2. tr (A ) = tr (A)
3. tr (A + B) = tr (A) + tr (B)
4. tr (IK ) = K
145
5. tr (AB) = tr (BA)
6. Generalizando:
tr (ABCD) = tr (BCDA)
= tr (CDAB)
= tr (DABC)
7. b b = tr (b b) = tr (bb )
Ahora s, ya podemos retomar nuestro calculo de la varianza del error. Recordemos
que U es un vector T 1:
U U = tr U U
Podemos aprovechar lo anterior,
E U U
= E (U Mx U )
h
i
E UU
= E [tr (U Mx U )]
As expresada la varianza, no podemos sacar esperanza, puesto que los vectores U
del termino de error no estan juntos. Por eso, tomando ventaja de las propiedades
de la traza, permutamos y calculamos esperanza...
E(U U ) =
=
=
E(U U ) =
E [tr (Mx U U )]
tr [Mx E (U U )]
tr Mx 2
2 tr (Mx )
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
146
h
i
1
tr (Mx ) = tr IT X (X X) X
i
h
1
= tr (IT ) tr X (X X) X
h
i
1
= T tr (X X) X X
= T tr [Ik ]
= T K
E(U U ) = 2 (T K)
Nos damos cuenta que, para que el estimador de la varianza sea insesgado, debe ser
normalizado por T K.
U U
T K
= 2
U U
T K
es un estimador insesgado de 2 :
E
2 = 2
3.4.
147
3.4.1. La R cuadrada
Empecemos recordando lo que vimos anteriormente:
Definicion 11 La formula que conocamos de la R2 es:
SCR
SCT
SCE
= 1
SCT
P 2
Ut
= 1 P
(yt Y )2
R2 =
Pasar las formulas anteriores a notacion matricial nos resultara mas facil si definimos el siguiente vector:
Sea
y1 y
y2 y
Yc = y3 y
..
.
yT y
U U
Yc Yc
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
148
incluir muchsimas variables explicativas en la regresion; al final, lograramos mejorar la bondad del ajuste, aunque sea artificialmente.14 Incluir un numero grande
de variables explicativas terminara eventualmente subiendo la R2 , pero el modelo
dejara de ser parsimonioso y se convertira en un gigante con pies de barro y sobre
todo, en una herramienta sumamente inutil.
Intuicion En realidad, mostrar que la R2 crece, o se infla, a medida que le agregamos variables explicativas puede hacerse con relativa sencillez. Recuerde que el
metodo de Mnimos Cuadrados se obtiene de minimizar la Suma de Residuales al
Cuadrado, SCE:
mn SCE = mn
(yt Xt )2
(3.5)
Hay que recordar, no obstante, que las pruebas de significancia individuales limitaran en gran
medida dicha estrategia.
149
Demostracion formal La demostracion formal de lo anterior es, hay que admitirlo, mucho mas elaborada. Trataremos de evitar las cuestiones demasiado tecnicas y
de hacerla lo mas fluida posible. Nuestra regresion multivariada se especifica y se
estima de la siguiente manera:
Y
Y
= X + U
= X + U
= X1 1 + X2 2 + U,
(3.6)
= X1 1 + X2 2 + U .
(3.7)
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
150
donde M1 es nuestra famosa matriz simetrica e idempotente. Dicha matriz tena una
serie de propiedades que nos resultaran u tiles. La primera, solo basta recordarla:
M1 X 1 = 0
La otra que utilizaremos resulta ser una propiedad muy curiosa, pues aplica, no a la
regresion restringida, sino a la no-restringida:
M1 U =
I X1 (X1 X1 )
i
X1 U
1
= U X1 (X1 X1 ) X1 U
|{z}
=0
= U
Si el u ltimo termino se hace cero, ello se lo debemos a la ortogonalidadya demostrada anteriormenteentre variables explicativas y residual estimado. As pues,
tenemos que:
M1 U = U
Retomemos ahora nuestra especificacion particionada (3.7) y multipliquemosla por
M1 :
M1 Y
= M1 X1 1 + M1 X2 2 + M1 U
| {z }
| {z }
=0
=U
= M1 X2 2 + U
M1 X2 2 + U
M1 X2 2 + U
151
= SCEY /X1
Ahora podemos continuar con el desarrollo:
SCEY /X1 = 2 X2 M1 X2 2 + 2 X2 M1 U + U M1 X2 2 + U U
= 2 X2 M1 X2 2 + 2 X2 U + 2 X2 U + U U
Nuevamente, la ortogonalidad entre explicativas y residual estimado simplifica la
expresion:
SCEY /X1 = 2 X2 M1 X2 2 + U U
Tambien, podemos deducir que U U no es otra cosa sino la Suma de Residuales al
Cuadrado de la regresion con todas las explicativas; la denominaremos:
def
U U = SCEY /X1 ,X2
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
152
2 =
=
=
=
=
=
(P M1 P ) (P M1 P )
P M1 P P M 1 P
P M1 IM1 P
P M12 P
P M1 P
Este desarrollo nos permite ver que si M1 es una matriz idempotente tambien lo es
. Pero sabemos que , es una matriz diagonal cuyos elementos son los eigenvalores
16
11 0 . . .
0 22
= ..
...
.
0
153
0
0
..
.
. . . KK
211 0 . . .
0
0 2
0
22
= ..
..
...
.
.
2
0
0 . . . KK
U U
Yc Yc
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
154
2 = 1
R
U U
T K
P
(yt Y )
T 1
155
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
156
Varianza de y
Varianza de y
Varianza de x2
Varianza de x1
Varianza comun
de x1 y x2 que no
Varianza de x2.
Una parte explica a y
explica la de y
Varianza comun
de x1 y x2 que
Varianza de x1.
explica la de y
0.2
0.4
0.6
0.8
Es muy facil insertar nuestro cambio de escala en la expresion anterior para entender
20
En este sentido, pronto descubriremos que gran parte del esfuerzo en Econometra de destina a
proponer metodos para identificar y corregir los rompimientos de los supuestos.
157
las consecuencias:
M =
PT
(xt x) (yt y)
PT
2
)2
t=1 (xt x
t=1
Dado que se trata de una constante, es posible sacarla de las sumatorias; al final,
quedara:
P
1 Tt=1 (xt x) (yt y)
M =
PT
)2
t=1 (xt x
= MM
que a su transformacion xyi i se le denomina coeficiente estandarizado. El coeficiente en bruto mide el cambio en la variable yen unidades de e staante un
cambio unitario en xi , mientras que el coeficiente estandarizado mide el cambio en
y medido en desviaciones estandar ante el cambio de una desviacion estandar en xi .
Descomposicion de la R2
Esta transformacion lineal de los parametros no nos interesa en s gran cosa, pero
es el preambulo para descomponer la R2 y obtener la aportacion de cada variable
a e sta. En realidad, ya no hay mucho que hacer; basta con tomar los coeficientes
estandarizados y multiplicarlos por la correlacion entre la variable dependiente y
la explicativa que corresponda. Definamos Ri2 como la contribucion de la i-esima
variable explicativa a la R2 global; definamos tambien ryi como la correlacion entre
y y xi . Entonces:
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
158
Ri2
xi
=
i ryi
Para rematar esta seccion, pondremos un pequeno ejemplo para asentar este concepto. Suponga que estimamos la siguiente especificacion:
yt = + 1 xt1 + 2 xt2 + 3 xt3 + ut
La siguiente tabla resume toda la informacion que necesitamos:
Variable
Constante
x1
x2
x3
y
Desv. estandar
1.01
1.10
0.99
13.14
Correlacion con y
0.18
0.30
0, 53
1.00
Estimado
3.17
2.34
4.52
7.64
Estandarizado
0.18
0.38
0.57
Suma
2
R Global
Ri2
0.03
0.11
0.30
0.44
0.44
Como habran visto, la suma de las Ri2 s individuales coincide con nuestra R2 de
siempre. Se trata de un instrumento francamente u til, que vale la pena emplear a la
hora de evaluar una especificacion.
Otros Criterios
Recientemente (es decir, hace mas o menos 20 anos) han aparecido nuevos criterios
para evaluar el ajuste de un modelo; especficamente, son criterios que permiten
comparar el ajuste de distintas especificaciones. En esta seccion presentaremos dos
en extremo populares.
1. Criterio de Informacion de Schwarz:
SIC = ln
U U
K
+ ln T
T
T
(3.8)
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
159
U U
2K
AIC = ln
+
T
T
(3.9)
Note como es posible optimizar (minimizar) ambos criterios mediante especificaciones que reduzcan la Suma de Residuales al Cuadrado, U U . No obstante, los dos
ejercen una penalizacion considerable si tales especificaciones incluyen demasiados
parametros.
3.5.
t i =
i i
q
2i
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
160
donde el subndice ii indica que extraemos el elemento del i-esimo renglon, ie sima columna de la matriz de varianza covarianza. La formula del estadstico t se
convierte entonces en:
t i = p
i i
i = 1, 2, 3, . . . , K
2 (X X)1
ii
Ya solo falta recordar que la hipotesis mas comun que se prueba con el estadstico
t es la de nulidad del estimador: H0 : = = 0. No obstante, es importante tener
claro que la hipotesis nula la establece el econometrista segun la pregunta a la que
desea dar respuesta; la hipotesis no necesariamente es de nulidad.
Donde M es el numero de restricciones que queremos someter a prueba. Esta presentacion, reiteramos, resulta poco intuitiva. Para entenderla, presentaremos una
serie de ejemplos de pruebas de hipotesis:
Ejemplo 7 R ESTRICCIONES SENCILLAS : Suponga que se estima la siguiente
especificacion:
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
161
(3.10)
1 = 0
2 = 1
Como bien se puede ver, cada una de las hipotesis podra ponerse a prueba de
forma individual mediante un estadstico t. Resulta conveniente, en algunos casos,
probarlas conjuntamente y no solo por separado. Es por ello que vamos a plantear
la matriz de restricciones antes propuesta: R = r. Empecemos definiendo cada
uno de los elementos
=
2
3
4
Las dimensiones de este vector son harto conocidas: K 1. Ahora pasemos a las
otras matrices. M , el numero de restricciones, es igual a 2, M = 2. Ahora s ya
podemos pasar al formato propuesto R = r. La u nica dificultad estriba en el
diseno de R y r:
1
0 1 0 0 0
0
2 =
0 0 1 0 0
1
3
4
Note como, al llevar a cabo operacion matricial, recuperamos las dos restricciones
que deseamos someter a prueba; las que estan especificadas bajo la hipotesis nula,
H0 .
ELABORADAS : Suponga que se estima la esEjemplo 8 R ESTRICCIONES M AS
pecificacion estipulada en la ecuacion (3.10). En esta ocasion, se desea someter a
prueba dos hipotesis en las que dos parametros esten involucrados simultaneamente:
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
162
H0 :
1 + 2 = 1,
3
= 4 ,
1
1
0 1 1 0 0
2 =
0
0 0 0 1 1
3
4
Note como se reformulo la segunda hipotesis y en el planteamiento matricial, quedo establecida como 3 4 = 0.
Ejemplo 9 R ESTRICCIONES PUNTUALES : Con afan de presentar el mayor numero de eventuales hipotesis, presentamos aqu una hipotesis similar a la que se podra
resolver con un estadstico t. Es importante recordar que, la metodologa aqu expuesta permite probar muchas hipotesis a la vez, por lo que no debe pensarse que
esto resulta un ejercicio inutil. Suponga otra vez que se estima la especificacion
estipulada en la ecuacion (3.10). En esta ocasion, la hipotesis a probar es :
H0 : 2 = 0.7
En este caso, el numero de restricciones es uno, M = 1. El planteamiento matricial,
quiza un poco excesivo para nuestras necesidades, sera:
1
= 0.7
0 0 1 0 0
2
3
4
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
163
Distribucion de la prueba
Realizar la prueba redunda en un ejercicio muy sencillo en la mayor parte de los paquetes de computo que se usan habitualmente. No obstante, es importante conocer
el funcionamiento de la prueba puesto que al hacerlo, restamos preponderancia a la
necesidad de memorizar dicho funcionamiento ya que se reemplaza por un elemento
de logica. En primera instancia, recordaremos la transmision de la normalidad que
inicia en los residuales y termina en los parametros. Retomemos nuestro modelo de
siempre, Y = X + U . Sabiendo que U iidN (0, 2 ) y que las variables explicativas son no-estocasticas, la normalidad se transmite sin trabas hasta la variable
dependiente. Solo es cuestion de conocer su media y varianza:21
Y N X, y2
Recordemos tambien que el estimador no es otra cosa sino una combinacion lineal
de la variable dependiente:
= (X X)1 X Y
Por ello, los estimadores tambien tendran una distribucion normal, con la media y
varianzas que calculamos antes:
N , 2 (X X)1
21
E R = E(r)
Puesto que con eso basta para caracterizar a una distribucion Normal.
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
164
No obstante, r es, bajo la hipotesis nula, un vector de constantes sin propiedades probabilsticas, por lo que:
E R = r
var R
= R var R
= 2 R(X X)1 R
As, con el resultado anterior podramos realizar una prueba estadstica, puesto que,
bajo la hipotesis nula, R se distribuye normalmente; es de suponer que si H0
no es cierta, el calculo que ah hagamos no sera normal y saldra de nuestro clasico
intervalo 2, 2. El problema es que no conocemos uno de los parametros que intervienen en la formula: 2 . Tendremos que manipular las expresiones para sortear esa
dificultad. Para ello, sera necesario demostrar el siguiente resultado:
Teorema 11 Sea un vector Z(T 1) tal que Z N (0, ), siendo una matriz
no-singular. Entonces:
Z 1 Z 2T g.l.
Prueba 1 : La matriz , que es una matriz de Varianza-covarianza, tambien es
simetrica. Para demostrar su distribucion procederemos como sigue. Si todos los
Eigenvectores de la matriz son distintos,22 entonces admite la siguiente representacion:
= |{z}
P |{z}
P ,
T T T T
22
Esto no lo demostraremos puesto que son elementos de a lgebra matricial que en teora ya deben
conocer; no obstante, cabe senalar que ello siempre ocurre con las matrices de Varianza-Covarianza.
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
165
donde, como vimos en la seccion anterior, P es una matriz compuesta por los
eigenvectoresvectores propiosde , P P = IT y es una matriz diagonal cuyos elementos son los valores propioso eigenvalores. Retomemos nuestra matriz
e invirtamosla:
1 = (P P )
= P 1
Retomamos...
Z 1 Z = W 1 W
Ahora imaginemos como es este calculo:
23
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
166
1
W1
11
0 ... 0
W1
W2 0 1 . . . 0 W2
22
Z 1 Z = .. ..
.. ..
..
...
. .
. .
.
1
0
0
0 T T
WT
WT
| {z } |
{z
}
1T
T T
W1
W2
1
1
1
W
.
.
.
W
=
1 11
2 22
T T T ..
|
{z
} .
1T
WT
| {z }
T 1
Z 1 Z =
T
X
Wi2
ii
|i=1{z }
escalar
1
= W W
Pues hasta ahora lo que tenemos es una matriz que potencialmente podra ser,
cuando menos semi-definida positiva. En realidad, veremos dentro de poco que es
definida-positiva. Pero eso de hecho importa poco. Lo que realmente nos interesa
es conocer sus propiedades probabilsticas. Como hacemos esto?
Si los elementos del vector W , es decir los elementos Wi i = 1, . . . , T , fueran
N (0, 2ii ), entonces la expresion a la que llegamos resultara ser una suma de
normales estandarizadas y elevadas al cuadrado. Esto debera recordarnos a la
definicion de una 2T g.l. . Solo nos resta averiguar que es W .
Sabemos que W = P 1 Z. Si queremos utilizar lo establecido en el teorema 11,
entonces deberemos asumir que el vector Z que introducimos hace un momento se
distribuye normalmente con media cero y varianza .
Por otra parte, conviene recordar que la matriz P esta construida con los eigenvectores de la matriz de Varianza-Covarianza de . As, para construir W multiplicamos algo que se distribuye como una normal centrada por otra cosa que esta compuesta de elementos sin propiedades probabilsticas.24 El resultado sigue teniendo
distribucion normal y tambien esta centrado en cero. Pero cual es su varianza? La
podemos calcular...
24
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
167
i
h
1
V ar(W ) = E P 1 ZZ (P )
11 0 . . . 0
0 22 . . . 0
= ..
..
..
...
.
.
.
0
0 . . . T T
P W2
Retomando nuestro calculo de arriba, Z 1 Z = Ti=1 iii , pues ahora s ya sabemos que se trata de variables normales estandar al cuadrado, por lo que, aplicando
la definicion de una 2 y sabiendo que...
W iidN (0, )
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
168
Por desgracia, aun no terminamos (pero ya merito). Nosotros lo que tenemos es:
1
2
R N r, R (X X) R
Si centramos...
1
(R r) N 0, 2 R (X X) R
Z = R r
| {z }
M 1
... as como :
def
= 2 R (X X)
h
i1
1
R r 2 R (X X) R
R r
2M g.l.
(T K)
2
2T K g.l.
2
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
169
F =
=
21 /g.l.1
22 /g.l.2
1 1
2
R r /M
R r R (X X) R
2 / 2
Fg.l.1 ,g.l.2
Esta afortunada division permite que se cancele el elemento desconocido, 2 :
F =
1
1
R r R (X X) R
R r /M
FM g.l., (T K) g.l.
Es muy importante recordar que todo este ejercicio solo es valido si y solamente si
la hipotesis nula, H0 es cierta. Si no lo es, el calculo de la expresion de arriba no
tendra distribucion F.
Ahora bien, esta presentacion de la prueba se antoja muy compleja como para ponerla en marcha facilmente. Existe por fortuna una manera mas sencilla de llevarla
a cabo:
Teorema 12 Sea:
1. el estimador de MCO No-Restringido (es decir, sin imponer nada a los
parametros a estimar) y SCE1 , la suma de residuales al cuadrado correspondiente:
SCE1 = U1 U1
25
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
170
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1.5
2.5
3.5
4.5
(SCE2 SCE1 ) /M
SCE1 / (T K)
Es facil llevar a cabo este calculo. Basta con correr dos regresiones y recuperar las
sumas de residuales al cuadrado, tanto te la regresion restringida como de la no
restringida.
3.5. PRUEBAS DE HIPOTESIS,
CONJUNTAS E INDIVIDUALES
171
H0 : par
ametro(s) = constante(s)
Ello obedece a que, en muchas ocasiones, las hipotesis que se requiere formular pueden hacerse as; no obstante, es bastante razonable considerar que en otras tantas la
pregunta de interes tendra una interpretacion matematica de desigualdad. Podramos
plantear, a manera de ejemplo, la estimacion de la elasticidad-ingreso de un impuesto (es decir, su recaudacion). Tomemos el Impuesto al Valor Agregado (IVA) con
respecto al ingreso del pas, ambos transformados en logaritmos:
IV At = + P IBt + ut
Como ya vimos anteriormente, correr la especificacion anterior nos brinda parametros que corresponden a una estimacion de la elasticidad, en este caso ingreso. Un
estudio de esta naturaleza debe ir acompanado, como bien mandan los canones de
los economistas, de una elucidacion del grado de elasticidad: muy elastica ( > 1),
poco elastica ( < 1). Huelga decir que la prueba de hipotesis en este caso se
debera construir en tanto desigualdad.
Como hacer tal prueba? Pues la propuesta consiste en una prueba de desigualdad
conjunta. En primera instancia, como siempre, hay que plantear la hipotesis nula y
la alternativa:
H0 : c r
donde c es un vector renglon y r es una constante (un escalar). Note que, al establecer c, debe seguir un procedimiento analogo al de las pruebas de igualdad; la
diferencia estriba en que aqu solo puede probar una hipotesis a la vez. Ello, huelga
decir, no impide que dicha hipotesis sea elaborada.26 El estadstico que hemos de
utilizar se construye con base en la siguiente formula:
c r
T =p
2 c(X X)1 c
Dicho estadstico tiene una distribucion, bajo la hipotesis nula, t de Student no centrada:27
26
172
MULTIPLE
CAPITULO
3. EL MODELO DE REGRESION
T tT K,
donde es el parametro de no-centralidad, cuya formula es =
cr
2 c(X X)1 c
Captulo 4
La multicolinealidad
La cuestion que esta en la palestra es el addendum que le hicimos al segundo supuesto cuando atacamos el modelo general. Los supuestos de dicho modelo resultaron
ser los mismos que los del de regresion simple con una notable diferencia.
L INEAL E XACTA ENTRE CUALQUIERA DE LAS
N O EXISTE R ELACI ON
VARIABLES INDEPENDIENTES DEL MODELO .
Lo anterior corresponde, no tanto a un rompimiento de supuesto, sino mas bien a
una cuestion tecnica relativa especficamente a los datos. Esa es la razon por la que
no se estudia en la siguiente parte (no se trata, formalmente hablando, de un rompimiento de supuesto). Cuando no queda satisfecha esta clausula (es decir que existe
relacion lineal entre explicativas) se dice que dichas variables son colineales perfectas o bien que hay un problema de colinealidad perfecta. Ahora bien, una relacion
lineal entre variables explicativas puede sonar un tanto extrano. Que se entiende al
respecto? Como de hecho pretende explicar el ejemplo siguiente, en muchas ocasiones dicha relacion obedece a una cuestion de construccion de las variables que
puede pasar desapercibida por los econometristas incautos o bien ajenos al procedimiento que genero los datos. Dicho ejemplo esta inspirado en uno dado en el libro
de Econometra escrito por Pyndick y Rubinfied:1
Ejemplo 10 Un investigador lleva a cabo un estudio sobre el desempeno escolar.
La variable de interes es Calificaciones. La hipotesis del investigador es que las
calificaciones de los alumnos dependen de cuatro variables; el ingreso familiar, el
La edicion que usamos de este libro es: Econometric Models and Economic Forecasts, 4a edicion, 1998.
1
173
CAPITULO
4. LA MULTICOLINEALIDAD
174
1
1
X = 1
..
.
0
Y f1 S1 0.5 3.5
Y f 2 S2 2
14
Y f3 S3 1.5 10.5
..
..
..
..
.
.
.
.
Y f i Si 3
21
Que ocurre con estas dos columnas? pues existe una relacion lineal muy obvia
entre ambas:
H2i = 7 H1i
Nuestro investigador tiene un problema de multicolinealidad perfecta. Una interpretacion perfectamente aceptable de su error es la siguiente: las u ltimas dos variables que propuso como explicativas corresponden a la misma informacion. Con
una de ellas bastara, puesto que la otra no aporta nada mas.
175
Cuando no hay independencia lineal entre todas las columnas de la matriz, se dice
que dicha matriz no tiene rango completo. Si denotamos al rango de la matriz con
la letra , podemos definirlo como:
4.1.
Multicolinealidad perfecta
La multicolinealidad perfecta ocurre cuando existen dos o mas variables explicativas que mantienen entre s una relacion lineal. Como ya fue mencionado, en ese
caso se dice que la matriz de variables explicativas no tiene rango completo. La colinealidad entre dos o mas variables se transmite de la matriz X a la matriz X X.
La forma mas facil de entender esto es ver un simple ejemplo. Sea una matriz de
variables explicativas de dimensiones T K. Imagine una relacion lineal entre las
primeras dos variables, x2 = x1 :
x11
x21
x31
..
.
xT 1
x11
x21
x31
..
.
xT 1
x13 . . .
x23 . . .
x33 . . .
..
..
.
.
xT 3 . . .
x1K
x2K
x3K
..
.
xT K
CAPITULO
4. LA MULTICOLINEALIDAD
176
..
..
..
.
.
.
x1K x2K x3K
. . . xT 1
x11
x21
. . . xT 1
. . . xT 3
x31
..
.. ..
.
. .
. . . xT K
xT 1
x11
x21
x31
..
.
xT 1
x13 . . .
x23 . . .
x33 . . .
..
..
.
.
xT 3 . . .
x1K
x2K
x3K
..
.
xT K
x
1t
1t
P 2
P 2
Px1t x3t
2
x1t x3t
1t
1t
P
P 2
P
x3t
x1t x3t
x1t x3t
.
.
.
.
.
..
P .
P .
x1t xKt
x1t xKt
...
...
Px1t xKt
...
x1t xKt
..
...
.
..
...
.
P 2
...
xKt
Observe como tanto las dos primeras columnas son linealmente dependientes, as como los dos primeros renglones. Por que es importante esto? Lo es porque la formula de los estimadores involucra a una matriz inversa,
1
= (X X) X Y,
1
AdjX X
|X X|
177
Lo anterior lo podemos ilustrar en un caso sencillo. Sea una matriz A tal que:
A =
a b
c d
A =
a+b b
c+d d
= adcb
Apliquemos esta propiedad en la matriz que nos interesa a sabiendas que la formula
general del determinante es:
|X X| =
| {z }
KK
K
X
i=1
(1)j+i (X X)(i,j) (X X)(i,j) ,
donde la matriz (X X)(i,j) es igual a la matriz X X solo que habiendo borrado el ie simo renglon y la j-esima columna. Retomemos nuestra matriz X X y obtengamos
el determinante. La formula general que nos permite obtenerlo es:
Note que los sumandos en la formula van multiplicados por los elementos de una
columna de la matriz original (con los signos alternados). Note tambien que esta
formula permite seleccionar dicha columna al momento de realizar el calculo (es
necesario definir el valor de j). Conviene entonces aprovechar alguna columna que
tenga muchos ceros, para agilizar el calculo. La nuestra, de momento, no tiene,
necesariamente columnas donde haya ceros. No obstante, aprovechando el problema de colinealidad y usando la propiedad mencionada hace un momento, podemos
crear una columna donde sus elementos sean todos iguales a cero; tomemos la 1a
columna y multipliquemosla por ; despues, sumemosla a la 2a columna:
CAPITULO
4. LA MULTICOLINEALIDAD
178
P
P
P 2
P x21t Px21t
Px1t2
2 x21t 2 x21t
P x1t
P
P
x1t x3t
x1t x3t
x1t x3t
.
.
.
..
P .
P
P
x1t xKt
x1t xKt
x1t xKt
P x1t
x1t x3t
..
P .
x1t xKt
P
0
Px1t x3t
0
x1t x3t
P 2
0
x3t
..
..
.
.
...
...
Px1t xKt
...
x1t xKt
..
.
...
..
...
.
P 2
...
xKt
...
x
x
1t
Kt
P
...
x1t xKt
..
...
.
..
...
.
P 2
...
xKt
Sabiendo que el determinante de esta matriz es el mismo que el de la que nos interesa, podemos calcularlo. Con esta matriz es muy facil; definimos, para efectos de
la formula, i = 2, lo que nos quedara
LA F ORMULA
DE LOS ESTIMADORES REQUIERE DICHA INVERSA , ESTOS
TAMPOCO SE PUEDE CALCULAR .
Si existe un problema de multicolinealidad perfecta nos daremos cuenta muy rapido; simple y sencillamente el programa que usemos (sea cual sea) senalara que no
es posible realizar los calculos o marcara error o indicara que la matriz X X es singular. En realidad, e ste es un problema facil de identificar y por lo mismo, facil de
corregir (se puede eliminar la variable que este causando la multicolinealidad).
4.2.
179
Multicolinealidad imperfecta
Varianza de y
Varianza de y
Varianza de x2
Varianza de x1
Varianza comun
de x1 y x2 que no
Varianza de x2.
Una parte explica a y
explica la de y
Varianza comun
de x1 y x2 que
Varianza de x1.
explica la de y
0.2
0.4
0.6
0.8
Extrado del Libro: Econometra, escrito por Damodar Gujarati, 4a edicion, 2003.
CAPITULO
4. LA MULTICOLINEALIDAD
180
1 ,
Para entender lo anterior, ilustremoslo con una regresion concreta, en la que trabajaremos con variables centradas y por ende, sin constante:
yt = 1 x1t + 2 x2t + ut
En ese caso, la matriz de variables explicativas sera:
x11
x21
X = ..
.
x12
x22
..
.
xT 1 xT 2
Al invertirla, obtendremos:
(X X)
= D
P 2
P
P x1t x2t
P x2t
x21t
x1t x2t
P 2 P 2
P
donde el determinante es: D =
x1t x2t ( x1t x2t )2 .
Para esta ilustracion requeriremos incorporar o asociar el coeficiente de correlacion
entre variables explicativas. Lo anterior es debido a que e ste representa una forma
de medir que tan buena es la relacion lineal entre dichas variables explicativas y
4
Hay que recordar, no obstante, que las computadores trabajan una precision especfica. Si el
determinante es demasiado chico, aun si no es nulo, es posible que no se pueda calcular.
181
x1t x2t
x1 x2 = pP
P
x1t 2 x2t 2
P
( x1t x2t )2
2
x 1 x 2 = P 2 P 2
x1t
x2t
= P
x22t
P
P
x21t x22t ( x1t x2t )2
21 = 2
"P
x21t
#1
P
x22t ( x1t x2t )2
P 2
x2t
21
P 2
x
P 21t
x1t
#
" P
P 2
P 2 P
2 1
2 2
( x1t )
x x ( x1t x2t )
P2t 2 P 1t
= 2
x1t x22t
Para proceder con este calculo, tendramos que cambiar por un momento nuestro segundo supuesto; las variables x s son estocasticas, pero no estan correlacionadas con el termino de error,
Cov(xit , ut ) = 0 para i = 1, 2, . . . , K. Recuerde que ambos supuestos apuntan en la misma direccion (aunque el segundo es mas creble mientras que el primero solo es comodo para sacar algunos
resultados). Lo anterior nos permite calcular la formula del coeficiente de correlacion sin complicaciones de orden epistemologico.
CAPITULO
4. LA MULTICOLINEALIDAD
182
21
#1
" P
P 2
2 2
X
(
x
)
x
x21t
= 2 P 1t2 P 2 2t 2x1 x2
x1t x2t
X
X 1
2
2
2
x21t
x1t x1 x2
=
= P
x21t
2
1 2x1 x2
Un procedimiento analogo puede llevarse acabo con la varianza del otro estimador,
2 ; de hecho, este fenomeno ocurre tambien cuando hay mas variables explicativas.
Lo interesante de este u ltimo resultado es que facilita la compresion del efecto de la
colinealidad entre dos de las variables independientes:
1. Si la relacion lineal entre x1 y x2 es pobre, esto debera quedar senalado por
una correlacion baja: x1 x2 pequeno. Si dicha correlacion es pequena, su cuadrado lo es aun mas. El denominador se incrementa y la varianza 1 disminuye.
2. Si la relacion lineal entre x1 y x2 es muy precisa, esto debera quedar
senalado por una correlacion alta: x1 x2 grande. Si dicha correlacion es grande, el denominador se reduce y la varianza de 1 aumenta.
Es esto u ltimo lo importante a retener en cuestiones de multicolinealidad; e sta tiende a hacer mas grandes las varianzas de los parametros estimados. Se dice que la
4.3.
Deteccion de la multicolinealidad
A la luz de las dos secciones inmediatamente anteriores, ha quedado claro que multicolinealidad es en esencia un problema de grado; si llega a haber multicolinealidad
perfecta, sera facil darnos cuenta, debido a que no sera posible estimar los parametros; el analisis se concentrara por ende en la averiguacion de un posible grado de
colinealidad entre variables y si e ste es lo suficientemente importante como para
que la calidad de los estimadores y de la inferencia realmente se degrade.
DE LA MULTICOLINEALIDAD
4.3. DETECCION
183
CAPITULO
4. LA MULTICOLINEALIDAD
184
Ri2 /K 1
(1 Ri2 ) / (T K)
FK1 g.l., T K g.l.
Li =
Donde:
H0 : No existe relacion lineal entre xi y las demas variables explicativas.
Ha : S existe relacion lineal entre xi y las demas variables explicativas.
Mediante el Numero
de condicion
El problema de la multicolinealidad se refiere a la existencia de relaciones aproximadamente lineales entre las variables explicativas del modelo,6 lo que afecta
considerablemente la estimacion de la varianza de los estimadores al usar MCO. El
numero de Condicion permite no solo detectar una posible presencia de la multicolinealidad, sino tambien evaluar la gravedad del asunto. El Numero de Condicion se
define como sigue:
Definicion 12 El Numero de Condicion, denotado se construye con base en los
valores propioso eigenvaloresde la matriz de variables explicativas X X. La
formula precisa es:
=
6
Ma
ximo eigenvalor
Minimo eigenvalor
Seccion realizada por Laura Xochitl Velazquez Fernandez, Alma Aurelia Vega Aguilar, Fermn
Omar Reveles Gurrola y Marco Tulio Mosqueda.
DE LA MULTICOLINEALIDAD
4.3. DETECCION
185
Indice
de Condicion;
IC =
CAPITULO
4. LA MULTICOLINEALIDAD
186
de la prueba puesto que siempre podramos cambiar dichas unidades para asegurar un eigenvalor mnimo mas grande y por ende un numero de condicion menor.
Para evitar ese problema es conveniente eliminar las unidades de medidas mediante una estandarizacion. Esta u ltima consiste simplemente en dividir cada variable
explicativa entre la raz cuadrada de la sumatoria de las observaciones al cuadrado:
xit
xit = pP
x2it
4.4.
4.4. ANALISIS
DE COMPONENTES PRINCIPALES
187
ai = 1
i=1
De esta manera, ningun peso podra aumentar (diminuir) infinitamente, puesto que
no podra haber un contrapeso de signo contrario que permita satisfacer la restriccion.
Llamemos ademas xt el t-esimo renglon de la matriz X, xt = (x1t . . . xkt ). Suponga, finalmente, que la matriz de varianza-covarianza de las variables xi es x que
x ). Ahora
es estimable (el estimador de esta se denominara, de aqu en adelante,
s, nuestro objetivo es encontrar un k que maximice la varianza:
argm
axk V ar(k x)
CAPITULO
4. LA MULTICOLINEALIDAD
188
sujeto a : k k = 1
(4.1)
Podemos factorizar, sin olvidar la matriz identidad, para que la resta haga sentido:9
(x Ik )k = 0
8
(4.2)
4.4. ANALISIS
DE COMPONENTES PRINCIPALES
189
=
=
=
=
0
0
0
0
De la u ltima expresion es facil notar que las dos soluciones (los dos eigenvalores)
son 1 = 5 y 2 = 0.11 . Cada una de estas dos soluciones tiene asociado un
vector caracterstico/eigenvector. Dichos eigenvectores, recuerdelo, corresponden
a los pesos de nuestras combinaciones lineales. En este caso, hay dos variables,
y por lo mismo hay dos combinaciones lineales obtenidas a traves de este metodo.
Cada combinacion lineal debe tener dos pesos, los correspondientes a x1 y x2 . Para
obtenerlos, basta con (1) reemplazar, por 5 en la ecuacion (4.2), despejar para
a1 y a2 ; (2) hacer lo mismo, solo que reemplazando por 0 en la misma ecuacion
y despejar, en este caso, b1 y b2 .
10
Si la matriz tuviera inversa, podramos multiplicar la ecuacion de ambos lados por dicha matriz
y llegaramos a la solucion trivial de que k = 0. Puesto que esa no nos interesa, la descartamos. Los
valores de que hacen que el determinante sea cero, son los eigenvalores. Los k correspondientes
son los eigenvectores, ademas de nuestros pesos.
11
Note como la razon entre el eigenvalor mas grande y el mas chico es una singularidad; ello se
debe a que la matriz original no tiene rango completo. Recuerda alguna prueba de multicolinealidad
que aprovechara esta particularidad?
CAPITULO
4. LA MULTICOLINEALIDAD
190
x b ax = 0.
Separando por pares es posible darse cuenta que obtuvimos los los componentes
principales, z2 z1 = 0 as es que, resulta facil ver que todos los componnentes principales tambien son ortogonales entre s.
4.5.
191
192
CAPITULO
4. LA MULTICOLINEALIDAD
193
194
CAPITULO
4. LA MULTICOLINEALIDAD
Captulo 5
Variables Binarias y regresion por
pedazos
5.1.
Variables dicotomicas
195
196
POR PEDAZOS
CAPITULO
5. VARIABLES BINARIAS Y REGRESION
DICOT OMICAS
.2
Ejemplo 12 Aprovechando el primer ejemplo dado justo arriba, supongamos la
siguiente especificacion. Sea:
It la Inversion medida en pesos de 1980.
Rt la Tasa de Interes Real.
Asumiendo que tenemos datos desde 1935 hasta 1970, una especificacion estandar
para explicar el comportamiento de la inversion podra ser:
It = 1 + 1 Rt + ut
It = 2 + 2 Rt + ut
Lo establecido en esta especificacion es que la relacion entre tasa de interes e Inversion se vio alterada durante los anos de la Segunda Guerra Mundial. Al final
de cuentas, lo que queremos estimar es un par de especificaciones y no solo una
para todo el perodo. La solucion mas obvia sera correr dos regresiones; pero las
variables dicotomicas nos permitiran hacer uso de toda la muestra y estimar ambos
escenarios en una sola corrida.
2
Encontraran en los textos muchos y muy diversos nombres que hacen alusion a tales variables;
entre los que destacan, estan: variables dummy, variables binarias, funciones indicatrices,. . .
5.1. VARIABLES DICOTOMICAS
197
Promedio
7.0
8.0
8.5
9.5
10.0
..
.
Primer Salario
100
125
79
140
120
..
.
Dedicacion escolar
3.0
3.5
4.0
7.0
6.5
..
.
sexo
H
H
H
M
M
..
.
Como podramos, por ejemplo, estudiar la discriminacion por genero con estos
datos? Lo primero que hay que tomar en cuenta es que las razones por las que
uno recibe un salario alto o bajo son muy variadas. La que expone con fervor casi
religioso la economa es la productividad. Dicha productividad no siempre es tan
facilmente medible y pueden utilizarse algunas alternativas, o variables aproximadas (variables proxy); dos muy obvias en este caso seran el desempeno escolar
(promedio) y la dedicacion escolar. En principio, una persona con un buen promedio en la escuela suele ser una persona responsable y trabajadora y es posible
presumir que eso le allanara el camino en su trayectoria profesional. Ahora que hemos controlado por productividad historica3 y que podemos confiar en que eso
no sesgara nuestro estudio de discriminacion, podemos atacar esto u ltimo. Pero
para incluir la informacion del sexo en la especificacion, algo tendremos que hacer
con la u ltima columna de datos; no podemos poner Hs ni Ms, puesto que no
sabramos sumar letras a la hora de calcular nuestros estimadores. Una solucion
sencilla es crear nuevas variables: De momento disenaremos dos; una que se llame
Mujer y que valdra 1 si el ex-alumno es mujer y 0 si es hombre; la otra variable
se llamara Hombre y adoptara el valor de 1 si se trata de un hombre y 0 si es
mujer. Planteemos ahora la especificacion:
3
Levitt ha hecho estudios de discriminacion de genero para el caso norteamericano en los que
controla por poblacion urbana o rural, educacion, estado civil,etc. y encontro el sorprendente resultado de que la discriminacion no es tal. Que quiere decir eso?
198
POR PEDAZOS
CAPITULO
5. VARIABLES BINARIAS Y REGRESION
1
1
..
.
P romedio1
P romedio2
P romedio3
P romedio4
P romedio5
..
.
DedEcolar1
DedEcolar2
DedEcolar3
DedEcolar4
DedEcolar5
..
.
1
1
1
0
0
..
.
0
0
..
.
Pero existe un problema con la estructura de los datos en esa matriz. Note como la
columna que representa a la constante (que desde ahora llamaremos ) y nuestras
variables binarias mantienen una relacion lineal perfecta:
= Hombre + M ujer
Estas tres columnas son linealmente dependientes. Vimos en la seccion anterior los
problemas que dicha relacion engendra: no es posible invertir la matriz X X, por
lo que tampoco resulta factible calcular los estimadores. As especificado el problema, obtenemos una matriz que no es de rango completo. Como tambien vimos
en la seccion anteriores, el problema estriba en que una de las variables no aporta informacion adicional. Veamos que pasa cuando se activan y se desactivan las
variables binarias en la especificacion:
1. Si se trata de un individuo de genero masculino:
5.1. VARIABLES DICOTOMICAS
199
3. Si se trata de un orangutan:
200
POR PEDAZOS
CAPITULO
5. VARIABLES BINARIAS Y REGRESION
Ct = + yt + ut
Donde Ct es el Consumo privado y yt el Ingreso Neto Disponible. Que efectos
tendra una guerra en el consumo? De entrada, podemos pensar que el consumo
disminuira, independientemente del ingreso; ademas, podemos asumir que la propension caera tambien. En otras palabras, ni la ordenada en el origen ni la pendiente deberan ser las mismas segun nos situemos en un perodo de Paz o en uno
de Guerra. Alterar la ordenada es algo que ya sabemos hacer desde el ejemplo
anterior. Creamos la siguiente variable:
Ipaz,t =
1 si hay paz
0 e.o.c.
Incluir esta nueva variable en la especificacion nos permitira ver los efectos sobre
la constante de la guerra; para ver tales efectos, pero esta vez en la pendiente,
sera necesario incluir otra vez la variable binaria, pero ahora multiplicada por el
ingreso:
Ct = + 1 Ipaz,t + yt + 2 Ipaz,t yt + ut
Veamos que ocurre con esta especificacion en cada caso:
En tiempo de Guerra:
Ct = + yt + ut
5.1. VARIABLES DICOTOMICAS
201
En tiempo de Paz:
Ct = ( + 1 ) + ( + 2 ) yt + ut
Como veran, este sencillo truco permite alterar los parametros estimados acorde a
la presenciao ausenciade algun evento que nos intereses. La linea de regresion,
en este caso, se parecera a lo siguiente:
Consumo
Pero recuerden que la alteracion de los parametros en tiempo de guerra es tan solo
una hipotesis de trabajo. Como en todo estudio de caracter cientfico, es necesario que nuestras hipotesis sean falsables. Como rechazaramos o aceptaramos
la hipotesis de alteracion por guerra? Pues en este caso, realizando pruebas de
hipotesis, individuales o bien conjuntas, sobre los parametros que miden dicha discriminacion. Nos referimos, claro esta a las s. Bastara, para efectos del presente ejemplo, evaluar la hipotesis de nulidad de dichos parametros mediante el
estadstico t de student.
Dejamos al lector la responsabilidad de evaluar una observacion aberrante. Como
construira la variable dicotomica pertinente? tambien convendra pensar en un cambio permanente. Si la crisis mexicana de 1994 altero definitivamente la funcion de
inversion, cual sera la variable dicotomica adecuada?
202
POR PEDAZOS
CAPITULO
5. VARIABLES BINARIAS Y REGRESION
Ct = + 1 yt + ut
2. Especificacion despues del quiebre estructural (la variable indicatriz esta activada, t > t0 ):
Ct = + 1 yt + 2 (yt yt0 ) + ut
= ( 2 yt0 ) + (1 + 2 )yt + ut
3. Especificacion en el quiebre estructural (la variable indicatriz se activa, t =
t0 ):
5.1. VARIABLES DICOTOMICAS
203
yt
xt
Ejercicio 4 Con la finalidad de disipar cualquier duda, lo recomendable es construir la recta de regresion quebrada con un ejemplo numerico concreto. Suponga
que estima la regresion:
yt = + 1 xt + 2 It (t t0 )(xt xt0 ) + ut
donde el quiebre esta en la observacion x3 = 2 y obtiene lo siguiente:
1.
= 4,
2. 1 = 0.5,
3. 2 = 0.5,
Lo u nico que necesita hacer es graficar las dos rectas de regresion (no olvide omitir
el residual) y constatar que ambas justamente se cruzan cuando xt = 2. Valores de
la variable explicativa superiores a dos corresponden a valoresajustadosde la
variable dependiente en la nueva regresion.
204
POR PEDAZOS
CAPITULO
5. VARIABLES BINARIAS Y REGRESION
Captulo 6
Autocorrelacion y
Heteroscedasticidad
A lo largo de los primeros captulos hemos llevado a cabo una serie de demostraciones que nos han ilustrado sobre la potencia del metodo de estimacion de Mnimos
Cuadrados Ordinarios. Este u ltimo provee estimadores insesgados (la esperanza de
los estimadores MCO es el verdadero valor de los parametros), consistentes (dichos
estimadores se aproximan a los verdaderos valores cuando el tamano de muestra
crece) y eficientes (son de mnima varianza en la clase de estimadores lineales insesgados). Inclusive hemos visto la forma de llevar a cabo inferencia estadstica con
ellos. No obstante, todas y cada una de las demostraciones anteriores ha requerido,
en su ejecucion, el uso de supuestos. Efectivamente, nos referimos a los famosos
siete supuestos esbozados al principio. Las esperanzas que hemos calculado se resuelven muy facilmente puesto que asumimos que las variables x, las explicativas,
no son estocasticas; otras esperanzas se han simplificado al extremo gracias a las
propiedades que le atribuimos al termino de error (homoscedasticidad e independencia); en infinidad de ocasiones reemplazamos a la variable dependiente por la
especificacion para avanzar en la prueba, todo el edificio de pruebas de hipotesis
descansa sobre una normalidad que le atribuimos al termino de error... Una pregunta debera emerger de esta breve sinopsis:
Q U E PASA SI UNO DE ESTOS SUPUESTOS NO SE CUMPLE ?
Buena parte del programa de investigacion en econometra se ha volcado sobre la
cuestion. Una primera respuesta, a manera de intuicion, es que las tecnicas estudiadas hasta aqu dejan de funcionar. La intuicion es atinada pero yerra en detalles
205
206
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
E(u2t ) = 2
E(ut u ) = 0 t 6=
Dichos supuestos establecen que el termino de error que acompana a la especificacion debe ser independiente y de varianza constante. Ambos los hemos utilizado en
un sinfn de ocasiones para avanzar en demostraciones (uno de los casos mas ilustrativos es en el de la esperanza de los estimadores). Historicamente se consideraba
que el rompimiento de tales supuestos representaba un serio problema y que era indispensable corregir. Mucha tinta se verso al respecto durante decadas; no obstante,
en la actualidad la autocorrelacion as como la heteroscedasticidad son mas bien
Y HETEROSCEDASTICIDAD
6.1. AUTOCORRELACION
207
6.1.
Autocorrelacion y Heteroscedasticidad
Lo primero que hay que saber respecto al rompimiento de estos supuestos es donde
se materializan sus consecuencias. Lo anterior representa una interrogante a la que
es facil responder: Todos los efectos de la autocorrelacion y la heteroscedasticidad
quedan plasmados en la matriz de Varianza-Covarianza del termino de error:
def
E (U U ) =
Usualmente, al calcular E (U U ), asumiendo que se cumplen los supuestos, obtenamos 2 IT . Los elementos de la diagonal eran todos iguales (cumplimiento de
la homoscedasticidad) mientras que los elementos de los triangulos eran todos
iguales a cero (cumplimiento de la no-autocorrelacion o independencia). Es facil
1
Sus efectos sobre los estimadores, si bien no son tan inocuos, tampoco invalidan completamente
los resultados.
208
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
u1
u2
E (U U ) = E .. u1 u2 . . . uT
.
uT
u21
u1 u 2 . . . u 1 u T
u2 u 1
u22 . . . u2 uT
= E ..
..
..
.
.
.
.
.
.
uT u1 uT u2 . . . u2T
En presencia de heteroscedasticidad, E(u2t ) = t2 . Asumimos que no hay autocorrelacion, por lo que los triangulos quedan todos con elementos nulos.
E(U U )
def
12 0
0 2
2
..
..
.
.
0 0
...
...
...
0
0
..
.
. . . T2
:
Ahora veamos una matriz afectada por AUTOCORRELACI ON
E(U U )
2
a12
..
.
a1T
def
a21 . . . aT 1
2 . . . aT 2
..
..
...
.
.
a2T . . . 2
6.2. MINIMOS
CUADRADOS GENERALIZADOS
1
0
= 2 ..
.
0 ...
1 ...
.. . .
.
.
0 0 ...
= 2 IT
6.2.
209
0
0
..
.
1
P P = IT
1
= P 1 (P )
= (P P )1
1 = P P
Transformemos ahora la especificacion multiplicandola por la matriz P . Denotaremos con un tilde a las variables as transformadas:
P Y = P X + P U
+ U
Y = X
Es decir, como pasar de cualquiera de las versiones afectadas por autocorrelacion/heteroscedasticidad a la forma ideal 2 IT ?
210
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
2. Nueva especificacion:
E U U = E (P U U P )
= P P
= IT
Esta simple transformacion nos hace recuperar todo lo perdido por autocorrelacion o heteroscedasticidad al dejar una matriz de Varianza-Covarianza diagonal.
Veamos ahora cuales son las nuevas formulas de los estimadores:
=
1
Y
X
1
= (P X) (P X)
(P X) (P Y )
1
= (X P P X) X P P Y
1 1
= X 1 X
X Y
Tales estimadores seran insesgados; para ver esto, reemplazamos Y por la especificacion original:
1 1
= X 1 X
X (X + U )
1
= + (X X)1 X 1 U
|
{z
}
N o Estoc
astico
E =
=
V ar()
3
1 1
1 i
X 1 X
X U U 1 X X 1 X
1 1 1
1
X 1 X
X X X 1 X
1 1
1
X 1 X
X X X 1 X
1
X 1 X
= E
=
6.2. MINIMOS
CUADRADOS GENERALIZADOS
211
212
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
V ar(U U ) = 2
x211
0
..
.
x212
...
0
..
.
...
0
0 x21t
...
Ahora que ya visualizamos , como la transformaramos (es decir, como aplicaramos M CG?) la especificacion si deseamos recuperar la validez de los supuestos? Dicho de forma mas prosaica, cual es la matriz P ? Pues en este caso, es
muy facil responder; la matriz P ha de adoptar la siguiente forma:
P =
1
x11
0
..
.
1
x12
...
...
0
..
.
..
.
...
1
x1T
...
...
6.2. MINIMOS
CUADRADOS GENERALIZADOS
213
ut = ut1 + t
donde iidN (0, 2 ) y || < 1.4 Empezaremos entendiendo algunas propiedades
del proceso AR(1). Nos conformaremos con conocer su esperanza y su varianza;
la primera es muy facil de obtener; la segunda,. . . tambien.
1. Esperanza:
E (ut ) = E (ut ) + 0
(1 ) E (ut ) = 0
E (ut ) = 0
2. Varianza:
E u2t
= E (ut1 + t )2
= E 2 u2t1 + 2t + 2 ut1 t
| {z }
var. indep.
E(u2t1 )
214
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Lo anterior lo podemos aprovechar para acabar se simplificar la expresion
de la varianza:
1 2 E u2t = 2
E(u2t ) =
2
(1 2 )
E(u21 ) E(u1 u2 )
E(u2 u1 ) E(u2 )
1
=
..
..
.
.
E(uT u1 ) E(uT u2 )
. . . E(u1 uT )
. . . E(u2 uT )
..
...
.
2
. . . E(uT )
6.2. MINIMOS
CUADRADOS GENERALIZADOS
215
0 = E u2t
2
=
1 2
2. La primera autocovarianza, 1 : Se trata de la relacion que hay entre ut y
ut1 .
1 = E(ut ut1 )
= E [(ut1 + t ) ut1 ]
E u2t1 + E (t ut1 )
0
3. La segunda autocovarianza, 2 : Se trata de la relacion que hay entre ut y
ut2 .
2 =
=
=
=
E (ut ut2 )
E [(ut1 + t ) ut2 ]
1
2 0
k = k 0
donde k = 0, 1, 2, ...T .
216
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
. . . T
. . . T 1
..
...
.
..
0
.
0
1 2 . . . T 1
1 . . . T 2
..
1
.
= 0
..
...
.
1
0 1 2
0 1
0
=
12
2
12
12
2
12
|| =
=
5
6
1 2
(1 2 )2
4
(1 2 )
Dado que la matriz es simetrica, solo presentamos uno de sus triangulos y la diagonal.
Es decir, lo hace un programa de computadora.
6.2. MINIMOS
CUADRADOS GENERALIZADOS
217
#
" 2
2
(1 2 ) 1
2
2
1
=
2
4
4
12
12
1 1
=
2 1
2
2
=
2
2
2
=
0 a22 a21 a22
2
2
| {z } | {z }
{z
}
|
Ya nada mas falta saber que valen los elementos a11 , a21 y a22 . En cuanto los conozcamos, sabremos como esta compuesta la matriz P . Como obtenerlos? Pues
en este caso es muy facil. Podemos establecer los calculos matriciales elemento por
elemento del producto P P que permiten obtener los elementos de la matriz :
1. a211 + a221 = 2
2. a21 a22 = 2
3. a222 = 2
Esto, como podran ver, constituye un sistema de tres ecuaciones con tres incognitas.
Lo podemos resolver; manipulando adecuadamente, obtenemos:8
7
Es decir, uno de sus triangulos esta compuesto por ceros. Dicha caracterstica es en realidad la
argucia que permite obtener la descomposicion
8
Note que este desarrollo tambien nos brinda una matriz P si nos quedamos con las races negativas. Gracias a Luis Antonio Gomez Lara por este comentario.
218
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
1. a22 = 1
2. a21 = 1
p
3. a11 = 1 1 2
1
Como bien dijimos al principio, lo anterior es nada mas una ilustracion de la descomposicion de Choleski. Cuando la matriz es mas grande, (T > 2), tendremos que
resignarnos a que una computadora haga el calculo. Cuando el termino de error es
AR(1), pero T > 2, la matriz P es la siguiente:
p
(1 2 ) 0 . . . . . .
...
...
P = 1
0
1
..
...
1
.
0
. . . 0
0
..
.
..
.
0
1
Pues hemos obtenido por fin la matriz que nos permite transformar la especificacion
y recuperar el supuesto de independencia de los errores. Dejamos al cuidado del
lector la comprobacion de los calculos. Sugerimos, para este efecto, pensar en una
matriz de 3 3.
Y es aqu donde vale la pena hacer una anotacion trascendental. M CG padece de
una pequena complicacion:
E N LA P R ACTICA
N O C ONOCEMOS .
Sin conocimiento de la matriz , resulta imposible calcular la otra matriz, con la
que transformaremos toda la especificacion (P ). Es cierto que podramos estimarla,
por lo que al metodo se le agrega una sigla y se transforma en Feasible GLS (FGLS),
o bien M CG Factibles (MCGF). Pero entonces la magia de la transformacion ya
no opera con tanta fluidez y sobre todo, es necesario preocuparse por estimar . En
caso de equivocarnos, o de proveer un estimador inapropiado, es muy probable que
el remedio resulte peor que la enfermedad.
6.3.
E (U U ) =
Es importante tener claro que para obtener la esperanza de los estimadores no fue
necesario tener en cuenta ni la independencia del termino de error ni su homoscedasticidad; por lo mismo de concluye que el rompimiento de dichos supuestos no
afecta a la propiedad de Estimadores insesgados de MCO:
EN
L OS E STIMADORES DE MCO P ERMANECEN I NSESGADOS A UN
220
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
= E (K1 u1 + K2 u2 + . . . KT uT )2
= E K12 u21 + K22 u22 + . . .
KT2 u2T + 2K1 K2 u1 u2 + 2K1 K3 u1 u3 + . . .
+2Ki Kj ui uj + . . . + 2KT 1 KT uT 1 uT )
Acabemos de desarrollar esta expresion, solo que bajo diversos escenarios. Empezaremos asumiendo que se cumplen los supuestos, despues relajaremos uno (heteroscedasticidad), luego relajaremos otro (independencia) y remataremos relajando
ambos.
1. No hay ni Heteroscedasticidad, ni autocorrelacion:
X
V ar = 2
Kt 2
= P
2
(xt x)2
= E K 2 u 2 + . . . + K 2 u2
V ar()
1 1
T T
= K12 12 + . . . + KT2 T2
X
=
Kt2 t2
P 2
t
= P
(xt x)2
(x1 x)(x2 x)
2 12 +
2 + 2 P
(xt x)
(xt x)2
(x1 x)(x3 x)
2 P
2 13 + . . .
(xt x)2
= P
donde ij = E(ui uj ).
= P
V ar()
t2
(x1 x)(x2 x)
2 12 +
2 + 2 P
(xt x)
(xt x)2
(x1 x)(x3 x)
2 P
2 13 + . . .
(xt x)2
P 2
2
t
= P
2 [(x1 x)(x2 x)12 +
2 + P
(xt x)
(xt x)2
(x1 x)(x3 x)13 + . . .]
222
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
6.4.
Pruebas de Deteccion
Hasta ahora, hemos definido la autocorrelacion y la heteroscedasticidad; descubrimos tambien en el Metodo de Mnimos Cuadrados Generalizados una tecnica
fantastica para corregir de forma idonea esos problemas. Como bien se ha dicho,
M CG requiere el conocimiento de ,la matriz de Varianza-Covarianza del termino
de error. Dicha matriz, de hecho rara vez es conocida. Nosotros usualmente tomamos datos, corremos nuestra regresion inocentemente y ya luego nos empezamos a
preocupar por la satisfaccion de los supuestos. Existen formas de estimar y corregir por M CG, pero primero nos concentraremos en conocer algunas de las tecnicas
de deteccion de rompimiento de supuestos. N OTE QUE CADA P RUEBA ASUME
S UPUESTOS M UY E STRICTOS R ESPECTO A LA E STRUCTURA DEL E RROR.
9
6.4. PRUEBAS DE DETECCION
223
224
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Calcular para cada regresion la SCE:
Varianza Chica: SCE1
Con agradecimientos para Sandra Thala Gomez Espana, quien noto un error en los grados de libertad (en una version anterior). Mas informacion sobre esta prueba puede obtenerse en
http://en.wikipedia.org/wiki/Goldfeld%E2%80%93Quandt_test, o bien en el
artculo original (ver bibliografa).
12
H. Glejser (1969) A New Test for Heteroskedasticity. Journal of the American Statistical Association, vol. 64, pp. 316-323.
6.4. PRUEBAS DE DETECCION
225
Como ya se senalo, las variables Zi,t pueden ser algunas de las variables xi , un
subconjunto de ellas o inclusive otras variables distintas. Las hipotesis relevantes
son:
1. H0 : E (u2t ) = 2 para todo t = 1, 2, . . . , T
2
2. Ha : E (u2t ) = + 1 Z1t + 2 Z1t
+ . . . + t
W = T R2 2Pg.l
Donde P es el numero de parametros incluidos en la regresion
auxiliar sin tomar en cuenta la constante.
13
226
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Existen muchas mas pruebas de heteroscedasticidad. Su funcionamiento puede considerarse analogo a las aqu presentadas en el sentido siguiente. Llevar a cabo una
prueba de hipotesis requiere del usuario, conocimiento de la hipotesis nula as como
de la distribucion del estadstico de prueba en caso de ser cierta. Si se entiendio bien
como funcionan las pruebas expuestas en las primeras paginas de este documento,
interpretar otras que no aparecen aqu debera resultar relativamente facil.
es importante recordar siempre que la DW solo sirve para autocorrelacion de primer orden.
La regresion espuria sera estudiada en la seccion de Series de Tiempo.
6.4. PRUEBAS DE DETECCION
227
PT
(
ut ut1 )2
PT
2t
t=1 u
t=2
Dichos valores son funcion del numero de observaciones, T as como del numero
de parametros excluyendo a la constante.
(
ut ut1 )2
P 2
DW =
ut
P
P 2 P
ut + u2t1 2 ut ut1
=
P 2
Ut
Las primeras dos sumas en el numerador (en gris) son virtualmente iguales. Si nos
autorizamos una pequena imprecision, podramos tomarlas como iguales, en cuyo
228
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Se acepta H0
Indecisin
Indecisin
Se rechaza
H0
Se rechaza
H0
dL
dU
4dU
4dL
>4
La parte de la expresion que aparece en tinta gris no es otra cosa sino la correlacion entre ut y ut1 . Esto es facil de entender si recordamos que, por construccion,
el termino de error estimado tiene media cero. Llamando 1 a dicha correlacion,
podemos expresar la u ltima ecuacion de la siguiente manera:
DW 2 (1 1 )
Aqu ya nada mas resta recordar que una correlacion cobra valores cernidos entre
1 y 1. Note que si la correlacion entre Ut yUt es cercana a la unidad en valor ab-
6.4. PRUEBAS DE DETECCION
229
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
230
ut
q utq + t
Calcular el siguiente estadstico de prueba:a
d
BG = T R2 2Lg.l
Donde L es el numero de parametros incluidos en la regresion
auxiliar; la R2 es la asociada a la regresion auxiliar.
a
La advertencia hecha en la seccion correspondiente a las pruebas de heteroscedasticidad aplica tambien aqu as que, corriendo un grave riesgo de ser criticados por
repetitivos, reiteramos lo siguiente: existen muchas mas pruebas de autocorrelacion.
Su funcionamiento suele ser analogo al de las pruebas aqu presentadas. Llevar a cabo una prueba de hipotesis requiere del usuario, conocimiento de la hipotesis nula
as como de la distribucion del estadstico de prueba en caso de ser cierta. Si se
entendio bien como funcionan las pruebas expuestas en las primeras paginas de este documento, interpretar otras que no aparecen aqu debera resultar relativamente
facil.
El correlograma y la Q de Ljung-Box
El Correlograma En la seccion relativa a la aplicacion de M CG, e sta se ejemplifico asumiendo que los residuales se rigen por un proceso que denominamos
AR(1): Autoregresivo de Primer Orden. Para poder llenar la matriz calculamos
DE AUTOCOVARIANZA de dicho proceso. Ahora bien, si procedela F UNCI ON
6.4. PRUEBAS DE DETECCION
231
rxy =
ri =
0
=1
0
0
=
0
2 0
= 2
0
Siguiendo un razonamiento recursivo, podemos obtener la Funcion de autocorrelacion, que denominaremos F AC:
ri =
1
i
si i = 0
e.o.c.
232
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Donde e.o.c. quiere decir En otro caso. La forma mas elocuente de comprender la
F AC es graficandola; la figura en s se llama C ORRELOGRAMA:
Es claro que si el proceso no solo no obedece a un AR(1), sino que ademas es iid, no
solo el supuesto de M CO se vera cumplido, sino que ademas esto se reflejara en
una F AC sin picos; es decir que todas las autocorrelaciones deberan ser iguales
a cero:
La simple observacion de la F AC nos permitiria percibir la presencia de autocorrelacion. En este caso, el ejemplo fue un AR(1) pero lo cierto es que si el ruido no
es iid, su estructura debera reflejarse en el correlograma: deberan aparecer picos
reflejando la relacion de ruido con su propio pasado. No es incorrecto pensar que el
correlograma es una fotografa de la memoria de los datos.
Es aqu donde conviene hacer una aclaracion. Las F AC con las que hemos trabajado hasta ahora son teoricas, estan calculadas asumiendo que el ruido tiene una
estructura particular, en este caso un AR(1). El hecho es que la estructura de los
residuales tambien nos sera desconocida al momento de estimar nuestra regresion.
No tiene sentido trabajar con F ACs teoricas, puesto que no sabramos cual usar.17
17
Quiza el lector adivino, al estudiar el AR(1), que e ste puede generalizarse a AR(p) con p =
1, 2, . . .; cada uno de ellos tendra una F AC distinta. De hecho, el chiste es calcular la version
muestral de la F AC y tratar de aparejarla con una F AC teorica, con el objeto de aproximar la
estructura del residual. Todo esto sera visto con detalle en Analisis de Series de Tiempo. No conviene
6.4. PRUEBAS DE DETECCION
233
Por lo mismo, necesitamos estimar dicha F AC; la formula para hacer esto es:
PT
ut uti
ri = t=i+1
PT
2t
t=1 u
Aqu podemos confiar en la convergenciaen probabilidaddel estimador de la
autocorrelacion estimada a su verdadero valor, sea este cero o no. De hecho, se ha
demostrado que si las verdaderas autocorrelaciones son cero, el estimador de e stas
se distribuye como una normal:
1
ri N 0,
T
Ello permite construir intervalos de confianza, al interior de los cuales, dicha autocorrelacion es cero. La formula de tales intervalos se puede aproximar de la siguiente
manera:
2
Iconf. +/
T
En las graficas siguientes se puede observar el calculo de la F AC muestral tanto
de un ruido blanco (que satisface los supuestos la regresion) como de un proceso
AR(1) y de otro proceso AR(p) cuya memoria, p dejaremos sin aclarar:
aqu adelantar demasiado puesto que se correr el riesgo de confundir conceptos.
234
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
(a)
1.0
0.5
0.0
0.5
1.0
10
11
12
13
14
10
11
12
13
14
10
11
12
13
14
(b)
1.0
0.5
1.0
0.5
7
(c)
1.0
0.5
0.0
0.5
1.0
Figura 6.4: Correlogramas muestrales de: (a) un ruido blanco iid, (b) un proceso
AR(1), (c) un proceso AR(p)
k
X
j=1
rj2
T j
Bajo la hipotesis nula, H0 , hay evidencia de que el ruido en cuestion es blanco hasta
18
235
el kesimo rezago y QKB,k 2k g.l. .19 El problema principal de la prueba es el mismo que el del correlograma (que no habiamos mencionado aun): Como definimos
k? Si nuestra k es demasiado pequena, puede que pasemos por alto alguna autocorrelacion importante de orden grande, pero si k es grande, quiza disminuyamos la
importancia de alguna autocorrelacion alta debido a que esta es promediada con las
otras correlaciones, algunas de ellas muy bajas. En pocas palabras, escoger una k
grande hace que la prueba pierda potencia y sea mas facil aceptar erroneamente la
hipotesis nula. Recuerda el nombre de este tipo de error?
6.5.
236
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
12 0 0
0 22 0
...
32
=0
.
...
..
0 ... ...
E(U ) = 0
...
...
...
...
0
0
0
..
.
E(U U ) = (T T )
0
T2
donde, como hasta ahora, asumiremos que las variables explicativas no son estocasticas. Aqu es importante recordar que, en presencia de heteroscedasticidad:
E =
V ar = (X X)1 X X (X X)1
237
podramos concentrarnos en estimar X X, cuyas dimensiones son muy inferiores: K K. Como siempre, en esta vida todo se compra, todo se paga o dicho de
otra manera there is no free lunch. Para poder hacer este calculo, necesitaremos
hacer un supuesto, que es el que a continuacion expresamos:
Supuesto 1 Sea X la matriz de dimensiones T K de variables explicativas no
estocasticas; entonces se asume que:
1
XX=Q
T T
donde Q es una matriz no singular.
lm
X X (X X)
Por razones que ahora parecen misteriosas, digamos que deseamos normalizar los
elementos en tinta gris, mediante una division por T ; hagamoslo pero de tal forma
que dejemos inalterada la expresion:
T 1 T 1 X X
1
T T 1 X XT 1 T 1 X X
1
Note como, por cada T normalizadora que insertamos, anadimos tambien un factor
T que la elimina. Ahora reagrupemos estos u ltimos:
T 1 X X
20
1
1 1
T 1 X X T 1 X X
T T T 1
1 1
1 1
T 1 X X
T X X T 1 X X
T
El objetivo de hacer esto es poner en evidencia una expresion en la que aparezca la formula del
supuesto. Con ello, al sacar lmites, podremos obtener Q.
238
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Nos sobra un T 1 ! Eso quiere decir que al normalizar cada elemento de la expresion, acabamos dividiendola sin querer por T , si queremos que el signo de igualdad
siga siendo valido, hay que multiplicar ambos lados por T . Para efectos de notacion,
la parte izquierda de la expresion incluye al operador Varianza; como sabemos, todo lo que entra en el, opera al cuadrado; por ello, siqueremos multiplicar por T , al
interior del operador solo es necesario hacerlo por T :
V ar
T =
T 1 X X
1
T 1 X X T 1 X X
1
T = Q1 lm T 1 X X Q1
T
Como veran, ya casi tenemos resuelto el lmite. Tan solo con la matriz de explicativas, que s tenemos, podemos contar con poder calcular dos tercios de la expresion.
El problema, claro esta, es el tercio restante: lmT [T 1 X X]. Si conocieramos
dicho lmite convergera a algo, a una matriz especfica cuyos valores en s no
nos interesan. Podramos denominarla :
lm T 1 X X =
Pero como no conocemos , habremos de darle la vuelta al problema. Concentremonos pues en esta expresion, la cual, si la desarrollaramos se vera as:
x11
x12
X X = ..
.
|
x1K
x11
x21
..
.
xT 1
|
..
. . . xT 1
12 0
.
0
. . . xT 2
2 ...
0
0
2
..
...
.
.
.
.
. . . . . . . ..
x2K . . . xT K
2
{z
} | 0 0 {z 0 T }
(KT )
T T
x12 . . . x1K
x22 . . . x2K
..
..
...
.
.
xT 2 . . . xT K
{z
}
x21
x22
..
.
(T K)
239
ij =
T
X
t2 xit xjt
(6.1)
t=1
Note que esta matriz es simetrica (Por que? Demuestrelo!),22 lo que reduce el
numero de elementos a calcular:
11
21
X X = ..
.
22
..
.
...
K1 K2 . . . KK
k=
K2 + K
2
As, tenemos que calcular K 2+K expresiones como (6.1). El problema es que no
conocemos las varianzas, t2 para t = 1, 2, . . . , T . White propuso reemplazarlas
de la siguiente manera: cambiar t2 por u2t . La idea no es tan intuitiva como podra
parecer, puesto que se trata, de reemplazar un parametro con una u nica observacion.
En realidad, el truco estriba en que no es eso lo que se calcula, sino una suma:
1X 2
1X 2
a
ut xit xjt =
t xit xjt
T
T
Note que, al volver a la notacion escalar, invertimos el orden de los subndices. Esta pequena
incongruencia entre la notacion matricial y la escalar, se hace en aras de una lectura mas comoda.
22
Sabemos que es simetrica, es decir, = . Por lo mismo, (X X) = X X.
23
Nuevamente. . . Por que? Demuestrelo!
24
Recuerde que todos los supuestos menos el de homoscedasticidad se cumplen.
240
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Y = X + U
U = Y X
U U = Y X Y X
X + U X X + U X ,
Ahora s, ya sabemos que u2t es un estimador insesgado de t2 . Para continuar la demostracion, creemos una nueva variable, , que permita relacionar a nuestro residual
estimadoconvenientemente elevado al cuadradocon la varianza en el periodo t:
t = u2t t2
(6.2)
25
1X 2
1X
ut xit xjt =
(t + t2 )xit xjt
T
T
1X
1X 2
=
t xit xjt +
t xit xjt
T
T
Hay que tomar en cuenta que E = .
241
1X
1X 2
(t xij xjt ) + lm
(t xij xjt )
T T
T T
P
Sabiendo que E(t xij xjt ) = 0 y que T1 (t xij xjt ) es un estimador consistente
(Gracias a la Ley de los Grandes Numeros; revise la pagina 61), sabemos que el
primer lmite es cero:
lm
lm
T 1
(t xij xjt ) = 0
mientras que el segundo lmite corresponde a la expresion que necesitabamos; inclusive incluye el termino de normalizacion que nos sala. Ya solo es cuestion de
Para que esto quede mas claro, retomemos dicha expresion:
reemplazar por .
lm V ar
h
i
Q1
T = Q1 lm T 1 X X
T
h
i
T X X T X X
= lm V ar
lm T X X
T
T
donde,
u21
0
=
.
..
0
0
..
.
u22
... ...
0
. . . 0 u2T
0
...
...
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
242
1 1
T X X [T 1 X X] , es un estimador consistente
Entonces,[T (X X) ]
de la expresion:
lm V ar( T )
donde,
u21
0
=
.
..
0
0
..
.
u22
... ...
0
. . . 0 u2T
0
...
...
En la practica, no necesitamos V ar
suma facilidad:26
T sino V ar . Esto lo resolvemos con
1 1
1
1
1
T =
V ar
T 1 X X
T X X T 1 X X
T
T
1
1
1
V ar =
T (X X) T 1 X X T (X X)
T
1
1
V ar = (X X) X X (X X)
As es que la formula que realmente utilizaremos en la practica es:
1
1
X X
(X X)
V ar = (X X)
243
S OLO
LO E STAMOS T OMANDO EN C UENTA . AUNQUE YA N O T ENDREMOS
I NSESGADOS Y C ONSISTEN E STIMADORES E FICIENTES , E STOS S I S ER AN
A S ER V ALIDA
244
Y HETEROSCEDASTICIDAD
CAPITULO
6. AUTOCORRELACION
Captulo 7
Ejercicios (i)
P REGUNTA # 1
Considere el siguiente modelo de regresion lineal multivariado:
yt = 1+ 2 x2t + . . . + k xkt + ut,
para t = 1, 2, . . . , T .
1. Enumere los supuestos del metodo de Mnimos Cuadrados Ordinarios.
2. Muestre que es un estimador insesgado de .
3. Explique el problema de Multicolinealidad as como sus consecuencias cuando e sta se presenta.
4. Sabiendo que todos los supuestos de MCO se cumplen en este caso, demuestre que las medias muestrales de todas las variables pasan por la recta de la
regresion.
2?
5. Que toma en cuenta la R
P REGUNTA # 2
Como se descompone la R2 por variable explicativa?
P REGUNTA # 3
245
CAPITULO
7. EJERCICIOS (I)
246
Se dispone de varias series: el Indice de actividad Industrial (y) y la tasa de desempleo (x). Se sabe ademas que:
y = 64.5 V ar(Y ) = 0.7
x = 7.4 V ar(X) = 1.6
T = 50
Covar(X, Y ) = 0.04
1. Estime el modelo yt = + xt + ut
2. Estudie la significancia estadstica y el significado economico de los parametros estimados. En especfico, comente las implicaciones economicas de lo
anterior.
P REGUNTA # 4
Sea el modelo yt = + x + ut , donde se impone la restriccion = 5 al momento
de estimar la regresion. Cual es la formula que nos dara facilmente el valor del
estimador de ? En caso de no haber restriccion, cual sera esa formula?
P REGUNTA # 5
Responda a las siguientes preguntas:
1. Que es la R2 ? Especifique la formula y explique para que sirve.
2. Suponga que se estima la regresion yt = +xt +ut . Los resultados de dicha
estimacion pueden apreciarse en la siguiente figura:
Usando la observacion A marcada dicha figura, complete el grafico explicitando la descomposicion de la variabilidad de y vista en el analisis de varian2?
za. Que toma en cuenta la R
P REGUNTA # 6
Considere el siguiente modelo de regresion:yt = + (xt x) + ut donde x = 3
y y = 7. Cuanto vale el estimador de la ordenada en el origen,
?
P REGUNTA # 7
247
Observacion A
yt
xt
ESS
RSS
R2 = 1
T k
k1
RSS
T SS
yt =
Ademas, se sabe que (i) RSS = 427.54, y (ii) T = 150. Las cifras entre parentesis
corresponden a la desviacion estandar el parametro que esta arriba.
1. Calcule los estadsticos t de cada parametro. Que concluye usted con base
en ellos?
CAPITULO
7. EJERCICIOS (I)
248
2. El perspicaz econometrista, al comparar su modelo con lo establecido en cierta teora economica se da cuenta de lo siguiente:
No debera haber constante.
El parametro 1 debera ser igual a uno.
El parametro 2 debera ser igual a 0.01 + 23
Como probara usted lo anterior?
3. (Continuacion del inciso anterior) El mismo econometrista perspicaz corrio la
regresion tomando en cuenta las hipotesis senaladas arriba. Al hacerlo, retuvo
la RSS que ahora es de 445.12.
a) Que nombre se le da a la regresion que corrio?
b) Sabiendo que el valor crtico pertinente es V.C. 2.68, diga si se acepta
o rechaza la hipotesis nula (especifique tambien cual es dicha hipotesis
nula).
c) Si desea hacer una prueba de hipotesis conjunta basada en lo dicho en
el segundo inciso, que prueba usara? Escriba las restricciones.
P REGUNTA # 9
Considere el modelo de regresion lineal multivariado:
yt = 1+ 2 x2t + . . . + k xkt + ut
donde t = 1, 2, . . . , T y ut
simN (0, 2 ).
1. Exprese este modelo en forma matricial, indicando las dimensiones de cada
matriz o vector.
2. Derive el estimador de MCO (con la notacion matricial) del vector de parametros .
3. Muestre que es un estimador insesgado de .
P REGUNTA # 10
249
Una agencia de viajes sabe por experiencia que las ventas de paquetes VTP Acapulco es considerablemente alta durante el verano. En un intento por modelar las
ventas de estos paquetes, el director de ventas de dicha agencia propone estimar el
siguiente modelo. . .
vt = 1+ 2 Pt + 3 P St + 4 Yt + 5 GPt + ut,
. . . con datos trimestrales de cada variable de 1993 a 2005 en donde: (i) vt representa
las las ventas del VTP Acapulco; (ii) Pt es el precio del VTP; (iii) P St es el precio de
un VTP a Puerto Vallarta (bien sustituto); (iv) Yt es el ingreso personal disponible,
y; (v) GPt es el gasto en publicidad de los VTP.
1. El director de ventas cree que solo el gasto en publicidad y el precio de los
VTP a Acapulco explican las ventas. Como confirmara esta hipotesis?
2. Como probara que el efecto precio total (es decir de ambos VTP) es igual a
uno (versus la hipotesis alternativa de que es distinto a uno)?
3. Explique como estimara el efecto estacional del perodo vacacional sobre el
nivel de ventas.
4. Si quisiera estimar el efecto sobre las ventas de cada estaciontrimestre
Como lo hara? Que es lo que no hay que hacer para evitar el problema de
multicolinealidad?
P REGUNTA # 11
Suponga el siguiente modelo no lineal en la variable x :
yt = + x2t + ut
Es factible utilizar el metodo de MCO? Justifique su respuesta.
P REGUNTA # 12
Que garantiza que, al utilizar adecuadamente el metodo de MCO, obtengamos
buenos estimadores?
P REGUNTA # 13
La heteroscedasticidad y la autocorrelacion hacen que los estimadores de MCO sean
sesgados e ineficientes Cierto, falso o incierto? justifique su respuesta.
250
CAPITULO
7. EJERCICIOS (I)
P REGUNTA # 14
251
Antes de probar ambas especificaciones, el investigador tiene una epifana y declara:
La relacion entre las dos pendientes estimadas es = 1 . Demuestre que solo en
un caso especfico semejante especificacion es cierta.1
P REGUNTA # 19
Ayuda: =
cov(xt, yt )
var(xt ) ,
cov(xt, yt )
var(yt ) ,
rxy =
Cov(xt, yt )
var(xt )var(yt )
CAPITULO
7. EJERCICIOS (I)
252
P REGUNTA # 22
253
P REGUNTA # 25
Un microeconomista angustiado y poco respetuoso de la teora economica desea
probar que el numero de accidentes automovilsticos del individuo i, (Ai ), depende
del numero de horas que trabaja al da (Hi ), de la edad (Ei ) y del tipo de vehculo
que conduce. Al ver sus datos se da cuenta que e stos estan clasificados u nicamente
en tres categoras; automovil, pesera y motocicleta. Con base en esos datos corre la
siguiente regresion:
Ai = + 1 Hi + 2 Ei + 3 P Ei + 4 AUi + 5 M Oi + ui
Donde M O, AU y P E son las variables dummy o indicatrices siguientes:
P Ei =
M Oi =
AUi =
1 si conduce pecera
0 en otro caso
1 si conduce motocicleta
0 en otro caso
1 si conduce automovil
0 en otro caso
CAPITULO
7. EJERCICIOS (I)
254
Ano
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
Cantidad de dinero
4.0
5.0
6.4
7.2
6.6
8.0
8.4
9.2
9.6
10.0
Ingreso Nacional
5.0
5.5
6.0
7.0
7.2
7.7
8.4
9.0
9.7
10.0
255
P REGUNTA # 28
En que consiste la Falacia de la Regresion?
P REGUNTA # 29
Una funcion de produccion Cobb-Douglas relaciona la produccion,Q , a los factores
de produccion, capital, K, trabajo,L , materia prima, M as como un termino de
error, u. Concretamente, la forma funcional es:
Q = K 1 L2 M 3 [exp u]
Donde , 1 , 2 y 3 son parametros de produccion. Suponga que tiene usted los
datos de la produccion as como de los factores de produccion en una muestra de
empresas que, se sospecha, comparten la funcion estipulada. Como utilizara usted
el analisis de regresion para estimar tales parametros?
P REGUNTA # 30
Si la matrix (X, X), donde X es la matriz de variables explicativas de dimensiones
T K, no tiene rango completo, que ocurre con los estimadores de MCO?
P REGUNTA # 31
1. Es correcto estimar la siguiente especificacion?
yt = 1+ 2 x2t + ... + 17 x17t + ut,
donde t = 1, 2, . . . , 17
2. Al dibujar la nube de puntos correspondiente, se obtuvo lo siguiente:
CAPITULO
7. EJERCICIOS (I)
256
yt
Tiempo
PT
x2 = 2000
PTt=1 2t
t=1 yt = 15000
PT
yt xt = 0.25
T = 15
t=1
257
y
)(x
)
=
106.4
y yt )2 = 86.9
t
t
P
P(
2
yt = 21.9
P(xt x) = 215.4
xt = 186.2
CAPITULO
7. EJERCICIOS (I)
258
1. Calcule los estimadores de y .
2. Calcule el estimador de 2 .
PN
t=1
1
2
E(G)
E(T W R)
PN
T
E(F W G)
E(F )
t=1
P REGUNTA # 39
259
2. Ahora s, retome las especificaciones y responda. Si se estima la primera es Y el de la R2 ?
pecificacion, cual es el valor de ?
3. Derive la formula del estimador de
4. Derive la formula del estimador de
(
y yt )(xt x)
P
+
(xt x)2
P
(
yy )
P 2t
xt
CAPITULO
7. EJERCICIOS (I)
260
(
y yt )(xt x) +
P
(xt x)2
400
T
y =
P REGUNTA # 46
Imagine que la verdadera relacion (es decir, el verdadero Proceso Generador de
Datos) entre x y y es la siguiente:
yt = + xt
= 0. El econometrista aplicado no esta seguro como
donde = 4, = 7 y X
estimar lo anterior (el no conoce dicho Proceso Generador de Datos) y duda entre
las dos siguientes especificaciones:
261
t + ut
yt =
+ x
xt = + yt + wt
1. Olvdese de las especificaciones a estimar. Como es la nube de puntos de
esta relacion?
2. Calcule el valor de los estimadores de
y
3. Calcule el valor de los estimadores de y
y ?
zT =
1. Calcule E(ZT ),
2. Calcule lmT E(ZT ).
P REGUNTA # 48
Suponga el modelo de regresion siguiente:
Y = X + U.
Donde la variable dependiente es la demanda por dinero (agregado monetario real
M 1) y las variables explicativas son, Ingreso real, It , y Tasa de interes real, rt ,
todas en logaritmos. El tamano de la muestra es T . Suponga ademas que las K
variables explicativas (menos la correspondiente a la constante) son aleatorias pero
no son independientes al termino de error, E(X U ) 6= 0. En otras palabras, no se
CAPITULO
7. EJERCICIOS (I)
262
cumple el supuesto de ortogonalidad, pero s todos los demas. Usted todava no sabe
porque eso es grave, pero s sabe que lo es. Por lo mismo, decide no estimar este
modelo. Afortunadamente llega un colega y le dice que dispone de dos variables
sumamente interesantes (tambien en logaritmos): (i) Ingreso disponible ecologico
y reciclable, Itbis , y, (ii) Costo de intermediacion financiero sin enganos, rtbis .
Ambas variables tambien tienen T observaciones as como unas propiedades en
extremo convenientes:
1. Itbis esta muy relacionado con It ,
2. rtbis esta muy relacionado con rt ,
3. Ninguna de las dos variables tiene relacion alguna con el termino de error de
su especificacion, U .
Su colega le sugiere que estime una especificacion distinta; construye primero una
nueva matriz de variables, Z = (1 Itbis rtbis ) (donde la primera columna de puros unos; note que Z tiene las mismas dimensiones que la matriz de explicativas
original) y le propone estimar Y = Z + U . Le demuestra ademas que:
1. plim T1 (Z U ) = 0,
2. plim T1 (Z X) = .
Donde existe y no es singular. Usted rechaza la sugerencia (y hace bien) argumentando que esa no es la especificacion que senala su libro de Demandas de Dinero; ademas, senala usted, el profesor penalizara mucho el cambiar las variables
puesto que la interpretacion economica ya no sera valida. De todas formas a usted
se le antojara poder usar esa informacion en su proceso de estimacion, sin quitar
las variables originales y por lo mismo, sin modificar la especificacion. Como hacerle? Pues tiene usted una epifana y decide transformar las variables originales,
premultiplicando la nueva matriz, Z de ambos lados de la especificacion original2 .
Dicha transformacion modifica, no solo las variables, sino tambien el tamano de los
vectores y las matrices. Ya transformadas las variables, estima la nueva regresion
con la formula de MCO de siempre y obtiene un estimador de .
1. Haga explcita la transformacion de Y , X y U al premultiplicar por Z; tenga
cuidado con las dimensiones.
263
+ V . Para empe3. Podra estimar por MCO la regresion que resulta: Y = X
1
zar, que es V ? La formula de MCO es (X X) X Y ; Como queda dicha
formula con estas variables transformadas (no se conforme con ponerle tildes
a las variables, por favor)? Recuerde que (AB)1 = B 1 A1 siempre y cuando A y B sean cuadradas e invertibles. A ese nueva formula del estimador,
llamele .
P
264
CAPITULO
7. EJERCICIOS (I)
Parte II
Econometra para segundones
265
267
LTIMO QUE U NO S ABE ES P OR D ONDE E MPEZAR . B. PASCAL
L O U
D IOS NO S OLO
J UEGA A LOS DADOS : A V ECES LOS T IRA D ONDE NO SE
P UEDEN V ER . S.W. H AWKING
268
Captulo 8
Sntesis de conocimientos previos
El metodo de Mnimos Cuadrados Ordinarios permanece como el caballo de batalla en econometra y se emplea de manera rutinaria en el analisis de datos. Las
bondades as como el potencial de este metodo han debido quedar patente en la
primera parte del curso , donde, asumiendo el cumplimiento de los supuestos, encontramos muchas propiedades deseables: no sesgo, consistencia, eficiencia. No
obstante, siempre queda la duda si estos supuestos realmente se cumplen. Durante
el desarrollo de los siguientes captulos constataremos cuan grave puede ser la no
satisfaccion de algun supuesto; ya sea por variables mal medidas, por omision de
e stas o por problemas de causalidad mal modelada. A esta lista se le puede anadir
la no-linealidad, las observaciones aberrantes... Es muy importante no fiarse de una
regresion que no haya sido revisada escrupulosamente: hay que aplicarle todas las
pruebas habidas y por haberen este caso, de especificacion. En resumen, hay que
seguir el consejo de David Hendry:
P ROBAR , P ROBAR Y P ROBAR !1
De hecho acorde a este mismo autor, la eleccion de un modelo econometrico para
un analisis emprico debe satisfacer los siguientes criterios.
Ser aceptable con respecto a los datos, es decir que las predicciones hechas
con base en el modelo debe ser aceptablemente buenas.
Ser coherente con la teora: el valor y el signo de los parametros as como las
variables incluidas deben ser los correctos.
1
Consideradas por dicho autor como las tres reglas de oro en econometra.
269
270
CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS
Tener regresores debilmente exogenos: variables explicativas y terminos de
error deben ser ortogonales.
Mostrar constancia parametrica: estabilidad de los parametros.
Exhibir coherencia en los datos: residuales asimilables a ruido-blanco (en
caso contrario, probablemente estaramos enfrentando un error de especificacion disfrazado de autocorrelacion, heteroscedasticidad,...)
Ser inclusivo (encompassing en ingles): debe ser el mejor modelo posible,
pero al mismo tiempo debe satisfacer el principio de PARSIMONIA.
Debemos tener muy claro que cualquier rompimiento de los supuestos constituye un
error de especificacion. No obstante, no todos los errores de especificacion tienen
las mismas consecuencias. A continuacion haremos una sntesis de los tipos de
errores posibles que, esperemos que as sea, faciliten una vision mas global de la
cuestion as como de buena parte de este curso. Aun no hemos lidiado con todos los
problemas que mencionaremos en un instante. Por ende, algunos de ellos quiza lo
sorprendan:
271
se cumplen; vimos tambien que hay metodos formales para corregir estos problemas [Mnimos Cuadrados Generalizados] as como metodos
que no los corrigen pero s arreglan el calculo de la matriz de varianzacovarianza de los residuales de tal manera que vuelva a ser posible hacer
inferencia sobre e stos.
P ROBLEMAS POTENCIALES CON LAS VARIABLES EXPLICATIVAS:
1. Exclusion de variables relevantes. Cuando la especificacion ha omitido
variables que s deberan aparecer, las consecuencias son graves. Nuestros estimadores se vuelven sesgados e inconsistentes. Existen estadsticos de prueba especficamente disenados para estudiar esta cuestion.
Vease especialmente la prueba de Ramsey-RESET.
2. Inclusion de variables irrelevantes. Incluir variables no-venidas-al-caso
no es tan grave; se pierde un poco en eficiencia, pero tanto la consistencia como la propiedad de no-sesgo siguen dandose. tenemos en nuestra
batera de pruebas una mirada que permite evaluar si las variables que
incluimos deben permanecer o no (estadsticos t individuales, pruebas
2 ,...)
de hipotesis conjuntas,F, R
3. Forma funcional incorrecta. Cuando la relacion entre las variables no
es lineal, por ejemplo, es posible en algunos casos transformar las variables para forzarla a que s lo sea; surgen naturalmente a la mente los
modelos log-log, log-lin, lin-log, recproco, combinacion de e ste con los
anteriores,... Aqu nuevamente la prueba de Ramsey-RESET nos permitira distinguir si alguna de las formas funcionales que ensayemos es
adecuada. Existen tambien pruebas para comparar especificaciones no
anidadas (es decir, especificaciones entre las cuales no es posible transitar mediante una simple restriccion parametrica). En otras ocasiones tal
transformacion no sera posible y tendremos que recurrir a otros metodos
de estimacion como son Mnimos Cuadrados No-Lineales o Maxima
Verosimilitud.
4. La matriz de variables explicativas no tiene rango completo. Si hay 2
o mas variables explicativas linealmente dependientes [Multicolinealidad], la matriz X X no podra invertirse y el metodo de MCO simplemente no podra ejecutarse. Cuando la dependencia lineal no es perfecta
(la multicolinealidad es un problema de grado) s es posible invertir dicha matriz, aunque el determinante sera cercano a cero. Entre los snto-
272
CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS
mas de este problema suele estar el de obtener un buen ajuste (R2 alta) con estadsticos t no-significativos: inflacion de las varianzas de los
parametros; tambien vimos pruebas para detectar este posible problema.
Hay maneras muy obvias de resolverlo, entre las que destaca el quitar
la variable explicativa que es linealmente dependiente de las otras; tambien hay forma de resumir en una sola variable la informacion de varias
variables (componentes principales).
5. No ortogonalidad entre variables explicativas y termino de error. Detallaremos algunas razones por las que puede ocurrir esto. Destacan los
problemas de simultaneidad, pero tambien los errores de medicion en las
variables explicativas.2 La prueba de Hausman (que tambien estudiaremos) permite estudiar este posible problema siempre y cuando dispongamos de instrumentos validos. De igual forma, otros metodos de estimacion (cuya efectividad depende de la misma condicion que la prueba
de Hausman) que hacen factible la correccion del problema.
6. No-estacionariedad de las variables (tanto explicativas como dependiente). La no-estacionariedad de las variables ocasiona casi siempre que la
regresion sea espuria (es decir que los estadsticos habituales ya no seran
validos y no podremos saber si realmente tenemos evidencia de una relacion estadstica o bien de,...pura basura). Solventar esta dificultad puede
lograrse mediante pruebas de raz unitaria a las variables (siendo la mas
famosa la de Dickey-Fuller) as como de cointegracion y la estimacion
de Modelos de Correccion de Error, mismos que seran vistos en el curso
de Series de Tiempo.
Cabe destacar que veremos tambien que la inclusion de la variable dependiente rezagada en
tanto explicativa puede generar problemas de eficiencia, sesgo e inconsistencia si existe simultaneamente un problema de autocorrelacion. Vease el captulo de especificaciones dinamicas.
273
tasas impositivas, conversion de impuestos en subsidios,...). Afortunadamente, es posible estudiar la constancia de los parametros estimados a lo largo de
la muestra disponible. La prueba mas conocida es quiza la de Chow, aunque
las que estan basadas en estimaciones recursivas tambien son muy populares.
A lo largo de los siguientes captulos describimos una gran cantidad de problemas,
metodos de deteccion y de correccion (de e stos u ltimos no hay tantos). La intencion
es formar al econometrista y dotarlo de las herramientas necesarias en su camino
hacia la tan famosa especificacion adecuada. Es importante hacer notar que no es
factible en este espacio formular un compendio de todo lo que hay en econometra.
Se debera tener conciencia que, cuando se enfrente a un problema en particular,
habra de investigar cual es la forma mas pertinente de estudiarlo; en otras palabras,
no deberemos circunscribirnos a lo aqu expuesto.
274
CAPITULO
8. SINTESIS
DE CONOCIMIENTOS PREVIOS
Captulo 9
Especificacion y Ortogonalidad
En el primer curso de econometra se estudio el modelo de regresion lineal. En el
proceso, obtuvimos las formulas de los estimadores; tambien fue posible emplear
diversas pruebas de hipotesis para evaluar el ajuste del modelo as como la satisfaccion de algunos de los supuestos que sustentan la estimacion; ademas, se revisaron algunas posibles dificultades inherentes al rompimiento de algunos supuestos
basicos de MCO. En particular se vieron los efectos de: la multicolinealidad, la
autocorrelacion y la heteroscedasticidad.
En este primer captulo de la segunda parte, persistiremos en la evaluacion del
cumplimiento de los supuestos; de hecho, se estudiara dos de los mas importantes:
el supuesto de correcta especificacion y el de ortogonalidad. Dadas las consecuencias del rompimiento de estos supuestos, sera necesario emplear nuevas formas
de estimar las relaciones de interes.
9.1.
Poco se ha mencionado hasta ahora respecto a la importancia de una correcta especificacion; menos aun se ha puesto hincapie en la dificultad intrnseca de obtenerla. En
efecto, lograr una especificacion adecuada (presumir que es correcta sera quiza pecar de soberbia) no es trivial. Buena parte del e xito de un econometrista radica en su
habilidad en la elaboracion de una especificacion. Tendremos, en una primera seccion, una breve explicacion de dicha importancia. En esencia, al errar la tan mentada
especificacion, los frutos de una estimacion son esteriles, por no decir perjudiciales; la inferencia es incorrecta. Antes de empezar formalmente, modificaremos un
supuesto hecho anteriormente cuya finalidad era simplificar los calculos as como
275
276
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
las demostraciones. Se trata efectivamente de remover la caracterstica determinista de las variables explicativas y asignarles a e stas propiedades probabilistas. Ello
abre la puerta para entender el resto del captulo. Como senalamos anteriormente,
en el curso pasado incluamos entre los supuestos basicos del modelo de MCO el
siguiente:
L AS VARIABLES INDEPENDIENTES , LAS X S , SON DETERMINISTAS
Cual es la verdadera importancia de este supuesto? Pues en realidad e sta radica
en su comodidad al momento de hacer la mayor parte de las demostraciones. El
supuesto es simplificador y permite explorar las tripas del modelo de Mnimos
Cuadrados Ordinarios1 (MCO) sin que ello resulte excesivamente complicado; al
ser la variable x no estocasticay asumiendo que el termino de error es normal con
esperanza nula y varianza constante, Ut iidN (0, 2 ), tenemos:
E (xt ut ) = xt E (ut )
= 0
El supuesto no solo es muy fuerte, sino ademas peca de irrealista, o poco apegado a
la situacion en ciencia economica. Conviene trabajar con algo mas apegado a lo que
se podra obtener en la realidad y que hiciera mas pertinente al modelo. Al sustraerle el componente estocastico a las variables explicativas, estamos declarando,
de facto, que las controlamos. Esto es valido en el contexto de un laboratorio de biologa, o bien de qumica. En esa disciplina, por ejemplo, pueden estudiarse los efectos de una molecula o de un microorganismo (o de una celula) manteniendo todas
las condiciones constantes excepto una, la temperatura por ejemplo. El laboratorista ira recabando datos conforme cambiara la temperatura (mediante una perilla).
Eso, literalmente sera un experimento controlado y la variable de control evidente
es la temperatura. Si quisieramos correr una regresion con esos datos, sera perfectamente aceptable considerar a la variable explicativa (o de control) como dada. El
objetivo de este ejemplo es dejar claramente establecido porque las regresiones econometricas, en su mayora, no disponen de variables explicativas deterministas. En
una especificacion de demanda de dinero, el econometrista no controla el ingreso
de la gente; simplemente lo mide (de hecho, eso lo hace el INEGI). Por eso dejaremos de lado este supuesto. Ahora bien, asumir que las variables explicativas tienen
1
Recuerde que el modelo a estimar es: yt = + xt + ut . Los detalles los puede encontrar en
la prima parte del curso.
277
T K K1
T 1
b = (X X)1 X Y
1
b = (X X) X (X + U )
= + (X X)1 X U
(9.1)
Vale la pena destacar que este supuesto abarca de facto los de homoscedasticidad y de noautocorrelacion.
278
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
Como ya senalamos, el nuevo supuesto se escribe: E(X U ) = 0. Aplicando el operador esperanza a la expresion anterior, dicho supuesto se activa y nos permite nuevamente encontrar que, aun siendo estocasticas la matriz de variables explicativas
X, el estimador es insesgado:
b =
E()
De forma similar es posible obtener nuevamente casi todas las propiedades de MCO
que se presentaron en la primera parte del curso. Pero hay excepciones; el Teorema de Gauss-Markov3 queda un poco debilitado, por ejemplo, pues requiere, para
obtenerlo, sacar esperanzas condicionadas en X. Esto u ltimo permite obtener los
mismos resultados que con variables explicativas deterministas, pero deja explcito
que, para sacar esperanzas incondicionales como antes, tendramos que multiplicar por la densidad de X y luego integrar sobre X.4 Ahora procedemos a dar tres
ejemplos clasicos, derivados esta vez mediante la esperanza condicionada en X:
1. Normalidad del estimador:
b
/X
N , 2 (X X)1
SRC 2 2 (T K)
3. Prueba de hipotesis mediante normalizacion del estimador:
bi i
p
N (0, 1)
2 (X X)1
ii
Note que de los tres resultados presentados, solo la distribucion del primer calculo,
concerniente a los estimadores, conserva una referencia a las variables independientesen la varianza. En ese caso, al sacar la esperanza incondicional de dichos
estimadores tomando en cuenta la distribucion de las X, la distribucion de e stos
podra ya no ser normal. No obstante, los otros dos resultados son independientes
3
279
argmin
P
xy
P t2t
xt
= b
ub2t =
Note como el segundo termino, de no ser cero, implica un estimador sesgado del
parametro. En la figura (9.1) se ilustran algunos casos en que, justamente ese termino
no desaparece. Es importante recordar que lo que se busca es la lnea que pase lo
mas cerca posible de todos los puntos en el diagrama de dispersion.
9.2.
El supuesto de ortogonalidad
Ahora que le hemos asignado a las variables explicativas unas propiedades mas
realistas, es posible entender mas a fondo el supuesto de ortogonalidad de e stas
con respecto al termino de error. En la formula del estimador, si reemplazamos la
variable dependiente por su especificacion, obtenemos:
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
280
Yt
Relacin Estimada
Verdadera Relacin
Xt
xt (xt + ut )
P 2
x
P t
x t ut
= + P 2
xt
b =
281
(9.1) de la seccion anterior. A todo esto podemos anadir que la existencia de una
relacion entre las variables explicativas y el termino de error implicara tambien
una estimacion sesgada e inconsistente de las desviaciones estandar y de los residuales de la regresion. Las pruebas estadsticas tampoco funcionaran. Ahora bien,
estos sencillos desarrollos tan solo ilustran someramente el efecto obvio de una relacion entre explicativas y error. Lo importante radica en realidad en la fuente de
esa relacion. Que provoca que haya relacion entre errores y explicativas? Esa es la
cuestion fundamental; en el siguiente apartado estudiaremos algunas causas de esta
no-ortogonalidad
9.3.
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
282
muestrales, que quiza esten midiendo otra cosa.5 Un ejemplo elocuente de lo anterior radica en las cuestiones relativas al impacto de la investigacion y la tecnologa
en la tasa de crecimiento de los pases. Muchos modelos economicos apuntalan el
argumento de que la investigacion incide positivamente en el crecimiento de una
economa mediante los aumentos en productividad resultantes de la mejora de las
tecnicas de produccion. Si un investigador quisiera, ya no solo probar este argumento con datos, sino, todava mas interesante, cuantificarlo (estimar numericamente el
impacto de la investigacion en el nivel de produccion), se encontrara con un dilema: que variable usar para determinar el nivel de actividad cientfica del pas?
El numero de patentes aceptadas? El numero de investigadores registrados? La
proporcion del PIB destinada a investigacion y desarrollo? Observe la figura (9.2)
(a)
(b)
18,000
# de Miembros SNI
350
# de patentes
300
250
200
150
100
1990 1992 1994 1996 1998 2000 2002 2004 2006
16,000
14,000
12,000
10,000
8,000
6,000
4,000
1990
ao
1995
2000
2005
2010
ao
(c)
(d)
3.5
0.5
% del PIB
% del PIB
0.4
3
2.5
0.3
0.2
0.1
1994
1996
1998
2000
ao
2002
2004
2006
2008
0
1992 1994 1996 1998 2000 2002 2004 2006 2008
ao
283
el Gobierno Mexicano (grafico b) es un mero registro administrativo que proyecta con poca precision la produccion cientfica o la calidad de la investigacion. El
numero de patentes no necesariamente refleja los resultados de investigacion sino
mas bien estrategias empresariales para erigir barreras de entrada a la competencia
(no necesariamente justificadas por innovacion).
En todo caso, hay conceptos de variables tales como Educacion e Inteligencia que
simple y sencillamente no tienen correspondencia numerica especfica. Como en
el ejemplo de la investigacion, tales conceptos se pueden aproximar mediante, por
ejemplo, anos de escolaridad y resultados de pruebas de inteligencia. Estas u ltimas
son variables P ROXY; sustituyen en la especificacion a variables no observables. Es
importante no confundir estas u ltimas con las variables instrumentales o instrumentos. Mientras que las variables proxy se emplean directamente en la especificacion,
las variables instrumentales aportan mas informacion al ejercicio de estimacion sin
aparecer nunca en la especificacion.
En lo que concierne nuestro problema de ortogonalidad, nos limitaremos a estudiar
los efectos de sencillos errores de medicion tanto en la variable explicada como en
la explicativa.
Variable dependiente medida con error
Empezaremos con el proceso que realmente genera los datos, o bien, la especificacion correcta. Esta es la manera en la que la naturaleza construyo los datos. Asuma
pues que la verdadera especificacion es:6
yt = xt + t
(9.2)
Esta u ltima es la que el investigador cree que esta estimando. No obstante, solo
dispone de una variable dependiente medida con un cierto error, digamos:
yt = yt + ut
Con objeto de simplificar la demostracion, estableceremos algunos supuestos (destaca que e stos se podran omitir o suavizar en gran medida sin que cambiara la
6
284
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
yt = xt + t
yt + ut = xt + t + ut
yt = xt + (t + ut )
| {z }
d
=vt
Como de hecho es facilmente previsible, los efectos de utilizar una variable dependiente mal medida no son especialmente dramaticos. No obstante, vale la pena
conocerlos:
1. El estimador de sigue siendo insesgado y consistente.
2. La varianza de t + ut , el nuevo termino de error, se incrementa, por lo que la
eficiencia de nuestros estimadores queda reducida.8
Reiteramos que la mala medicion en la variable dependiente no tiene efectos demasiado perversos al correr una regresion como la especificada en la ecuacion (9.2).
La formula del estimador es, de hecho:
7
Los supuestos 2,3 y 4 son un poco redundantes, puestos que los procesos son iid, pero vale la
pena recalcarlos.
8
No se dio una demostracion de lo anterior. No obstante, la cuestion es obvia. Explique la razon
de semejante afirmacion.
285
P
xt y
b = P 2t
x
P t
xt (yt + ut )
P 2
=
xt
P
xt (xt + t + ut )
P 2
=
xt
=0
=0
z
z
}|
{
}|
{
P
P 2 P
x t t
x t ut
xt
E = E P 2 + P 2 + P 2
xt
xt
xt
*.- Note que es posible desprender los ruidos t y ut de las variables xt gracias
a los supuestos antes senalados. Note tambien que los u ltimos dos terminos no son
otra sino covarianzas entre procesos independientes. Dado que la esperanza de los
ruidos es cero, ambas razones tienen esperanza nula; por ejemplo,
P
X xt
x t t
E P 2
=
E P 2 E(t )
xt
xt | {z }
(9.3)
=0
>0
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
286
xt (xt + t + ut )
P 2
xt
P
P
x t t
x t ut
= + P 2 + P 2
xt
xt
P
P
( x t t + x t ut )
P 2
b =
xt
b =
=
( x2t )2
P
( xt v t ) 2
P
=
( x2t )2
2
2
(x
v
+
x
v
+
.
.
.
+
x
v
)
1
1
2
2
T
T
P
E b
= E
( x2t )2
2 2
x1 v1 + x22 v22 + . . . + x2T vT2 + 2x1 x2 v1 v2 + . . .
P
= E
( x2t )2
Dado que los componentes de vt son ortogonales a xt , podemos separar las esperanzas:
P 2
2
x
2
b
E
= v E P 2t 2
( xt )
1
2
= v E P 2
xt
Ya no desarrollaremos mas el termino cuya esperanza aun hay que calcular ( P1x2 ),
t
puesto que no se necesita para efectoshde esta
i demostracion. No obstante, vale la
pena mencionar a este respecto que: E P1x2 no es necesariamente igual a E[P1 x2 ] .
t
Esta discusion fue incluida gracias a que Lizet Adriana Perez Cortes encontro un error en una
version anterior del documento.
287
P 2
Puesto que en nuestro caso z =
xt > 0, la funcion es convexa y podemos aplicar
la desigualdad. Retomemos ahora nuestro problema de varianza, que al final queda
as:
2
1
2
2
b
E
= ( + )E P 2
xt
Si la hcomparamos
con la varianza que obtendramos de no haber error de medicion,
i
1
2
E P x2 ,
t
Resulta obvio que la primera (con error de medicion) es mayor a la segunda (sin
dicho error), puesto que el numerador es mayor. Queda as expuesto de forma muy
evidente el aumento de la varianza del estimador al haber errores de medicion en
la variable dependiente. Sera extraordinario, al lidiar con errores de medicion, que
todo fuera tan sencillo como una perdida de eficiencia de los estimadores. Desgraciadamente, no es el caso. En la siguiente seccion veremos que ocurre cuando el
famoso error de medicion esta en la variable explicativa.
Variable independiente medida con error
Si el error de medicion esta en las variables explicativas, las consecuencias cobran
gran importancia. Para entenderlo, suponga que la variable explicativa que nosotros
observamos esta medida con error:
xt = xt + vt
Suponga nuevamente que la especificacion correcta es:
yt = xt + t
Nuevamente, para hacer mas sencillo el ejercicio, haremos unos supuestos, ligeramente mas fuertes que los anteriores, pero en extremo parecidos:
1. zt iidN (0, z2 ) para z = , v, x,
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
288
2. xt t ,10
3. xt vt ,
4. t vt ,
5. plimT 1
6. plimT 1
7. plimT 1
x2t x2 ,11
P
vt2 v2 .
P
2t 2 .
yt = xt + t + vt vt
= xt + (t vt )
El hecho es que, por mas supuestos que hagamos sobre vt (media cero, varianza
constante, normalidad, etc), subsistira un problema. Al correr la regresion,
yt = xt + (t vt ),
| {z }
t
Cov(xt , t ) =
=
=
=
=
=
289
Queda pues confirmado que existe una relacion entre ambas. Este rompimiento ya lo
habamos estudiado al presentar el nuevo supuesto (seccion anterior). As pues, no
se cumple la ortogonalidad entre explicativa y residuales. Retomando
los resultados
P
xt ut
b
concernientes al estimador de la seccion anterior, = + P x2 , es facil ver que
t
e ste que tenemos actualmente, tambien sera sesgado e inconsistente:
1. Sesgo:
b = + algo
E()
|{z}
6=0
Sabemos que ese algo es distinto a cero debido a que la covarianza que
calculamos anteriormente es distinta a cero. La esperanza de ese algo no
la podemos obtener puesto que no es factible separar, al interior del operador
esperanza, el numerador del denominador.
2. Inconsistencia: partiendo nuevamente de la formula del estimador:
b =
=
=
plim()
P
xy
P t2t
x
P t
(xt + vt )(xt + t )
P
(x + v )2
P 2 tP t
P
P
x t + x t t + x t v t + t v t
P
P
P 2
xt + 2 xt vt + vt2
P
P
1 P 2 P
( xt + xt t + xt vt + t vt )
T
P 2
P
P 2
plim
1
(
x
+
2
x
v
+
vt )
t
t
t
T
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
290
b =
plim()
2
X
2
V2 + X
Con esto queda claro el problema de inconsistencia que genera esta relacion
entre variables explicativas y termino de error.
(ii) Reemplace yt y x ;
El proceder es el de siempre. (i) Parta de la formula de ;
t
(iii) Obtenga la expresion sin aplicar plims; (iv) Ya que la tenga, reste de ambos
lados ; (v) Ahora s, aplique el plim.
291
xt = xt + vt
zt iidN (0, z2 ) para z = u, v, x
x t v t , x t ut , v t ut .
En caso de correr una regresion con estas variables mal medidas, obtendramos un
estimador consistente? Para poder contestar a esta pregunta, lo primero sera tener
claro que regresion estaramos corriendo. Para ello, partamos de la especificacion
correcta:
u u
| t {z }t
yt = xt +
yt
= xt + ut + vt vt
= xt + (ut vt )
Nuestro termino de error queda por fin definido. Ahora s, ya nos podemos concentrar en la formula del estimador:
P
xy
P t2t
x
P t
(xt + vt )(yt + ut )
P
=
(xt + vt )2
P
(xt + vt )(xt + ut )
P
P
= P 2
xt + 2 xt vt + vt2
P
P
P
P
x2t + xt ut + xt vt + vt ut
P 2
P
P
=
xt + 2 xt vt + vt2
b =
1
T
x2
v2 + x2
v2
x2
+1
P
P
P
x2t + xt ut + xt vt + vt ut )
P
P
P
1
( x2t + 2 xt vt + vt2 )
T
292
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
Tal y como habamos previsto, el estimador es inconsistente tambien. Con esto damos por terminada la seccion relativa a los errores de medicion. Sus efectos, en
resumen pueden ser muy graves al momento de realizar nuestra estimacion. Se desprende que el manejo de los datos resulta de gran importancia. Es importante conocer las fuentes de informacion y asegurarse, en la medida de lo posible, de que la
metodologa empleada por dichas fuentes sea confiable. Con el advenimiento de la
informatica y la expansion de las practicas de muestreo, es posible considerar que
este problema se puede controlar mejor que antes. No obstante, no hay que olvidar
que muchas bases de datos empleadas en economa se forjan mediante la recopilacion de registros contables cuya elaboracion no toma en cuenta ninguna precaucion
de corte cientfico.
293
Note que, si los ruidos son iid no hace falta decir que son independientes los unos de los otros.
294
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
295
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
296
rompimiento del supuesto de ortogonalidad. Si bien este tema sera tratado con detenimiento mas adelante, baste por ahora presentarlo. Suponga el siguiente sistema
de ecuaciones representativo de un mercado:
Qdt = Pt + Ztd + Utd
Qst = Pt + Zts + Uts
Donde Qdt y Qst son las cantidades del producto demandadas y ofrecidas, respectivamente, en el tiempo t; Pt es el precio de dicho bien (tambien en el tiempo t,
claro esta) y Zti , donde i = d, s representa otras variables explicativas relativas a la
demanda y a la oferta, respectivamente.14 A estas u ltimas tambien se les denomina
exogenas o predeterminadas.15
Si suponemos que estamos en un mercado competitivo, entonces el mercado se
vaca y:
Qdt = Qst = Qt
As pues, el precio, Pt se debe determinar endogenamente en las dos ecuaciones.
De hecho, Qt y Pt se definen simultaneamente en este modelo. Las ecuaciones simultaneas implican esencialmente que en cada relacion aparecen variables explicativas que son a su vez endogenas al sistema, es decir, que aparecen como explicadas
en otra ecuacion del sistema. Asumamos el siguiente modelo, ya especificado con
nuestra notacion habitual:
y t = b 0 + b 1 x t + ut
x t = a0 + a1 y t + a2 z t + v t
Donde se deben cumplir los siguientes supuestos:
E(ut ) = 0
E(ut u ) = 0
E(vt2 ) = v2
E(ut vt ) = 0
14
15
E(u2t ) = 2
E(vt ) = 0
E(vt v ) = 0
297
donde t 6= .
Note que el modelo esta matematicamente completo; contiene dos ecuaciones, con
dos variables endogenas, xt e yt (las otras variables, representadas por zt , se asumen como variables exogenas o predeterminadas, lo que, en cierta forma, pretende
implicar que las conocemos). Si bien esto puede parecer contradictorio en este momento, asumamos que la variable zt no tiene propiedades probabilsticas. Ahora
sustituyamos yt en la segunda ecuacion:
xt = a0 + a1 (b0 + b1 xt + ut ) + a2 zt + vt
(1 a1 b1 )xt = a0 + a1 b0 + a1 ut + a2 zt + vt
a0 + a1 b 0
a2
a 1 ut + v t
xt =
+
zt +
1 a1 b 1
1 a1 b 1
1 a1 b 1
Reparametrizando...
xt = 0 + 1 z t + w t
Si nosotros quisieramos estimar u nicamente la ecuacion en la que la variable xt es la
dependiente, dudosamente estimaramos la especificacion de arriba, que por cierto,
R EDUCIDA . No, estimaramos una regresion de xt en
se denomina E CUACI ON
funcion de yt y zt :
xt = + 1 zt + 2 yt + Errort
Este ejercicio es muy diferente al idoneo. El error de especificacion es, de hecho,
evidente. Pero, acaso eso rompe el supuesto de ortogonalidad? Tal y como esta la
especificacion de la relacion original, uno podra esperar que: Cov(xt , ut ) fuera
cero. Desgraciadamente, e se no es el caso. Para entender como se rompe el supuesto
de ortogonalidad, recordemos que la covarianza se resume a:
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
298
a0 + a1 b 0
1 a1 b 1
xt E(xt ) =
a 1 ut + v t
1 a1 b 1
E(xt ) =
a2
1 a1 b 1
zt
Por ende:
Cov(xt , ut ) =
=
=
6=
a 1 ut + v t
ut
E
1 a1 b 1
1
E(a1 u2t + ut vt )
1 a1 b 1
a1 2
1 a1 b 1
0
299
y t = b 0 + b 1 x t + b 2 w t + ut
x t = a0 + a1 y t + a2 z t + v t
Donde ocurre lo siguiente:
16
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
300
a0 = 2 b0 = 8 ut iidN (0, 4)
a1 = 7 b1 = 5 vt iidN (0, 1)
a2 = 4 b2 = 3 uwt , uzt iidN (0, 2)
Ademas, las ecuaciones que generan las variables exogenas al sistema son:18
wt = 0.7wt1 + uwt
zt = uzt + 0.4uzt1
P REGUNTAS :
1. Obtenga las ecuaciones en forma reducida (es decir, x y y en funcion de
variables exogenas u nicamente).
2. Escriba un programa en matlab que las simule (las simulaciones deben estar
basadas en las ecuaciones reducidas).
3. Estime por MCO la especificacion
yt = + xt + wt + uet
4. Grafique un diagrama de dispersion en tres dimensiones.
5. repita el experimento 500 veces (R = 500) y obtenga un histograma del
estimador de
Para escribir el codigo requerira los siguientes comandos: clear all; randn; regress; hist; scatter3 as como escribir ciclos: for i=1:K; [instrucciones]; end;
18
donde w0 = uz0 = 0.
301
b
2 = P 2 ,
x2t
19
x2 (2 x2t + 3 x3t + t )
P 2
x2t
P
P
P 2
2 x2t + 3 x2t x3t + x2t t
P 2
=
x2t
P
P
x2t x3t
x2t t
= 2 + 3 P 2 + P 2
x2t
x2t
2 =
Por ruido blanco se entiende un ruido que no transmite informacion pero que ademas tampoco
es perjudicial; no estorba.
20
Todos los supuestos clasicos de MCO se cumplen en la especificacion correcta. Note como
seguimos trabajando con variables centradas; por ello, sigue sin incluirse una constante.
302
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
Note que el tercer elemento del numerador, asumiendo independencia entre variables explicativas y el termino de error, desaparecera si aplicamos el operador esperanza. Asumamos, por un momento ortogonalidad entre x2 y , x2t t . Ello
permite reinterpretar la formula de nuestro estimador de la siguiente manera:21
P
1
plim(T
x x )
P 2t2 3t ,
plim(2 ) = 2 + 3
1
x2t )
plim(T
Como siempre, incluimos el normalizador T 1 con objeto de evitar que las sumas
diverjan. Ello tiene ademas la gran ventaja de explicitar las formulas de covarianza
y varianza (muestrales, eso s):
plim(2 ) = 2 + 3
d 2t , x3t )
Cov(x
Vd
ar(x2t )
Esta manipulacion, vale la pena recalcar, elimino el tercer termino asumiendo ortogonalidad de la segunda variable con el error. En todo caso, deja claro el problema
E(2 ) = 2 + 3 E P 2
x2t
La esperanza que sobrevive solo es igual a cero cuando x2 y x3 son independientes;
en ese caso podramos separar la esperanza de la siguiente manera:
X x2t
E(2 ) = 2 + 3
E P 2 E[x3t ]
x2t
En ese caso resulta facil demostrar que E[x3t ] = 0.22 En primera instancia, cabe
resaltar que nuestro estimador esta sesgado, aunque dicho sesgo depende en realidad
21
Recuerde que las variables estan centradas; ello, como ya senalamos, obedece a razones
practicas para el desarrollo de esta prueba y es facilmente omitible. Tambien recuerde que, si
en vez de ortogonalidad,
tuvieramos E(x2t t ) = 0, la expresion quedara plim(2 ) = 2 +
P
plim(T 1 P
x2t x3t )
3 plim(T 1 x2 ) + op (1), donde la notacion op (), lo pequena o (little o en ingles) denota
2t
un termino que se colapsa (tiende a cero).
22
Pruebelo! Recuerde que la variable esta centrada.
303
de la existenciay del signode una relacion lineal entre las variables x2t y x3t .
Existe por ende una posibilidad de que no haya tal sesgo; tendremos un estimador
insesgado y consistente si y solo si x2t es ortogonal a x3t .23 A sabiendas de lo
anterior, se necesitara independencia entre las variables explicativas consideradas
y las omitidas para poder confiar en que, aun no incluyendo una variable relevante,
nuestros estimadores resulten correctos. Como bien esta senalado en muchos libros
basicos de econometra, tal condicion resulta difcil de satisfacer en la practica.
2 =
P
P 2 P 2
x2t x3t [ (x2t x3t )]2
23
304
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
Esta
basicamente consiste, como ya se senalo, en iniciar con un modelo muy general, que incluya todo lo que pueda ser considerado a priori importante; si utilizaramos una jerga mas tecnica, diramos que el inicio de la modelacion se lleva a
cabo con un modelo y reducirlo paulatinamente con base en los resultados de una
bateramuylarga de pruebas estadsticas. Se trata de un enfoque inductivo por
excelencia, en el que los datos, es decir la informacion contenida en ellos, tienen la
u ltima palabra.24
9.4.
Induccion, segun la Real Academia Espanola, es: extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas esta implcito.
(9.4)
(9.5)
(9.6)
Estas regresiones se pueden estimar por el metodo de maxima verosimilitud. Mientras la especificacion sea lineal, los estimadores seran identicos a los de MCO; en el recuadro de la regresion
del programa Gretl aparece dicha log-verosimilitud. Vease el captulo correspondiente en el primer
curso de econometra.
306
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
No obstante, tambien es importante senalar que la presencia de autocorrelacion y/o heteroscedasticidad constituye un indicio revelador de que la especificacion es mejorable.
28
Ramsey, J.B. Tests for Specification Errors in Classical Linear Least Squares Regression
Analysis, J. Royal Statist. Soc. B., 31:2, 350-371 (1969).
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
308
Ejemplo 17 El caso de una variable omitida. Suponga que la especificacion correcta es:
= X + Z + U,
(9.7)
= X + V.
(9.8)
Queda claro que, si hemos de respetar el verdadero modelo, V = Z + U . Asumiendo regresores determinstas,29 y recordando que los residuales de tal regresion se pueden representar usando nuestra famosa matriz idempotente Mx = I
X(X X)1 X :
V = Mx Y
= Mx Z + Mx U.
(9.9)
4. Para construir el estadstico de prueba, recurrimos una formula conocida desde la primera parte de este manual:
F=
2
(RN
RV2 ) /Kn
2
(1 RN
) /(T Kn )
310
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
(b)
2
Residuales Estimados
Residuales Estimados
6000
4000
2000
0
2000
4000
200
100
0
Valores ajustados
100
1.5
1
0.5
0
0.5
1
1.5
200
2,000
0
2,000
Valores ajustados
4,000
6,000
(c)
Residuales Estimados
40
20
0
20
40
60
10
0
Valores ajustados
10
15
312
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
espacio para darle un poco mas de formalidad: es cierto, cuando una especificacion esta mal, ello se puede traducir en heteroscedasticidad y autocorrelacion. En
cierta forma, estos u ltimos dos fenomenos pueden considerarse como parte de la
sintomatologa de una especificacion incorrecta. Ello es particularmente cierto con
la heteroscedasticidad. Suponga que la especificacion correcta es la siguiente:
yt = + 1 x1t + 2 x2t + ut
Para hacer mas elocuente la ejemplificacion, asumamos que el comportamiento de
la variable x1t tiene un fuerte componente de autocorrelacion (podra ser un proceso
AR(1), por ejemplo) mientras que la varianza de la variable x2t es muy heterogenea.
1. Un primer econometrista decide estimar una especificacion incompleta pues
omite x1t :
yt = 1 + 1 x2t + v1t
En este caso el componente autoregresivo no considerado (la variable omitida) se filtra al ruido estimado.
2. Un segundo econometrista decide estimar una especificacion incompleta pues
omite x2t :
yt = 2 + 2 x1t + v2t
En este caso el componente heteroscedastico no considerado (la variable
omitida) se filtra al ruido estimado.
Llevamos a cabo tales estimaciones (con datos simulados) y recuperamos los residuales estimados de ambas regresiones. Note lo que obtuvimos en la figura (9.5).
Esto mismo lo podemos ver de forma heurstica cuando nos equivocamos con el
supuesto de linealidad. Suponga que la verdadera especificacion es:
yt = + xt + wt + ut
Queda claro que la especificacion no es lineal en . Si un tercer econometrista estima,
yt = + xt + wt + ut ,
equivocandose al asumir linealidad, se puede encontrar con que sus residuales estimados tienen un comportamiento similar al de la figura 9.6:
50
100
150
200
250
300
350
400
450
500
300
350
400
450
500
(b)
60
50
40
30
20
10
0
50
100
150
200
250
Figura 9.5: Efectos de una omision de variable relevante en los residuales estimados: panel (a), el caso de la autocorrelacion [residuales]; panel (b), el caso heteroscedastico [residuales al cuadrado]. En ambas figuras el comportamiento de los
residuales (la serie mas volatil) se compara con el de las verdaderas innovaciones
(las menos volatil).
Y ORTOGONALIDAD
CAPITULO
9. ESPECIFICACION
314
50
100
150
200
330
340
250
350
300
360
350
400
450
500
370
Figura 9.6: Efectos sobre los residuales estimados al asumir una linealidad que en
realidad no se cumple.
Captulo 10
Variables Instrumentales
Hasta ahora, todo lo que sabemos hacer es estimar mediante el Metodo de Mnimos Cuadrados Ordinarios.1 Como hemos visto, MCO tiene muchas ventajas, entre
las que destacan su computo sencillo y el hecho de que, bajo ciertos supuestos los
estimadores son MELI (Mejores Estimadores Lineales Insesgados). Pero la verdad
es que el metodo tambien tiene desventajas. Una de las principales es la que hemos venido estudiando: no es facil lograr que el termino de error sea ortogonal a
las variables explicativas. Existen muchas fuentes potenciales que inhiben o, mejor
dicho hacen que se viole este supuesto: errores de medicion, omision de variables
importantes, simultaneidad,. . .
Veremos, por consecuencia, un metodo que facilite el transito a una estimacion
consistente (que de paso nos resuelva, al menos potencialmente, el problema de
ortogonalidad). El uso de las Variables Instrumentales tiene su origen en estudios
relacionados con la estimacion de curvas de oferta y demanda. Fue a traves del
analisis de algunos economistas, tales como P.G. Wright, Henry Shultz, Elmer Working y Ragnar Frisch, que estaban interesados en estimar elasticidades de oferta y
demanda, que nacieron las Variables Instrumentales (IV , por sus siglas en ingles).
La justificacion del metodo es muy sencilla; se usan las IV para estimar relaciones estadsticas cuando no es factible realizar experimentos controlados. El termino
Variables Instrumentales se le atribuye a Olav Reiersol (1945) aunque es posible que sea Ragnar Frisch quien lo acunara. Su formulacion aparecio por primera
vez en el apendice de un libro de Philip G. Wright (1928).2 En los anos 20, una
1
Sin olvidar, claro esta, que tambien conocemos el Metodo de Momentos as como el de Maxima
Verosimilitud.
2
De acuerdo a Stock y Watson (2003), el autor de dicho apendice es el hijo de Wright, cuyo
nombre era Sewall, un estadstico destacado.
315
CAPITULO
10. VARIABLES INSTRUMENTALES
316
fuente importante de ingresos del gobierno de los Estados Unidos estaba constituida por las tarifas que se cobraban a bienes importados. Wright deseaba encontrar
la tarifa adecuada para aceites y grasas vegetales y animales que el pas compraba del exterior. El monto de las tarifas afecta la demanda por esos bienes, por lo
que a Wright le quedaba claro que necesitaba estimar la elasticidad-precio de tales
productos; contaba con una fantastica base de datos de precios y cantidades anuales que corra desde 1912 hasta 1922 relativas al consumo de mantequilla. Tena la
opcion de correr una regresion por MCO entre Cantidad y Precio, ambas transformadas a logaritmos, y obtener un estimador de dicha elasticidad. Afortunadamente,
tambien supo entender que las observaciones de que dispona no necesariamente
coincidan con la demanda exclusivamente, sino con puntos de equilibrio entre demanda y oferta. Mas afortunadamente aun, a Wright se le ocurrio la forma de darle
la vuelta al problema. Era necesario conseguir una tercera variable (que ahora llamaramos instrumento) que fuera capaz de desplazar la oferta, pero no la demanda.
Con esta informacion adicional, fue posible identificar, en la nube de puntos, los que
corresponden a la demanda exclusivamente. Lo anterior es facilmente representable
en una figura:3
Precio
Precio
Equilibrio 2
Precio
Equilibrio 3
Equilibrio 1
(a)
Cantidad
(c)
(b)
Cantidad
Cantidad
Note como en el panel (a) esta representado el problema al que se enfrento Wright.
Los datos que dicho autor recabo no representan exclusivamente a la demanda, ni a
3
317
10.1.
Algunas de las variables explicativas originales pueden y deben ser utilizadas como Variables
Instrumentales. Esto quedara mas claro posteriormente.
CAPITULO
10. VARIABLES INSTRUMENTALES
318
Ambas matrices,
319
Y = X +
Ahora, pre-multiplicandola por la matriz de instrumentos, obtenemos:
Z |{z}
X + Z |{z}
Y = Z |{z}
|{z}
|{z}
T K K1
KT T 1
T 1
| {z } |
{z
} | {z }
K1
K1
K1
IV
= (X ZZ X)1 X ZZ Y
= (Z X)1 (X Z)1 X Z Z Y
|
{z
}
I
IV
= (Z X) Z Y
CAPITULO
10. VARIABLES INSTRUMENTALES
320
IV
= (Z X) Z Y
1 X
z t yt
= P
z t xt
P
zt (xt + t )
P
=
zx
P t t
z t t
= +P
z t xt
(10.1)
E IV
.
= +E P
z t xt
=
=
B A
I
(AB)1
A1
B 1 A1
(A )1
321
Ello obedece a que el operador plim s permite separar expresiones que el operador
esperanza debe dejar juntas:
IV
= (Z X)1 Z (X + )
= (Z X)1 Z X + (Z X)1 Z
= + (Z X)1 Z
plim IV
= + plim[(Z X)1 Z ]
T
= + plim[ (Z X)1 Z ]
"T
1 #
1
1
plim
= + plim
ZX
Z
T
T
{z
}
{z
}|
|
IV = (Z X)1 Z
IV
= (Z X)1 Z Z (Z X)1
IV
IV
CAPITULO
10. VARIABLES INSTRUMENTALES
322
Estas sumas requieren ser normalizadas (es decir, divididas por T ) para as asegurar su convergencia en probabilidad (Denotaremos la varianza asintotica con un
subndice a) :
"
"
"
"
= plim
"
plim
"
V ara (IV ) = 0
1
ZX
T
1
XZ
T
1
ZX
T
1
XZ
T
1 #
1 #
1 #
1 #
1
ZX
T
1 #
1
XZ
T
1 #
plim(Z Z)
1
T2
plim(Z )plim( Z)
1
T2
plim
|
1
1
Z plim
Z
T
T
{z
}
0
Comentario 4 Observe cuidadosamente el desarrollo anterior. Notara que la varianza se colapsa cuando esta as normalizada (es decir, dividida entre T ). Dicho
resultado es logico si consideramos que el estimador de IV es consistente; si los
estimadores convergen a los verdaderos parametros, su varianza debe desaparecer con el aumento del tamano de muestra. Claro esta que si normalizamos por
una potencia menor de T quiza logremos evitar el colapso antes mencionado. El
siguiente desarrollo requiere la utilizacion de un Teorema del Lmite Central; esto
tiene la virtud de incluir, aparte de la varianza, la distribucion de los parametros
estimados.
Encontrar una distribucion lmite no degenerada de los estimadores de IV requiere
el uso del Teorema del Lmite Central de Lindberg-Feller:
Teorema 17 (Lindberg-Feller) Sea {t } t = 1, 2, ..., T independiente e identicamente distribuido con media cero y varianza 2 < ; si los elementos zt,k de la
323
ZZ
T
1
d
Z N (0, 2 )
T
Con este resultado podemos volver a calcular la varianza de los estimadores IV ,
esta vez sin que se nos colapse:
(IV ) = (Z X)1 Z
T
T (IV ) = (Z X)1 Z
T
1
= T (Z X)1 Z
T
1
1
1
=
(Z X)1 Z
T
T
1
1
1
Z
=
ZX
T
T
|
{z
} | {z }
1
N (0, 2 )
Aqu es importante recordar que, al multiplicar una distribucion normal con media
cero y varianza constante por una constante, si bien la media no cambia, la varianza
s; e sta debe ser multiplicada por el cuadrado de dicha constante:
d
2 1 1
T (IV )N 0,
Ahora que el metodo de IV ya ha sido expuesto, conviene mencionar el precio a pagar, es decir, sus limitaciones. En esta vida T ODO SE PAGA , T ODO SE C OMPRA.
El metodo de Variables Instrumentales, aportacion de la econometra a la estadstica, funciona bien siempre y cuando se logren obtener esos famosos instrumentos
validos. En realidad, la dificultad en la ejecucion de IV no es en s la aplicacion de
sus formulas, sino mas bien la busqueda de los instrumentos adecuados. Mas adelante se mostraran algunas pruebas que allanan el camino. Antes de preocuparnos
por esa cuestion, veamos, mas concretamente, como podremos emplear IV en la
practica.
7
CAPITULO
10. VARIABLES INSTRUMENTALES
324
10.2.
Tenemos, para no perder la costumbre, el siguiente problema: x4t y x5t son variables endogenas del sistema y estan por ende correlacionadas con el termino de
error. Por fortuna, contamos con las variables w1t y w2t que constituyen Variables
Instrumentales validas8 (ver condiciones arriba). En particular nos importa que tales
variables esten correlacionadas con x4t y x5t respectivamente pero ninguna de ellas
lo este con el termino de error, ut . El numero de instrumentales, como ya senalamos,
debe coincidir con el numero de explicativas, es decir ser igual a K.
1. Definamos Z = [1, x2 , x3 , w1 , w2 ]:9 matriz de variables exogenas o predeterminadas.
2. Estimemos, usando MCO, una regresion con cada variable explicativa problematica del modelo (es decir x4t y x5t ) contra el vector de variables exogenas. Cuando el instrumento es, a la vez explicativa, no vale la pena correr la
regresion puesto que el resultado es obvio.10
8
10.2. MINIMOS
CUADRADOS EN 2 ETAPAS
325
xit = zt i + eit
En donde zt es un vector-renglon que incluye las realizaciones en el tiempo t
de los instrumentos.
3. Calculemos los valores ajustados de cada variable explicativa:
xit = zt i
4. Recupere los K vectores estimados, xit para i = 1, 2, . . . , K, y agrupelos (sin
Finalmente,
olvidar las variable cuya regresion no corrio) en una matriz X.
estime la regresion:
+ Residuales
Y = X
Estos pasos resumen el metodo 2SLS. Ahora s veamos porque aplicarlo es equivalente a la estimacion por IV . Veamos el estimador de i :11
1
i = (Z Z) Z xi
o bien propongamos una expresion que nos calcule todos los parametros en cuestion
en una sola operacion:
1
= (Z Z) Z X
Donde,
11
12
..
.
1k
21 k1
..
22
.
.. . .
..
.
.
.
2k kk
Es importante senalar que las variables que usamos para 2SLS, contenidas en la
pueden ser calculadas directamente haciendo:12
matriz X
11
Note que cuando se corre una explicativa contra las exogenas y que e stas u ltimas incluyen a
dicha explicativa, todos los parametros se hacen cero excepto el de la explicativa que se hace igual a
la unidad y por ende: zit = zit .
12
Pruebelo!
CAPITULO
10. VARIABLES INSTRUMENTALES
326
= Z
X
Ahora bien, retomemos el estimador de por el metodo de Mnimos Cuadrados en
2 Etapas:
X)
1 X
Y
2SLS = (X
Procederemos a entender mejor el puente entre IV y 2SLS mediante una nueva
notacion; denotemos como eit a los residuales estimados de las regresiones:
xit = zt i + eit
Una de las principales propiedades del Metodo de Mnimos Cuadrados Ordinarios
es que los residuales estimados son ortogonales a las variables explicativas de la
regresion debido a la forma en que e stos son calculados (si no lo recuerda bien,
revise el desarrollo de las ecuaciones normales; vea la ecuacion 2.2). Aplicado a
nuestro caso, obtenemos:
X
zt eit = 0
xit eit =
=
|
|
zt i eit
zt eit i
{z }
=0
{z
}
(11)
10.2. MINIMOS
CUADRADOS EN 2 ETAPAS
xjt eit =
|
|
327
zt j eit
zt eit j
{z }
=0
{z
}
(11)
De ah es facil inferir que esos mismos residuales no estan correlacionados con los
valores ajustados de cualquiera de esas regresiones. Note que la ortogonalidad de
cumple para todo i, j = 1, 2, . . . , K. Sabiendo lo anterior, recordamos como estan
construidas las variables de la segunda regresion en 2SLS:
xit = zt i
xit = xit + eit
Si multiplicamos esta u ltima expresion por xjt , donde j = 1, 2, . . . , K obtenemos:
xjt xit = xjt
xit + xjt
eit
Y si ahora aplicamos el operador de sumatoria...
X
xjt xit =
=
xjt
xit +
xjt
xit
xjt
eit
{z }
=0
Y
X
X
= X X 1 X
2SLS =
Ahora s, ya nada mas falta un paso para demostrar que el metodo en dos etapas es
lo mismo que el de Variables Instrumentales. Necesitaremos tres de los resultados
hasta aqu obtenidos:
CAPITULO
10. VARIABLES INSTRUMENTALES
328
= Z
1. X
2. = (Z Z)1 Z X
X)1 X
Y
3. 2SLS = (X
= (Z X) (Z Z)(X Z) (X Z)(Z Z) Z Y
|
{z
}
I
1
= (Z X) (Z Z)(Z Z) Z Y
|
{z
}
I
1
2SLS = (Z X) Z Y
10.2. MINIMOS
CUADRADOS EN 2 ETAPAS
329
vt
yt
w1t
w2t
uw1t
uw2t
=
=
=
iidN (0, 2)
3 + 1.5 x2t + vt
1.8 + 0.5 x1t + uw1t
3 0.9 x1t + uw2t
iidN (0, 2)
3
iidN 0,
2
330
CAPITULO
10. VARIABLES INSTRUMENTALES
10.2. MINIMOS
CUADRADOS EN 2 ETAPAS
331
IV
1
= X Z (Z Z) Z X
|
{z
}
= [X Pz X]
Pz
1
X Pz Y
X Z (Z Z)
|
{z
Pz
Z Y
}
nos queda:
Z Y
= Z X + Z U
como debera ser. Podemos entonces aplicar MCG, es decir encontrar una
matriz P tal que P P = Il . En este caso es facil encontrar dicha matriz P :
P P
= Il
= P 1 P 1
Z Z = P 1 P 1
332
CAPITULO
10. VARIABLES INSTRUMENTALES
2. ayuda para la segunda pregunta: Retome la formula del estimador y reemplace la variable Y por la verdadera especificacion, Y = X + U . Descubrira rapidamente que puede llegar a una expresion con la forma: IV =
+ algo. A la expresion resultante aplquele entonces el plim; constatara que es posible emplear los supuestos hechos a los instrumentos y obtener
el resultado solicitado.
10.3.
I NSTRUMENTOS D EBILES
(weak instruments, en ingles). Usar instrumentos debiles es, en s, un problema potencialmente grave. El sesgo que ya habamos senalado
del Metodo se agrava en esta situacion y las propiedades en muestras pequenas son,
para acabar pronto, muy pobres. Retomemos el resultado de la ecuacion (10.1) en
el que tenemos tres variables, yt , xt y zt , centradas. Las primeras dos estan relacionadas en la especificacion yt = xt + t . Existe un problema de ortogonalidad
333
P
z t t
= +P
z t xt
Recuerde que las variables estan centradas, por lo que, si normalizamos por
segundo elemento, obtendramos:
IV
= +
1
T
el
Cov(zt , t )
Cov(zt , xt )
Asuma por un momento que nuestro instrumento no solo es debil sino de plano
totalmente irrelevante. Su covarianza sera entonces cero, por lo que, de nuestra
formula anterior podemos deducir que estaramos dividiendo por cero: el sesgo
explotara!
Para minimizar este riesgo, lo que se debe hacer es sustentar en la teora economica
la seleccion de los instrumentos y confiar en nuestro conocimiento del problema.
Claro esta, tambien es importante verificar algunos elementos estadsticos mas concretos. En especfico, se recomienda, al momento de emplear el metodo de 2SLS,
detenerse un poco en la primera etapa. Reviste especial importancia verificar las
regresiones de cada variable endogena contra el conjunto de variables exogenas;
asegurese que la R2 de esta regresion sea alta y que los coeficientes estimados sean,
en conjunto, estadsticamente significativos (esto, huelga decir, habra de hacerlo
mediante una prueba de F).
334
CAPITULO
10. VARIABLES INSTRUMENTALES
Instrumentales de las necesarias. Si lo piensan bien, estamos proyectando las l Variables Instrumentales en K variables ajustadas, que luego usaremos en la segunda
etapa del metodo. Lo que ocurre es que combinamos linealmente las l variables para obtener solo K. Se puede decir que, los instrumentos sobrantes son restricciones
lineales adicionales en esta proyeccion. En este caso, como se senalo en una nota
al pie de pagina, se dice que el modelo esta S OBRE -I DENTIFICADO. La idea de
incorporar mas informacion a nuestra estimacion por medio de un mayor numero de
instrumentos es tentadora. Ademas, siendo que ya tenemos instrumentos sobrantes
(l K > 0), aqu s podemos probar si los instrumentos son validos o no. Es muy
importante realizar estas pruebas, por lo que se invita al lector nunca omitirlas. En
otras palabras, si se cuenta con demasiados instrumentos, no hay que desecharlos,
puesto que sirven para probar la validez de e stos. La prueba que aqu proveeremos
para evaluar los instrumentos en sistemas sobre-identificados se denomina P RUEBA
J DE S ARGAN.
Como ya se senalo, estudiar estadsticamente la validez de los instrumentos cuando
el numero de e stos es igual al numero de explicativas simplemente no se puede. De
hecho, la u nica manera de probar si los instrumentos son validos estriba en tener
muchos mas instrumentos (l > K), por que? la razon es relativamente facil de
intuir. Imagine momentaneamente que, en nuestra especificacion, del lado de las
explicativas solo hay un regresor endogeno (es decir, no ortogonal al termino de
error) pero que, ademas, contamos con dos Variables Instrumentales. Podramos en
ese caso estimar de dos maneras distintas la especificacion, una con cada instrumento. Resulta obvio que esas dos estimaciones no arrojaran un estimador identico
debido a la variacion muestral. No obstante, si los dos instrumentos son realmente
exogenos, entonces las estimaciones de nuestros parametros deberan ser relativamente cercanas, puesto que el estimador es consistente. Que pensara usted si los
dos estimadores son muy distintos? Lo mas prudente sera inferir que, o bien uno
de los dos instrumentos no es valido o, peor aun, ninguno de los dos lo es. Es esa
diferencia entre estimadores la que se utiliza para juzgar la exogeneidad de los instrumentos. Debera quedar claro que, si solo disponemos de un instrumento, pues no
es posible compararlo con nada mas. Esa es la razon por la que solo se puede probar
la validez de los instrumentos cuando hay un excedente de e stos. Como ya dijimos,
existe una prueba muy socorrida para evaluar lo anterior; responde al nombre de
P RUEBA DE S ARGAN y se construye mediante el siguiente proceder:15
15
335
T q
336
CAPITULO
10. VARIABLES INSTRUMENTALES
337
% Salida:
% S:
Estad
stico de prueba de Sargan
% PV:
P-valor del estad
stico
%______________________________________________________
T=length(y);
%______________________________________________________
% Primera regresi
on
X1=[ones(T,1),w,x];
X2=[ones(T,1),w,z];
X3=[ones(T,1),w];
Reg1=inv(X1*X2*inv(X2*X2)*X2*X1)*X1*X2*...
inv(X2*X2)*X2*y; U=y-X1*Reg1;
% Segundas regresiones
Reg2a=(inv(X2*X2))*X2*U; e1=U-X2*Reg2a;
SRCnr=sum(e1.2);
Reg2b=(inv(X3*X3))*X3*U; e2=U-X3*Reg2b;
SRCr=sum(e2.2);
% Estad
stico de prueba
if isempty(w)
q=0;
else
q=length(w(1,:));
end
p=length(x(1,:));
l=length(z(1,:));
S=l*((SRCr-SRCnr)/l)/(SRCnr/(T-l-q-1));
% P-valor
PV=1-chi2cdf(S,l-p);
%______________________________________________________
El siguiente codigo, tambien de Matlab, muestra como generar dos variables, xt
y yt , linealmente relacionadas con, ademas, un problema de ortogonalidad con el
termino de error de dicha relacion. El codigo genera ademas tres instrumentos, dos
de ellos fuertes y validos, y un tercero invalido. La prueba S, al menos con estos
datos simulados, funciona especialmente bien:
%______________________________________________________
% C
odigo para formular un problema de ortogonalidad
338
CAPITULO
10. VARIABLES INSTRUMENTALES
% entre x y y y
% generaci
on de instrumentos, v
alidos y no v
alidos.
%______________________________________________________
T=100; p1=0.9; p2=2; p3=5; p4=2.7; p5=2.3; p6=3;p7=1.5;
Alpha=2;
Beta=4;
u=randn(T,1).2; v=randn(T,1)*p3;
x=p4*u+v;
z1=p1*x+randn(T,1)*p2-p4*u;
z2=p1*x+(randn(T,1)*p6).2-p4*u;
z3=p5*x+(randn(T,1)*p7).2;
y=Alpha+Beta*x+u;
X=[ones(T,1),x];
Z1=[ones(T,1),z1];
Z2=[ones(T,1),z2];
Z3=[ones(T,1),z3];
Bols=((X*X)-1)*X*y;
Biv1=((Z1*X)-1)*Z1*y;
Biv2=((Z2*X)-1)*Z2*y;
Biv3=((Z3*X)-1)*Z3*y;
[[2;4],Bols,Biv1,Biv2,Biv3];
% Hagamos la prueba de Sargan:
[S1,PV1]=Sargan_test(y,x,[],[z1,z2])
[S2,PV2]=Sargan_test(y,x,[],[z1,z3])
%______________________________________________________
Al ejecutar esta simulacion, debera fijarse en que se corre dos veces la prueba S.
En la primera corrida, ambos son instrumentos validos, mientras que en la segunda,
solo uno lo es. Consecuentemente, la prueba se rechaza en el segundo caso; ello
permite pensar en que, si usted cuenta con multiples instrumentos, identificar eventuales instrumentos invalidos es solo cuestion de realizar multiples combinaciones
de instrumentos para as poder identificar aquel o aquellos que no sirven.
10.4.
La Prueba de Hausman
339
medidas con error pero quiza no sepamos si tales errores son suficientemente grandes como para provocar una inconsistencia de nuestros estimadores de la cual haya
que preocuparse; de forma analoga, podemos estar preocupados porque algunas de
nuestras variables explicativas no sean realmente exogenas sino justamente endogenas. Pero hasta el momento eso se ha quedado como una sospecha y nuevamente
ignoramos que tan grave es el problema de inconsistencia que esta situacion genera.
En ambos casos aqu expuestos, si dicha inconsistencia no se revela, quedara plenamente justificado el uso de MCO. Si nuestros regresores son exogenos, tambien
son instrumentos validos, por lo que MCO sera consistente, pero ademas insesgado,
por lo que resulta un metodo de estimacion preferible a IV .
plim IV M CO
6= 0 bajo Ha
Aqu utilizaremos un resultado de Hausman que resuelve facilmente la prueba:
Teorema 18 Suponga dos variables, xt y yt relacionadas linealmente,
yt = + xt + ut .
16
Algunos autores se refieren a esta prueba como la Durbin-Wu-Hausman; en nuestro caso, solo
usaremos al u ltimo autor.
CAPITULO
10. VARIABLES INSTRUMENTALES
340
def
=
=
,q
0
341
La parte de la expresion senalada con un asterisco tiene que ser positiva. Ello
obedece a que el estimador de MCO es, segun el teorema de Gauss-Markov, el mas
eficiente posible. Cualquier otro estimador solo puede tener una varianza mayor (o
en el mejor de los casos, igual). Por ello, podemos afirmar que:
2 V ar(
q ) + 2,q 0
(10.2)
,q
V ar(
q)
2
V ar(
q) 2
,q
,q 0
V ar(
q)
2
,q
0
V ar(
q)
CAPITULO
10. VARIABLES INSTRUMENTALES
342
,q
V ar(
q)
2
,q
0
V ar(
q)
Otra vez llegamos a un absurdo, por lo que conclumos que ,q tampoco puede ser
negativa. Si ,q no es ni positiva ni negativa, solo le resta ser igual a cero:
,q = 0
Ahora s, podemos concentrarnos en la varianza de q. Sabiendo que q = IV
M CO , es facil establecer que:
IV = M CO + q
Usando la expresion anterior, podemos calcular la varianza del estimador de IV :
2IV
=
2M CO + V ar(
q ) + 2,q
=
2M CO + V ar(
q)
Lo que muestra lo anterior es lo siguiente: para que la varianza del nuevo estimador sea superior
a la de MCO (algo que necesariamente debe ocurrir), la constante debe quedar limitada a ciertos
valores, es decir, no puede adoptar cualquiera que este includo en los reales. No obstante, vimos
que debera poder tener cualquier valor. Eso es un absurdo.
343
Ahora s, sabiendo que: (i) bajo la hipotesis nula q tiende a cero; (ii) que ambos
estimadores se distribuyen asintoticamente normal (ver en la seccion anterior) y
conociendo la varianza de la diferencia, es posible afirmar que:
q
a
N (0, 1)
desv.std(
q)
a
(10.3)
Supongamos que n de las k [n < k] variables son endogenas y tienen relacion con el
termino de error. Agrupemos las variables endogenas en una matriz que denotamos
= Xn n + Xm m +
CAPITULO
10. VARIABLES INSTRUMENTALES
344
1
(Z ) = 0
T
1
plim (Z X) =
T
1
plim (Z Z) =
T
plim
Para llevar a cabo la prueba de Hausman estimamos por MCO las regresiones Xn
n la matriz donde almacenamos los valores ajustados. En
contra Z y obtenemos X
otras palabras corremos la matriz de variables endogenas contra la nueva matriz de
variables exogenas. Es con esta nueva matriz que estimamos ahora:
n +
= Xn n + Xm m + X
a
1
[var()]
2n g.l.
La manera de hacer la prueba de Hausman antes expuesta corresponde a la propuesta de Wu (1973).18 En el caso de que no conozcamos las variables que son
endogenas al termino de error [o mejor dicho, que no sepamos que variables son
potencialmente endogenas], la prueba de Hausman en una regresion conjunta se
ejecuta de la siguiente manera. Recuerde que se asume que disponemos de mas
instrumentos que variables explicativas [l > k] y que los primeros deben ser instrumentos validos:
1. Correr la regresion por MCO y recuperar el vector de estimadores M CO
as como la matriz de Varianza-Covarianza.
2. Correr la regresion por el metodo IV y recuperar el vector de estimadores IV
as como la matriz de Varianza-Covarianza.
18
En el libro Econometric Theory and Methods de Davidson y MacKinnon se demuestra la equivalencia entre ambos procederes.
345
(var
H = Q
(Q))1 Q
donde:
= IV M CO
Q
var
(Q) = var
(IV ) + var
(M CO )
Resulta importante resaltar que el calculo de este estadstico s es sensible al rompimiento de los supuestos de heteroscedasticidad e independencia. Por ello, en caso
de que se disponga de evidencia en ese sentido, se recomiendo utilizar la matriz
robusta de Varianza-Covarianza.
CAPITULO
10. VARIABLES INSTRUMENTALES
346
Para corregir este problema, podemos usar IV ; no obstante, para ello necesitamos
una variable instrumental, zt , correlacionada con xt pero no con t ni con vt (es
decir, que no este correlacionada con t ). Supongamos que la relacion entre xt y zt
es la siguiente:
xt = zt + wt
donde wt es un ruido blanco iid, centrado en cero y con varianza constante. Si estimaramos esta relacion por medio de MCO, solo lo podramos hacer con la variable
mal medida. En ese caso obtendramos:
xt = xt + wt
Por lo que podramos calcular la variable ajustada:
xt = zt
(10.4)
Con esto aseguramos una estimacion consistente de . Por otra parte, ahora tenemos
otro parametro a estimar que, de hecho, tiene el mismo valor. El hecho de que exista
un error de medicion, no obstante, tiene efectos sobre este u ltimo:
1
plim
wt t
T
347
1X
= plim
(xt zt ) (t vt )
T
1
plim
wt t
T
1X
= plim
xt vt
T
1 X
= plim
(xt + vt ) vt
T
= v2
plim
wt t
T
As pues, en presencia de un error de medicion, el parametro que acompana a wt
estara estimado de manera inconsistente. No obstante, y esto es E N E XTREMO
I MPORTANTE, si no hay error de medicion, la varianza de e ste podra considerarse
nula, es decir:
v2 = 0
En ese caso, la estimacion del segundo parametro, que tambien es , sera consis
tente. Representemos al estimador de este segundo con otra letra: .
En ese caso, podemos manipular nuevamente la especificacion a estimar:
yt = xt + wt + t
yt = xt + ( ) wt + t
348
CAPITULO
10. VARIABLES INSTRUMENTALES
p
De ello se deduce que 0.
Es con base en lo anterior que se puede hacer la prueba de hipotesis. Al parametro de esta u ltima especificacion se le puede aplicar una sencilla prueba t, como
siempre; si resulta estadsticamente igual a cero, no habra evidencia de errores de
medicion. Si por el contrario, se rechaza la prueba, tendremos entonces que comenzar a preocuparnos por reemplazar esa variable.
Resumamos esta prueba rapidamente; los pasos de e sta son:
1. Correr una regresion donde xt sea la variable dependiente y zt , un instrumento, sea la explicativa;
2. Obtener residuales de esa regresion: wt ;
3. Correr una segunda regresion en donde yt sea la variable explicada y xt y wt
sean las explicativas;
4. Aplicar un sencillo estadstico t de significancia al parametro asociado al residual.21
21
Si tuvieramos sospechas de otras variables mas respecto a su mediacion, sera necesario correr
mas regresiones como la primera e incluir otros residuales en la segunda. En este caso, convendra
mas hacer una prueba de hipotesis conjunta sobre todos los parametros asociados a los residuales.
Captulo 11
Causalidad, exogeneidad y
estabilidad
cum hoc ergo propter hoc
349
350
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.1.
Cabe resaltar el trabajo realizado por Aristoteles y Leibniz y Hume, al buscar una definicion.
351
en la actualidad muchas teoras y definiciones, muchas de ellas en franca contraposicion. No es de extranar que una palabra tan utilizada en nuestro vocabulario
e implicando e sta un concepto tan ligado a la experiencia personal no tenga una
definicion precisa ni sea facil formular una definicion aceptada por todos.
Grandes pensadores han contribuido en este ejercicio. Aristoteles se embarco en la
busqueda de una teora de causalidad como parte de su estudio de la naturaleza.
como muchos de sus contemporaneos, crea que la u nica forma de explicar un
El,
fenomeno es mediante el estudio de las causas que lo originan. Crea ademas que la
busqueda de una causa era lo mismo que la busqueda de una respuesta a la pregunta:
P OR QU E ? En Fsica, Aristoteles plantea la siguiente restriccion al conocimiento
humano:
No tenemos conocimiento real de algo hasta que no hemos logrado
responder a su Por que?, es decir, a lo que lo causa...
Con ello en mente y como un instrumento para su trabajo es que Aristoteles decide
formular su teora de causalidad; en Fsica II y en Metafsica V plantea su teora de
las cuatro causas:
1. Causa material; la encargada del que; por ejemplo, el bronce de una estatua.
2. Causa formal; la encargada de la forma; por ejemplo, el molde de la estatua.
3. Causa eficiente; el como fue hecho; por ejemplo, el artesano.
4. Causa final; el para que fue hecho; por ejemplo, la decoracion, el ornato.
Es con esta teora que Aritoteles busca explicar la naturaleza y todos los fenomenos
de e sta. En la actualidad nuestro concepto de causa no incluye los dos primeros de
la teora de Aristoteles; las vemos a ambas como producto del ingenio del artesano
(en el ejemplo arriba descrito). Es sobre todo importante resaltar su defensa a su
planteaba que en la naturaleza todo acontece como parte de un
causa final. El
proceso mayor al cual queda supeditada la naturaleza; ello con motivo de un fin
tentativamente bueno. Es en Fsica donde Aristoteles postula que el desarrollo de
la dentadura de los animales se da con el u nico fin de que el animal sobreviva y no
como simple coincidencia. Mas adelante, al momento de plantear la definicion que
usaremos (debida a Granger ....), veremos que uno de nuestros supuestos es que el
futuro no puede causar al pasado, supuesto en franca contraposicion con la teora
de la causa final de Aristoteles. Este fin por el cual las cosas se desarrollan es una
postura que defiende la posibilidad de que el futuro realmente cause al pasado. Esto
352
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
es equivalente a decir que el hecho de querer estudiar una carrera es lo que hace
que los estudiantes asistan a la Preparatoria.3 Como defensa de nuestra hipotesis,
se plantea esta otra forma de pensar: que al ser su intencion estudiar una carrera, es
que se realizan acciones que en un futuro causen su ingreso a la Licenciatura. Se
ha mantenido nuestra hipotesis; siendo as que lo que origino estas acciones es la
concepcion arraigada de que el presente o el pasado causan al futuro, no viceversa.
En tiempos menos reculados, durante la Edad Media, el concepto de causalidad,
as como todo el desarrollo humano, fue visto como originado y provocado por
Dios. Es as como el concepto cae en una especie de oscurantismo en el cual
se postula que todo lo que sucede en la naturaleza es obra de Dios, incluyendo,
por supuesto, todas las causas y efectos. En esta forma de pensar, el hombre no es
capaz de causar algo, no es sino la voluntad de Dios y las acciones de e ste lo que
originan todo. Si bien esta postura es defendible teologicamente, no permite avanzar
epistemologicamente.4 Dicha postura no puede ser planteada cientficamente sin
incurrir en controversias ajenas a la ciencia. Ademas, en la actualidad tenemos la
creencia que nuestras acciones s causan consecuencias (En general consideramos
que el que un conductor ebrio impacte su vehculo es producto del nivel de alcohol
en la sangre de dicho conductor).
Muchas de la teoras actuales de causalidad han sido producto del trabajo realizado
por David Hume en el siglo XVIII. Hume, quien en principio rechaza toda nocion
de causa5 decide mas tarde tomar una postura constructiva y plantea una definicion
de causalidad sobre la cual se pueda debatir. Esta postura es parecida a la asumida
por Granger en Probando Causalidad. Un punto de vista personal. Hume dice lo
siguiente:
Podemos definir una causa como un objeto seguido de otro, donde
todos los objetos similares al primero son seguidos de objetos similares
al segundo.6
3
Otro ejemplo seran las polticas y medidas adoptadas por un Banco Central para as cumplir
su meta inflacionaria; y es que en esta forma de pensar, es el lograr esta meta lo que causa estas
polticas.
4
Siguiendo las races griegas de ambos terminos, se sabe que la teologa es el estudio de dios,
mientras que la epistemologa corresponde al estudio del conocimiento.
5
En Hume (1740) plantea, No tenemos otra nocion de causa y efecto que la obtenida de que
ciertos objetos que siempre han sucedido conjuntamente, y que en situaciones anteriores se les ha
encontrado inseparables. Nosotros no podemos adentrarnos en la razon de esta conjuncion, solo
observamos los acontecimientos, y debido a esta constante conjuncion, los objetos adquieren una
union en la imaginacion.
6
Hume 1748, seccion VII.
353
Este planteamiento parece recavar las ideas que se tenan sobre causalidad. El siglo
XIX, de hecho, consolido en cierta forma esta manera de pensar. Alentados por la
revolucion newtoniana, los cientficos, especialmente los fsicos, consideraron que
el universo era una especie de gran mecanismo de relojera, es decir, un universo
regido por reglas deterministas que explicitan las relaciones entre las variables y
determinan las causalidades. Lo anterior nsto a muchos a pensar que, conociendo
tales reglas, no habra misterios que resolver. Esto queda plasmado en el D EMONIO
DE L APLACE :
Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podra concebir un intelecto que en cualquier momento dado
conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres
que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a analisis, podra condensar en una simple formula el movimiento de
los grandes cuerpos del universo y del a tomo mas ligero; para tal intelecto nada
podra ser incierto y el futuro as como el pasado estaran frente sus ojos.7
La concepcion determinista del universo cambio radicalmente al surgir la Mecanica
Cuantica. En esta u ltima, los procesos estocasticos juegan un papel central. Cabe
destacar que no lo hizo sin oposicion del establishment cientfico. Insto a Einstein a
formular su celebre frase: D IOS NO J UEGA A LOS DADOS. No obstante, conforme dicho establishment fue, literalmente, muriendo, impero un nuevo paradigma.8
En todo caso, as como la Mecanica Cuantica revoluciono a la Fsica, tambien lo
hizo con nuestra idea de causalidad. Es justamente en este contexto que nace el
concepto de causalidad probabilstica.
354
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
355
Esta
teora, y sobre todo las ideas principales detras de ella, seran el eje central
de la definicion que nosotros usaremos de causalidad. Nuestra vision de causalidad
sera una con enfoque probabilstico aplicada a series de datos de variables economi
cas, una vision E CONOM ETRICA
, para llamarlo por su nombre.
Las primeras versiones de esta teora fueron presentadas en Cartwight (1979) y Skyrms (1980)
Vease tambien el concepto de screening off presentado en Reichenbach (1956) y Suppes (1970).
12
Vease Lechner (2006) y Heckman (2000) para una discusion de mayor profundidad en cuanto
a la diferencia de estos conceptos.
356
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
que la variable x causa a la variable y si somos capaces de dar una mejor prediccion
del valor futuro de y usando el valor contemporaneo de x.
Definicion 15 Decimos que xt causa a yt+1 si somos capaces de predecir mejor
yt+1 usando toda la informacion disponible, que si la informacion distinta de xt
hubiera sido usada.13
11.1.4. La Granger-Causalidad
Retomando la nocion de causalidad de Granger, analizaremos la metodologa de la
prueba que lleva el mismo nombre. Para probar si una variable x causa a la variable
y plantearemos la siguiente ecuacion:14
yt = 0 + 1 yt1 + 2 yt2 + . . .
. . . + r ytr + 1 xt1 + . . . + s xts + u1t
(11.1)
(11.2)
(SRCR SRCN R ) /s
SRCN R / (T r s)
(11.3)
Donde SRCR y SRCN R corresponden a la suma de residuales cuadraticos de la regresion restringida y de la no-restringida, respectivamente; la hipotesis nula, evidentemente trata de la no-significancia de los s rezagos de la variable x en la regresion
no-restringida. De cumplirse dicha hipotesis nula, nuestro calculo correspondera a
13
14
357
una distribucion de F de Fisher dado que se trata de un cociente de sumas cuadraticas independientes cuya distribucion es, en ambos casos, 2 . As pues, esta es la
forma en la que se prueba la hipotesis nula de no Causalidad en el sentido de Granger entre variables. Es posible definir el numero de rezagos de ambas variables en
las regresiones auxiliares mediante criterios de seleccion tales como el de Akaike
(AIC) o el Bayesiano (BIC), que ya habamos visto en el primer curso de econometra. Para finalizar la discusion, vale la pena dejar bien asentado que estamos
probando:
1. H0 : x no causa en el sentido de Granger a y
2. Ha : x s causa en el sentido de Granger a y
Ejemplo 18 Explicar algunos aspectos adicionales de la prueba de Granger-Causalidad (GC) es mas facil mediante un ejemplo. Una pregunta que podramos tratar
de responder con esta prueba es la siguiente:
E L P IB G RANGER -C AUSA L A D EMANDA D E D INERO [P IB M ]?
[M P IB]?
O ACASO ES AL R EV ES
As, haremos dos veces la prueba, y no solo una vez. De lo anterior es evidente
que pueden salir diversos resultados, mismos que el econometrista siempre debe
contemplar:
1. P IB M y M P IB > causalidad unidireccional del ingreso a la
demanda de dinero,
2. P IB M y M P IB > causalidad unidireccional de la demanda de
dinero al ingreso,
3. P IB 6 M Sin relacion causal,
4. P IB M Causalidad bidireccional.
358
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.2.
Exogeneidad
11.2. EXOGENEIDAD
359
implica que, rezagos de dicho regresor pueden ser empleados como instrumentos.
Lo anterior nos abre una nueva cantera de donde extraer instrumentos. Huelga decir que ello no nos exime de ejecutar las pruebas de relevancia y validez de los
instrumentos.
En la proxima seccion veremos algunas extensiones del concepto de exogeneidad
que se han suscitado desde principios de los ochenta.
1. EXOGENEIDAD D EBIL
2. E XOGENEIDAD F UERTE
3. S UPER E XOGENEIDAD
Suponga, para aclarar un poco las ideas, que tenemos el siguiente modelo:
yt = zt + 1t
zt = 1 zt1 + 2 yt1 + 2t
(11.4)
Davidson y Mackinnon (2004) y Maddala (1992) inter alia desestiman el concepto, pero otros
autores, como Ericsson, Johansen, Hunter, Juselius, Ahumada, Granger, Campos y Hansen, no. Consulte el libro Testing Exogeneity de Ericsson y Irons para mas detalles.
16
Misma que sera abordada mas adelante.
360
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.2. EXOGENEIDAD
361
pt = bqt + v1t
qt = kpt1 + 2t
(11.5)
(11.6)
donde v1t iidN (0, 2 ), 2t iidN (0, 22 ), E(qt v1t ) = 0 y E(2t v1t ) = 0; las
variables estan transformadas en logartmos.
La interpretacion es bastante directa; la ecuacion (11.5) se deriva de una ecuacion
de demanda, el precio pt vaca el mercado dada la cantidad qt ofertada. El valor
1
corresponde a la elasticidad-precio de la demanda. Por otra parte, la ecuacion
b
(11.6) es la funcion de oferta que captura como la cantidad que los productores
deciden ofrecer en t es funcion del precio que obtuvieron en t 1. El parametro k
es la elasticidad-precio de la oferta.
En este tipo de modelo, el estudio de la estabilidad del sistema puede ser en muchas
ocasiones el principal objeto de estudio (en series de tiempo, denotaramos esto
como estudio de estacionariedad). En particular, en una version tan sencilla, es
facil ver la manera de analizarla; basta con encontrar lo que hasta ahora hemos
llamado ecuacion reducida mediante la combinacion de las dos ecuaciones:
pt = pt1 + 1t
donde = b k y 1t iidN (0, 11 ). En el proximo captulo quedara claro (esperemos) que, si | |< 1, la dinamica del mercado es estable; si | |= 1, el mercado
19
La ejemplificacion de la exogeneidad debil con base en este modelo fue retomada de Ericsson
(1994). Tambien se retomaron elementos de la discusion que aparece en Johnston y DiNardo (1997),
as como en Maddala (1992).
362
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
genera precios que oscilan sin que e stos convergan, y; si | |> 1, la dinamica es
inestable.20
Ahora s, veamos como nuestro parametro de interes as como los espacios parametricos determinan si la variable qt en la ecuacion (11.5) es debilmente exogena o no
y con respecto a que parametro lo es. Recuerde que nuestro objetivo es justamente poder estimar esa ecuacion sin preocuparnos de la otra. Considere que lo que
nos interesa estimar es la funcion de demanda. En particular, considere si las dos
condiciones que permiten exogeneidad debil quedan satisfechas. En la definicion de
exogeneidad debil hacamos referencia a los parametros de la densidad condicional
y los de la densidad marginal. En este caso es facil identificarlos:
Parametros de la densidad condicional: 1 = (b, 2 )
Parametros de la densidad marginal: 2 = (k, 22 )
La primera condicion para que qt sea debilmente exogena es que el parametro de
interes sea funcion u nicamente de los parametros de la densidad condicional. Si
dicho parametro es la elasticidad de la demanda, 1b , entonces debera quedar claro
que la primera condicion s se cumple; por otra parte, si la estabilidad del sistema, , es el parametro de interes, entonces, esa misma condicion ya no se cumple
(puesto que b y k pertenecen a 1 y 2 , respectivamente). Dado que ese parametro requiere el conocimiento de las dos ecuaciones (contrariamente a 1b ), hacerlo
solo con la primera ecuacion resultara inadecuado. As, la variable qt satisface
la primera condicion de la exogeneidad debil (ED) cuando el parametro de interes
es b, pero no cuando e ste es . Como podran ver, la seleccion del parametro de
interes no es trivial. La segunda condicion de ED se puede interpretar como el libre
albedro de los parametros en cada espacio parametrico. Los parametros de 1 y
los de 2 deben ser libres en su variacion y no estar restringidos mutuamente. Presentaremos ahora tres situaciones en las que a veces se satisface la condicion y a
veces no. Para efectos de claridad en la exposicion, haremos caso omiso de 2 y de
22 en sus respectivos espacios parametricos. Lo anterior permite que el espacio
parametrico completo, denotado pueda ser analizado en un plano (puesto que se
trata del espacio de (b, k)). Vea el grafico (11.1, panel a)]
20
En todo caso, si asume que el proceso empezo en el tiempo 0 y que en ese momento el precio
era P0 , por sustitucion puede llegar a la expresion pt = t p0 + t1 1,1 + . . . + 1,t +. Si | |< 1
el sistema olvida los s pasados (a una tasa exponencial, por cierto); si | |= 1 el sistema nunca
olvida los s pasados y por lo mismo no podemos esperar convergencia alguna hacia el equilibrio;
si | |> 1 el sistema no solo no olvida los s pasados, sino que la importancia de los mismos crece
(tambien, a una tasa exponencial) entre mas remotos sean.
11.2. EXOGENEIDAD
363
1. Suponga que tanto b como k pueden adoptar cualquier valor real sin restriccion alguna. El espacio parametrico es entonces 2 , es decir, el plano real
entero. Para cada valor de k, el parametro b puede adoptar cualquier valor
entre el intervalo (, +) (lo que corresponde a 1 ) y viceversa. Los valores de los parametros de la densidad condicional no afectan el rango de
los valores que puedan adoptar los parametros de la densidad marginal (y
viceversa). Ello implica que 1 y 2 son libres en su variacion (tienen libre
albedro); De forma equivalente, y con objeto de acercarnos a la segunda
condicion de la ED, podemos decir que, en este caso, el espacio parametrico
es el producto 1 2 : (, +) (, +), lo cual corresponde a
2 . Una vez satisfecha la segunda condicion, podemos decir que qt es debilmente exogena a la elasticidad ( 1b ).
2. Ahora suponga que restringimos los valores de b y k de tal suerte que aseguramos que el sistema es estable. Ello implica satisfacer la siguiente condicion: | b k |< 1. Esta vez, el espacio parametrico no es tan grande. De
hecho, es facil representarlo en el plano [ver grafico (11.1, panel b)].
Lo importante aqu es constatar que los valores de k s afectan los valores de
b (y viceversa). Por ejemplo, si k = 0.5, entonces b queda limitado a estar en
el intervalo (2, +2); si k = 0.2, entonces b queda esta vez limitado a estar
en el intervalo (5, +5); si b = 1, entonces k queda limitado a estar en el intervalo (1, +1). Expresado de otra manera, el espacio parametrico ya no
es el producto 1 2 : (5, +5)(1, +1), lo cual no corresponde a , que
esta acotado por | bk |< 1. Tambien esto se puede interpretar de la siguiente
manera: el valor de k es informativo del valor de b, lo confina. Ya para rematar, constatamos que el libre albedro entre los dos espacios parametricos
ya no se da. La inferencia usando solamente la densidad condicional cuando
nos limitamos a versiones estables del modelo, nos hace perder informacion
relevante. No podemos saber respecto a esa estabilidad sin considerar la densidad marginal (vaya, la ecuacion de oferta, en este caso).
3. Asuma ahora, por ejemplo, que la teora economica o bien la intuicion (muy
aguda) sugiere las siguientes restricciones:
La elasticidad de la oferta, k, yace en el intervalo [0, 1),
La elasticidad de la demanda, 1b , es negativa y mayor o igual a uno en
valor absoluto.
364
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Note que la segunda restriccion implica que 1 b 0. El espacio parametrico aparece en la figura [ver grafico (11.1, panel c)]. El parametro b estara entre 1 y 0 independientemente del valor que adopte k, que a
su vez sera cualquier valor entre 0 y 1. En este caso, los parametros s tienen libre albedro y no hay restricciones cruzadas que, valga la expresion,
los restringan. Esta vez el producto de los espacios parametricos, 1 2 :
[1, 0] [0, +1) si corresponde con el espacio parametrico en donde (b, k)
yace. As, al imponer unas restricciones sobre las elasticidades, hemos vuelto
a satisfacer la segunda condicion de la ED: qt es debilmente exogeno sobre
la elasticidad de la demanda.
Figura 11.1: Posibles espacios parametricos (usando el modelo Telarana). (a) sin
restricciones de ninguna ndole (satisface 2a condicion de ED); (b) condicionado a
que sea estable (no satisface 2a condicion de ED); (b) condicionado a que sea estable mas restricciones de elasticidad (satisface 2a condicion de ED). Fuente: Fundamentado en el ejemplo propuesto por Ericsson y Irons (1994) con extensiones
propias.
11.2. EXOGENEIDAD
365
Exogeneidad fuerte
El lector habra notado que el concepto de exogeneidad debil exigio una ejemplificacion donde aparecen rezagos. Ello le imprime a nuestros modelos propiedades
dinamicas (evolucionan en el tiempo). Si bien el tratamiento dinamico en econometra hara objeto de todo un captulo (el siguiente) y no ahondaremos demasiado
de momento, s es importante recalcar el lazo entre las propiedades de las variables (en tanto exogenas o endogenas) y la dinamica de la especificacion. Como
habamos mencionado al principio de esta seccion, la ED corresponde al analisis
de parametros de interes; ah mismo tambien senalamos que la exogeneidad fuerte
(EF) esta emparentada con la finalidad de elaborar pronosticos. Esto u ltimo, si lo
piensan con detenimiento, tiene relacion con otra discusion que ya llevamos a cabo
anteriormente: la G RANGER -C AUSALIDAD.
La causalidad en el sentido de Granger se refiere, a grandes trazos, a la capacidad
predictiva de una variable con respecto a otra. As, si lo que nos interesa es poder
predecir el comportamiento de una variable, yt , con base en otra mas, zt , no solo nos
interesara que la segunda sea debilmente exogena a todos los parametros de nuestra
especificacion (11.4) sino que ademas, la primera no cause en el sentido de Granger
a la segunda. De esta manera, podremos asegurarnos de varias cosas: en primera
instancia, con base en la ED, sabremos que la estimacion sera posible; si ademas
tenemos que la capacidad predictiva es unidireccional y solo va de z a y (Maddala
prefiere llamar a esto precedencia), entonces podremos utilizar nuestra estimacion
para hacer pronosticos sin preocuparnos de una retroalimentacioninexistenteal no
haber tomado en cuenta el modelo marginal (11.6). La definicion de exogeneidad
fuerte es la siguiente:
Definicion 19 Sean dos variables aleatorias yt y zt . La variable zt es fuertemente
exogena en el periodo de muestra T s:
1. zt es debilmente exogena a todos los parametros del modelo condicional,
2. yt no causa en el sentido de Granger a zt .
La mejor forma de entender este nuevo concepto es, otra vez, con un pequeno ejemplo que se ha simplificado para resaltar algunos puntos sin perder tiempo en cuestiones ajenas a la EF. Suponga los siguientes modelos, condicional as como marginal:
yt = b0 zt + b1 zt1 + b2 yt1 + v1t
zt = 21 yt1 + 22 zt1 + 2t
(11.7)
(11.8)
366
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
donde v1t iidN (0, 2 ), 2t iidN (0, 22 ). Recuerde que la exogeneidad nos
preocupa porque queremos ver si podemos usar solo el modelo condicional (11.7)
para satisfacer nuestros fines sin tomar en cuenta el modelo marginal (11.8). En
este caso, nuestros fines se traducen en predecir yt con base a la estimacion de la
especificacion (11.7). Pero esta vez la ED no basta; resulta obvio, por las ecuaciones, que la variable zt no puede ser tratada como fija en el ejercicio de predecir yt .
Nuestra variable zt se ve influenciada por el rezago yt1 . Esa relacion de la variable
debilmente exogena con el pasado de la endogena hace imposible hacer pronosticos de mas de un paso sin tomar en cuenta el modelo marginal (que es lo que no
queremos). Para poder hacer pronosticos de esa forma, necesitamos que 21 = 0.
As, podremos prescindir de (11.8). Mas importante aun, es esa condicion la que se
prueba con la Granger-Causalidad.
Super exogeneidad
El concepto de super exogeneidad (SE) es el que definiremos de manera mas coloquial. Como se senalo en un principio, la SE es requerida si la finalidad es hacer
analisis de poltica economica. Esto esta muy emparentado con la famosa Crtica de
Lucas. Para poder ahondar al respecto, empezaremos dando la definicion de la SE:
Definicion 20 Sean dos variables aleatorias yt y zt . La variable zt es super exogena
en el periodo de muestra T s:
1. zt es debilmente exogena a todos los parametros del modelo condicional,
2. Los parametros de la densidad condicional son invariantes ante cambios en
la densidad marginal de zt .
El concepto de invarianza puede ser explicado de la siguiente manera. Suponga que
las ecuaciones (11.7) y (11.8) corresponden al Producto Interno Bruto, P IB (yt ) y al
agregado monetario M0 (zt ). La Ecuacion marginal, (11.8) podra entonces corresponder a una regla de decision de las autoridades monetarias (es decir que el Banco
Central tomara la decision de fijar M0 con base en esa ecuacion), mientras que la
ecuacion condicional, (11.7), representara la reaccion de los agentes economicos
en materia de produccion ante cambios en el stock monetario. La Crtica de Lucas
sugiere que la estimacion de esta u ltima ecuacion bajo un cierto regimen monetario
no provee informacion valida respecto al comportamiento de los agentes ante otro
regimen. Aqu lo importante a decir es que, s M0 es SE, la Crtica de Lucas ya
no aplicara. Tecnicamente, recuerde que los parametros de la densidad condicional
11.2. EXOGENEIDAD
367
368
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
(11.9)
(11.10)
donde DUt = 0 si t < 1999 y DUt = 1 e.o.c. Debera resultarles obvio que, si
el Banco avaluo los efectos de su cambio de poltica basado en estimaciones del
modelo original, andara muy errado.
Note que no es posible asegurarnos que los parametros de la condicional seran siempre invariantes ante cambios en los parametros de la marginal. Solo podemos constatar que lo han sido en una muestra particular. Por lo mismo, la super exogeneidad permanecera siempre como una conjetura. Lo cierto es que, en tanto conjetura,
siempre estaremos en riesgo de que datos adicionales nos prueben lo contrario.
La relacion entre los tres tipos de exogeneidad puede ser representada de manera
muy elocuente con un diagrama de Venn como el que aparece en la figura (11.2).
Exogeneidad Dbil
Exogeneidad
Fuerte
Causalidad de
Granger
Super
Exogeneidad
Invarianza
11.2. EXOGENEIDAD
369
Ejemplo 20 Los tres conceptos de exogeneidad pueden ser mejor entendidos por
medio de un ejemplo. Suponga que se quiere estimar una demanda de dinero. La
motivacion de esta estimacion puede variar segun el econometrista que lo haga y
donde trabaje:
1. Estudiante del curso de econometra II. La motivacion principal de e ste es el
caracter coercitivo del profesor que lo obliga a estimar la demanda. Es razonable asumir que dicho profesor solicitara la estimacion de la elasticidad de
la demanda de dinero con respecto a una variable, digamos la tasa de interes.
El estudiante debera preocuparse por obtener un estimador de e sta que sea
consistente, razon por la cual solo requiere que la variable tasa de interes
sea debilmente exogena al parametro de interes. El resultado que se presentara es un numero que represente lo mas fielmente posible la elasticidad en
cuestion.
2. Egresado de la carrera de economa que logro colocarse en una consultora
privada. En este caso, al recien egresadoy orgulloso empleado de una firma consultora con nombre en ingles y base en Polancole encargan hacer
pronosticos de la demanda de dinero, mismos que formaran parte de un proyecto que le venderan a alguna obscura dependencia publica o bien a un banco comercial por millones y millones de devaluados pesos. El recien egresado
no solo debe preocuparse por estimar correctamente la demanda de dinero
(es decir, no solo requiere exogeneidad debil), sino que ademas debe tener
cierta confianza en la capacidad predictiva de su estimacion. Para ello, debe asegurarse que solo necesita estimar la demanda de dinero (la ecuacion
condicional) y no tambien la ecuacion de la tasa de interes (por ejemplo).
Como ya se vio antes, a este brillante egresado solo le hara falta tomar sus
estimaciones del curso de econometra II y aplicar una prueba de GrangerCausalidad. Si no hay Granger-Causalidad de la tasa de la demanda de dinero a la tasa de interes, entonces podra usar su ecuacion para construir
pronosticos.
3. Egresado ya no tan joven que logro meterse al Banco de Mexico. A este brillante egresado, ya mas cuarenton y con algunas canas, ahora le han solicitado que evalue la posibilidad de cambiar las reglas de la subasta de CETES
que ha venido usando Banxico. Las autoridades maximas quieren ver el impacto de e stos cambios en la demanda de dinero. En ese sentido, nuestro viejo egresado conoce la manera en la que el Banco reacciona, por lo que solo
necesita saber, ademas de que la tasa de interes es debilmente exogena al
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
370
11.3.
DE ERROR
11.3. MECANISMO DE CORRECCION
371
Densidad
PROCESO
ALEATORIO
Tiempo
1
0.8
0.6
0.4
0.2
0
0.5
372
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
En cada instante t tenemos una variable aleatoria que sigue una distribucion
particular (en este caso, una normal). Se dispone de una sola realizacion de
la distribucion para cada tiempo. Las caractersticas anteriores pueden cristalizarse en dos supuestos fundamentales, estacionariedad y ergodicidad. En
teora de la probabilidad, un proceso estocastico, estacionario y ergodico implica, esencialmente, que (i) las propiedades de dicho proceso no cambiaran
con el tiempo y (ii) que e stas (las propiedades estadsticas), como pueden ser
su esperanza teorica y su varianza, pueden deducirse a partir de una u nica
observacion en cada periodo, si el numero de periodos observados es suficientemente grande. En palabras llanas, estos conceptos pueden explicarse de
la siguiente manera:
1. Estacionariedad es la propiedad de un proceso aleatorio que garantiza
que sus propiedades estadsticas, lease sus momentos, no cambian a lo
largo del tiempo. Hay muchas variedades de estacionariedad: de primer
orden, de segundo orden, de enesimo o rden, amplia, estricta. Nosotros
solo emplearemos dos de estas definiciones.
2. Un proceso que satisface un teorema de ergodicidad (es decir, un proceso ergodico) es tal que permite que el calculo emprico (o muestral) de
sus momentos, usando las observaciones, se aproxime asintoticamente a
su equivalente teorico. Es importante hacer notar que en series de tiempo solo recolectamos una observacion por periodo. Piense, por ejemplo
en el dato del PIB. Ese dato es una estimacion de la produccion hecha en
un pas. Por lo general, solo un instituto lo calcula. En un mundo ideal,
habra muchos institutos haciendo lo mismo y al final de cada trimestre
podramos promediar los distintos estimadores del PIB sabiendo que,
todos ellos estaran extrados de la misma distribucion (para ello hara
falta explicitar supuestos tecnicos que de momento omitimos). En la
practica, solo tenemos una por trimestre. Para promediar, solo podemos
hacerlo con observaciones que no se hicieron en los mismos periodos; es
la propiedad de la ergodicidad la que garantiza que al hacer eso nuestro
estimador sigue siendo adecuado.
A continuacion definiremos con mucha mas precision esos conceptos:
Estacionariedad: la estacionariedad es quiza una de las palabras mas frecuentemente empleada en econometra de series de tiempo. Es importante entender con claridad a que se refiere:
DE ERROR
11.3. MECANISMO DE CORRECCION
373
374
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Rt = R0 + t +
t1
X
i=0
Vti
DE ERROR
11.3. MECANISMO DE CORRECCION
375
E (Rt ) = R0 + t +
E (Rt ) = R0 + t
t
X
i=1
E (Vti )
| {z }
=0
Este supuesto puede levantarse sin mucha pena, pero no tiene caso puesto que complicara la
exposicion.
22
Ventosa-Santaul`aria
(2009)
provee
una
revision
de
la
literatura
un
poco
mas
extendida.
El
artculo
puede
ser
descargado
en
http://www.hindawi.com/journals/jps/2009/802975.pdf.
376
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
no esta circunscrito a ello). Puesto que aun no tenemos los elementos para estudiarla teoricamente, de momento nos conformaremos con un pequeno experimento
de Monte Carlo. Dicho experimento solo tiene la finalidad de ilustrar el fenomeno,
aunque se hara de manera muy extendida, para que no queden dudas respecto al
alcance de este problema.23
Lo primero que necesitamos para ilustrar el fenomeno de regresion espuria es proveer una definicion formal de la misma. Usaremos una inspirada en el trabajo de
Granger, Hyung y Jeon (2001):24
Definicion 25 Una regresion espuria ocurre cuando se infiere evidencia de una relacion lineal entre dos variables independientes entre s pero con propiedades temporales fuertes (mucha persistencia o dependencia fuerte del pasado) con base
en los instrumentos basicos de Mnimos Cuadrados Ordinarios (R2 , Estadsticos t,
prueba conjunta de F,...).
Los procesos generadores de datos
Los procesos generadores de datos (DGP s, por sus siglas en ingles) que vamos a
usar para simular las series deben garantizarnos dos cosas:
1. que las series no esten relacionadas entre s,
2. que las series no sean estacionarias.
Usaremos el proceso no estacionario mas sencillo:
zt = zt1 + uzt ,
donde z = x, y. Asumiremos que el proceso empieza en z0 = 0 y que uzt
N (0, z2 ). As, podemos resolver la ecuacion de la siguiente manera:
zt =
t
X
uzi .
|i=1{z }
t
23
Esta seccion esta basada en la que aparece en el libro de Davidson y MacKinnon (2004): Econometric Theory and Methods.
24
Es importante senalar que este fenomeno ya haba sido identificado por Yule, en 1927, pero no
en el contexto de una regresion, sino de un coeficiente de correlacion.
DE ERROR
11.3. MECANISMO DE CORRECCION
377
E(zt ) = E(
t
X
uzi )
i=1
= 0
V (zt ) = E
= t
z2 .
t
X
i=1
uzi
!2
As, este proceso no satisface la segunda condicion de la definicion de estacionariedad debil. Su varianza (un segundo momento) depende del tiempo.
Usaremos otro proceso tambien, el visto en el ejemplo de la riqueza; lo utilizaremos
utilizando una notacion mas estandar (se mantienen los supuestos antes explicitados):
wt = w + wt1 + uwt
= w t + w,t .
El simple hecho de incluir una constante en el DGP conlleva cambios importantes. Ahora el proceso no solo tiene una raz unitaria, sino que ademas incluye
una tendencia lineal determinista.25 Ademas, como se vio justamente en el ejemplo del principio de la seccion, ahora la esperanza del proceso ya no es constante:
E(wt ) = w t. En todo caso, ahora ya tenemos dos ejemplos de procesos no estacionarios. Note como, al aplicar la primera diferencia a esta serie (operador diferencia,
denotado ), recuperamos la estacionariedad. Si el proceso no tiene deriva:
(zt ) = zt zt1
= uzt
Si el proceso s tiene deriva
25
Dado que la constante en realidad es una tendencia determinista, suele ser denominada deriva
o drift en ingles.
378
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
(wt ) = w + uwt
Lo anterior es sorprendentemente simple e importante. Si un proceso requiere ser
diferenciado una vez para volverlo estacionario, se dice que es integrado de orden
uno; si se requiere diferenciar dos veces, entonces el proceso es I(2) y as sucesivamente. As, podemos aprovechar nuestra notacion para definir el comportamiento
tendencial de nuestras series:
zt I(1)
(zt ) = uzt
I(0)
wt I(1)
(wt ) = w + uwt
I(0)
Ya con dos procesos no estacionarios a la mano es posible ilustrar el fenomeno de
la regresion espuria. Para ello, lo mas conveniente es repoducir el experimento de
Monte Carlo presentado por Granger y Newbold en 1974.
Ejercicio 15 Ilustracion de la regresion espuria: en este ejercicio de programacion, debera generar artificialmente cuatro series no estacionarias e independientes entre s. Preferentemente, hagalo en matlab:
1. Defina el tamano de muestra, T = 250 (un tamano cercano al que se encuentra en la practica),
2
2
2
2. Defina las varianzas de nuestras cuatro variables, x1
= 1, x2
= 0.7, y1
=
2
1.2 y y2 = 4,
3. genere cuatro ruidos independientes, ux1t , ux2t , uy1t y uy2t , con esperanza
cero y varianza definida en el inciso anterior,
4. defina dos constantes, x = 0.04 y y = 0.07,
5. Construya la serie tiempo, tps = (1, 2, 3, . . . , T ) [use el comando cumsum],
DE ERROR
11.3. MECANISMO DE CORRECCION
379
6. Asuma que los valores iniciales de todas las series son igual a cero, x1,0 =
x2,0 = y1,0 = y2,0 = 0,
7. Construya las series no estacionarias, aplicando un operador de suma movil
a los ruidos; x1 y y1 no tienen deriva; las otras dos s [use el comando cumsum para la tendencia estocastica],
8. Grafique las dos series,
9. Estime las regresiones y1t = 1 + 1 x1t + u1t y y2t = 2 + 2 x2t + u2t . De
ambas regresiones almacene el estimador de delta, el estadstico t asociado,
la R2 y el estadstico DW (Durbin-Watson),
10. Repita 1, 000 veces los pasos anteriores (es decir, haga un experimento de
Monte Carlo) y genere los histogramas de todas las caractersticas de las
regresiones recopiladas en el inciso anterior.
El codigo debio haberle quedado parecido al siguiente:
%-----------------------------------------------% Regresi
on espuria
% Simulaci
on de procesos independientes
% Estimaci
on de regresiones
%-----------------------------------------------clear all
%-----------------------------------------------% Declaraci
on del tama
no de muestra, # de
% replicaciones, varianzas y constantes:
T=250; Sx1=1;
Sx2=sqrt(0.7);
R=1000; Sy1=sqrt(1.2); Sy2=2;
Mx=0.04;
My=0.07;
%-----------------------------------------------% Vectores de almacenamiento:
D1=zeros(R,1); D2=zeros(R,1);
tD1=zeros(R,1); tD2=zeros(R,1);
R21=zeros(R,1); R22=zeros(R,1);
DW1=zeros(R,1); DW2=zeros(R,1);
%------------------------------------------------
380
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
for j=1:R
% Generaci
on de ruidos y del "tiempo":
Ux1=randn(T,1)*Sx1;
Ux2=randn(T,1)*Sx2;
Uy1=randn(T,1)*Sy1;
Uy2=randn(T,1)*Sy2;
Cste=ones(T,1);
Tps=cumsum(Cste);
% Generaci
on de variables no estacionarias:
x1=cumsum(Ux1);
y1=cumsum(Uy1);
x2=Mx*Tps+cumsum(Ux1); y2=My*Tps+cumsum(Uy1);
% Estimaci
on de regresiones y almacenamiento:
REG1=ols(y1,[Cste,x1]);
REG2=ols(y2,[Cste,x2]);
% [necesita descargar la librer
a jpl para tener
% acceso al comando ols]
D1(j)=REG1.beta(2);
D2(j)=REG2.beta(2);
tD1(j)=REG1.tstat(2);
tD2(j)=REG2.tstat(2);
R21(j)=REG1.rsqr;
R22(j)=REG2.rsqr;
DW1(j)=REG1.dw;
DW2(j)=REG2.dw;
end
%-----------------------------------------------% Gr
afico de Series:
figure(1)
subplot(2,1,1)
plot(Tps,x1,Tps,y1)
subplot(2,1,2)
plot(Tps,x2,Tps,y2)
%-----------------------------------------------% Histogramas:
figure(2)
subplot(2,4,1)
hist(D1,20);title((a));
subplot(2,4,2)
hist(tD1,20);title((b));
subplot(2,4,3)
hist(R21,20);title((c));
subplot(2,4,4)
DE ERROR
11.3. MECANISMO DE CORRECCION
381
hist(DW1,20);title((d));
subplot(2,4,5)
hist(D2,20);title((e));
subplot(2,4,6)
hist(tD2,20);title((f));
subplot(2,4,7)
hist(R22,20);title((g));
subplot(2,4,8)
hist(DW2,20);title((h));
Si todo le salio bien, sus graficos deberan parecerse a estos:
x1,y1
(a)
(b)
15
160
10
140
120
100
80
10
60
15
40
20
20
25
100
200
0
5
(c)
(d)
200
(e)
300
250
250
200
150
200
150
100
150
100
100
50
50
50
0
50
50
0.5
0.2
0.4
tiempo
(abis)
(bbis)
160
140
20
140
120
120
15
x2,y2
(cbis)
25
120
80
60
100
200
40
50
20
20
0
5
60
40
40
5
10
100
60
100
80
80
5
(ebis)
140
150
100
100
10
(dbis)
200
0
50
20
0
50
100
0.5
0.2
0.4
tiempo
Figura 11.4: Regresion espuria. (a) series no estacionarias independientes; (b) estimador de ; (c) estadstico t asociado a delta; (d) R2 ; (e) estadstico Durbin-Watson.
Superndice bis indica que las variables tienen deriva
La razon por la que tambien se incluyo el estadstico Durbin-Watson el ejercicio de
Monte Carlo es muy sencilla. Existe una regla de dedo (quiza podramos llamarla
una regla heurstica) para determinar de manera preliminar la posibilidad de que
la inferencia extrada de una regresion sea espuria. Como se vio anteriormente,
el estadstico DW se usa formalmente para identificar autocorrelacion de primer
orden. Las simulaciones de Granger y Newbold y, posteriormente, los resultados
teoricos de Phillips (1987) permiten saber que la bondad del ajuste en una regresion
382
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
espuria, medida por la R2 , no se colapsa, sino que se distribuye entre cero y uno
(en el caso de races unitarias sin deriva) o bien tiende a uno (cuando las races
unitarias tienen deriva). Tambien esta bien establecido que el estadstico DW e se
s, se colapsa (tiende a cero). La regla heurstica es, concretamente, la siguiente:
C UANDO LA BONDAD DEL AJUSTE ES MAYOR AL ESTAD I STICO DW , R2 >
SEA ESPURIA .
DW , CONSIDERE LA POSIBILIDAD DE QUE SU REGRESI ON
Debe quedar claro que esta regla, aunque sencilla y practica, dista mucho de ser infalible. Tan solo u sela como indicativo de que quiza no este lidiando correctamente
con el supuesto de estacionariedad de las series.
Un problema de especificacion?
Davidson y MacKinnon argumentan que el principal efecto de la regresion espuria
(rechazo de la hipotesis nula de los estadsticos t individuales) se debe, al menos en
parte, a un problema de especificacion. Para entender dicho argumento, considere
dos variables independientes entre s gobernadas por races unitarias sin deriva:
yt = yt1 + uyt
xt = xt1 + uxt
Suponga ahora que busca relacionarlas, linealmente, mediante una regresion estimada con MCO:
yt = xt + ut
La fuerza del argumento de Davidson y MacKinnon estriba en lo siguiente: la
hipotesis nula del estadstico t asociado a es que este u ltimo es igual a cero,
lo cual es cierto, puesto que las series son independientes. No obstante, si usted impone en la regresion el que = 0, se queda con una expresion notoriamente alejada
del verdadero proceso generador de y:
y t = ut
Segun esta u ltima ecuacion, yt se comporta como un proceso estacionario I(0).
Eso, huelga decir, no es cierto. Davidson y MacKinnon sugieren que la correcta
especificacion del modelo sera mas bien:
DE ERROR
11.3. MECANISMO DE CORRECCION
383
yt = xt + yt1 + ut
Note que, al imponer la restriccion = 0, nos queda una especificacion correcta de
la variable dependiente, yt = yt1 +ut , especialmente si = 1. Lo anterior implica
que la regresion espuria puede verse, efectivamente como un problema de especificacion. No obstante, el fenomeno de la regresion trasciende la especificacion. Hay
un problema especfico con el hecho de trabajar con variables no estacionarias. Si
solo se tratara de un problema de especificacion, entonces deberamos poder observar que, para el caso de dos series independientes, el estadstico t asociado a en
la u ltima regresion solo debera rechazarse un 5 % (si usamos un nivel de 5 %, claro esta). Eso desgraciadamente no ocurre. Para verlo, basta con repetir el ejercicio
anterior.
Ejercicio 16 Ilustracion de la regresion espuria, segunda parte: en este ejercicio
de programacion, debera generar artificialmente dos series no estacionarias e independientes entre s:
1. Defina las varianzas de nuestras dos variables, x2 = 1 y y2 = 1.2,
2. genere dos ruidos independientes, uxt y uyt , con esperanza cero y varianza
definida en el inciso anterior,
3. Asuma que los valores iniciales de todas las series son igual a cero, x0 =
y0 = 0,
4. Construya las series no estacionarias, aplicando un operador de suma movil
a los ruidos,
5. estime la regresion yt = xt + yt1 + ut . Almacene el estadstico asociado
a ,
6. Repita 1, 000 veces los pasos anteriores para distintos tamanos de muestra,
T = 25, 40, 100, 200, 500, 1000 y grafique la tasa de rechazo de la hipotesis
nula (usando un valor crtico igual a 5 %)
si usted ejecuto correctamente el ejercicio, debio obtener un grafico similar a esto:26
26
En realidad, siguiendo las instrucciones antes marcadas difcilmente llegara al mismo grafico.
Si realmente quiere obtenerlo, aumente el numero de tamanos de muestra (en incrementos de 5
observaciones desde 20 hasta 750) y, sobre todo, aumente el numero de replicaciones a 1, 000, 000.
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
384
0.50
0.45
0.40
0.35
0.30
0.25
100
200
300
400
Tamao de muestra
500
600
700
Figura 11.5: Regresion espuria usando la especificacion correcta. Note que el nivel
no es el 5 % esperado, aun tomando en cuenta la raz unitaria en yt .
DE ERROR
11.3. MECANISMO DE CORRECCION
385
Dickey-Fuller. Esa prueba esta disenada para identificar procesos con raz unitaria.
La idea de base es muy sencilla. Suponga que tiene el siguiente proceso:
yt = yt1 + uyt
Por lo visto en la seccion anterior, recordara que el proceso es estable/estacionario
si | |< 0, mientras que si = 1, el proceso tiene una raz unitaria. La manera mas
intuitiva de salir del paso es corriendo una regresion identica a la especificacion y
haciendo una prueba sobre el parametro :
t =
386
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Ejercicio 17 Distribucion de la prueba Dickey-Fuller: en este ejercicio de programacion, debera generar artificialmente una serie no estacionaria, aplicarle la
prueba de Dickey-Fuller, repetir el experimento 500 veces, obtener la distribucion
del estadsto t y compararlo con una normal estandar:
1. Defina la varianza de nuestra variables, y2 = 1 y el tamano de muestra,
T = 1, 000,
2. genere un ruido iid normal, uyt , con esperanza cero y varianza definida en el
inciso anterior,
3. Asuma que los valores iniciales de la serie son igual a cero, y0 = 0,
4. Construya la series no estacionaria, aplicando un operador de suma movil
al ruido,
5. Aplique la prueba DF y almacene el estadstico t asociado a ,
6. Repita 500 veces los pasos anteriores y obtenga el histograma del estadstico
t,
7. calcule el percentil 5 % de la distribucion de DF,
8. Superponga la distribucion normal estandar,
9. Compare.
Note como la cola izquierda de la distribucion (que es la que nos interesa) es distinta
a la de la normal estandar; esta mas a la izquierda y es mas pesada. Lo anterior
queda confirmado con el valor del percentil 5 % Por esa sencilla razon, no es posible
usar los valores crticos de siempre. Afortunadamente, Dickey y Fuller calcularon
dichos valores crticos y los tabularon. Hoy en da, todos los paquetes econometricos
los tienen incorporados entre sus opciones.
El codigo que genera lo anterior es:
%-----------------------------------------% Prueba de Dickey-Fuller, distribuci
on
%------------------------------------------clear all
DE ERROR
11.3. MECANISMO DE CORRECCION
387
0.50
0.45
0.40
0.35
N(0,1)
0.30
0.25
0.20
0.15
0.10
0.05
Figura 11.6: Distribucion de la prueba Dickey-Fuller y comparacion con la Distribucion normal estandar.
% Declaraci
on del tama
no de muestra, # de
% replicaciones, varianzas y constantes:
T=1000; Sy=1;
R=10000;
% Vectores de almacenamiento:
tic;
tB=zeros(R,1);
for j=1:R
% Generaci
on de ruidos.
Uy=randn(T,1)*Sy;
% Generaci
on de variables no estacionarias:
y=cumsum(Uy);
on de regresiones y almacenamiento:
% Estimaci
y1=y(1:T-1);
dy=y(2:T)-y(1:T-1);
REG=ols(dy,y1);
tB(j)=REG.tstat;
end
toc;
% Distribuci
on de la prueba:
388
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
tBs=sort(tB);
SN=normpdf(tBs);
[DF,DFa]=hist(tB);
DFo=DF/R;
clf;
bar(DFa,DFo);hold on;plot(tBs,SN);hold off;
% Valores cr
ticos:
CincoPC_1=quantile(tB,0.05,1);
CincoPC_2=norminv(0.05,0,1);
Ahora bien, la prueba DF tiene varias sutilezas (mas correcto sera decir que adolece de ciertas limitaciones). La primera y mas obvia radica en la especificacion de la
regresion auxiliar. Imagine que en vez de tener races unitarias sin deriva, tenemos
races unitarias con deriva, en ese caso, la especificacion de la prueba debera ser
distinta. Si estamos bajo la hipotesis nula, el proceso que genera a la variable es:
yt = y + yt1 + uyt
Si le restamos yt1 a la expresion de ambos lados, obtenemos:
yt = y + uyt
Note como, para tomar en cuenta la famosa deriva, debemos incluir una constante
en la especificacion de la regresion:
yt = + yt1 + ut
Considere ahora el siguiente proceso generador de datos:
yt = y + yt1 + y t + uyt
(11.11)
DE ERROR
11.3. MECANISMO DE CORRECCION
389
Los valores crticos del estadstico t asociado a varan en funcion de los elementos
deterministas que incluya en la regresion auxiliar.
Existe ademas otro problema. La prueba DF es sensible a las propiedades del
termino de error del PGD. En concreto, la prueba no sirve bien si dicho termino
no es independiente. Afortunadamente, es posible extender la regresion auxiliar para corregir esa sensibilidad; basta con poner rezagos de la variable dependiente:
yt = + yt1 + t +
k
X
yti + ut
i=1
Subsiste ahora el problema de determinar cuantos rezagos incluir. Afortunadamente, para ello tambien hay solucion. Todo esto se vera en la siguiente subseccion.
Procedimiento muestral
En la practica no solo no conocemos si el proceso es estacionario, sino que tambien
ignoramos si existen terminos deterministas relevantes as como el orden de un
eventual proceso AR(p) que gobierna al termino de error. Existen por ello una serie
de recomendaciones para obtener la especificacion correcta de la regresion auxiliar
DF:
1. Inicie con la regresion DF que incluye constante y tendencia determinista.
2. A esta u ltima, ana dale una buena cantidad de rezagos de la variable dependiente para controlar por autocorrelacion; una formula ad hoc de escoger el
numero maximo de rezagos es:
"
41 #
T
Lmax = 12
100
3. Antes de decidir sobre la raz unitaria y los terminos deterministas, debe reducir el numero de rezagos hasta llegar a una cantidad o ptima:
Use el criterio de Akaike (obtenga un mnimo)
Paralelamente, use la significancia estadstica de los parametros asociados a dichos rezagos
390
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Verifique, mediante el correlograma y el estadstico Ljung-Box que los
rezagos supervivientes realmente eliminan la evidencia de autocorrelacion
El criterio que prima sobre los demas es el de Akaike.
DE ERROR
11.3. MECANISMO DE CORRECCION
DF
(1)
10 %
2.83
5%
3.16
391
1%
3.80
10 %
2.52
5%
2.82
1%
3.42
Para terminar, mostramos un diagrama que creemos hara mas facil el empleo de
la prueba Dickey-Fuller. En dicho diagrama se hace abstraccion de la seleccion de
rezagos para controlar por autocorrelacion. Ello se hace para que el diagrama no
quede demasiado recargado. No obstante, no debe olvidar que cada vez que estime
una regresion auxiliar de Dickey-Fuller, debe incluir el numero adecuado de tales
rezagos.
11.3.4. Cointegracion
El concepto de Cointegracion es, en realidad, sumamente sencillo e intuitivo. Cuando estudiamos la regresion espuria, establecimos que e sta se da cuando las variables
no son estacionarias; si lo piensa con detenimiento, se dara cuenta que cada variable, xt y yt tiene un componente de tendencia estocastica independiente del de la
otra. La cointegracion es un caso especial en que las series siguen siendo no estacionarias, pero, a diferencia del caso espurio, comparten en componente de tendencia
estocastico. La primera relacion cointegrada que vera es la siguiente:
yt = y + y xt + uyt
xt = xt1 + uxt
t
X
=
uxt ,
i=1
(11.12)
(11.13)
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
392
Raz Unitaria
Raz Unitaria*
Sin
Raz Unitaria
Significativa
Significativa
Proceso estacionario
en tendencia.
No
Significativa
Raz Unitaria*
Sin Raz Unitaria*
No
Significativa
Proceso estacionario
de media cero
* : Note como, cada vez que al quitar un regresor cambia la decisin respecto a la Raz Unitaria, se retoma la especificacin
anterior.
donde uz I(0) para z = x, y. Con base en lo explicitado en los apartados anteriores, es facil saber que xt I(1). Que podra decirse de la otra variable, yt ? Sera,
como siempre, cuestion de desarrollar un poco su ecuacion:
DE ERROR
11.3. MECANISMO DE CORRECCION
393
yt = y + y xt + uyt
= y + y (xt1 + uxt ) + uyt
t
X
= y + y
uxt + uyt .
i=1
Con base en el desarrollo anterior, resulta ahora facil tambien darse cuenta que
yt I(1). La peculiaridad dePeste caso es que la fuente de no estacionariedad de
ambas variables es la P
misma, ti=1 uxt . Es como si las dos fueran remolcadas en el
tiempo por el mismo ti=1 uxt . Observe el comportamiento de tales variables en la
simulacion del grafico (11.8), panel b y comparelo con el que tienen dos variables
no estacionarias independientes, en el mismo grafico, panel b.
yt y y xt = uyt
I(1) y y I(1) = I(0)
Dicho acomodo puede resultar trivial a primera vista, pero observelo con mas detenimiento. Del lado derecho de la ecuacion aparece una combinacion lineal de dos
variables I(1) que arroja un proceso I(0). En otras palabras, la cointegracion, segun
Granger, estriba en una combinacion lineal particular de variables no estacionarias
que tiene como resultado, una variable con un orden de integracion menor, en este
caso, estacionario. La definicion formal de Granger es la siguiente:
Definicion 26 Los componentes del vector wt = (yt , xt ) se dicen cointegrados de
orden d, b, denotado wt CI(d, b), si:
1. Todos los componentes del vector wt estan integrados del mismo orden d,
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
394
(a)
(b)
10
15
10
5
0
yt
yt
0
5
5
10
10
15
15
20
10
10
15
20
20
10
25
xt
(c)
20
25
10
Resid. espurios/cointegrados
y coint.
t
20
xt, yt y y2,t
15
(d)
30
10
0
10
y indep.
20
0
10
xt
50
100
150
Tiempo
200
250
5
0
5
10
u coint.
u espurio
15
0
50
100
150
200
250
Tiempo
DE ERROR
11.3. MECANISMO DE CORRECCION
395
Para ilustrar todo lo anterior, se generaron tres variables: xt I(1), ytIndep I(1)
y ytCoint I(1), de tal suerte que, en particular, ytCoint , xt CI(1, 1). Posteriormente es estimaron dos ecuaciones, ytCoint = 1 + 1 xt + uC,t y ytIndep =
2 + 2 xt + uI,t . Note que la segunda especificacion es tpicamente espuria; la
primera es cointegrada. Finalmente, se recuperaron los residuales de ambas regresiones. Puede observar su evolucion en el tiempo en el grafico (11.8), paneles c y d.
N OTA USTED ALGUNA DIFERENCIA SIGNIFICATIVA ?
Si es usted observador, habra notado que los residuales de la regresion espuria tienen
un comportamiento ridculamente parecido al de una raz unitaria, es decir, al de un
proceso I(1). Eso, no esta usted para saberlo ni yo para contarlo, pero hace mucho
sentido. Una combinacion lineal cualquiera de variables I(1) arrojara residuales que
tambien seran I(1). La u nica combinacion lineal que arroja residuales integrados
de orden cero es la que ofrece el famoso vector cointegrante! Lo anterior da pie a
396
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
1%
Dos Variables
-4.123
-4.008
-3.954
-3.921
Cuatro Variables
-5.017
-4.827
-4.737
-4.684
5%
10 %
1%
-3.461
-3.398
-3.368
-3.350
-3.130
-3.087
-3.067
-3.054
-4.592
-4.441
-4.368
-4.326
-4.324
-4.210
-4.154
-4.122
-3.979
-3.895
-3.853
-3.828
-5.416
-5.184
-5.070
-5.003
5%
Tres Variables
-3.915
-3.828
-3.785
-3.760
Cinco Variables
-4.700
-4.557
-4.487
-4.446
10 %
-3.578
-3.514
-3.483
-3.464
-4.348
-4.240
-4.186
-4.154
DE ERROR
11.3. MECANISMO DE CORRECCION
397
nes que las alejan de dicha relacion de equilibrio de largo plazo. Tales alejamientos
se deben a las innovaciones en el sistema (los choques).
100
200Cointegradas
300
400
Series
500
100 Series200Independientes
300
400
500
As pues, las innovaciones tienden a degradar la sincrona entre las variables cointegradas; la idea del MCE es que debe existir en la relacion un mecanismo que permita corregir las desviaciones de corto plazo de la relacion de equilibrio. La figura
(11.10) refleja correctamente lo dicho hasta ahora. Note como las variables xt y yt
tienen un comportamiento sincronizado a lo largo de toda la muestra (T = 500). Es
cierto que la variable dependiente (azul) tiende a ser mas volatil que la explicativa
(verde), pero la tendencia de largo plazo es la misma. Por otra parte, cuando nos
acercamos (panel b) y solo tenemos en cuenta 50 observaciones, resulta evidente
que los choques de corto plazo alejan ambas variables de su relacion de equilibrio.
Esto se manifiesta en las innovaciones (rojo); dichas innovaciones son concebidas,
en este marco conceptual, como desequilibrantes.
Las matematicas necesarias para establecer un MCE no han sido expuestas en este
manual puesto que quedan fuera del material adecuado. Si bien no resultan especialmente complejas, s requieren una presentacion mas detallada que no tiene cabida
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
398
(a)
80
Valor
60
40
20
0
0
50
100
150
200
250
300
350
400
450
500
Observacin
(b)
80
60
40
20
0
100 110 120 130 140 150
DE ERROR
11.3. MECANISMO DE CORRECCION
399
400
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
DE ERROR
11.3. MECANISMO DE CORRECCION
401
Signo
<0
<0
>0
=0
=0
>0
<0
>0
=0
Interpretacion
Y
>0
=0
=0
>0
<0
<0
<0
>0
=0
Si nos encontramos en una combinacion que asegura una correccion del error ya
sea a traves de todas las variables o solo una de ellas (casos 1, 2, 4), habremos
confirmado que todas estas variables estan cointegradas. Siguiendo al pie de la letra
el teorema de representacion de Granger, si existe un MCE, entonces las variables
cointegran. Todos los demas casos son, en resumidas cuentas, malas noticias: puede
ser que no haya nada que regrese las variables a la relacion de equilibrio (caso
9) o, peor aun, que el MCE funcione al reves e incremente los desajustes periodo a
periodo. Estas u ltimas dos posibilidades senalaran que no existe un MCE funcional,
por lo que no hay cointegracion.
En lo que concierne a la exogeneidad, resulta que el estudio de los signos de las velocidades de ajuste permite determinar las variables que son debilmente exogenas.
402
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Con las ecuaciones del MCE, sabemos que variables son las que se mueven ante
un desequilibrio. Siguiendo el ejemplo de impuesto e ingreso, si nuestras estimaciones determinaran que, ante dicho desequilibrio, se ajustan los impuestos, pero no el
ingreso (caso 2), entonces podramos inferir queel parametro que acompana
la variable de impuestos es debilmente exogena al ingreso. Si ambas variables se
ajustan ante un desequilibrio, entonces no habra exogeneidad debil.
11.4.
11.5. ESTABILIDAD DE LOS PARAMETROS
11.5.
403
La estabilidad de los parametros resulta fundamental, si queremos que nuestra estimacion, hecha con base en una muestra t = 1, 2 . . . , T , tenga alguna relevancia
fuera de e sta (t = T +1, T +2, . . .). Para que as sea, o, mejor dicho, para poder tener
mas confianza en que nuestra estimacion seguira siendo valida fuera de la muestra,
conviene que los parametros permanezcan inalterados, al menos durante nuestra
muestra.28 As, la estabilidad del modelo es necesaria no solo para hacer inferencia
econometrica, sino tambien para predicciones validas. Dado que los modelos que
hemos estudiado hasta ahora estan completamente definidos en funcion de parametros, la estabilidad del modelo es equivalente a la estabilidad de los parametros.
La inestabilidad, puede ser causada por una simple omision de una variable importante o tambien debida a algun tipo de cambio de regimen; la existencia [de
inestabilidad] dificulta en extremo la interpretacion de los resultados econometricos
y es particularmente importante en el analisis de poltica economica; lo anterior cobra plena relevancia si se considera la cuestion de la exogeneidad y especialmente
la de super exogeneidad, propuesta por Engle, Hendry y Richard en 1983 as como
la Crtica de Lucas. Sin estabilidad parametrica, no es posible usar los resultados de
nuestras estimaciones para concebir polticas economicas validas.
Con objeto de medir la estabilidad, veremos una serie de pruebas, siendo la mas
famosa la de Chow, si bien las de CUSUM y CUSUMQ tambien son comunmente
utilizadas. Presentaremos tambien la prueba de Hansen, la cual, a diferencia de la
de Chow, no requiere definir exogenamente el punto de quiebre puesto que se define
con base en los datos.
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
404
Antes de dar las instrucciones para aplicar la prueba resulta conveniente dar una
intuicion. En la figura que veran a continuacion aparece el diagrama de dispersion entre dos variables simuladas (T = 210). La variable x se genero como una
normal, xt N (0, 9), mientras que la variable y se construyo con base en tres
sub-especificaciones distintas, cada una de ellas, correspondiendo a un tercio de la
muestra:
1. yt = 2 + 4 xt + uyt para T = 1, 2, . . . , T3
2. yt = 5 + 1 xt + uyt para T =
T
3
3. yt = 8 2 xt + uyt para T =
2T
3
+ 1, . . . , 2T
3
+ 1, . . . , T
Existen, evidentemente, dos quiebres estructurales. Si el econometrista no los toma en cuenta, obtendra un ajuste similar al que presenta la figura (11.11): Si el
10
5
VAR
5
10
VAR
15
VAR
20
25
30
8
Figura 11.11: Ajuste de una regresion lineal usando datos con quiebres. Fuente:
datos simulados (elaboracion propia).
econometrista tiene la precaucion de recuperar los residuales y graficarlos, se llevara una sorpresa poco agradable: En la figura (11.12) refleja, en el panel (a), los
residuales y en el panel (b), esos mismos residuales, pero al cuadrado. No resulta demasiado dificil inclinarse rapidamente por la hipotesis de que hay problemas,
11.5. ESTABILIDAD DE LOS PARAMETROS
405
(a)
(b)
10
140
120
5
100
0
80
60
40
10
20
15
50
100
150
200
50
100
150
200
Figura 11.12: Residuales de una regresion lineal usando datos con quiebres. Panel
(a) residuales de una especificacion mal especificada. Panel (b) residuales de esa
misma especificacion pero elevados al cuadrado. Fuente: datos simulados (elaboracion propia).
406
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
11.5. ESTABILIDAD DE LOS PARAMETROS
407
xit ut
i = 1, . . . , K
2
2
ut
i=K +1
xit ut = 0 i = 1, . . . , K
u2t
2 = 0
fit = 0 i = 1, 2, . . . K + 1
408
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Sit =
t
X
fij
j=1
5. Pruebas Individuales (es decir, para cada parametro estimado mas uno): construya los siguientes estadsticos de prueba:
donde, Vi =
PT
t=1
T
1 X 2
Li =
S i = 1, 2, . . . , K + 1
T Vi t=1 it
fit2
6. Prueba Conjunta:
Con base en cada estadstico de prueba Li es posible probar la estabilidad de
cada uno de los parametros estimados de manera individual, incluyendo la
varianza.
7. Prueba conjunta. Para probar la estabilidad de la ecuacion de manera conjunta, construya los siguientes elementos:
P 2 P
P
f1,t
f
f
.
.
.
f
f
1,t
2,t
1t
K+1,t
P 2
P
f2,t
f2t fK+1,t
a) V =
..
.
.
.
P .2
fK+1,t
S1,t
S2,t
b) St = .. t = 1, 2, . . . , T
.
SK+1,t
T
1 X 1
Lc =
S V St
T t=1 t
11.5. ESTABILIDAD DE LOS PARAMETROS
409
Ahora que ya tenemos todos los elementos, solo hacen falta las instrucciones de
lectura de la prueba; como siempre, nada mas es necesario conocer la hipotesis nula,
la alternativa as como los valores crticos, necesarios para comparar los valores
calculados y tomar la decision. En el caso de las pruebas individuales:
1. H0 : No hay cambio estructural en el parametro,
2. Ha : S hay cambio estructural en parametro.
En el caso de la prueba conjunta:
1. H0 : No hay cambio estructural en los parametros,
2. Ha : S hay cambio estructural en al menos uno de los parametros.
La prueba de Hansen realmente es distinta a las pruebas que hemos presentado
por lo general. En particular destaca que la distribucion bajo la hipotesis nula no es
estandar (es decir que no es Normal, ni F, ni 2 ), por lo que el autor tuvo que tabular
los valores crticos en el artculo donde presento la prueba.30 El primer renglon de la
tabla corresponde a los valores crticos que hay que usar en las pruebas individuales;
los demas renglones sirven para evaluar pruebas conjuntas.
En lo que concierne a las pruebas de hipotesis individuales, los estadsticos de prueba tenderan a distribuirse alrededor de cero; cuando e stos se alejan mucho de cero
existira evidencia para rechazar la hipotesis nula.
Es importante hacer notar que, si bien la prueba no exige que se le indique exogenamente la localizacion ni el numero de cambios estructurales, ni tampoco la o las
variables a las cuales e stos estan asociados, tampoco ofrece dicha fecha. Es decir,
si acaso hay un rompimiento y la prueba lo detecta, e sta no indicara la fecha en
la que ocurrio (pero s, al menos potencialmente, la variable por la que hay que
preocuparse).
30
410
CAPITULO
11. CAUSALIDAD, EXOGENEIDAD Y ESTABILIDAD
Captulo 12
Especificaciones Dinamicas y
Expectativas
Hasta este momento, hemos aprendido a estimar una funcion de regresion, examinar
posibles fallos o rompimientos de supuestos tales como el de independencia de los
residuales, y el de homoscedasticidad. Recientemente hemos aprendido tambien
la importancia del supuesto de ortogonalidad as como las graves consecuencias
cuando e ste no se cumple. Conocemos, ademas, las pruebas necesarias para asegurar (estadsticamente) el correcto desempeno de la regresion, la utilidad de las
variables binarias para modelar cambios estructurales. No obstante, queda un apartado de suma importancia aun no abordado; podramos considerarlo como un pilar
fundamental del puente entre la economa teorica y la economa aplicada: las propiedades dinamicas de los modelos. La economa ha sabido desde mucho tiempo
atras que las relaciones de dependencia entre variables rara vez son instantaneas.
Con frecuencia, un choque (shock en ingles) en una variable se transmite a otra(s),
no en el mismo perodoes decir, no solo de forma instantaneasino de forma paulatina y decreciente a lo largo del tiempo. Como han respondido a esta regularidad
emprica los economistas y los econometristas? Los primeros creando e inventando
modelos dinamicos en el tiempo y los segundos disenando especificaciones que incorporan, de una forma u otra dicho dinamismo. Uno de los orgenes que dan pie a
esta dinamica de la que ahora tanto hablamos radica en la incorporacion de las expectativas. Las expectativas, de hecho, cobran una importancia primordial en practicamente cualquier actividad economica que podamos concebir. Como bien senala
Maddala, los niveles de produccion dependen de las ventas esperadas, la inversion
de las utilidades, tambien esperadas claro esta, las tasas de interes de largo plazo
dependen de las expectativas sobre las de corto plazo as como de la inflacion espe411
412
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
rada. En este captulo veremos como, en muchas ocasiones, son tales expectativas
las que incitan a especificar modelos dinamicos. Veremos ejemplos de expectativas naives (ingenuas), adaptativas y racionales. En lo que respecta a estas u ltimas,
por cierto, aprovecharemos para conocer un poco mas a fondo la famosa C R I TICA
DE L UCAS . En terminos mas practicos y a manera de respuesta austera es posible decir que los econometristas propusieron inicialmente, con objeto de lidiar con
los problemas de dinamica, la inclusion de rezagos en la especificacion. Soluciones mas sofisticadas han aparecido con la incorporacion de tecnicas de series de
tiempo, mismas que fueron brevemente resenadas en el captulo anterior. De entrada, plantearemos un modelo muy sencillo para ilustrar la relevancia de la dinamica
temporal en el estudio de un mercado; sirve de pretexto para ilustrar el concepto de
expectativas naives. El modelo en cuestion ya haba surgido previamente; se trata
del modelo de telarana.
12.1.
(12.1)
(12.2)
(12.3)
12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA
413
Este modelo implica que el mercado se vaca al precio pe . No obstante, los granjeros ignoran cual sera ese precio al momento de sembrar (periodo t 1). Basan la
decision en sus expectativas del precio, pt . La cantidad resultante de esa decision
es b + pt mas un choque aleatorio (que puede representar una nevada tarda, buen
clima, poca lluvia,...). Vamos a suponer que los granjeros elaboran sus expectativas
de manera naive (ingenua):
pt = pt1
(12.4)
Tanto la oferta como la demanda son dos funciones lineales. Omitamos por un momento los choques estocasticos (t = 0 para todo t). Entonces tendremos:2
Cantidad
a
Oferta
Demanda
Precio
p0
pe
Si establecemos un precio esperado inferior al de equilibrio, los productores ofreceran una cantidad menor a la o ptima, lo que provocara que aumente el precio en
el siguiente periodo (porque con esa cantidad, los consumidores estaran dispuestos
a pagar mas). Al siguiente periodo, los productores habran pronosticado un precio
mayor al o ptimo y produciran en demasa, por lo que el precio bajara. La trayectoria
2
Note que los ejes estan puestos acorde a las ecuaciones presentadas y no como suelen aparecer
en los manuales de economa.
414
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
del precio esta representada por la lnea anaranjada punteada. Notese como dicha
trayectoria converge al precio de equilibrio.
Ejercicio 21 Calcule el Precio y la cantidad de equilibrio (elimine los subndices e
iguale precios) en este mercado asumiendo que los choques estocasticos son todos
iguales a cero; trace ademas una oferta y una demanda de maz que generen una
dinamica de precios no-convergente.
Mediante el ejercicio anterior, queda claro que no en todos los escenarios hay convergencia. Es interesante averiguar cuales son las condiciones para que s se logre
dicho precio de equilibrio. En otras palabras, hay que encontrar las condiciones de
estabilidad del sistema.3 Combinemos las ecuaciones (12.1), (12.2), (12.3) y (12.4)
para formar una ecuacion en diferencia estocastica:
a pt = b + pt + t
a pt = b + pt1 + t
ab
t
pt =
pt1
(12.5)
(12.6)
(12.7)
Nada mas queda resolver esta ecuacion: de momento, esbozaremos el metodo que se
utilizara en este curso para llevar a cabo la resolucion de una ecuacion en diferencia.
Lo aplicaremos como si fuera una receta de cocina.
1. Formar la ecuacion homogenea y encontrar las soluciones correspondientes,
2. Encontrar una solucion particular,
3. Formar la solucion general,
4. Eliminar las constantes arbitrarias.
pt =
pt1
12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA
415
t
Si reemplaza esta solucion en la ecuacion homogenea, descubrira que es, efectivamente solucion (obtendra una identidad). No obstante, aqu conviene anadir a la
solucion una constante cualquiera, A:
pht
=A
t
Esta
se puede obtener mediante la iteracion de la ecuacion, asumiendo que no hay
condicion inicial. Vamos a recordar nuestra ecuacion original y a reparametrizarla
para hacer el calculo mas expedito:
pt =
ab
t
pt1
| {z } |{z}
|{z}
wt
pt = + pt1 + wt
cuya solucion es:
pt =
X
i=0
i
X
i=0
wti
416
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
+
pt =
1 i=0
i
wti
ppt
i
ab
1 X
ti
=
+ i=0
(12.8)
<1
pt
i
t
1 X
ab
ti + A
=
+ i=0
12.1. EXPECTATIVAS NAIVES:EL MODELO DE TELARANA
p0
p0
417
i
0
ab
1 X
=
i + A
+ i=0
i
1 X
ab
i + A
=
+ i=0
pt
"
i
i #
t
1 X
1 X
ab
ab
+
ti + p0
i
=
+ i=0
+ i=0
pt
"
i
t
i #
1 X
ab
X
=
ti
i + ...
+ i=0
i=0
t
ab
...
p0
X
ti
i
i=0
i=0
As, nuestra solucion queda muy sencilla, al fin y al cabo:
pt
#
" t1
i
t
ab
ab
1 X
=
p0
ti +
+ i=0
+
#
" t1
i
t
1 X
e
= p
ti +
[p0 pe ]
i=0
418
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Notese como dicho cambio es negativo. Ello resulta logico, dado que el choque,
siendo positivo, implica una aumento en la oferta, por lo que el precio debera bajar. Tambien es facil calcular un cambio en el precio un periodo posterior ante ese
mismo choque:
pt+1
1
=
t
Este cambio es positivo, lo cual concuerda con lo que vimos graficamente. En el
primer periodo hubo sobre oferta. Los productores reaccionan disminuyendo demasiado esa misma oferta, por lo que en el segundo periodo, falta oferta y el precio
logicamente aumenta. Generalizando el resultado anterior, obtenemos:
m
pt+m
1
=
t
m
m+1
(1)
=
419
Funcin
ImpResp.
10
Tiempo
11
La intencion al presentar con mas detalle el modelo de Telarana es, en esencia, dejar
claramente establecida la importancia que pueden cobrar las propiedades dinamicas
de un sistema. En este caso, la dinamica fue impuesta mediante un mecanismo
que dicta las expectativas, en este caso, un mecanismo que denotamos naive. No
obstante, esta racionalizacion de los rezagos en especificaciones econometricas no
es la u nica; existen otras mas sencillas e igualmente intuitivas. Todo el material que
se detalla a continuacion da pie a un debate que versa sobre las expectativas en
economa y su implementacion en econometra, que es con lo que cerraremos este
captulo.
12.2.
Las expectativas naives pueden plantearse de una manera mas sencilla en una especificacion que nos resultara, de hecho, familiar. Suponga, por ejemplo, que deseamos estudiar el comportamiento de la inversion. Es razonable suponer que las decisiones de inversion se toman con base en los beneficios esperados. As, una especificacion sencilla sera la siguiente:
yt = + xt+1 + ut
donde:
420
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
1. yt es la inversion en t.
2. xt+1 representa los beneficios esperados para el periodo t + 1.6
3. ut es, como siempre, el termino de error.
A menos que dispongamos de algun fantastico prestidigitador, es razonable pensar
que las expectativas de beneficio del periodo t + 1 habra que formarlas u nicamente
con informacion disponible hasta t. Al igual que con el modelo de Telarana, podemos sugerir la regla mas sencilla posible:
xt+1 = xt
Bastara entonces con reemplazar para obtener una especificacion estimable. Una
sugerencia ligeramente mas interesante es suponer que el aumento de los beneficios
en t + 1 con respecto a t sera igual al que ocurrio entre t y t 1:
xt+1 xt = xt xt1
Basta entonces una simple manipulacion para obtener algo que pueda resultar u til:
xt+1 = 2xt xt1
Nada mas queda reemplazar en la original:
yt = + (2xt xt1 ) + ut
Existen otras variantes que permiten incorporar expectativas naives. Los trabajos en
los que se utilizaron datan de los anos cincuenta y sesenta. En realidad el uso de
este tipo de modelos no se recomienda en la actualidad; no obstante, son usados a
veces como comparativo en la evaluacion de modelos predictivos (lo que en ingles
se senomina benchmark). Para resumirlo en pocas palabras, si el modelo predictivo
tiene un peor desempeno que el de expectativas naives, es que es muy malo.
6
No encuentra usted algo curioso en esta frase? Vuelvala a leer teniendo en mente lo dicho en
el apartado de causalidad. Algo en el futuro motiva las acciones presentes!
12.3.
421
j=1
Para denotar este tipo de modelos usaremos la notacion ADL(p, q) [AUTORE GRESSIVE D ISTRIBUTED L AGS , O BIEN , EN CASTELLANO , R EZAGOS D IS TRIBUIDOS AUTOREGRESIVOS ] . Ahora bien, estos modelos padecen limitaciones muy evidentes; destaca especialmente la difcil decision relativa al numero de
rezagos a incluir. Existe una restriccion muy obvia en este sentido: p + q < T,
Por que? En caso de no satisfacer dicha condicion no dispondremos de observaciones suficientes para estimar los parametros del modelo. En realidad no basta con
respetar la condicion previa. Si se respeta el precepto de PARSIMONIA,7 cosa que
siempre deberamos hacer, el numero de parametros a estimar debera reducirse lo
mas posible. Supongamos un modelo ADL (0, ):
yt = +
i xti + t
i=0
422
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
wi xti + t
i=0
Donde 0 < w < 1. Conforme retrocedemos en el tiempo, hacia el pasado, constatamos que el efecto de xti , i acaba resultando marginal o despreciable. Resulta
de hecho interesante calcular el efecto dinamico de largo plazo, definiendolo de la
siguiente manera: la respuesta de largo plazo es la suma de los pesos multiplicada
por .
Resulta bastante facil calcular dicho efecto. Utilicemos lo que sabemos sobre los
lmites de una serie que decrece exponencialmente. Calculemos lo que se conoce
como la R ESPUESTA DE L ARGO P LAZO:
X
i=0
wi =
La idea de imponer un ponderador es de Koyck (1954) [un economista holandes]. El modelo que
desarrollamos en las siguientes lneas suele denominarse de rezagos geometricamente distribuidos.
Estuvo originalmente planteado para explicar el nivel de ventas con base en el gasto en publicidad
presente y pasado. El valor de los parametros de tales rezagos decaen, como veremos mas adelante,
a una tasa geometrica. Informacion obtenida por Gustavo Alfonso Rodrguez Ayala.
423
+ xt + xt1 + 2 xt2 + . . . + t
+ xt1 + xt2 + 2 xt3 + . . . + t1
+ xt1 + xt2 + 2 xt3 + . . . + t1
(1 ) + xt + xt1 + 2 xt2 + . . . + t
xt1 + 2 xt2 + . . . t1
= (1 ) + xt + t t1
| {z }
yt =
yt1 =
yt1 =
yt yt1 =
ut
yt = (1 ) + xt + yt1 + ut
Note que la u ltima expresion podra ser estimada por MCO. Por desgracia subsiste
un problema. El termino de error asociado a esta especificacion ya no responde
a los conocidos supuestos del metodo de estimacion lineal. Dicha afirmacion es
bastante intuitiva, considerando que en la especificacion esta la variable yt1 , donde
esta includo t1 , el mismo termino que aparece en el residual. Posteriormente
veremos que esto es en extremo importante.
12.4.
Expectativas Adaptativas
424
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
x x
| t {z t1}
Cambio en expectativas
Error en t1
}|
{
= xt1 xt1
xt =
(1 )j1 xtj
j=1
X
j=1
(1 )j1 =
425
1
1 (1 )
11+
= 1
=
yt = +
X
j=1
(1 )j1 xtj + t
(12.9)
Dicha expresion puede manipularse de tal suerte que obtengamos la siguiente ecuacion (que reparametrizamos para efectos de presentacion):
yt = 0 + 1 yt1 + 2 xt1 + ut
Este tipo de expectativas fue popularizado por Cagan y Friedman.9
Ejercicio 23 Resuelva la ecuacion (12.9) como en el caso de Modelos con Rezagos
Distribuidos y encuentre a que corresponden los parametros y como esta constituido el termino de error:10
Como bien puede constatarse, el modelo de Expectativas Adaptativas y el ponderador propuesto por Koyck para manipular un modelo con rezagos distribuidos
conllevan a resultados analogos. No obstante, es importante tener en cuenta que el
razonamiento que nos llevo a incluir un rezago de la variable dependiente entre las
variables explicativas fue distinto. El primero es meramente algebraico mientras que
el segundo parte de un planteamiento mas economico, uno que emplea el concepto
de expectativas, tan apreciado por los economistas. A este respecto, rescatamos un
parrafo de Albert T. Somers resaltado en el libro de Gujarati que bien vale la pena
conocer:
9
Cagan (1956) The monetary dynamics of hyperinflation; Friedman (1957) A theory of the
consumption function.
10
Solucion: Yt = + xt1 + (1 ) yt1 + ut ; ut = t (1 ) t1 .
426
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
12.5.
Distributed lags and demand analysis for agricultural and other commodities.
Anadiremos tildes a los parametros para distinguirlos de los anteriores.
DE MODELOS DINAMICOS
12.6. ESTIMACION
427
z }| {
(yt yt1 )
h
i
t + t yt1
=
+ x
yt yt1 =
yt
t + t yt1
=
+ x
t + (1 ) yt1 + t
=
+ x
12.6.
P (1 )i xti + P (1 )i ti .
Solucion: yt =
+
i=0
i=0
428
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
yt = yt1 + ut
= 2 yt2 + ut1 + ut
= 3 ut3 + 2 ut2 + ut1 + ut
X
=
i uti
i=0
DE MODELOS DINAMICOS
12.6. ESTIMACION
429
Note que se asumio que no hay condicion inicial. En ese caso, el estimador de
sera:
=
=
=
=
plim()
P
yy
P t 2t1
y
P t1
(yt1 + ut )yt1
P 2
y
P t1
yt1 ut
+ P 2
yt1
P
plim T1
yt1 ut
P 2
+
plim T1
yt1
430
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
esto ocurre, los estimadores seran sesgados e inconsistentes. Para poder calcular la
esperanza anterior, necesitamos antes conocer algunos resultados intermedios que
intervienen en el calculo. En particular, necesitamos calcular todas las autocovarianzas de nuestro termino de error. Empecemos por la autocovarianza cero, es decir la
varianza:15
E u2t
= E 2 u2t1 + 2t + 2t ut1
2
=
1 2
= 2
E (ut ut2 ) =
=
=
=
E [(ut1 + t ) ut2 ]
E [( (ut2 + t1 ) + t ) ut2 ]
E 2 ut2 + t1 + t ut2
2 2
Con base en estos dos resultados, es bastante facil obtener todas las demas autocovarianzas:
E (ut uti ) = i 2 i = 1, 2, . . .
Donde, es importante recordarlo, 2 =
ranza que realmente interesa, que es:
15
2
.
12
Si no recuerda estos terminos, lea la primera parte del curso y revise la seccion destinada al
correlograma.
DE GENERAL A SIMPLE
12.7. PARSIMONIA: METODOLOGIA
E (yt1 ut ) = E
hX
431
i
i uti ut
= E ut1 ut + ut2 ut + 2 ut3 ut + . . .
= 2 + 2 2 + 2 3 2 + . . .
= 2 1 + + 2 2 + . . .
2
=
1
Huelga decir que, en este caso, el lmite de la series solo existe s | |< 1. Descubrimos que hay relacion entre explicativa y termino de error; tenemos un problema
de ortogonalidad. Reviste particular importancia el hecho de que, en esta clase de
especificaciones, la autocorrelacion tiene consecuencias mucho mas graves cuando se gesta en especificaciones dinamicas. Afortunadamente, conocemos algunas
soluciones cuando se rompe este supuesto, como es el metodo de Variables Instrumentales.
12.7.
Hemos estudiado hasta la saciedad los efectos del rompimiento de alguno de los
supuestos en nuestros estimadores de MCO. Todo lo anterior aplica de igual manera,
claro esta, en el caso de las especificaciones dinamicas. No obstante es necesario
agregar algunos elementos; al trabajar en especificaciones dinamicas, dos preguntas
fundamentales deben formularse invariablemente:
1. Existe evidencia de autocorrelacion en mi especificacion dinamica?
2. Cuales y cuantos rezagos se han de incluir en la especificacion para representar adecuadamente la dinamica de la relacion?
En lo que respecta a la primera cuestion, basta con senalar los resultados obtenidos
previamente: la combinacion de la autocorrelacion con rezagos de la variable dependiente en tanto explicativas puede provocar la inconsistencia de los estimadores,
quiza la mas grave de las consecuencias posibles. Dicho esto, solo resta enfatizar
la importancia de las pruebas de autocorrelacion en los residuales estimados de especificaciones dinamicas. En la primera parte del curso estudiamos varias, entre las
432
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
DIN AMICA
C OMO
DISE NAMOS
LA ESPECIFICACI ON
?
Habremos de recurrir a la teora economica; e sta puede servirnos de gua primigenia, pero existen algunas limitantes obvias. La teora economica suele ser demasiado abstracta o estipularse en terminos demasiado generales. En una ecuacion de
demanda, por ejemplo, es valido preguntarse lo siguiente Que tantos precios de
bienes complementarios y/o sustitutos es conveniente incorporar? A falta de respuestas concretas, conviene tener presente el concepto de PARSIMONIA :
Comentario 5 Parsimonia: en igualdad de condiciones la solucion mas sencilla es
probablemente la correcta. Ver la navaja de Occam, Pluritas non est ponenda
sine neccesitate, o bien, Entia non sunt multiplicanda praeter necessitatem: (i)
La pluralidad no debe postularse sin necesidad, (ii) No ha de presumirse la existencia de mas cosas que las absolutamente necesarias. [William de Ockham: Filosofo
medieval ingles; monje franciscano (1280/1288-1349) excomulgado por el Papa
por cuestiones relativas al voto de Pobreza (que Ockham crea insuficientemente
respetado)]. Es importante resaltar el fragmento en igualdad de condiciones. La
navaja de Occam no sugiere que se prefiera una teora sencilla a otra mas compleja
si la evidencia favorece e sta u ltima. Conviene tambien resaltar que el concepto de
Navaja de Occam ha encontrado cierta oposicion entre filosofos (vease Leibniz,
Kant, Menger,. . . )
La parsimonia cobra toda su razon de ser en la cuestion de los rezagos. En ningun
libro de economa esta dicho cuantos rezagos han de incluirse. Se debe entender, a
raz de todo esto que el diseno de una especificacion involucra probar muchas de
e stas y quedarse con la mejor. No existe aun procedimiento alguno que satisfaga
DE GENERAL A SIMPLE
12.7. PARSIMONIA: METODOLOGIA
433
434
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
no existe una restriccion parametrica que permita transitar entre ellos),
Seleccion del numero de rezagos.
En conclusion, el numero de rezagos ha de determinarse usando un criterio de bondad del ajuste, aunque debe primar siempre la satisfaccion de los supuestos restantes.
12.8.
Expectativas Racionales
435
Si dicha esperanza no fuera nula, si las expectativas estuvieran sistematicamente equivocadas, los agentes deberan ser capaces de corregirlas.
2. Las Expectativas Racionales tambien exigen que los errores de prediccion no
esten correlacionados con el conjunto de informacion pasada; de no ser as,
ello implicara que el agente no empleo toda la informacion disponible para
formular su expectativa. As pues, las expectativas deberan ser iguales a la
verdadera variable mas un cierto termino de error independiente:17
zt = zt + t
Si llamamos It1 al conjunto de informacion disponible en t 1. entonces, al
sacar esperanza de la variable de interes, condicionada a It1 :
E(zt /It1 ) = zt
La u ltima expresion, la que senala que, basados en la informacion hasta t 1,
la esperanza de la variable es, de hecho, la expectativa, ha resultado ser la pieza
fundamental del trabajo econometrico que versa sobre la hipotesis de Expectativas
Racionales. Asumir Expectativas Racionales consiste esencialmente en asumir que
las expectativas de los agentes son correctas en promedio. Aun si el futuro no es
completamente predecible, las expectativas de los agentes no estan sistematicamente sesgadas; e stos hacen uso de toda la informacion relevante para formarlas. La
utilizacion de este tipo de expectativas, de hecho, conlleva tres importantes implicaciones:
NICA expectativa matematica de la variable aleatoria zt condiExiste una U
cionada en un conjunto dado de informacion It1 .
Los agentes economicos se comportan como si conocieran dicha expectativa
condicional. Ello exige que conozcan, no solo el modelo, sino tambien el
valor de los parametros de e ste.
El econometrista desconoce los parametros del modelo, pero los puede estimar basandose en la segunda implicacion, es decir asumiendo que el comportamiento de los agentes es racional.
17
Una derivacion importante de lo anterior es que V ar(zt ) = V ar(zt ) + V ar(t ), por ende:
V ar(zt ) V ar(zt ).
436
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Tomado de:
http://cienciaeconomica.blogspot.com/2008/12/inconsistencia-temporal-en-las.html.
437
438
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Posibles multiples
equilibrios
Mas importante aun, es importante considerar que las Expectativas Racionales se
construyeron, al menos en primera instancia, bajo la hipotesis de mercados eficientes. Ello implica que, para cualquier momento t la economa se encuentra en
un equilibrio u nico (ver primera implicacion), determinado de antemano; la gente
debio entonces haber formado sus expectativas alrededor de ese u nico equilibrio.
Si autorizamos la posibilidad de que haya mas que un equilibrio, las implicaciones mas interesantes de las Expectativas Racionales ya no aplican. De hecho, las
expectativas determinaran la naturaleza del equilibrio alcanzado, revirtiendo as la
causalidad con la que trabajo Muth.
El problema de la agregacion
Tambien podemos senalar que las Expectativas Racionales aplican a un nivel microeconomico, es decir, a un agente economico. No resulta claro que dicha hipotesis
439
pueda ser empleada en datos macroeconomicos. Aun si todos los agentes forman
sus expectativas de forma racional, el agregado macroeconomico puede exhibir un
comportamiento que no necesariamente corresponde a la racionalidad descrita a
nivel microeconomico.
El problema de la denominacion
Maddala sugiere que muchas de estas crticas podran ser evitadas cambiandole el
nombre a las expectativas; propone llamarles expectativas C ONSISTENTES CON
EL M ODELO puesto que la formulaci
on de e stas depende implcitamente del modelo del que se partio. Lovell (1986) sugirio por su parte denominarlas expectativas suficientes. Ello obedece a que las expectativas, tal como las planteamos,
correspondenvagamentemas a un estimador que emplea toda la informacion disponible en la muestra. En todo caso, con objeto de no incurrir en confusiones innecesarias, seguiremos llamandolas racionales, ER.
zt = 0 + 1 zt + t
Podramos estimar esto u ltimo por MCO y construir la siguiente prueba de hipotesis:
H0 : 0 = 0 y 1 = 1,
440
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Ha : 0 6= 0 o 1 6= 1,
Es importante notar que basta con que uno de los dos parametros no tenga el valor
adecuado para que la hipotesis de las Expectativas Racionales pierda validez.
Una forma analoga de probar las ER es mediante la construccion del error de
pronostico y la estimacion de e ste contra la variable de interes rezagada. En principio, si las ER son validas, el error de pronostico no debe estar correlacionado con
la informacion disponible en t 1. La variable zt1 definitivamente forma parte de
It1 , por lo que en la ecuacion. . .
zt zt = 0 + 1 zt1 + ut
. . . tanto la constante como la pendiente deben ser nulas:
H0 : 0 = 0 y 1 = 0,
Ha : 0 6= 0 o 1 6= 0,
Finalmente es posible formular la siguiente ecuacion:
zt zt = 0 + 1 (zt1 zt1
) + ut
en donde, tambien los parametros deben ser ambos nulos para satisfacer la definicion de las Expectativas Racionales. Note que, en este caso, nuestra especificacion
esta planteada a manera de una ecuacion en diferencia de primer orden. Se trata de
un modelo AR(1). Si el parametro 1 es distinto de cero, ello implicara que dejamos informacion en el pasado susceptible de explicar la variable de interes; en otras
palabras, no usamos toda la informacion disponible: no seran e stas ER.
441
Extrado de Wikipedia.
442
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
443
de inflacion es anunciado a principios de ano por muchos Bancos Centrales alrededor del mundo.
Pero Lucas fue mas alla, en su famoso artculo de 1976; comenta que... Es absurdo el tratar de predecir los efectos del cambio en la poltica economica basados en
la relacion de los datos historicos, especialmente en datos historicos de variables
muy agregadas. Lucas argumento que es necesario enfocarnos en los cambios de
las elecciones del agente ante cambios de la poltica macroeconomica para asegurar la validez de nuestras conclusiones. Las aportaciones de Lucas pusieron en tela
de duda el paradigma keynesiano as como todo desarrollo carente de fundamentos
microeconomicos, como La Curva de Phillips. En buena medida, lo anterior condujo a los economistas Finn Kydland y Edward Prescott a reconsiderar los modelos
macroeconomicos, utilizando bases microeconomicas para que estuvieran mejor
fundamentados. Surge entonces la acuciante interrogante: es posible hacer poltica economica y evaluarla econometricamente bajo el imperio de las Expectativas
Racionales? Afortunadamente s; la Crtica de Lucas no aplica si las relaciones entre parametros son estables y e stos son insensibles ante cambios en unos u otros. La
respuesta a este problema, fue propuesta por Robert Engle, David Hendry y Jean
Francois Richard y la denominaron Super Exogeneidad.
La Super Exogeneidad es un concepto que incluye como condicion necesaria a
la exogeneidad debil. Sin entrar en detalles innecesarios, podemos senalar que la
exogeneidad debil de una variable respecto a un parametro en la especificacion de
interes exige que no exista relacion entre la distribucion marginal (es decir, entre
la distribucion asociada a la variable explicativa) y la condicional (nuestra especificacion). Cumpliendose la exogeneidad debil, la siguiente condicion exige la
invariabilidad del parametro de interes cuando existen cambios en los parametros
de la distribucion marginal. Esta definicion garantiza que, si la relacion entre dos
variables se conserva intacta pese a cambios parametricos en la variable explicativa, entonces variar esta u ltima [lo que podra interpretarse como hacer cambios
de poltica economica] no invalida nuestras estimaciones. Estas condiciones son
muy restrictivas, pero resuelven el problema de la Crtica de Lucas. La super exogeneidad debe de ser estudiada antes de hacer, por ejemplo, una reforma fiscal.
No obstante, la realizacion de dicho estudio no es obvia puesto que encontrar una
variable super exogena en la vida real puede ser muy difcil, al menos en el ambito
economico. Un ejemplo de super exogeneidad de gran interes, si bien nos salimos
del a mbito economico, podemos encontrarlo en el debate del cambio climatico:
Los cambios en la actividad industrial mundial han tenido efectos sobre el comportamiento del sistema climatico?
444
CAPITULO
12. ESPECIFICACIONES DINAMICAS
Y EXPECTATIVAS
Captulo 13
Modelos de ecuaciones simultaneas
13.1.
445
446
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
Lo hizo mediante la reduccion del mismo a una ecuacion en diferencia lineal de los beneficios
de la oferta privada
5
De hecho, por su trabajo obtuvo el premio Nobel en 1980.
6
Metodo no abordado en este curso.
7
En 1972 el modelo Brookins dejo de emplearse.
13.2. SINOPSIS METODOLOGICA
447
(i) el modelo DRI (Data Resources Inc en ingles); (ii) el modelo Wharton, y; (iii) el
Chase.
Esa misma decada fue tambien el comienzo del fin. Los modelos macroeconometricos sufrieron los embates simultaneos desde dos frentes: el ataque teorico y el contexto mundial. En lo que respecta al primero, ya hemos hablando de
forma extensa en un captulo previo; se trata de la Crtica de Lucas. Las crisis
mundial tambien afecto a nuestros entranables modelos puesto que, e stos perdieron efectividad en la que concierne a la predictividad as como en la evaluacion de
poltica economica. Es justo decir que, ante la adversidad, el ingenio humano ha
probado ser un extraordinario motor de desarrollo. Los fallos detectados en estos
modelos macroeconometricos, ya sean los referidos al pobre desempeno predictivo
o evaluativo o bien los argumentados teoricamente (en relacion a la estabilidad de
los parametros) han vaciado los tinteros de muchos econometristas. La incorporacion de metodos de series de tiempo [modelos ARM A(p, q)], el desarrollo de la
econometra no-estacionaria o bien de la no-parametrica, la propuesta de una macroeconoma emprica ateorica [Sims], los modelos DSGE,. . . , son tan solo una
muestra de los muchos frutos que dio las crticas decadas de los setenta. Hoy en da
los modelos macroeconometricos ya no constituyen el bastion primordial de la econometra. No obstante persisten en tanto instrumento de analisis economico, aunque
han ido quedando poco a poco a la sombra de los Vectores Autoregresivos, V AR.8
13.2.
Sinopsis Metodologica
448
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
13.2. SINOPSIS METODOLOGICA
449
mandantes] cuyo comportamiento es descrito por una relacion estructural estocastica. Los demandantes deciden las cantidades que compraran con base en el precio al
que se les ofrece el bien, mientras que los oferentes utilizan esta u ltima informacion
(es decir el precio) para ajustar la cantidad producida. Un magico mecanismo, objeto de mucho estudio y digno de maravillar al que lo estudie, permite que el mercado
se vace en cada periodo.
Modelo estructural
El modelo estructural de un mercado ya haba sido planteado anteriormente. No
obstante, vale la pena retomarlo aqu. Es importante senalar que, por comodidad,
plantearemos el modelo de una manera inusual con respecto al resto del texto. Dejaremos aislado el termino de error. La razon de este proceder quedara clara conforme
avancemos en el tema:
M odelo Estructural :
El ejemplo que presentaremos, un mercado, nos permite momentaneamente representar el sistema de ecuaciones anterior usando una notacion menos generica:
M odelo Estructural :
pt + 12 qt + 11 = u1t Demanda
pt 21 + qt + 21
= u2t Of erta
450
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
pt = 11 12 qt + u1t
21
1
1
pt =
qt +
u2t
21 21
21
Con base en lo anterior, podemos establecer las primeras restricciones a priori:
12 > 0: Pendiente negativa de la demanda,
21 < 0: Pendiente positiva de la oferta,
11 < 0: Equilibrio en el cuadrante positivo,
21 > 0: Equilibrio en el cuadrante positivo bis,
0 < 11 <
21
:
21
C OMO
E STIMAR D OS F UNCIONES D ISTINTAS A PARTIR DE UN S OLO
?
D IAGRAMA DE D ISPERSI ON
Dicha dificultad ya la habamos abordado con detalle al principio del curso. Vale la
pena repasar la seccion que estudia los efectos de simultaneidad, as como la figura
al principio del captulo de Variables Instrumentales, que repetimos en este apartado
[figura (13.1)]. En esta u ltima, debe quedar claro la dificultad intrnseca de estimar
dos ecuaciones cuando no tenemos informacion particular de una y otra. Mas importante aun es la relacion bi-direccional entre ambas variables de interes, el precio
y la cantidad. Estas
se afectan la una a la otra y no parece haber forma de aislarlas.
Como ya habamos visto, la solucion consiste en aportar informacion adicional (en
ese caso, nuestro modelo estructural debera modificarse). Ahora bien, que tanta
informacion deberemos anadir? Esa es la pregunta mas difcil de contestar en el
estudio de los modelos de ecuaciones simultaneas... Tan importante es que le adju
dicaremos un nombre y lo estudiaremos con detenimiento: IDENTIFICACI ON
13.3. EL PROBLEMA DE LA IDENTIFICACION
451
yt
yt
xt
yt
xt
xt
13.3.
El problema de la identificacion
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
452
El problema de la identificacion puede plantearse muy sencillamente de forma matricial. Re-expresemos el sistema de ecuaciones antes propuesto de la siguiente manera:
BYt + CXt = Ut
Las nuevas matrices son:
1
12
B =
21 1
y1t
Yt =
y2t
11
C =
21
u1t
Ut =
u2t
Xt = 1
(13.1)
Asumimos ademas que: Ut iidN (0, ), donde es una matriz de varianzacovarianza positiva-definida.
V ar(Ut )
=
=
=
def
E (Ut Ut )
2
u1t
u1t u2t
E
u1t u2t u22t
2
1 0
0 22
13.3. EL PROBLEMA DE LA IDENTIFICACION
453
Vt
Y t = Xt + V t
(13.2)
Ut
1
12
21 1
1
12
=
21 1
u1t
=
u2t
1
1 12 21
1
112 21
12
112 21
12
112 21
1
112 21
b11 b12
b21 b22
=
u2t
b21 b22
b11 u1t + b12 u2t
=
b21 u12 + b22 u2t
9
Note que invertimos una matriz; ello implica que es cuadrada (e invertible). Por que estamos
tan seguros de ello?
454
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
E (Vt ) = 0
h
i
V ar (Vt ) = E B 1 Ut Ut B 1
= B 1 B 1
La ecuacion en forma reducida muestra que cada variable endogena es funcion de
TODOS los terminos de error estructurales. Si tratamos de correr una de las regresiones basados u nicamente en una ecuacion estructural, como ya lo vimos, tendremos la certeza de obtener estimadores sesgados e inconsistentes.
INFORMACION
13.4. INCORPORANDO MAS
13.4.
455
Hasta ahora hemos utilizado un sistema de ecuaciones muy sencillo con objeto de
entender claramente las cuestiones relativas a la identificacion. Es momento de emplear una version mas compleja, que incluya mas variablesexogenas o predeterminadasen nuestras ecuaciones. Lo anterior, como pueden intuir con base en lo visto
de Variables Instrumentales, permitira resolver nuestro problema de identificacion.
El nuevo modelo que estudiaremos es:
E [yn,ti , un,t+j ] = 0 n = 1, 2 i = 1, 2, . . . j = 0, 1, . . .
E [xk,tj , un,t+j ] = 0 k = 1, 2, 3, 4 j = 0, 1, . . .
Huelga decir que la representacion matricial antes propuesta, BYt + CXt = Ut tambien es valida en este caso. La diferencia estriba en las dimensiones de los distintos
elementos:
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
456
1
12
B =
21 1
y1t
Yt =
y2t
11 12 0
0
C =
21 0
23 24
u1t
Ut =
u2t
Podemos de nueva cuenta obtener la forma reducida de este sistema estructural, que
es:
Yt = B 1 CXt + B 1 Ut
Yt = Xt + Vt
Los coeficientes reducidos seran, en esta ocasion:
= B 1 C
1
11 12 0
0
1
12
=
21 0
23 24
1 12 21 21 1
1
11 12 21
12
12 23 12 24
=
23
24
1 12 21 21 11 + 21 21 12
1
12 21 11 12 12 23 12 24
=
1 12 21 21 11 21 21 12 23 24
Reparametricemos esta expresion:
11 12 13 14
21 22 23 24
13.5. CONDICIONES DE IDENTIFICACION
457
13.5.
Condiciones de identificacion
Si tiene paciencia, descubrira que hay dos expresiones para obtener 12 ; la ecuacion esta de
hecho sobre-identificada.
11
De hecho, tenemos un problema de sobre-identificacion con respecto al parametro 12 , que
as al abordar
tambien podemos obtenerlo al hacer: 12 = 14 1
24 . al respecto ahondaremos m
ladesgraciadamente no tan famosa como debieraCrtica de Liu.
458
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
B=
11
21
..
.
12
22
. . . 1G
2G
. . . ..
.
G1 G2 . . . GG
A = [B C]
11 12 . . . 1G
21 22
2G
= ..
.
. . ...
.
G1 G2 . . . GG
11
21
..
.
12 . . .
22
...
1K
2K
..
.
G1 . . . . . . GK
De la matriz que contiene todas las variables, solo describiremos una columna, la
t-esima:
12
Antes, por ejemplo, el parametro que acompanaba a yi en la i-esima ecuacion era igual a la
unidad.
13.5. CONDICIONES DE IDENTIFICACION
459
Zt
y1t
..
.
yt
yGt
=
=
xt
x1t
.
..
xkt
Dejamos al lector la tarea de verificar que A Zt = Ut . Por ahora seguimos proponiendo nuevas notaciones; denotemos i al i-esimo renglon de la matriz A. A
manera de ejemplo, 1 Zt no es otra cosa mas que. . .
11 y1t + 12 y2t + . . . + 1G yGt + 11 x1t + 12 x2t + . . . + 1k xKt
E STRUCTURAL DEL S ISTEMA. Note que
. . . es decir, L A P RIMERA E CUACI ON
en esta representacion del modelo, todas las variables, tanto endogenas como exogenas, aparecen en todas las ecuaciones. En ello difiere de los modelos que habamos
usado como ejemplo. Necesitamos entonces establecer un sistema de restricciones
que nos permitan representar el modelo tal y como lo especificamos originalmente
(en el ejemplo anterior, no todas las exogenas aparecen en todas las ecuaciones. En
otras palabras, algunos de los parametros son restringidos a un valor igual a cero).
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
460
11 12 13 . . . 1G 11 . . . 1k
0
0
1
0
..
.
0
= 1
0
0
1
0
..
.
0
= 0
DE EXCLUSI ON
. Note que
La expresion anterior se conoce como R ESTRICCI ON
tendremos bastantes de este tipo de restriccion, varias para la primera ecuacion del
sistema as como para las demas.
11 12 13 . . . 1G 11 . . . 1k
0
1
0
1
0
..
.
0
= 0
0
1
0
1
0
..
.
0
HOMOG ENEA
LINEAL .
A esta expresion se le denomina R ESTRICCI ON
Por que?
13.5. CONDICIONES DE IDENTIFICACION
461
1 = 0
En donde, asumiendo que solo existen las dos restricciones antes presentadas:
0
0
0
1
1
0
0 1
0
0
..
..
.
.
0
0
DE LO QUE SE EST A
E NTRE M AS
SE IMPONGAN , MENOS PAR AMETROS
ESTRUCTURA
LES TENEMOS QUE RECUPERAR . S I EL N UMERO ES REDUCIDO HASTA EL
PUNTO EN QUE COINCIDE CON LAS RESTRICCIONES NO IMPUESTAS POR
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
462
= B 1 C
B = C
B + |{z}
C = 0
|{z}
GK
(13.3)
GK
B + CIK = 0
Donde IK es una matriz identidad K K. Recomendamos que verifique el resultado de esta expresion usando un ejemplo sencillo donde, por ejemplo, G = 2 y
K = 3. Obtendra un sistema identico al expresado en la ecuacion 13.4. Ahora aprovecharemos una de las matrices antes definidas para dar una expresion alternativa;
recuerde que A = [B C], la matriz que contiene todos los parametros, posee las
siguientes dimensiones:
dim(A) = G (G + K)
Definamos la matriz W de la siguiente manera:
W =
IK
Con base en lo anterior, podemos inferir rapidamente que dim(W ) = (G+K)K.
Podemos entonces expresar la ecuacion (13.3) de la siguiente manera:
AW =0
lo que corresponde a:15
15
11
21
..
.
12
22
. . . 1G
2G
. . . ..
.
11
21
..
.
12 . . .
22
...
1K
2K
..
.
G1 G2 . . . GG G1 . . . . . . GK
11 . . . 1K
..
...
..
.
.
G1 . . . GK
0
0
1
.
..
.
..
..
.
0 ...
1
=0
Note que aqu todava no normalizamos las s de las variables endogenas en la diagonal.
13.5. CONDICIONES DE IDENTIFICACION
463
(13.4)
P RIMERA E CUACI ON . Llamemoslas, en su conjunto, REP ER1 [Relacion entre parametros Estructurales y Reducidos de la ecuacion uno]. Lo anterior puede
expresarse, matricialmente, de manera mas elegante:
REP ER1 : 1 W
z }| {
[W ]
464
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
Para entender la manera en la que es posible averiguar si la ecuacion esta identificada debemos detallar mas las dimensiones de esta meta-matriz de restricciones.
Si dim(1 ) = 1 (G + K) y dim ([W ]) = (G + K) (K + R), entonces, la
meta-matriz de restricciones sera:
dim (1 [W ]) = 1 (K + R)
As pues 1 [W ] = 0 puede ser considerado como un sistema en el que aparecen
K + R ecuaciones. Lo relevante ahora es saber cuantas incognitas tenemos:
E N LO QUE RESPECTA [W ]:
1. Los elementos que aparecen en W son los que estan en (los parametros reducidos) as como en una matriz identidad de dimension K. En
principio, conocemos la matriz o bien la estimamos, por lo que sus
elementos no nos son desconocidos. Con respecto a la matriz identidad,
pues, obviamente, ah tampoco hay elementos desconocidos.
2. Por otra parte, las restricciones a priori sobre el modelo estructural, ya
sean las de exclusion o las homogeneas lineales, fueron impuestas por
nosotros En la matriz , por ende, tampoco hay elementos desconocidos.
E N LO QUE RESPECTA 1 : Pues resulta evidente que es en este vector donde
estan todas nuestros elementos desconocidos; por una parte estan los parametros asociados a las variables endogenas, 1i i = 1, 2, . . . , G, y por otra
estan los que acompanan a las variables exogenas o predeterminadas, 1j
j = 1, 2, . . . , K.
En este desglose debera quedar claro que estamos buscando resolver K +G incognitas mediante K + R ecuaciones. Si deseamos que la ecuacion este identificada, entonces el numero de ecuaciones debe ser igual al numero de incognitas. No obstante,
como generalmente normalizamos uno de los parametros asociados a las variables
endogenas, perdemos una incognita, por lo que la condicion de identificacion es
ligeramente menos dura. Las ecuaciones las construiremos con base en la matriz
[W ].
DE S ER L INEALMENTE I NDEPENDIENTES
D ICHAS E CUACIONES H ABR AN
(el que dos de ellas, por ejemplo, no lo sean, implica que en realidad son solo una
ecuacion) por lo que su numero esta directamente representado por el rango de e sta.
As, la condicion de identificacion puede ser expresada tecnicamente como:
13.5. CONDICIONES DE IDENTIFICACION
465
([W ]) = G + K 1
466
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
Definicion 27 En un modelo con G ecuaciones simultaneas, se dice que una ecuacion satisface la condicion de orden (es decir, esta potencialmente identificada)
siempre y cuando el numero de variables predeterminadas que no aparecen en
dicha ecuacion (excludas) no sea inferior al numero de variables endogenas includas en esa misma ecuacion, menos uno. Lo anterior se puede expresar mas
facilmente de la siguiente manera:
K ki gi 1
(13.5)
(13.6)
(13.7)
Lo primero que haremos es replantear este sistema en una tabla que haga mas
facil su lectura (vea la tabla 13.1). Empezaremos con la condicion de orden de las
tres ecuaciones:
13.5. CONDICIONES DE IDENTIFICACION
Ecuacion y1
13.5
1
13.6
0
13.7
31
y2
12
1
0
y3
13
23
1
Constante
11
21
31
467
x2
12
22
0
x3
0
23
0
x4
0
0
34
1. K k1 = 4 2 = 2; g1 1 = 3 1 = 2 K k1 = g1 1: identificacion
exacta.
2. K k2 = 4 3 = 1; g2 1 = 2 1 = 1 K k2 = g2 1: identificacion
exacta.
3. K k3 = 4 2 = 2; g3 1 = 2 1 = 1 K k3 g3 1: sobreidentificacion.
Segun esta regla, las dos primeras ecuaciones estan exactamente identificadas y
la u ltima esta sobre-identificada. Veamos ahora que dice la condicion de rango.
Debemos encontrar al menos un determinante no-nulo de las matrices 2 2 que
se puedan formar con los coeficientes de variables excludas en nuestra ecuacion.
Note que, en la primera ecuacion, las u nicas variables excludas en su especificacion
son x3 y x4 . Ademas, dichas variables s aparecen en las otras dos ecuaciones. Ello
implica que solo podemos utilizar los coeficientes asociados a e stas para construir
una matriz de dimensiones (G 1) (G 1) = 2 2. Solo es posible generar una
matriz as, y la denotaremos :
=
23 0
0 34
468
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
Con base en lo anterior podemos estar seguros de que la primera ecuacion esta exactamente identificada.
Para concluir esta seccion, es importante explicar la manera en que interactuan ambas reglas de identificacion:
1. Si la condicion de orden senala que una ecuacion esta exactamente identificada y la de rango encuentra una o mas sub-matrices (G 1) (G 1) con
determinante no nulo: la ecuacion esta exactamente identificada.
2. Si la condicion de orden senala que una ecuacion esta sobre-identificada y la
de rango encuentra una o mas sub-matrices (G1)(G1) con determinante
no nulo: la ecuacion esta exactamente identificada.
3. Si la condicion de orden senala que una ecuacion esta exacta/sobre-identificada
y la de rango no encuentra una sub-matriz (G1)(G1) con determinante
no nulo: la ecuacion esta subidentificada.
4. Si la condicion de orden senala que una ecuacion esta sub-identificada: la
ecuacion esta subidentificada (no hace falta calcular la condicion de rango).
Ejercicio 26 Retome el ejemplo de esta seccion y calcule la condicion de rango de
las otras dos ecuaciones. Que obtiene usted?
13.5. CONDICIONES DE IDENTIFICACION
469
qt = + pt ,
qt = + pt ,
e ste no puede estar identificado. Debemos incluir variables exogenas. Cuales podran
o, mejor dicho, deberan ser tales variables? La definicion de las variables exogenas
no es trivial (volveremos a discutir esto mas adelante). Pero en este mercado, hay
candidatos cuyas caractersticas son muy halaguenas:
1. Variables exogenas que solo afectan la oferta: pluviometra, e poca de vedas,
condiciones del mar, tormenta (esta podra ser dicotomica). Es razonable suponer que el deseo de comer pescado no esta dictado por el clima; dicha
variable solo afecta, en principio, a los pobres pescadores.
2. Variables exogenas que solo afectan la demanda: cristianos, como porcentaje
del total, da de la semana, cuaresma (esta tambien podra ser dicotomica).
Es sabido que los miembros de la religion catolica tienden a consumir mas
pescado en ciertas e pocas del ano y tambien ciertos das.
3. Variables que posiblemente afecten tanto a la demanda como a la oferta: precio de la carne de res, precio del pollo, precio del cerdo, precio del avestruz,
e poca del ano (de hecho, si la veda coincide con la cuaresma, tales variables
deberan ingresar a esta lista),. . . Si bien estas variables muy posiblemente
tengan efectos en el mercado de pescado, no es tan claro si afectan a la demanda, a la oferta o quiza a ambas.
Si bien no se pretende descubrir el hilo negro del negocio de la pesca en esta corta
subseccion, si aspiramos a dejar claro que la busqueda de las variables exogenas (y
de hecho, tambien la discriminacion entre endogenas y exogenas) es mas dificil de
lo que parece. En realidad, el e xito de la estimacion de este tipo de modelos depende
en gran medida del acierto con que se tomen estas decisiones.
A manera de conclusion de este captulo, senalamos tan solo lo siguiente: si se
pretende estimar un sistema de ecuaciones simultaneas, es fundamental hacer el estudio de identificacion de cada una de las ecuaciones. Una vez que se sabe que
la ecuacion que nos interesa esta identificada, solo falta estimarlas. Para ello, ya
no necesitamos extendernos; basta con emplear el metodo que estudiamos extensamente: el sistema de ecuaciones estructural puede estimarse mediante el metodo
470
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
de Variables Instrumentales. Hay hartas variantes y refinamientos de dicho metodo, pero ello no impide que 2SLS permanezca como el metodo por excelencia en
econometra ante cualquier problema de ortogonalidad.
13.6.
Esta definicion somera habra de ser expandida. Los elementos basicos fueron inspirados del
artculo de Wikipedia: http://es.wikipedia.org/wiki/Efecto_desplazamiento.
18
Ver Fonseca Hernandez (2009).
471
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
472
14.4
Inversin privada
lnversin pblica
14.2
14
13.8
13.6
13.4
13.2
13
12.8
12.6
12.4
2003
2004
2005
2006
2007
2008
ao
2009
2010
2011
(13.8)
(13.9)
(13.10)
473
mos Cuadrados en dos etapas como metodo de estimacion y capture las ecuaciones.
Esta u ltima debera quedarle como se muestra a continuacion:
equation
equation
equation
endog Cp
Cp
Ip
Yp
Ip
0 Yp
0 Yp Ig
0 Cp Ip
Yp
(13.11)
(13.12)
(13.13)
El nuevo sistema incluye ahora informacion de la crisis del 2008, que presumiblemente afecto a las tres variables, as como el gasto publico, que dejamos en la
ecuacion del consumo (debera, eventualmente, poder capturar los efectos sobre
el consumo privado), etc. Note como fueron capturadas diversas variables exogenas/predeterminadas, con objeto de identificar las ecuaciones. Capture el nuevo sistema y trate de estimarlo.:
equation
equation
equation
endog Cp
Cp
Yp
Ip
Ip
0 Yp Cg Crisis08
0 Cp Ip Crisis08 Yp_1
0 Yp Crisis08 Ig
Yp
Esta vez las ecuaciones del sistema s satisfacen la condicion de orden, lo que permite, identificar los parametros estructurales. Si estudia los valores de los parametros
estimados, notara que los signos corroboran la idea de que el gasto y la inversion
publicos distorcionan y desplazan el consumo y la oferta privados.
Limitaciones y otras posibilidades
El ejemplo que se ha dado para ilustrar la estimacion de un sistema de ecuaciones
simultaneas tiene algunas limitaciones. En este manual se ha estudiado a fondo el
474
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
metodo de MC2E, por lo que fue este u ltimo el que usamos. No obstante, la ecuacion de comportamiento del ingreso es, en realidad, bastante criticable. Por la forma
en que construimos en ingreso, dicha ecuacion corresponde en realidad a una identidad imcompleta. En otras palabras, tenemos un error de especificacion notorio en
la segunda ecuacion. La solucion obvia es reemplazarla por una identidad. Lamentablemente, el metodo de MC2E no permite tomar en cuenta identidades; para ello,
sera necesario estimar el sistema usando maxima verosimilitud con informacion
completa (MVIC). Puesto que esa tecnica no se abordo, nos limitaremos a presentar los resultados usandola ciegamente en el programa. Nuevamente, habra que
cambiar la especificacion:
Cp,t + 11 + 12 Yp,t + 12 Cg,t + 13 DUt = u1,t
Yp,t Cp,t Cg,t Ip,t Ig,t = 0
Ip,t + 31 + 32 Yp,t + 33 DUt + 25 Ig,t = u3,t
(13.14)
(13.15)
(13.16)
0 Yp Cg Crisis08
0 Yp Ig Crisis08
= Cp + Cg + Ip + Ig
Yp
Cg Crisis08 Ig
(13.17)
(13.18)
(13.19)
475
Este ejercicio es muy sencillo y, sobre todo, emplea una base de datos demasiado
corta (36 observaciones). Es obvio que puede mejorarse. No obstante, el resultado econometrico parece ser bastante robusto, aunque hay que tomar en cuenta los
efectos que habra en nuestra apreciacion del mismo si consideraramos la posibilidad de que algunas variables no fueran estacionarias. En todo caso, el grueso de
la literatura referente a las ecuaciones simultaneas fue hecho antes de la revolucion
de las races unitarias, por lo que, momentaneamente, haremos un parentesis a ese
respecto. A cambio de eso, se sugiere enfaticamente hacer los siguientes ejercicios.
Ejercicio 27 Calcule tanto la condicion de orden como la de rango a la ecuacion
de inversion privada de los tres sistemas de ecuaciones presentados en este captulo.
Ejercicio 28 La especificacion utilizada es en extremo sencilla. Habra notado que
la base de datos contiene otras variables. Habra notado tambien que ninguna de
las variables esta en logaritmos o bien que no hay mucho e nfasis en las cuestiones
dinamicas (rezagos). Proponga y estime un mejor modelo, actualizando la base de
datos, incluyendo eventualmente mas ecuaciones y/o mas variables exogenas. No
olvide demostrar que la ecuacion de inversion privada esta identificada.
476
CAPITULO
13. MODELOS DE ECUACIONES SIMULTANEAS
Captulo 14
Eplogo
El material que presenta este curso queda, en lo esencial, inserto en el trascendental
enfoque de la famossima Comision Cowles,1 cuyo nombre se deriva del hecho
que la mayor parte de los que construyeron este paradigma, lo hicieron al amparo
de dicha comision, radicada en Chicago a finales de los anos cuarenta as como en
los anos cincuenta.
La Comision Cowles, en particular, sostena que la macroeconoma es susceptible de ser representada por un sistema de ecuaciones simultaneas, generador de
todas las variables. Entre los postulados principales de este enfoque destaca la distincion entre variables exogenas y endogenas y dicha distincion, como bien se ha
visto, fue refinada en los anos ochenta con objeto de incorporar en la metodologa
econometrica la Crtica de Lucas. En cierto sentido, (i) la separacion las variables
exogenas y endogenas [como lo sugera la Comision Cowles], (ii) y la estructura causal impuesta en los sistemas de ecuaciones constituyen ambas decisiones a
priori del econometrista. Mas grave aun, y eso en correspondencia con el estado
del arte de la e poca, ambas decisiones no pueden considerarse como falsables. Las
crticas a la econometra propuesta por la Comision Cowles no son pocas ni carecen
de fundamento; vale la pena enumerarlas:
1. Tipificacion de las variables: la clasificacion entre variables exogenas y endogenas es, en ocasiones, arbitraria.
2. Crtica de Liu: es posible que existen muchas variables que deberan ser includas en las ecuaciones de un sistema que, de hecho, no aparecen, puesto
1
Si bien sufre multiples e importantes alteraciones debidas a las aportaciones mas recientes en el
campo.
477
CAPITULO
14. EPILOGO
478
que el econometrista las omitio con objeto de lograr los requisitos de indentificacion de la especificacion. En palabras mas llanas, es posible manipular
arbitrariamente la especificacion de una ecuacion con el mezquino y vulgar
interes de asegurar la identificacion de los parametros.
3. Crtica de Lucas: a este respecto, con objeto de no ser demasiado redundantes
con lo que ya se ha dicho, solo senalaremos que los modelos de ecuaciones
simultaneas tenan por objeto pronosticar los efectos de cambios en las variables exogenas sobre las endogenas (asumiendo por ejemplo que dichas variables exogenas corresponden a variables de control de alguna autoridad, como
la tasa de interes de corto plazo o las tasas impositivas, etc.). No obstante,
si hay alteraciones en las variables exogenas y los agentesmaximizadores
son capaces de preveerlas, modificaran su comportamiento. De ser cierto, los
coeficientes estimados en un sistema de ecuaciones no puedan ser asumidos
como independientes de los cambios en variables exogenas. La respuesta a
esta crtica, como ya lo saben, vino dada por definiciones mas precisas de la
exogeneidad.
La evolucion reciente de la econometra se traduce en una vasta cantidad de propuestas las unas mas sofisticadas que las otras. Destaca la hibridacion de las tecnicas de series de tiempo con la econometra, que ha dado pie a la macroeconometra
moderna. Son los principios tecnicos de esta ramificacion as como sus potenciales
aplicaciones a cuestiones empricas, las que se estudian en los siguientes cursos:
M ACROECONOMETR I A
Captulo 15
Ejercicios (ii)
P REGUNTA # 1
Preguntas de conocimientos generales: responda brevemente (cinco renglones, no
mas) a las siguientes preguntas:
1. Que efecto tiene la autocorrelacion sobre los estimadores?
2. Que efecto tiene la heteroscedasticidad sobre los estimadores?
3. En que consiste el supuesto de Ortogonalidad? Que efecto tiene sobre la
regresion cuando dicho supuesto no se cumple?
4. Que efecto tiene la multicolinealidad sobre los estimadores?
5. Que es un diagrama de Venn?
6. Cual es la diferencia entre el modelo estructural y el reducido?
7. Como verificara si algunas variables son redundantes?
8. Para que sirve la prueba de Hausman?
9. En que consiste el metodo de estimacion de MC2E?
10. En que consiste el metodo de estimacion de MCG?
P REGUNTA # 2
Cual es el caso mas grave de los mencionados a continuacion?
479
CAPITULO
15. EJERCICIOS (II)
480
Variable dependiente medida con error
Variables explicativas medidas con error
P REGUNTA # 3
Cuales deben ser las propiedades de una variable instrumental si se quiere que e sta
sea valida?
Proporcione las condiciones tecnicas; explique su significado (5 lneas max.)
P REGUNTA # 4
Cada pregunta vale 10 puntos.
1. En que consiste el Metodo de Variables Instrumentales?
2. Que problema resuelve?
3. Si tuviera que aplicarlo con una regresion especfica, Como lo ejecutara?
4. Es importante el numero de variables instrumentales adicionales que se incluyan en este metodo de estimacion?
P REGUNTA # 5
Que entiende usted por Granger-Causalidad? Detalle como especificara la prueba.
P REGUNTA # 6
Asuma la siguiente relacion entre xt y yt :
yt = xt + wt
El problema es que nuestros datos estan mal medidos:
yt = yt + uyt
xt = xt + uxt
uyt iidN (0, y2 ), uxt iidN (0, x2 ), wt iidN (0, w2 )
Demuestre si este estimador es consistente o no.
481
P REGUNTA # 7
En clase se vio un estimador de Variables instrumentales en el que el numero de
columnas de la matriz Z, l , era igual al numero de columnas de la matriz X . No
obstante, tambien vimos que era posible que l > K . Pero no se demostro que, en
ese caso, el estimador era consistente. Asuma la relacion Y = X + U en la que
se cumplen todos los supuestos excepto el de ortogonalidad. Asuma tambien que
dispone de una matriz Z de instrumentos validos (recuerde que necesita los detalles
tecnicos). La formula de variables instrumentales cuando l > K es la siguiente
(por cierto, para derivarla, basta con formular el estimador de Mnimos Cuadrados
Generalizados, pero e sta no es la cuestion):
IV = (X Z(Z Z)1 Z X)1 X Z(Z Z)1 Z Y
|
|
{z
}
{z
}
Pz
Pz
= (X Pz X)1 X Pz Y
=
=
=
=
=
=
=
0
u2
0
0
v2
0
0
CAPITULO
15. EJERCICIOS (II)
482
La persona encargada de las estimaciones solo conoce la primera relacion (la que
tiene a Yt como variable dependiente) y por ende la estimara sin tomar en cuenta la
segunda.
Que supuesto de la regresion se rompe? Demuestrelo,
Que ocurrira con los estimadores obtenidos?
P REGUNTA # 10
Indique las condiciones que requiere satisfacer una variable para ser:
a) Fuertemente exogena con respecto a otra,
b) Super exogena con respecto a otra
P REGUNTA # 11
Considere el siguiente modelo, yt = +
i=0
Resuelvalo de tal forma que obtenga una expresion que s sea estimable.
Comente acerca de las propiedades del termino de error resultante.
P REGUNTA # 12
Cuando se estima una especificacion dinamica, El cumplimiento de cual supuesto
es importante verificar? Por que? Justifique.
P REGUNTA # 13
En que consiste la metodologa de General a Simple? Senale cual es el principal
argumento que aboga a favor de dicha metodologa.
P REGUNTA # 14
Cual es la diferencia entre el modelo estructural y el reducido?
P REGUNTA # 15
Que entiende usted por condicion de Orden y Condicion de Rango?
483
P REGUNTA # 16
Cual es, concretamente, la condicion de orden?
Calculela en el modelo siguiente:
Y1t + 12 Y2t + 11 X1t + 12 X2t = U1t
21 Y1t + Y2t + 21 X1t + 23 X3t + 24 X4t = U2t
P REGUNTA # 17
Que efecto tiene la no-ortogonalidad entre variables explicativas y termino de error
sobre los estimadores?
P REGUNTA # 18
Indique tres casos en los que se rompe el supuesto de ortogonalidad.
P REGUNTA # 19
Que efecto tiene la multicolinealidad sobre los estimadores?
P REGUNTA # 20
Para que sirve la prueba de Hausman? Cual es la logica detras de e sta? Como se
lleva a cabo?
P REGUNTA # 21
Explique la Crtica de Lucas.
P REGUNTA # 22
Suponga que se dispone de T = 120 observaciones de K = 7 variables explicativas,
x1t , x2t , ..., xkt ,as como de una variable dependiente, yt . Se sospecha que existe un
rompimiento estructural en un cierto punto de la muestra, en la observacion 40. Con
base en esto u ltimo, se parte la muestra en dos; posteriormente se estima la regresion
por MCO de la variable dependiente contra todas las demas (la primera puede ser
considerada como un vector en el que solo aparecen unos) usando: (i) todos los
datos; (ii) solo los datos de la primera parte de la muestra, y; (iii) solo los datos de
la segunda parte de la muestra. De cada regresion se obtienen las siguientes sumas
de residuales al cuadrado (no necesariamente en el mismo orden): (1) 545, (2) 777
y (3) 1607.
CAPITULO
15. EJERCICIOS (II)
484
1. Indique cual de las tres sumas corresponde a la regresion que empleo todos
los datos. Justifique su respuesta (la explicacion es lo que mas importa)
2. Con la informacion proporcionada es posible hacer una prueba de cambio
estructural. Cual es?
3. Cual es la hipotesis nula de esa prueba?, y la alternativa?
4. Como se distribuye el estadstico bajo la hipotesis nula?
5. Calcule dicha prueba.
6. Si efectuo bien los calculos, le debio salir un estadstico de prueba tal que su
p-valor es 0.006. Acepta o rechaza la hipotesis nula?
P REGUNTA # 23
Conteste las siguientes preguntas:
1. Que entiende usted por la hipotesis de expectativas racionales?
2. Cual es la propiedad que una variable debe tener, estadsticamente, para que
la Crtica de Lucas no aplique? Explique.
3. Indique dos maneras de probar que la hipotesis de expectativas racionales se
cumple.
P REGUNTA # 24
Suponga que dispone de dos variables, xt y yt . Suponga ademas que, en una especificacion lineal de tipo yt = + xt + ut tenemos evidencia de que la variable
explicativa es debilmente exogena en el sentido de Engle, Hendry y Richard [es decir, con respecto al parametro de interes, en este caso,]. Con base en lo anterior, se
lleva a cabo una prueba de estabilidad del sobre ambas variables A que conclusion
llegara usted si?
a) Se identifican cambios estructurales en xt pero no en yt
b) Se identifican cambios estructurales en xt y en yt
c) No se identifican cambios estructurales en xt ni en yt
485
P REGUNTA # 25
Suponga una variable yt que se genera de la siguiente manera:
yt = + uyt
Donde es un parametro fijo y uyt representa las innovaciones que son iid con
esperanza nula y varianza constante u2 . El estimador de Mnimos Cuadrados Ordinarios de Beta es y, es decir la media de la variable, cuya varianza poblacional es
2
u
, donde T es el tamano de muestra. Un investigador algo necio insiste en estimar
T
CAPITULO
15. EJERCICIOS (II)
486
Suponga ademas que el econometrista solo tiene acceso a la variable xt y que pretende estimar la regresion:
yt = xt + t
a) Es el estimador sesgado o insesgado?
b) Calcule la consistencia del estimador.
P REGUNTA # 28
Suponga que la verdadera especificacion es:
yt = xt + ut
donde yt y xt son variables centradas. Suponga ademas que se cumplen todos los supuestos de la regresion. Un avezado econometrista estima correctamente el modelo
t + ut ] pero despues se hace bolas y corre una segunda regresion:
[yt = x
yt = yt + t
t]
donde yt representa los valores estimados de la primera regresion [
yt = x
a) Cual es su intuicion? Que cree que arroje como estimador la segunda
regresion?
b) Demuestrelo.
c) Proceda igual pero con variables no centradas y regresiones que incluyen
la constante. Aproveche el resultado anterior!
P REGUNTA # 29
487
Suponga un modeloP
yt = + xt + ut estimado por MCO. Por que podemos estar
tan seguros de que ut = 0? Si en vez de ese modelo, usamos
P yt = xt + ut (sin
que las variables esten centradas!), se puede afirmar que
ut = 0? Explique su
respuesta.
P REGUNTA # 30
Suponga el siguiente sistema de ecuaciones simultaneas:
y1t = 1 + 1 x1t + 2 x2t + 3 y2t + u1t
y2t = 2 + 4 x2t + 5 y1t + u2t
y3t = 3 + 6 x1t + u3t
(15.1)
(15.2)
(15.3)
z,w = pP
P
(zt z)2 (wt w)
2
CAPITULO
15. EJERCICIOS (II)
488
P REGUNTA # 32
Suponga que se estiman las siguientes regresiones:
yt =
1 x1t +
2 x2t + u1t
yt = x2t + vyt
2t + vxt
x1t = x
vxt + u2t
vyt =
(15.4)
(15.5)
(15.6)
(15.7)
donde yt = ytn yn , x1t = xn1t xn1 (no es una constante) y x2t = xn2t xn2 .
Demuestre que:
1. =
1
2. u1t = u2t
P REGUNTA # 33
Suponga que estima el siguiente modelo:
st = + rt + ut
Donde, St es el tipo de cambio peso/dolar, rt es el diferencial de tasas de interes
entre Mexico y Estados Unidos y ut es el termino de error. Como probara usted la
presencia de autocorrelacion? En caso de que encontrara evidencia de autocorrelacion que hara usted?
P REGUNTA # 34
Defina los siguientes conceptos y ejecute los calculos solicitados:
1. Estacionariedad debil.
2. Operador diferencia, . Desarrolle 3 (xt ).
3. Orden de integracion, I(d). Si xt I(1), que puede decir de (xt )?
4. Operador rezago, L. Desarrolle (1 2L + 3L2 5L5 )xt .
P REGUNTA # 35
489
Suponga que dos variables (xt y yt ) fueron generadas independientemente como
procesos I(1) sin deriva. Que pasara si intentara usted estimar la regresion yt =
+ xt ?
P REGUNTA # 36
Suponga que tiene usted datos de E.E.U.U. respecto al salario (w) de una poblacion;
sabe ademas, la edad (E) y el color de piel de cada individuo (con tres clasificaciones u nicamente: negro, blanco o moreno), el numero de anos de escolaridad y su
promedio (escolar, tambien). Que problema le ve a la ecuacion siguiente?
wi = + 1 Ei + 2 N egroi + 3 Blancoi + 4 M orenoi + ut
Donde las variables N egro, Blanco y M oreno son variables dicotomicas que valen
uno si el individuo tiene la piel de dicho color y cero si no.
Suponga que corrige el problema de especificacion del inciso anterior. Explique
ahora porque la ecuacion (corregida) sigue sin ser un buen modelo para determinar si hay dicriminacion por salario en esa poblacion. Proponga una especificacion
mejor con la informacion provista en este ejercicio; explique porque es mejor su
propuesta.
P REGUNTA # 37
Cierto o falso? Un econometrista corre una regresion entre dos variables (se incluye constante); todos los supuestos se cumplen, solo que la variable dependiente
esta medida con error; el error es un ruido blanco centrado en cero con varianza
constante. El estimador de la pendiente tiene sesgo.
P REGUNTA # 38
Un econometrista corre una regresion entre dos variables (yt = + xt + ut ); todos
los supuestos se cumplen, solo que la variable dependiente esta medida con error; el
error es un ruido distribuido como normal, con varianza constante y esperanza igual
a E 6= 0. Hay consistencia en el estimador de ? Suponga que xt N (0, x2 ),
yt = + xt + ut , yt = yt + Et y Et N (E , E2 ).
P REGUNTA # 39
El padre de Juan tiene cinco hijos; les puso nombres raros: Diez, Veinte, Treinta,
Cuarenta... Como crees que se llama el quinto?
490
CAPITULO
15. EJERCICIOS (II)
P REGUNTA # 40
donde y = 0.14 y y = 0.21 son parametros, uyt N 0, 21 corresponde a las
innovaciones, y t = 1, . . . , T con T = 500, es el tamano de la muestra; DUyt es una
variable dicotomica que vale cero si t < 251 y uno si t 251. uy0 = y0 = 0.
1. resuelva la ecuacion del PGD, Note que le debera quedar la suma de la variable dicotomica con distintos rezagos. Si tiene dificultades resolviendo dicha
suma, haga un ejemplo sencillo en una hoja con T = 10. Notara que llega a
una suma facil de interpretar.
2. Escriba el codigo de Matlab que permita realizar la siguiente variante de la
prueba Dickey-Fuller (se asume que la variable dicotomica s es conocida por
el econometrista):
(yt ) = + yt1 + DUyt
3. Aplique la prueba a una variable generada iid, distribuida normalmente con
esperanza cero y varianza igual a 2.
491
P REGUNTA # 42
Considere las siguientes siete situaciones:
1. Se estima la regresion yt = + xt + ut ; se sabe que 2 = (xt )2 ( es una
constante cualquiera),
2. Se estima la regresion yt = + 1 x1t + 2 x2t + ut ; se sabe que:
a) x1t = x2t + v1t , donde v1t iidN (0, 1/3),
CAPITULO
15. EJERCICIOS (II)
492
g No ortogonalidad,
h Hipermetropa,
i Regresion espuria,
j Multicolinealidad,
k Autocorrelacion,
l No hay ningun problema,
493
: Hay tres secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay tres secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay cuatro secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay cinco secuencias de respuesta correctas entre las once primeras. Cuales?
: Hay seis secuencias de respuesta correctas entre las once primeras. Cuales?
Tome en cuenta que, entre las 18 opciones que se ofrecen, solo hay una respuesta
correcta.
P REGUNTA # 43
Suponga que la verdadera relacion entre dos variables es la siguiente:
yt = + xt + ut .
Suponga ademas que se cumplen todos los supuestos habidos y por haber, por lo que
los estimadores de MCO de y son insesgados y consistentes. Ahora imagine que
el econometrista comete un error de especificacion y estima la siguiente regresion:
t + vt .
yt = x
Suponga, ademas, que:
1 P
D
1. T 2 Tt=1 xt N (0, x2 ),
P
P
2. T 1 Tt=1 x2t x2 ,
3. xt ut (son ortogonales).
D
suma debe ser dividida por T y la segunda por T . Ello quiere decir que ambas
sumas crecen a una cierta velocidad proporcional a una potencia del tamano de
muestra.
494
CAPITULO
15. EJERCICIOS (II)
Parte III
Herramental matematico basico
495
Apendice A
Tendencia central y dispersion
En primera instancia cabe recordar al famoso operador sumatoria. El smbolo es la
letra griega mayuscula y la forma en la que la utilizaremos en este curso es:
T
X
Xt = X1 + X2 + X3 + .... + XT
t=1
Por lo general todas nuestras sumatorias iran desde que t es igual a 1 hasta T . Para
simplificar un poco la notacion omitiremos eso a menos que justamente la sumatoria
cubra otro perodo. Ahora procedemos a resumir algunas reglas fundamentales: sea
una constante,
1.
2.
3.
=T
Xt =
(Xt + Yt ) =
Xt
Xt +
Yt
APENDICE
A. TENDENCIA CENTRAL Y DISPERSION
498
2. Variable en desviaciones:
X
Xt X
Xt X
X
Xt XT
X
X
=
Xt
Xt
= O
1
T
1
T
1
T
1
T
1
T
X
X
Xt X
2
2 2Xt X
Xt2 + X
X
X
2 T 2X
Xt2 + X
Xt
X
2
1 X
2 X 2
2
Xt 2
Xt
Xt + 2
T
T
X
1 X 2
Xt
Xt2
T
4. Covarianza:
1X
Yt Y
Xt X
T
X
X
1 X
Y T
=
Xt Yt Y
Xt X
Yt + X
T
1X
1 X X
=
Xt
Yt
Xt Y t 2
T
T
1 X X
1 X X
X
Xt
Y
+
Yt
t
t
T 2
T2
1 X
1X X
=
Xt
Yt
Xt Y t
T
T
Cov(X, Y ) =
Apendice B
Operador Esperanza
B.1. definicion
Buena parte del curso requerira el calculo de las esperanzas de estimadores con el
objeto de conocer el eventual sesgo de los mismos. Si bien el operador esperanza
ya ha sido inculcado en cursos anteriores, vale la pena darle una pequena revisada.
Si bien hay varias medidas centrales relevantesmedia y moda por ejemplo, la que
mas usaremos es la media.
Definicion 29 El valor esperado de una variable aleatoria es:
P
(X discreta)
x Xi Pi
= E(X) =
R
Xf (x)dx (X continua)
x
donde, Pi y f (x) fungen como ponderadores.
En tiempos de la invencion del calculo (Leibniz y Newton), dicho smbolo no exista. Para
explicitar una suma se escriba la palabra entera (SUMA). Posteriormente, se acordo una simbologa
aceptada por todos.
499
APENDICE
B. OPERADOR ESPERANZA
500
B.2.
x2 = V ar(X) = E(X )2
P
2
(X discreta)
x (Xi ) Pi
=
R
(X )2 f (x)dx (X continua)
x
Conviene familiarizarse con el manejo del operador esperanza; entre otras cosas es
necesario saber que, siendo a y b dos constantes:
1. E(aX + b) = aE(X) + b
2. E (aX)2 = a2 E (X 2 )
V ar (X) =
=
=
=
E(X )2
E(X 2 ) + 2 2E(X)
E(X 2 ) + 2 2
E(X 2 ) 2
As, el operador varianza tiene sus reglas muy particulares. Suponga dos variables aleatorias, x e y, as como dos constantes, a y b; entonces:
a) V ar(axt + byt ) = a2 V ar(xt ) + b2 V ar(yt ) + 2abCov(xt , yt )
b) V ar(axt byt ) = a2 V ar(xt ) + b2 V ar(yt ) 2abCov(xt , yt )
c) V ar(a) = 0
Apendice C
La distribucion normal
La distribucion normal tambien es conocida como distribucion Gaussiana,1 pues
tiene la forma de ese tipo de funciones, f (x) = a exp
formula de la distribucion normal es:
(xb)2
2c2
. Concretamente, la
(x)2
1
f (x; , 2 ) = exp 22
2
La distribucion normal es ubicua en estadstica por diversas razones, entre las que
destacan: (i) es muy tratable analticamente; (ii) es la distribucion resultante del Teorema del Lmite Central; (iii) su forma acampanada la hacen idonea para estudiar
gran cantidad de fenomenos naturales.
Existe una inmensay accesibleliteratura que estudia esta distribucion, por lo
que solo nos concentraremos en algunas de sus propiedades, particularmente las
que nos pueden llegar a ser de utilidad.Destaca que los momentos son muy faciles
de obtener:
0
p
E[x ] =
p !!
1
501
NORMAL
APENDICE
C. LA DISTRIBUCION
502
1.4
1.2
N(0,0.3)
1.0
N(0,1)
0.8
0.6
N(3,0.7)
N(0,2)
0.4
N(0,4)
0.2
0.0
Apendice D
Algebre
matricial
Este apendice no pretende ser exhaustivo, ni mucho menos. Tan solo habra de ser
considerado como un formulario ad hoc para efectos de este manual. En otras palabras, solo presentaremos resultados que son u tiles para el desarrollo de los resultados de libro. Este apendice se presenta a sugerencia de Juan Pablo de Bottom,1 a
manera de teorema:
Teorema 20 Sea A una matriz de K K. Entonces, las siguientes 12 afirmaciones
son equivalentes (es decir, cualquiera de ellas implica las restantes 6.):2
1. A es invertible,
2. | A |6= 0 (determinante distinto de cero),
3. (A) = K (rango igual a K),
4. Las columnas y los renglones de A son linealmente independientes,
5. La u nica solucion al sistema homogeneo Ax = 0 es la solucion trivial x = 0,
6. El sistema Ax = b tiene una solucion u nica para cada K-vector b,
7. El numero 0 no es un vector caracterstico (eigenvector) de A,
1
503
504
APENDICE
D. ALGEBRA
MATRICIAL
Apendice E
Independencia entre la varianza
estimada y los parametros MCO
Para obtener el resultado de indepencia entre los parametros estimados por MCO y
el estimador de la varianza, empezaremos por definir claramente el objetivo, que es:
h
i
2
2
2
Cov(,
) = E ( )(
)
= E
2 2
= 0
Note que ya omitimos las esperanzas de los estimadores, pues ya esta probado que
ambos son estimadores insesgados. As, nuestro objetivo es demostrar que esa covarianza
es cero. Como se puede ver del desarrollo anterior, necesitamos calcular
2
. De hecho, para que la covarianza sea cero, esta esperanza debera ser
E
igual a 2 . Eso es lo que vamos a probar:
i
h
2 = E (X X)1 X Y U U T 1
E
Note que dividimos por T y no por T K. El divisor correcto es el segundo,
pero haremos abstraccion de ello, para dejar mas simples las especificaciones. Para
deshacernos de todos los elementos estimados (todos los gorros) y del vector de
la variable dependiente, (i) reemplazaremos Y por la verdadera especificacion, y,
505
506 APENDICE
E. INDEPENDENCIA ENTRE PARAMETROS
Y VARIANZA
(ii) haremos uso de nuestra famosa matriz idempotente, Mx = I X(X X)1 X ,
cuyas propiedades estan explicadas en el curso (ver p. 142):
2 = T 1 E ( + (X X)1 X U )U Mx U
E
= T 1 E (U Mx U + (X X)1 X U U Mx U
= T 1 2 T + E (X X)1 X U U Mx U
Solo resta obtener una esperanza. Note que en e sta solo hay variables explicativas
deterministas (de acuerdo con la primera parte del curso) y el termino de error.
Explicitemos la esperanza. P RIMERO, note que:
dim (X X)1 X U U Mx U = K 1
(X X)1 X = ..
..
..
...
.
.
.
qK1 qK2 . . . qKT
Mx = ..
..
..
...
.
.
.
WT 1 WT 2 . . . WT T
Al igual que en el caso anterior, lo importante es recordar que solo hay variables
explicativas en esa matriz. C UARTO, las matrices que solo incluyen al termino de
error son:
u1 u1 u1 u2 . . . u1 uT
u2 u1 u2 u2 . . . u2 uT
U U = ..
..
.. ,
...
.
.
.
uT u1 uT u2 . . . uT uT
507
y,
u1
u2
U = .. .
.
uT
qit uj ut
t=1
Wit ut
t=1
S EPTIMO
(y u ltimo), al multiplicar las dos expresiones anteriores, el resultado,
1
((X X) X U U Mx U ), es un vector de dimensiones T 1, cuyo i-esimo elemento
sera:
T
X
t=1
qit u1 ut
T
X
W1t ut +
t=1
T
X
t=1
qit u2 ut
T
X
W2t ut + . . . +
t=1
T
X
t=1
qit uT ut
T
X
W T t ut
t=1
Note como, en el i-esimo elemento (es decir en cualquiera) el termino ui se multiplica por todos los demas terminos ut y luego se vuelve a multiplicar por todos los
terminos ut . En otras palabras, solo nos puede quedar (omitiendo q y W ):
u i uj uk
Si recordamos que el termino de error es iid, no importan los valores de i, j y
k; sean cuales sean, la esperanza de ui uj uk siempre sera cero. Si i = j = k, el
tercer momento de una normal centrada en cero es cero tambien. Lo mismo ocurre
si i = j 6= k o bien i 6= j 6= k, etc. En otras palabras:
2
= 2
E
508 APENDICE
E. INDEPENDENCIA ENTRE PARAMETROS
Y VARIANZA
Retomando la expresion de la covarianza, demostramos que e sta es igual a cero:
Cov(,
2 ) = 2 2
= 0
Note que lo que obtuvimos es independencia lineal. Los estimadores de la Varianza
y los parametros no estan correlacionados. Afortunadamente para nosotros, tanto
como los residuales, U se distribuyen normalmente. Bajo estas extraordinarias
condiciones, ausencia de correlacion implica independencia.
Apendice F
Origen de MCO: Legendre
En este apendice se reproducen las paginas de libro en las que fue propuesto por primera vez el metodo de Mnimos Cuadrados Ordinarios. Se presenta la portada del
libro Nouvelles Methodes Pour la Determination des Orbites des Com`etes, escrito en 1805 por Adrien-Marie Legendre, as como las paginas del apendice donde
el metodo se detalla con gran claridad. Este libro fue digitalizado por Universite de
Strasbourg.1
http://num-scd-ulp.u-strasbg.fr:8080/327/
509
510
APENDICE
F. ORIGEN DE MCO: LEGENDRE
511
512
APENDICE
F. ORIGEN DE MCO: LEGENDRE
513
514
APENDICE
F. ORIGEN DE MCO: LEGENDRE
Apendice G
MCO usando Excel 2007
Para poder estimar una regresion usando el programa Excel es necesario tener habilitado el modulo de Analisis de datos. Si no es el caso en su version, ejecute los
siguientes pasos:
1. Abra el programa Excel,
2. Con el raton, seleccione la pestana DATOS,
3. Coloque el raton bajo H ERRAMIENTAS DE DATOS y de clic con el boton
derecho del raton,
4. Seleccione P ERSONALIZAR BARRA DE H ERRAMIENTAS ...,
5. En el menu emergente, de clic en C OMPLEMENTOS (opciones a la izquierda),
515
516
APENDICE
G. MCO USANDO EXCEL 2007
Indice
alfabetico
Determinante de una matriz, 42, 122, 168
Ajuste de Inventarios, 406, 435
172, 200
Autocorrelacion, 4446, 48, 57, 67, 101,
120, 190193, 196, 203205, 209
211, 213220, 226, 252, 254, 257, Ergodicidad, 352
Estabilidad, 252, 329, 341343, 347, 382,
259, 288, 407, 408, 411, 413
383, 386, 388, 394, 396, 427
Autocovarianza, 353
Estacionariedad, 44, 48, 107, 108, 120,
190, 254, 351353, 355, 369
Causalidad, 251, 329335, 418
Estacionariedad estricta, 353
Coeficiente de correlacion, 3235, 146, Exogeneidad, 316, 329, 338340, 346,
149, 172175, 212, 213, 215
348350, 383, 422, 428, 458
Exogeneidad Debil, 339347, 349, 350,
Cointegracion, 350, 376378
382, 423
Comision Cowles, 30, 47, 338, 426, 428,
Exogeneidad Estricta, 338, 382
457
Exogeneidad Fuerte, 345, 382
Condicion de Rango, 445
Consistencia, 50, 5456, 76, 77, 189, 190, Expectativas, 391393, 399, 401
219, 223, 225227, 251254, 262, Expectativas Adaptativas, 403, 405407,
414, 422
263, 266, 271274, 277, 280, 284
286, 297, 299, 302, 304, 312, 313, Expectativas Naiveshyperpage, 392, 399,
400
316, 318, 325, 326, 338, 349, 408
Expectativas Racionales, 414416, 418
411, 428, 431, 434
420, 422, 423
Consistencia temporal, 416, 417
Correlograma, 370
Granger-Causalidad, 287, 336, 337, 345,
Crtica de Liu, 437, 457
346, 349, 382
Crtica de Lucas, 339, 340, 346, 383, 392,
420, 421, 423, 427, 457, 458
HAC (Matriz de Varianza-Covarianza RoCriterio de Informacion de Akaike, AIC,
busta a la autocorrelacion y a la
150, 337, 413
heteroscedasticidad), 226
Criterio de Informacion de Schwarz, SIC HCCME (Matriz de Varianza-Covarianza
Robusta a la heteroscedasticidad),
(BIC), 150, 337, 413
517
518
INDICE
ALFABETICO
Bibliografa
A LDRICH , J. (1995): Correlations genuine and spurious in Pearson and Yule,
Statistical Science, 10(4), 364376.
B OX , G., AND G. J ENKINS (1970): Time Series Analysis: Forecasting and Control.
San Francisco, Holden Day.
B REUSCH , T., AND A. PAGAN (1980): The Lagrange Multiplier Test and its Applications to Model Specification in Econometrics, Review of Economic Studies,
47, 239254.
C HOW, G. (1960): Tests of equality between sets of coefficients in two linear regressions, Econometrica: Journal of the Econometric Society, pp. 591605.
DAVIDSON , R., AND J. M AC K INNON (1993): Estimation and inference in econometrics. Oxford University Press New York.
D ICKEY, D., AND W. F ULLER (1979): Distribution of the estimators for autoregressive time series with a unit root, Journal of the American statistical association, pp. 427431.
E NDERS , W. (1995): Applied econometric time series. Wiley New York.
E NGLE , R., AND C. G RANGER (1987): Co-integration and error correction: representation, estimation, and testing, Econometrica: journal of the Econometric
Society, pp. 251276.
E NGLE , R., D. H ENDRY,
51(2), 277304.
AND
E RICSSON , N., AND J. I RONS (1994): Testing exogeneity. Oxford University Press,
USA.
519
520
BIBLIOGRAFIA
F ISHER , I. (1925): Our unstable dollar and the so-called business cycle, Journal
of the American Statistical Association, 20(150), 179202.
BIBLIOGRAFIA
521
H ANSEN , B. (1992): Tests for parameter instability in regressions with I (1) processes, Journal of Business & Economic Statistics, pp. 321335.
H AYASHI , F. (2000): Econometrics. Princeton University Press Princeton.
H ENDRY, D. (1980): Econometrics-Alchemy or Science?, Economica, 47(188),
387406.
H ENDRY, D., AND G. A NDERSON (1977): Testing Dynamic Specification in Small
Simultaneous Systems: An Application to a Model of Building Society Behaviour
in the United Kingdom, Frontiers in Quantitative Economics, 3, 361383.
H ENDRY, D., AND G. M IZON (1978): Serial correlation as a convenient simplification, not a nuisance: A comment on a study of the demand for money by the
Bank of England, The Economic Journal, 88(351), 549563.
H ENDRY, D., AND M. M ORGAN (1995): The Foundations of Econometric Analysis.
Cambridge University Press.
H ENDRY, D., A. PAGAN , AND J. S ARGAN (1984): Dynamic Specification, Handbook of Econometrics, 2, 10231100.
H ENDRY, D., F. S RBA , AND S. Y EO (1978): Econometric modelling of the aggregate time-series relationship between consumers expenditure and income in the
United Kingdom, The Economic Journal, 88(352), 661692.
H UME , D. (1740): A Treatise of Human Nature.
(1748): An Enquiry Concerning Human Understanding.
J EVONS , W. (1965): The Theory of Political Economy, reprint of Jevons (1871),
New York: Kelley.
J OHNSTON , J., AND J. D INARDO (1998): Econometric Methods. McGraw Hill.
J OLLIFFE , I. (2005): Principal component analysis. Wiley Online Library.
K IM , T.-H., Y.-S. L EE , AND P. N EWBOLD (2003): Spurious Regressions With
Processes Around Linear Trends or Drifts, Discussion Papers in Economics.
K LEIN , L., AND A. G OLDBERGER (1955): An Econometric Model of the United
States, 1929-1952. North-Holland Pub. Co.
522
BIBLIOGRAFIA
BIBLIOGRAFIA
523
524
BIBLIOGRAFIA