Mantilla Mariano - Econometría y Predicción

SEGUNDA EDICIÓN 1
ECONOMETRÍA Y PREDICCIÓN
Segunda edición
No está permitida la reproducción total o parcial de este libro, ni su tratamiento informáti-

co, ni la transmisión de ninguna forma o por cualquier medio , ya sea electrónico, mecánico, por
fotocopia, por registro u otros métodos , sin el permiso previo y por escrito de los titulares del
Copyright. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si
necesita fotocopiar o escanear algún fragmento de esta obra.
Derechos reservados @ 2017 , respecto a la segunda edición en español, por:
McGraw-Hill/ Interamericana de España, S.L.
Edificio Valrealty, 1ªplanta
Basauri, 17
28023 Aravaca (Madrid)
@ Mariano Matilla García, Pedro A. Pérez Pascual y Basilio Sanz Carnero, 2017, Madrid.
ISBN del texto: 978-84-486-1200-9
Código del Formulario: 978-000950000-8
ISBN de la obra (texto incluyendo formulario): 978-84-486-1201-6
Depósito Legal: M-1804-2017
Editora: Cristina Sánchez Sáinz-Trápaga
Director General para España y Portugal: Álvaro García Tejeda
Diseño de cubierta: Ciannetwork
Composición: Mariano Matilla García, Pedro A. Pérez Pascual, Basilio Sanz Carnero
Impresión: RODONA Industria Gráfica S. L.
IMPRESO EN ESPAÑA - PRI:\TED IN SPAIN
Índice general
I FUNDAMENTOS DEL ANÁLISIS DE REGRESIÓN 7
l. ECONOMETRÍA: MODELOS Y DATOS 11

l. l. INTRODUCCIÓN . . . . . . . . . . . 11
1.2. Los MODELOS ECONOMÉTRICOS . 13
1.3. EFECTOS CAUSALES O ESTRUCTURALES 16
1.3.1. Causalidad y predicción . . . . . 17
1.4. ESTRUCTURA DE LOS DATOS ECONÓMICOS 17
1.4.1. Datos de series temporales . . . . . . 19
1.4.2. Datos de sección cruzada o transversales 19
1.4.3. Datos mixtos . . . . . . . . . . 19
1.4.4. Datos de panel o longitudinales 20
1.5. CONCLUSIÓN . . . . . . . . . . . . . . 20
2. ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN 23

2.1. MODELO DE REGRESIÓN . . . . . . . 23
2.2. MÍNIMOS CUADRADOS ORDINARIOS . . . . . . 27
2.2.1. Regresión simple . . . . . . . . . . . . . 27
2.2.2. Interpretación de los coeficientes del modelo: cambios de escala y rela-
ciones no lineales . . . . . . 35
2.2.2.1. Cambios de escala 35
2.2.2.2. Forma funcional 36
2.3. REGRESIÓN MÚLTIPLE . . . . . . . 43
2.3.1. Estimación MCO . . . . . . 44
2.3.2. Coeficiente de determinación R 2 corregido 47
2.3.3. Formas funcionales cuadráticas . . . . . . 48
2.3.4. Términos de interacción . . . . . . . . . . 50
2.3.5. Regresiones con variables estandarizadas . 52
2.4. MODELIZACIÓN . . . 53
2.5. APÉNDICE TÉCNICO 55
Ejercicios . . . . . . . . . 62
V
VI ÍNDICE GENERAL
3. ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN 67

3.1. LA ESPERANZA CONDICIONADA Y LA ECONOMETRÍA . 68
3.1.1. La función esperanza condicionada . . . . . . . 68
3.1.2. Esperanza condicionada: propiedades . . . . . . 69
3.1.3. La función esperanza condicionada del término error 73
3.1.4. Interpretación de la esperanza condicionada en términos
ceteris paribus .. . . . . . . . 75
3.1.5. Regresión y causalidad . . . . . . 76
3.1.6. Esperanza condicionada lineal .. 79
3.1.7. La función varianza condicionada 80
3.1.8. Modelos de esperanza condicionada lineal 81
3.2. MODELO DE PROYECCIÓN LINEAL 82
3.2.1. Regresión normal . . . 84
3.3. MÉTODO DE LOS MOMENTOS 85
3.4. ÁLGEBRA DE LOS MCO . . . 86
3.4.1. Regresión residual .. 89
3.4.2. Modelo en desviaciones respecto a la media 91
3.4.3. Bondad del ajuste de una regresión MCO 93
Ejercicios 94
4. ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA 97

4.1. SUPUESTOS CLÁSICOS PARA DATOS TRANSVERSALES Y TEMPORALES 98
4.2. DISTRIBUCIÓN MUESTRAL DE LOS ESTIMADORES MCO . . . . . . . . 103
4.2.1. Propiedad de insesgadez y distribución para muestras
suficientemente grandes . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.2. Distribución muestral de ~j bajo homocedasticidad, ausencia de
autocorrelación y errores normales . . . . . . . . . . . . . . . . . 106
4.3. INFERENCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.1. Contraste de hipótesis sobre una de las pendientes fJf el contraste in-
dividual o contraste de la t . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3.1.1. Caso teórico: condiciones de homocedasticidad y normalidad 117
4.3.1.2. Caso general: heterocedasticidad . . 124
4.3.1.3. Intervalos de confianza. . . . . . . . . . . 126
4.3.2. Contraste de hipótesis sobre dos parámetros . . . . 128
4.3.3. Contraste de hipótesis conjunto: estadístico de la F 131
4.3.3.1. Caso teórico particular: condiciones de homocedasticidad y
normalidad . . . . . . . . . . . . 133
4.3.3.2. Caso general: heterocedasticidad 136
4.4. EJEMPLOS . . . 139
Estudio de la demanda de café en España 139
Estudio de la función de producción en la economía española 141
4.5. PREDICCIÓN . . . . . . . . . . . . . . . . . . . 143
4.5.1. Predicción con datos de sección cruzada . . . . . . . . . . . . 143
ÍNDICE GENERAL VII
4.5.2. Introducción a la predicción con series temporales . . . . . . . . . . 147

4.5 .2.1. Precisión de la predicción con datos de series temporales . 148
4.5.2.2. Ejemplo: predicción de la demanda de pan 149
4.6. APÉNDICE TÉCNICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.6.1. Insesgadez del estimador MCO . Regresión simple . . . . . . . . . . 153
4.6.2. Varianzas y covarianzas de los estimadores MCO. Regresión simple 154
4.6.3. Estimador insesgado de la varianza de los errores. Regresión simple 155
4.6.4. Teorema de Gauss-Markov. Varianza mínima de los estimadores MCO.
Regresión simple 156
Ejercicios 158
5. ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL161

5.1. PROPIEDADES DEL ESTIMADOR MCQ EN EL MODELO
CLÁSICO DE REGRESIÓN LINEAL . . . . . . . . . . . . . . . . . . . . . . . 162
5.1.1. Teorema de Gauss-Markov en el modelo clásico de regresión lineal 169
5. l. 2. El estimador de la varianza del término error <J 2 172
5.1.3. Distribución teórica de los estimadores MCO . . . 176
5.1.4. Tests de hipótesis bajo el supuesto de normalidad . 178
5.1.4.1. El test o contraste exacto de la t . . . . . 179
5.1.4.2. Test o contraste de la F para varias restricciones 182
5.1.4.3. Relación entre R 2 y el test de la F . . . . . . . 185
5.1.4.4. U na revisión conjunta del test t y el test F . . 188
5.2. PROPIEDADES DEL ESTIMADOR MCQ PARA EL MODELO DE PROYECCIÓN
LINEAL . . . . . . . . . . . . . . . . . . . . . 189
5.2.1. Consistencia del estimador MCO . . 190
5.2.1.1. Leyes de grandes números . 191
5.2.2. Normalidad asintótica . . . . . . . . 194
5. 2. 2. l. Convergencia en distribución 194
5.2.2.2. Órdenes de magnitud estocásticos 196
5.2.2.3. Teorema central del límite . . . . . 198
5.2.2.4. Distribución asintótica del estimador MCO 198
5.3. ESTIMADORES CONSISTENTES DE LA COVARIANZA . . . . . 200
5.3.1. Errores estándar asintóticos: homocedasticidad y heterocedasticidad 201
5.3.2. Errores estándar asintóticos: alternativas robustas . 203
5.4. CONTRASTES DE HIPÓTESIS ASINTÓTICOS . 206
5.4.1. El método delta. . . . . . . . . . . . . . . . . . . . 207
5.4.2. El contraste asintótico de la t . . . . . . . . . . . . 209
5.4.3. Contrastes asintóticos de tipo Wald para varias restricciones . 210
5.5. APÉNDICE TÉCNICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
5.5.1. Distribuciones de combinaciones lineales y formas cuadráticas de varia-
bles aleatorias normales . . . 211
5.5.2. Convergencia en probabilidad 213
5.5.3. Demostración del Teorema 25 214
VIII ÍNDICE GENERAL
5.5.4. Convergencia casi segura y leyes fuertes 216

5.5.5. Momentos vectoriales . . . . . . . . 216
5.5.6. Demostración del Teorema 27 . . . . 218
5.5.7. Extensión del TCL al caso vectorial 219
5.5.8. Desigualdades relevantes . . . . . . . 220
5.5.9. Demostración de la expresión (5.3 .3) 220
5.5.10. Ampliación técnica del Método Delta . 221
6. REGRESIÓN CON HETEROCEDASTI CIDAD Y AUTOCORRELACIÓN 223

6.1. MODELOS DE REGRESIÓN CO;\l HETEROCEDASTICIDAD . . . . . . . . . . . . . 223
6.1.l. Mínimos cuadrados ponderados cuando conocemos la forma funcional
de la heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . 226
6.1.2. Cuando NO conocemos la forma funcional de la heterocedasticidad:
estimadores robustos . . . . . . . 228
6.1.3. Contrastes de heterocedasticidad . . . . . . . . 229
6.1.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . 230
Esperanza de vida, nivel educativo y de ingresos 230
Consumo de familias del sector turístico . . . 231
Salarios de altos directivos . . . . . . . . . . . 233
6.2. MODELOS DE REGRESIÓN CON AUTOCORRELACIÓN 234
6. 2. l. Inferencia y eficiencia . . . . . . . . . . . . . 236
6.2.2. Errores estándar robustos a la heterocedasticidad y la autocorrelación 240
6.2.3. Contrastes de autocorrelación . . . . . . . 242
6.2.4. Mínimos cuadrados generalizados . . . . . 244
6.2.5. Otras fuentes de correlación en los errores 250
Ejercicios . . . . . . . . . . . . . . . . . . . . 251
7. VARIABLES EXPLICATIVAS DICOTÓMICAS 257

7.1. MODELOS ANOVA 258
7.2. MODELOS ANCOVA 261
7.2.l. Ejemplos .. 262
Discriminación salarial por género 262
Influencia de una crisis en el consumo 264
Salarios, nivel de estudios y género . . 265
7.3. INTERACCIONES CON VARIABLES DICOTÓMICAS 267
7.4. ESTACIONALIDAD 270
7.5. REGRESIÓN POR TRAMOS 276
7.5.l. Efectos umbrales 277
Ejercicios . . . . . . . . . . . . 282
8. ÁNÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS 285

8.1. SELECCIÓN DE VARIABLES . . . . . . . . . . . . . . . . . . . . . . 286
8.1. l. Inclusión de variables irrelevantes . . . . . . . . . . . . . . 286
8.1.2. Omisión de variables relevantes: sesgo de variable omitida 288
ÍNDICE GENERAL IX
8.2 . MALA ESPECIFICACIÓN FUNCIONAL . . . . . . . . . . . . . 292

8.2 .1. El contraste general de mala especificación funcional 292
8.2 .2. Contrastes con modelos no anidad os . . . . 294
8.3. ERRORES DE MEDIDA . . . . . . . . . . . . . . . . 297
8 .3.1. Error de medida en la variable dep endiente 298
8.3 .2. Error de medida en la variable explicativa 299
8.3.3. Variables aproximadas (variables proxies) 301
8.4. ÜTRAS FUENTES DE INVALIDEZ DEL MO DELO . 304
8.4.1. Problemas de selección muestral 304
8.4.2. Causalidad simultánea . . .. . . . . . . 305
8 .4.3. Errores estándar inconsistentes . . .. . 306
8.4.4. Modelos de regresión para la predicción 307
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . 308
II AMPLIACIÓN DEL ANÁLISIS DE REGRESIÓN 311
9. REGRESIÓN CON VARIABLES INSTRUMENTALES 315

9.1. ESTIMADOR DE VI EN UN MODELO DE REGRESIÓN SIMPLE . ... . .. . 316
9.1.1. El estimador de VI por mínimos cuadrados en dos etapas
y su distribución muestral . . . . . . . . 318
9.2. MODELO GENERAL DE REGRESIÓN CON VI . . . . . . . . . 320
9.2.1. Modelo con un único regresar endógeno . . . . . . . 321
9.2 .2. Extensión al caso de múltiples regresares endógenos . 324
9.2 .3. Distribución muestral del estimador MC2E para el caso del modelo ge-
neral de VI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
9.3. LA REGRESIÓN VI PARA LA RESOL UCIÓ N DE PROBLEMAS DE ENDOGENEIDAD 327
9.3.1. Contraste de endogeneidad . . . . . . . . . . 336
9.4. VALIDEZ DE LOS INSTRUMENTOS . . . . . . . . . . . 340
9.4.1. Relevancia y exogeneidad de los instrumentos 340
9.4.2. Variables de control en la regresión VI . . . . 343
9.4.3. Regresión VI con series temporales . . . . . . 345
9.5. EXPRESIÓN MATRICIAL Y ESTIMACIÓ N DE LA REGRESIÓN VI . 346
9.5.1. Propiedades de la distribución VI con homocedasticidad
y con heterocedasticidad . 348
Ejercicios . . . . . . . . . . . . . . . . 353
10.REGRESIÓN CON DATOS DE PANEL Y FUSI ONADOS 357

10.1. DATOS FUSIONADOS DE SECCIÓN CRUZADA . . . . 358
10.2. DATOS DE PANEL . . . . . . . . . . . . . . . . . . . 364
10.2.1. Datos de panel con dos periodos: comparaciones antes y después 365
10.2.2. Regresión de efectos fijos . . . . . . . . . . . . . . . . . 366
10.2.3. El algoritmo MCO en desviaciones respecto de su media . . . . . 368
X ÍNDICE GENERAL
10.2.4. Inferencia en el modelo de efectos fijos . . . . . . . . . 370

10.2.5. Regresión con efectos fijos transversales y temporales . 372
10.2.6. Datos de panel con efectos aleatorios 381
10.2.7. Efectos aleatorios versus efectos fijos . . . . . . . 384
10.3. APÉNDICE TÉCNICO . . . . . . . . . . . . . . . . . . . . 387
10.3.l. Derivación de la validez de la expresión (10.2.20) 387
10.3.2. Tratamiento matricial 388
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
11.MODELO S C O N VA R IAB LE DEPENDIENTE LIMITADA 395

11.l. INTRODUCCIÓN . . . . . . . . . . . . . . 395
11.2. EL MODELO LINEAL DE PROBABILIDAD 396
11.3. EL MODELO LOGIT . . . . . . . . . . . . 398
11.4. EL MODELO PROBIT . . . . . . . . . . . 403
11.5. ESTIMACIÓJ\ DE MODELOS LOGIT Y PROBIT. 407
11.6. EJEMPLO: AVENTURAS EXTRAMATRIMONIALES 409
11.7. ÜTROS MODELOS DE VARIABLE LIMITADA . . . 412
11. 7. l. Modelos de respuesta discreta no binaria . 413
11.7.l.l. Probit ordenado .. 413
11.7.1.2. Logit multinomial ... . 415
11.7.1.3. Modelos de recuento .. . 417
11.7.2. Datos censurados y datos truncados 420
11. 7.2. l. Modelos de regresión censurada 420
11.7.2.2. Modelos para datos de duración 423
11.7.2.3. Modelos de regresión truncada . 424
Ejercicios 427
12.C UASIEX P ERI MENTO S Y R EGRESIÓ N 431

12.l. INTRODUCCIÓN . . . . . . . . . . . . 431
12.2. EXPERIMENTOS ALEATORIZADOS CONTROLADOS 432
12.2.l. Terminología . . . . . . . . . . . . . . 432
12.2.2. Estimación por modelos econométricos .. 436
12.3. CUASIEXPERIMENTOS . . . . . . . . . . . . . . . 438
12.3.l. Técnicas de regresión para cuasiexperimentos 439
12.4. ESTRATEGIAS DE IDENTIFICACIÓ N . 444
12.5. POSIBLES PROBLEMAS DE VALIDEZ . 446
Ejercicios . . . . . . . . . . . . . . . . . . 449
III SERIES TEMPORALE S: PRE D ICCIÓ N Y REG RESIÓN 451
13.MODELO S ESTAC ION ARIO S DE SERIES TEMPORALES 455

13.1. PROCESOS ESTOCÁSTICOS . . . . . . . . . . . . . . . 456
ÍNDICE GENERAL XI
13.1.1. Procesos estocásticos estacionarios . . . . . . . . . . . . . 458

13.1.2. Proceso ruido blanco . . . . . . . . . . . . . . . . . . . . . 459
13.2. ESTIMACIÓN DE LOS MOMENTOS DE PROCESOS ESTACIONARIOS 460
13. 2. l. Inferencia de la función de au tocorrelación . 462
13.3. PROCESOS INTEGRADOS . . . . . . . . . . . . . . . . . 466
13.4. PROCESOS AUTORREGRESIVOS . . . . . . . . . . . . . 473
13.4.1. Proceso autorregresivo de primer orden AR(l) . 473
13.4.2. Función de autocorrelación parcial (FAP) . . . 476
13.4.3. Procesos autorregresivos de segundo orden AR(2) 480
13.4.4. Proceso autorregresivo de orden p , AR(p) . . . 483
13.5. PROCESOS DE MEDIAS MÓVILES . . . . . . . . . . . . 489
13.5.1. Proceso de media móvil de orden uno, MA(l) . 490
13.5.2. Proceso de medias móviles de orden q, MA(q) . 492
13.6. PROCESOS ARMA . . . . . . 497
13.6.1. Proceso ARMA (1, 1) . 498
13.6.2. Proceso ARMA (p, q) 501
13.7. PROCESOS ARIMA . . . . . 505
13.8. PROCESOS ARIMA ESTACIONALES 506
13.9. IDENTIFICACIÓN Y VALIDACIÓN 507
13.9.1. Identificación 508
13.9.2. Validación . . . . . . . . . 508
13.10. PREDICCIÓN . . . . . . . . . . . 509
13.10.1. Predicción de los modelos AR(1) . 510
13.10.2. Predicción de los modelos MA(1) . 512
13.10.3. Predicción de los modelos ARMA(1,1) 512
13.11 . MODELOS AUTORREGRESIVOS CON PREDICTORES ADICIO TALES . 519
13.12. APÉNDICE TÉCNICO . 520
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531
14. COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL 535

14.1. DESCOMPOSICIÓN DE SERIES TEMPORALES 535
14.1.1. Descomposición clásica . . . . . . . . . . . . . 537
14.1.1.1. Media móvil centrada .. .. . .. . 537
14.1.1.2. Críticas a la descomposición clásica 541
14.1.2. Descomposición X-12 ARIMA . . . . . . . . . 542
14.1.3. Descomposición TRAMO-SEATS . . . . . . . 542
14.1.4. La predicción utilizando modelos de descomposición 543
14.1.5. El filtro de Hodrick-Prescott (HP) 549
14.2. ALISADO EXPONENCIAL . . . . . . . . . . 552
14.2.1. Alisado exponencial simple (AES) 552
14.2 .2. Alisado exponencial de Holt . . . . 556
14.2.2.1. Alisado con tendencia lineal. 556
14.2.2.2. Alisado con tendencia exponencial 557
XII ÍNDICE GENERAL
14.2.2.3. Alisado con tendencia lineal amortiguada . . . . 559

14.2.2.4. Alisado con tendencia exponencial amortiguada. 560
14.2.3. Alisado estacional de Holt-Winters . 562
14.2.3. l. Holt-Winters aditivo . . . . 562
14.2.3.2. Holt-Winters multiplicativo 563
14.2.3.3. Holt-Winters amortiguado. 566
14.2.4. Taxonomía de los métodos de alisado exponencial . 566
14.3. ALISADO EXPONENCIAL EN EL ESPACIO DE LOS ESTADOS 568
14.3.l. ETS(A, N, N): alisado exponencial simple con errores aditivos . 569
14.3.2. ETS(M, N, N): AES con errores multiplicativos . . . . 569
14.3.3. ETS(A, A, N): Holt lineal con errores aditivos . . . . . 570
14.3.4. ETS(M, A, N): Holt lineal con errores multiplicativos . 570
14.3.5. Resto de modelos ETS . . . . . . . . . . . . . . . . . 570
14.3.6. Elección de modelo y pronósticos con modelos ETS . 573
14.4. APÉNDICE TÉCNICO . . . . . . . . . . . . . . . . . 577
14.4. l. Modelos estructurales de series temporales 577
14.4.2. Modelos en el espacio de los estados 579
14.4.3. Filtro de Kalman . . . . . . . . . . 580
14.4.4. Forma general del filtro de Kalman 581
14.4.5. Interpretación del filtro de Kalman 583
14.4.6. Condiciones iniciales . . . . . . . . 586
14.4.7. Estimación por máxima verosimilitud 587
14.4.8. Predicción . . . . . . . 588
14.4.9. Extracción de señales. 589
15.ANÁLISIS ESPECTRAL 591

15.l. INTRODUCCIÓN . . 591
15.2. EL CONCEPTO DE ESPECTRO POBLACIONAL . . . . . 592
15.3. EL ESPECTRO DE ALGUNOS PROCESOS IMPORTANTES 594
15.3.l. Espectro de un proceso ruido blanco . 595
15.3.2. Espectro de un proceso MA(l) . . . . 595
15.3.3. Espectro de un proceso autorregresivo 596
15.4. EL PERIODOGRAMA MUESTRAL . . . . . . . . 598
15.5. EL PERIODOGRAMA COMO ESTIMADOR DEL ESPECTRO 602
15.6. ESTIMADOR CONSISTENTE DEL ESPECTRO . . . . . . 605
15.7. EJEMPLO DE APLICACIÓN DEL ANÁLISIS ESPECTRAL. 608
15.7.l. Balanza de pagos por servicios 608
15.7.2. Índice de producción industrial 611
Ejercicios . . . . . . . . . . . . . . . 613
16.EFECTOS CAUSALES DINÁMICOS 615

16.l. INTRODUCCIÓN . . . . . . . . . 615
16.2. MODELOS DE RETARDOS DIST RIBUIDOS (RD) Y .\toDELOS AUTOREGRESIVOS
CON RETARDOS (ARD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616
ÍNDICE GENERAL xm
16.2.1. Efectos dinámicos en el modelo de retardos distribuidos (RD) . . . . . 617

16.2.2. Modelos de retardos distribuidos y el modelo autorregresivo de retardos
distribuidos (ARD) . . . . . . . . . . . . . . . . . . . . 620
16.3. SUPUESTOS DE LOS MODELOS DE RETARDOS DISTRIBUIDOS . 621
16.4. ESTIMACIÓN DE LOS MODELOS Y PREDICCIÓN . . 625
16.5. EL MODELO DINÁMICO COMPLETO . . . . . . . . . 629
16.6. APLICACIÓN DE LOS MODELOS UNIECUACIONALES
DINÁMICOS: LA LEY DE ÜKUN . . . . . . . 631
16.7. MODELOS RD Y ARD CON EL OPERADOR
DE RETARDOS L 635
Ejercicios . . . . . . . . . . . . . . . . . . . . . . 638
17. TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS 641

17.1. CONCEPTO DE TENDENCIA . . . 642
17. l. l. Tendencias deterministas . . . . . . . . . . . . . . . . 643
17.1.2. Tendencias estocásticas . . . . . . . . . . . . . . . . . 645
17.1.3. Regresiones entre variables con tendencias estocásticas 654
17.2. REGRESIONES ESPURIAS . . . . . . . . . . 656
17.3. CONTRASTE DE RAÍCES UNITARIAS 662
17.4. ÜRIENTACIONES PARA LA MODELIZACIÓN 669
Ejercicios . . . . . . . . . . 671
18.MODELOS TIPO ARCH 673

18.1. PROCESOS AUTORREGRESIVOS CON VARIANZA CONDICIONADA HETEROCE-
DÁSTICA . . . . . . . . . . 674
18.1.1. Procesos ARCH. . . . . 674
18.1.2. Procesos GARCH. . . . 680
18.1.3. Un ejemplo clásico de estimación (G)ARCH: Modelización
temporal de la inflación . . . . . . . . . . . . . . 682
18.2. PROPIEDADES ADICIO NALES DE LOS PROCESOS GARCH 685
18.3. ÜTROS MODELOS TIPO ARCH . . . . 689
18.3.1. ARCH-M . . . . . . . . . . . . . . . . . . . . . . 689
18.3.2. Modelos TARCH y EGARCH . . . . . . . . . . . 690
18.3.3. Cuestiones a tener en consideración con los modelos tipo ARCH . 691
18.4. EJEMPLO PARA EL ÍNDICE NYSE 692
Ejercicios . . . . . . . . . . . . . . . . . 700
19.lNTRODUCCIÓN A LOS MODELOS VAR 703

19.1. I NTRODUCCIÓN . . . . . . . . . . . 703
19.2. ESTIMACIÓN Y ORDEN DEL VAR . 704
19.3. DI FERENTES FORMAS DEL VAR 706
19.4. PREDICCIÓN 708
XIV ÍNDICE GENERAL
19 .5 . CAUSALIDAD DE GRANGER, FUNCIONES DE RESPUESTA AL IMPULSO Y DES-

COMPOSICIÓN DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . 709
19.6. UN EJEMPLO: MODELIZACIÓN VAR DE LA INFLACIÓN , EL TIPO DE INTERÉS
Y LA OFERTA MONETARIA 715
Ejercicios . . . . . 721
20.COINTEGRACIÓN 723
20.1. INTROD UCCIÓN 723
20.2. DESC RIP CIÓN DEL CONCEPTO DE COINTEGRACIÓN 725
20.2.1. Un exposición intuitiva de la cointegración . . 725
20.2.2. Un exposición técnica d e la cointegración . . 729
20.3. CO:--JTRASTE DE COINTEGRACIÓN. EL PROCEDIMIENTO DE ENGLE Y GRANGER731
20.4. EL TEOREMA DE REPRESENTACIÓN DE GRANGER 733
20.5. COINTEGRACIÓN CON MÁS DE DOS VARIABLES . 736
20.6. CONTRASTE DE COINTEGRACIÓN DE JOHANSEN . 740
20.7. CONTRASTES DE HIPÓTESIS . . . . . . . . . . . . . 743
20.8. UN EJEMPLO: LA TEORÍA DE LA PARIDAD DEL PODER
ADQUISITIVO 745
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748
Índice de figuras
1.4.1. Precios del Petróleo Brent. 1990 - 2010 . . . . 19

1.4.2. PIB per cápita en España, año 2009 en euros. 20
2.2.1. Mínimos cuadrados ordinarios 29

2.2.2. Ajuste lineal y logarítmico . . 37
2.2.3. Ajuste lineal y logarítmico . . 40
2.2.4. Ajuste lineal logarítmico: esperanzai= 57,27 + 6,197·(1n ingresosi) 42
2.3.1. Plano de regresión múltiple 44
2.4.1. Formas funcionales . . . . . 55
3.1.1. Densidad del Log Salarios . 70

3.4.1. Proyección sobre el subespacio generado por Xb 88
4.0.1. Función regresión muestral y función regresión poblacional 98

4.1.1. Supuesto de exogeneidad y homocedasticidad 100
4.2.1. Modelo de regresión simple heterocedástico . . . . . . . . . 108
4.2.2. Histograma de los residuos ii . . . . . . . . . . . . . . . . . 113
4.3.1. Distribución t de Student. H1 : f3J i- O, n = 27, a = 0,05 120
4.3.2. Distribución t de student. H1 : /3j < O, n = 27, a = 0,05 121
4.3.3. Distribución t de student. H1 : f3J > O, n = 27, a = 0,05 122
4.3.4. F de Snedecor, con 4 y 27 grados de libertad . . . . . . . 134
4.5.1. Intervalos de confianza para la predicción de la demanda de pan 151
4.5.2. Predicción temporal individual de la demanda de pan 152
7.2.1. Regresión simple con variable dicotómica . . . . . . . 262

7.2.2. Salarios por hora en el sector turístico . . . . . . . . . 263
7.2.3. Variación interanual PIB en EE.UU. y las crisis económicas 265
7.3.1. Modelos con cambio de pendiente . . . . . . . . . . . . . . 268
7.3.2. Diferencia salarial entre mujeres y hombres . . . . . . . . . 269
7.3.3. Patrón de consumo en EE.UU. en escenarios de bonanza y recesión 270
7.4.1. Pernoctaciones hoteleras. Abril 1965 - noviembre 2011 . . . . . . . . 272
7.4.2. Pernoctaciones hoteleras. Componente estacional . . . . . . . . . . . 273
7.4.3. Pernoctaciones hoteleras en logaritmos. Serie estacional y desestacionalizada.
Abril de 1965 - noviembre de 2011. . . . . . . . . . . . . . . . . . . . . . . 274
XV
XVI ÍNDICE DE FIGURAS
7.4.4. Pernoctaciones y empleo en hoteles (logaritmos). Nov-1999 - Nov-2011 275

7.5.1. Modelo de regresión por tramos y modelo con variables binarias por umbrales 281
7.5.2. Cambio estructural 282
9.3.1. Demanda . . . . . 329

9.3.2. Oferta . . . . . . . 330
9.3.3. Datos observados 331
9.3.4. Identificación de la demanda. 331
10.1.1.Función de consumo de famili a típica en 2007 y 2010 363

10.2.1. Heterogeneidad individual y temporal . . . . . . . . . 365
11.2.1. Diagrama de dispersión de compra de vivienda y renta 396

11.3.1. Función logística . . . . . . . . . . . . . . 399
11.4.1. Comparación de las FDA logística y normal . . . . . . 404
13.1.1.10.000 observaciones del proceso estocástico de un dado con dependencia 457

13.2.1. Proceso ruido blanco . . . . . . . . . . . . . . . . . . . . . 464
13.2.2. Correlograma - función de aut ocorrelación de ruido blanco 466
13.2.3. Correlograma de realizaciones del ejemplo del dado 467
13.3.1. Matriculaciones en España 1960 - 2011 . . . 469
13.3.2. Matriculaciones - función de autocorrelación . . . . 469
13.3.3. Matriculaciones en primeras diferencias . . . . . . . 470
13.3.4. Primeras diferencias del logaritmo de las matriculaciones 471
13.3.5. Primera diferencia de las mat riculaciones en logaritmos - función de autoco-
rrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 71
13.3.6. Primeras diferencias regular y estacional del log de matriculaciones . . . . . 472
13.3.7. Funciones de autocorrelación de la primera diferencia regular y estacional de
los logaritmos de las matriculaciones . . . . 472
13.4.1. Correlogramas de un AR (1) . . . . . . . . . . 478
13.4.2. Correlogramas de un AR (2) , raíces reales . . 483
13.4.3. Correlograma de un AR (2), raíces complejas . 484
13.4.4. PIB español entre 1954 y 2010 . . . . . . . . . 485
13.4.5. PIB español primeras diferencias de los logaritmos 486
13.4.6. Correlograma de las primeras diferencias del PIB en logaritmos 486
13.4.7. Correlograma de los residuos estimados a partir de un AR (1) del logaritmo
del PIB en diferencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
13.4.8. PIB español primeras diferencias transformación Box-Cox . . . . . . . . . . 488
13.4.9. Correlograma de las primeras diferencias del PIB , transformación Box-Cox . 489
13.4.10. Correlograma de los residuos estimados a partir de un AR (1) del PIB ,
transformación Box-Cox . . . . 490
13.5.1. Correlogramas de un M A (l) . . . . . . 493
13.5.2. Correlogramas de un M A (2) . . . . . . 495
13.5.3. Tipos de interés interbancario a un año . 496
ÍNDICE DE FIGURAS xvrr
13.5.4. Tipos de interés interbancario a un año , primeras diferencias . . . . . . . . . 496

13.5.5. Correlograma de los tipos de interés interbancarios en diferencias . . . . . . 497
13.5.6. Correlograma de los errores estimados a partir de un modelo M A (l) de las
diferencias de los tipos de interés interbancario 498
13.6.1. Correlogramas de un ARMA (l, 1) . . . . . 499
13.6.2. Inversión en España entre 1954 y 2010 . . . . 502
13.6.3. Diferencias de las inversiones en logaritmos . . 503
13.6.4. Correlograma de las diferencias en logaritmos de la inversión . 504
13.6.5. Correlograma de los errores estimados del modelo de la inversión 504
13.10.1. Proceso de ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . 514
13.10.2. Paro registrado 1982 - 2009 . . . . . . . . . . . . . . . . . . . . 515
13.10.3. Paro registrado 1982 - 2009, primera diferencia regular y estacional 515
13.10.4. Correlograma del paro en primeras diferencias regulares y estacionales . 516
13.10.5. Correlograma de los residuos paro , SARIMA(2, 1,0) (O, 1, 1). . . . . . 517
13.10.6. Predicción desempleo registrado del año 2010, SARIMA (2, 1, O) (O, 1, l)i 2 518
13.10.7. Predicción del paro y paro realmente registrado en 2010 . . 518
14.1.1.Producción de cemento. Media móvil centrada de 3 y 9 años 538

14.1.2. Producción de electricidad en España ent re 1977 y 2010 543
14.1.3. Producción de electricidad, descomposición clásica . . . . . 544
14.1.4. Producción de electricidad, descomposición X12-ARIMA . . 544
14.1.5. Producción de electricidad, descomposición TRAMO-SEATS. 545
14.1.6. Electricidad, series desestacionalizadas . . . . . . . . . . . . 546
14.1.7. Previsión electricidad. 2011 - 2013 . . . . . . . . . . . . . . . 548
14.1.8. PIB trimestral desestacionalizado, millones de euros de 2005 551
14.2.1. Producción de turismos en España entre 1995 y 2009 . . 555
14.2.2. Entrada de turistas en España entre 1995 y 2011 . . . . 558
14.2.3. Componentes. Alisado de Holt (aditivo y multiplicativo) 559
14.2.4. Retribuciones salariales en España, 2000-2009 . 564
14.2.5. Componente estacional , retribuciones salariales 565
14.3.1. Índice de Producción Industrial, 1975-2011 . . . 574
14.3.2. IPI, descomposición ETS . . . . . . . . . . . . . 576
14.3.3. Índice de Producción Industrial, Previsión 2012 y 2013 576
15.3.1. Espectro de un proceso ruido blanco 595

15.3.2. Espectro de un proceso MA(l) . . . . 596
15.3.3. Espectro de un AR(l) con c/J = 0.8 597
15.3.4. Espectro de un AR(2) con c/J1 = 0.8 y c/J2 = -0.2 597
15.4.1. Representación gráfica de X . . . . . . . . . . . 600
15.4.2. Periodograma de X . . . . . . . . . . . . . . . . 601
15.5.1. Área bajo el periodograma y varianza atribuible a los ciclos en las distintas
frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . 603
15.5.2. Periodograma de un proceso de ruido blanco . . . . 605
15.5.3. Periodograma del proceso AR(l), Xt = 0.8Xt-l + ét 605
XVIII ÍNDICE DE FIGURAS
15.7.1. Balanza de Pagos por Servicios. Logaritmos de la serie original expresada

en miles de euros corrientes . . . . . . . . . . . . . . . . . . . . . . . . . 608
15.7.2. Balanza de pagos por servicios: serie original y tendencia (filtro HP) . 609
15. 7.3. Balanza de pagos por servicios: serie libre de tendencia . . . . . . . . 609
15.7.4. Periodograma de la serie representada en la Fig. 15.7.2 . . . . . . . . 610
15. 7. 5. Predicción de la serie a partir de la tendencia y un ciclo estacional (serie
observada en trazo continuo) . . . . . . . . . . . . . . . . . . . . . . . . . . . 612
15.7.6. Índice de producción industrial USA. Tasa de variación mensual, 1947-2013 612
15.7.7. Espectro estimado de la serie del IPI (tasa de variación mensual) 613
15.7.8. Índice de producción industrial . . . . . . . . . . . . . . . . . . . . . 613
16.6.1. Gráficos del crecimiento PIB real y la Tasa de desempleo de EE.UU. 633
16.6.2. Crecimiento del PIB real y variación en la Tasa de desempleo de EE.UU. 633
17 .1.1. Tendencias determinista y estocástica 64 7

17.1.2. Paseo aleatorio . . . . . . . . . . 650
17.1.3. IBEX, 1987-2011 . . . . . . . . . . . 652
17.1.4. Correlograma del IBEX en niveles . . 653
17.1.5. Correlograma de los residuos del IBEX estimados a partir del proceso paseo
aleatorio puro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
17.2.1. Consumo y PIB de Argentina y España en términos constantes 658
17.2.2. Series del consumo argentino español y argentino transformadas 660
17.2.3. Función de autocorrelación del consumo 661
17.3.1. Déficit, 1964-2010 . . 668
18.1.1. Procesos AR-ARCH . 679

18.1.2. Et= VtJl + 0,85EL1 679
18.2.1. Persistencia en el modelo GARCH(l,l): ht (línea discontinua), h~ 687
18.3.1. Comparación entre las Distribuciones Normal y t 692
18.4.1. Rentabilidades . . . . . . . . . . . . 693
18.4.2. Distribución de los retornos NYSE 694
18.4.3. Análisis para la normalidad . 697
18.4.4. Varianza condicional estimada . . 697
19.5.1. Funciones de respuesta al impulso 712

19.6.1. Funciones de respuesta al impulso de la inflación (Xl) al tipo de interés (X2)
y a la oferta monetaria (X3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
19.6.2. Funciones de respuesta al impulso del tipo de interés (X2) a la inflación (Xl)
y a la oferta monetaria (X3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
19.6.3. Funciones de respuesta al impulso de la oferta monetaria (X3) a la inflación
(Xl) y al tipo de interés (X2) . . . . 718
19.6.4. Predicción de inflación para 2009 . . . . . . . . . . . . . . 720
20.1.1. Series cointegradas (izquierda) y no cointegradas (derecha) 725

ÍNDICE DE FIGURAS XIX
20.8.1. Precios y tipo de cambio en Italia y EE.UU . . 746

Índice de tablas
1.1. PIB per cápita anual por CC.AA. Euros corrientes 21
2.1. Denominación de variables . . . . . . . . . . . . . 25

2.2. Salario por hora condicionado por niveles de formación 34
2.3. Formas funcionales habituales . . . .. 43
3.1. Salario medio para seis subpoblaciones. 71

3.2. Distribución de probabilidad 94
4.1. Matriz de covarianzas . . . . 131

4.2. Predicción 2005. Demanda de pan 150
4.3. Predicción media 2005. Intervalos de confianza (95 3) 150
4.4. Predicción individual 2005. Intervalos de confianza (95 %) 151
4.5. Consumo y predicción . . . . . . . . . . . . . . . . . . . . 152
7.1. Relación entre el salario y el nivel de estudios en el sector turístico 260
8.1. Especificaciones alternativas de la demanda de café 309
10.1. Efectos individuales y temporales . . . . . . . . . 376

10.2. Modelos alternativos para la demanda de cerveza . 386
11.1. Probabilidad estimada de licenciados y niveles de renta 403

11.2. Probabilidad estimada para licenciado y niveles de renta. 406
11.3. Estimaciones probabilidad de compra vivienda 407
11.4. Resultados según Modelos . . . . 411
11.5. Modelo estimado con 6 variables 412
11.6. Efectos parciales aproximados 412
12.1. Tratamiento y control 450
13.1. Ruido blanco . 465

13.2. Correlogramas 532
14.1. Producción de cemento. Media móvil centrada . 538
XXI
XXII
14.2. Personas ocupadas en España. Media móvil de la media móvil 539

14.3. Ponderaciones más usuales. Medias móviles centradas . 540
14.4. Producción de electricidad. Previsión 2011-13 . . . . . . . . . 548
14.5. Producción de turismos en España. AES . . . . . . . . . . . . 556
14.6. Entrada de turistas en España. Alisado exponencial con tendencia 558
14.7. Producción mundial de petróleo 1965 - 2000 . . . . . . . . . . . . 560
14.8. Producción mundial de petróleo. Previsión mediante alisado simple y con ten-
dencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561
14.9. Retribuciones salariales de los españoles. Alisado Holt-Winters 565
14.10. Taxonomía de alisados exponenciales 566
14.11. Ecuaciones por componentes 567
14.12. Ecuaciones ETS con errores aditivos 571
14.13. Ecuaciones ETS con errores multiplicativos 572
14.14. IPI. Comparativa Criterio. Akaike y estimación de parámetros 575
15.1. Estimación de a2 y 82 obtenida por regresión . . . . . . . . . . 601

15.2. MCO, usando las observaciones 1990:1-2012:4 (T = 92): Estimación del armó-
nico número 23 . . . 611
18.1. FAT de los residuos 694

18.2. FAT de los residuos estandarizados . 694
18.3. FAT de los residuos . . . . . . . 695
19.1. Contraste causalidad de Granger 710

19.2. Funciones de respuesta al impulso (errores ortogonales) 713
19.3. Contraste del orden del VAR . . . . . . . 716
19.4. Contraste de causalidad de Granger . . . . . . 717
19.5. Descomposición de la varianza (inflación) .. . 719
19.6. Descomposición de la varianza (tipo de interés) 719
19.7. Descomposición de la varianza (Oferta Monetaria) 720
19.8. Funciones de autocorrelación total (FAT) y parcial (FAP) 720
20.1. Test de raíces unitarias .. . . . . . . . . . . . . . . . . 732

20.2. Contraste de cointegración: estadístico máximo . . . . . 743
20.3. Valores propios de los modelos irrestricto y restringido . 744
20.4. Resultados del estadístico de la traza .. 747
20.5. Resultados del estadístico máximo . . . . 747
20.6. Contraste de hipótesis (formato Eviews) . 748
20. 7. Resultados de varios contrastes . . . . . . 750
Lista de abreviaturas
ARCH Autorregresión heterocedástica condicionada
ARD Autorregresión de retardos distribuidos

CF Función característica
DID Diferencias en diferencias

DW Contraste de Durbin Watson
ECM Modelo de corrección de error
ECP Efecto causal promedio

ELIO Estimador lineal insesgado óptimo
EPF Encuesta de presupuestos familiares
FAP Función de autocorrelación parcial
FAT Función de autocorrelación total

FDA Función de densidad acumulada
FRI Función de respuesta al impulso
FRM Función de regresión muestral
FRP Función de regresión poblacional
FWL Teorema de Frysch-Waugh-Lovell
G ARCH ARCH generalizado (modelo)

GMM Del inglés Generalized Method of the Moments
HAC Estimador, del inglés Heteroskedasticity and Autocorrelation Consistent
LG N Ley( es) de grandes números
MC2E Mínimos cuadrados en dos etapas
XXIII
XXIV
MCG Mínimos cuadrados generalizados
MCO Mínimos cuadrados ordinarios
M CP Mínimos cuadrados ponderados
MCRL Modelo clásico de regresión lineal
MGF Función generadora de momentos
MLE Estimador de máxima verosimilitud
MLP Modelo lineal de probabilidad
MM Método de los momentos
MPL Modelo de proyección lineal
MV Máxima verosimilitud
PG D Proceso generador de datos
PIB Producto interior bruto

PPA Paridad de poder adquisitivo
SCT Suma cuadrática de la variable dependiente en desviaciones a las medias
SCE Suma cuadrática de la variable estimada en desviaciones a las medias
SCR Suma cuadrática de los residuos estimados
TCL Teorema central del límite
VAR Vectores autorregresivos
VI Variables instrumentales
Prefacio a la nueva edición
Econometría y Predicción se planteó para ser un libro de texto básicamente introductorio

a la econometría actual, sin perjuicio de que en algunos temas se profundice en cierto detalle.
En la primera edición se profundizó más en los temas estándar básicos propios del análisis
econométrico de datos de sección cruzada. Esta segunda edición intenta equilibrar la situación
y para ello amplía especialmente la parte dedicada a la predicción y al trabajo econométrico
con datos en forma de serie temporal. A tal fin incorpora el alisado exponencial , la descom-
posición por componentes de estado de los procesos temporales y el análisis espectral, que
son técnicas especialmente útiles para realizar predicciones a partir de series temporales. La
ampliación se completa con un tema dedicado al estudio de efectos «causales» dinámicos a
través de modelos similares a los presentados en la primera parte del texto, pero con retardos
distribuidos tanto de las variables explicativas como posiblemente de la variable explicada.
El denominador común de estas extensiones es la «usabilidad» de las técnicas econométricas
conocidas sin necesidad de entrar necesariamente en los detalles avanzados. Se han llevado a
cabo en esta nueva edición alguna otra transformación menor en otros temas, sin perder la
esencia de la primera edición. Particularmente destacable es un cambio transversal que incide
en dar mayor relevancia a cuestiones propias de la modelización diaria y que por tanto pueden
ser de mayor utilidad al usuario final.
Las características del libro están (y siguen estando) perfiladas en el propio título: Econo-
metría y Predicción. Lo sustantivo de la Econometría, tal y como lo presentamos en esta obra,
es que sea útil para responder a cuestiones causales (relación causa-efecto) específicas de las
ciencias sociales. Los modelos de regresión multivariante son tratados como una herramienta
que puede ser de utilidad a los efectos de cuantificar las relaciones causales; sin embargo, para
ello es preciso que controlemos el efecto de variables que pueden enmascarar el efecto causal
de interés. Un ejemplo intuitivo sería conocer el efecto causal en los salarios de un individuo
si este invierte en más años de formación. También podemos estar interesados en responder
a cuestiones causales para las empresas, los países, las regiones, etcétera. Por ejemplo, hay
estudios empíricos econométricos que pretenden investigar sobre el efecto de las instituciones
en el crecimiento económico.
Obviamente la forma ideal de capturar el efecto causal sería realizar experimentos, y si
bien estos son difíciles (pero no imposibles) de llevar a cabo en el ámbito económico-social,
merecen la pena ser considerados como referencia de los riesgos y retos a superar con el análisis
causal a partir del modelo de regresión multivariante. Sería necesario responder a cuestiones
como: ¿qué factores debería dejar inalterados o constantes o controlados en el experimento
1
2
ideal?, ¿cómo lo puedo hacer en la práctica?

En términos generales, aproximar o medir lo mejor posible una relación económica causal
es útil también para la Predicción, y esto es así porque nos permite predecir las consecuencias
de los cambios en las circunstancias o en las políticas: ¿qué ocurriría en la variable objetivo
si se produce este cambio?, ¿bajo qué condiciones es fiable la predicción? Sin embargo, la
forma en que los economistas disponemos de datos condiciona en buena medida el alcance
y las herramientas que tenemos, tanto para explicar los efectos causales como para realizar
predicciones. En este sentido, las predicciones pueden ser mejoradas si se utilizan paralela-
mente otras técnicas, que bajo ciertas circunstancias pueden ser reinterpretables en términos
causales. Dicho en otras palabras, la mejor predicción económica no está necesariamente basa-
da en un análisis causal. Sin embargo, hacer buenas predicciones es una cuestión importante
debido a que en muchos ámbitos estamos continuamente realizando predicciones de las cuales
dependen no pocas cosas.
Las predicciones, en cualquier campo, se hacen para asesorar en la toma de decisiones.
En el campo de la economía y la empresa son varios los campos donde las predicciones son
especialmente relevantes.
Las empresas rutinariamente hacen predicciones sobre el nivel de ventas para decidir la
gestión del inventario y los planes de producción; también las hacen, por ejemplo, para la
planificación de entrada óptima de nuevo producto, y decisiones de esta índole. Lógicamente,
las empresas también utilizan las predicciones sobre precios futuros para apoyar sus decisiones
de producción. Desde el ámbito del marketing, las decisiones sobre precios, las líneas de
distribución y el nivel de gasto en publicidad suelen estar basadas en las predicciones sobre
la respuesta en ventas de diferentes esquemas de marketing.
Los gobiernos, las organizaciones políticas, las empresas de predicción ... hacen continuas
predicciones sobre las principales variables macroeconómicas (PIB, tasa de desempleo, consu-
mo agregado, inversión, nivel de precios, tipos de interés ... ). Los gobiernos utilizan estas pre-
dicciones para la toma de decisiones sobre política fiscal y monetaria; las empresas privadas,
para prever las actuaciones a emprender a nivel de industria o empresa ante las fluctuaciones
de la actividad económica.
Por otro lado, los gestores de carteras financieras tienen muchos incentivos para utilizar
herramientas de predicción lo más certeras posibles sobre la rentabilidad de activos, tipos
de cambio, tipos de interés, etcétera. En estrecha relación con esto último, la predicción del
riesgo financiero de posiciones sobre activos es fundamental para el desarrollo de mercados de
opciones y derivados.
Los responsables de la elaboración de presupuestos toman decisiones que en buena me-
dida dependen de la predicción de los niveles de ingreso. En la empresa privada los ingresos
provienen de las ventas, mientras que en los gobiernos, de la recaudación mediante impuestos.
Unos y otros se benefician de la correcta anticipación de la variación cíclica en ambos tipos
de ingresos.
Las grandes decisiones sobre los datos demográficos de zonas económicas resultan centrales
para la gestión de políticas de medio y largo plazo, como pueden ser la viabilidad de unos
u otros sistemas de seguridad social, niveles de bienestar mínimo, cobertura de necesidades
sociales, programas de salud pública, etcétera. También las empresas toman decisiones en
3
función de las predicciones sobre la evolución de poblaciones objetivo.

Al menos por estos motivos, el papel del económetra debe conjugar ambas facetas: Eco-
nometría y Predicción.
Objetivos y organización
Hemos abordado lo que entendemos que son hoy las principales cuestiones que deben
tratarse en un curso de esta naturaleza. Aunque el cuerpo central de la disciplina sigue siendo
básicamente el mismo (el modelo de regresión y sus derivaciones) , han tenido lugar avances
importantes que hemos tratado de incorporar. Por ejemplo, en las últimas décadas han cobrado
cada vez mayor protagonismo los modelos con datos de panel o el enfoque de los experimentos
naturales o cuasiexperimentos.
La metodología con la que hemos escrito y presentado los temas también responde a un
enfoque particular de los autores. Este enfoque se centra prioritariamente en el tratamiento
en dos niveles de los temas que consideramos centrales en la configuración de un curso intro-
ductorio a la econometría. Así, el modelo de regresión múltiple es tratado en primer lugar de
una forma introductoria y fundamentalmente aplicado a problemas económicos relevantes o
interesantes a los efectos de la presentación del mismo. Posteriormente se ofrece un tratamien-
to en profundidad, desde distintas ópticas complementarias y con diferentes niveles técnicos
de dicho modelo.
Podría decirse que el modelo de regresión múltiple vertebra el contenido de todo el libro ,
el cual se ha distribuido en tres partes. La Parte I, Fundamentos del análisis de regresión,
comprende ocho temas en los que se abordan con detalle los aspectos centrales del modelo
de regresión que va a ser utilizado recurrentemente a lo largo de los restantes epígrafes. Una
característica común de esta parte es el tratamiento simultáneo, pero claramente diferenciado,
de los datos de sección cruzada y de los datos de series temporales. El lector identificará desde
el principio y con precisión las diferencias de los modelos para cada tipo de datos. Creemos
que este tipo de presentación facilita la comprensión e interiorización del modelo de regresión
múltiple en su dimensión teórica y aplicada, a la vez que pone de manifiesto parte de sus
limitaciones internas. Otra característica en esta parte, y que posteriormente se hereda en
las restantes, es la presencia y tratamiento de la heterocedasticidad como norma de los datos
económico-empresariales, y no como excepción.
La Parte JI, Ampliaciones del análisis de regresión, comprende otros cuatro temas en
los que se tratan aspectos más avanzados o que se han desarrollado con posterioridad en
la literatura, pero que son hoy imprescindibles en el trabajo aplicado. La presentación de
estos temas es, en algunos casos, menos formal y menos detallista que el tratamiento que
se ha dado al modelo de regresión múltiple. Esto es así porque presentamos estos cuatro
temas como potenciales soluciones a los problemas que habitualmente presenta el modelo de
regresión para realizar inferencia de tipo causal. El tratamiento de la causalidad es, como
hemos indicado anteriormente, prioritario en la presentación que hacemos de la econometría
en este manual, de modo que en cierta medida el lector iniciado en temas econométricos puede
encontrar sugerente la presentación de algunos epígrafes tanto de la parte I como de la parte
II.
Finalmente la Parte !JI, Series temporales: predicción y regresión, consta en la segunda
4
edición de ocho temas dedicados exclusivamente al análisis de series temporales y modelos

de regresión que incorporan sólo datos temporales. El énfasis primordial de esta parte está
en presentar técnicas relativamente sencillas que permitan hacer previsiones o predicciones
lo más certeras posibles a partir de series económicas cronológicas. Los primeros temas de
esta parte están dedicados al análisis univariante de series temporales. En particular se pre-
sentan métodos para modelizar tanto la media condicionada del proceso como la varianza
condicionada. Los últimos temas presentan una introducción al análisis de series temporales
en varias dimensiones. De nuevo y al igual que hemos señalado para la parte II, el tratamiento
matemático de estas cuestiones no es, en general, tan detallado como el dado en la parte I
del libro. No obstante, los Apéndices técnicos de cada tema y el documento complementario
o de acompañamiento, Apéndices y Tablas de Econometría y Predicción, en buena medida,
pueden responder al interés del lector con mayores competencias técnicas.
A lo largo del libro los desarrollos teóricos están profusamente ilustrados con más de 50
ejemplos prácticos, en los que se explica detalladamente al lector tanto el proceso de cálculo
como, sobre todo, la interpretación de los resultados obtenidos. Una característica distintiva
de los mismos es que están construidos a partir de datos reales referidos a la economía española
y que, en muchos casos, llegan hasta fechas muy próximas, lo que consideramos representa
un valor añadido importante. Complementariamente, se desarrollan en mayor detalle algunos
ejemplos o casos de estudio para incidir prioritariamente en aspectos teóricos o económicos,
y no tanto en aspectos de cálculo.
Una disciplina como esta no puede ser abordada sin unos conocimientos mínimos de es-
tadística, probabilidad, inferencia y álgebra matricial. Es posible que algunos lectores hayan
adquirido las competencias oportunas en cursos previos, e igualmente es posible que no las
tengan lo suficientemente recientes como para tomarlas como adquiridas. En cualquier caso,
el documento Apéndices y Tablas de Econometría y Predicción hace un resumen bastante
completo de estas cuestiones. Consideramos oportuno que este documento sea de acompaña-
miento al libro en el sentido literal: en muchos casos será útil que el texto principal pueda
utilizarse conjuntamente con el texto secundario de acompañamiento. Los autores consideran
que a día de hoy no es estrictamente necesario desgastar esfuerzos en realizar cálculos que la
mayoría de los software especializados realizan óptimamente. Fundamentalmente porque no
es realista considerar que el futuro consumidor de técnicas econométricas tenga que realizar
"a mano" el tipo de cálculos que se presentan en este texto. Tampoco parece estrictamente
necesario que el usuario básico tenga que dedicar excesivos recursos a memorizar expresiones
matriciales propias de los estimadores presentados.
Por estos motivos se presentan muchos resultados en el texto complementario de acompa-
ñamiento. En último término, la intención es que el estudiante se centre específicamente en lo
sustantivo de la econometría y deje los detalles de lo accesorio para una lectura más sosegada
en un nivel ulterior. Sin embargo, se supone que el lector tiene una formación básica en áreas
como el cálculo diferencial básico y la teoría económica.
Por su naturaleza, hay partes del contenido que pueden ser muy técnicas y, en estos casos,
hemos procurado colocarlas en Apéndices técnicos al final de cada tema, dejando al arbitrio
del profesor responsable la decisión de incluirlas o no en su programa.
Como es lógico quedan temas pendientes de ser tratados como son, entre otros y dada su
5
relevancia, la regresión cuantílica y la regresión no paramétrica; también ha quedado en el

tintero desarrollar aspectos relacionados con los efectos espaciales (econometría espacial) de
los fenómenos económicos, que son cruciales para el análisis económico regional y geográfico; y
finalmente también se podría haber desarrollado sistemáticamente aspectos relacionados con
cuestiones computacionales de la econometría. Estos y otros temas, como son los relaciona-
dos con otras técnicas de estimación disponibles (estimación G MM, estimación bayesiana y
estimación por cuasi máxima verosimilitud) se dejan para otro momento.
Itinerarios
El material presentado en estos 20 temas tiene un diferente grado de dificultad, circuns-
tancia que, junto con la amplitud de contenidos contemplada, permite al profesor diversas
posibilidades (itinerarios) a la hora de diseñar un curso de Econometría.
Un curso típico de introducción a la econometría de nivel elemental y planteado en menos
de un cuatrimestre de duración comprendería la P arte I excepto los temas 3 y 5 que, como se
señala en el propio título, son avanzados. En estos seis temas se tratan los aspectos fundamen-
tales del modelo de regresión con datos de sección cruzada, y fácilmente extensible al caso de
contemplar datos de naturaleza temporal. Si se dispone de un cuatrimestre, es posible ampliar
el nivel elemental con una selección adicional de temas en función del perfil del estudiante. Por
ejemplo, en el caso de un curso para estudiantes con inquietudes relacionadas con la dirección
de empresas, sería factible seleccionar algunos de los temas complementarios siguientes: 9,
10, 11 , 13 y/ o 16, en función también de la formación previa que tenga el estudiante. Si se
dispone de dos cuatrimestres, una división natural sería: un primer cuatrimestre de material
introductorio, es decir, temas 1, 2, 4, 6, 7, 8 y 9; y un segundo cuatrimestre con los temas 10,
11, 13, 16, 17, 19 y 20.
Otro itinerario obvio para aquellos interesados en impartir un curso de series temporales es
organizar la docencia en torno a los ocho temas dedicados (o a una selección de los mismos) a
este aspecto en la Parte JI!, que reciben un tratamiento más avanzado, pero exigiría un curso
previo de Introducción a la Econometría.
Puede diseñarse también un curso de econometría intermedia para alumnos ya iniciados
(digamos para estudiantes de nivel de máster), que en principio podría abarcar todos los te-
mas del manual. Si es necesario puede comenzarse con una revisión de los conceptos previos
(Apéndices A, B, C, D y E, del documento de acompañamiento Apéndices y Tablas de Econo-
metría y Predicción). Asimismo, tras haber cubierto a modo de repaso la econometría básica
a través de los temas 3 y 5, podría entonces darse mayor o menor importancia a las partes II
y III, en función de los objetivos del curso y del perfil de los estudiantes y del título.
Materiales complementarios
Desde la página web del libro www.mhe.es/ econometria el lector podrá encontrar material
de diverso tipo que puede servir de apoyo tanto al estudiante como al potencial instructor.
Entre otros archivos, el lector encontrará los datos con los que se han realizado los ejemplos
con los que se ilustra el libro , así como los datos necesarios para la elaboración de los ejercicios
prácticos previstos.
6
Agradecimientos
En esta ocasión los autores desean agradecer el apoyo constante e incondicional recibido
durante estos cursos por el profesor Julián Rodríguez Ruiz, director y compañero del Departa-
mento de Economía Aplicada Cuantitativa. En el periodo entre la primera y segunda edición
se detectaron erratas gracias fundamentalmente a la cuidadosa lectura por parte de los estu-
diantes de los grados de ADE, Economía y Turismo, así como del Máster en Investigación en
Economía y Empresa de la Facultad de Ciencias Económicas y Empresariales de la UNED,
lo que queremos agradecer explícitamf'nte.
Parte 1
FUNDAMENTOS DEL ANÁLISIS

DE REGRESIÓN
7
Introducción
El tema central de esta parte es la presentación del modelo de regresión y de los motivos
por los que desempeña un papel fundamental dentro del análisis econométrico. El Tema 1
es una presentación de los hechos que definen y configuran la teoría y práctica econométrica
en la actualidad. La técnica de estimación propiamente se presenta simultáneamente con la
interpretación de la misma en el Tema 2. Primero lo hacemos para regresiones de una sola
variable donde X e Y son una muestra aleatoria de datos , y posteriormente se amplía para el
modelo de regresión múltiple.
El Tema 3 es de carácter avanzado y profundiza en la relación entre la regresión y su capa-
cidad para detectar relaciones causa-efecto a través de la función de esperanza condicionada.
Posteriormente se presenta en forma matricial y algebraica el estimador de mínimos cuadrados
ordinarios (MCO) lo que nos permitirá, también en temas avanzados o intermedios , presentar
resultados econométricos que de otra forma harían innecesariamente más complejo su manejo
y exposición.
Es fundamental el Tema 4, en el que se muest ra que el estimador obtenido mediante la
regresión varía de muestra a muestra, de modo que el estimador tiene una distribución muestral
propia. El conocimiento de esta distribución puede utilizarse para hacer afirmaciones acerca de
los coeficientes poblacionales. En particular nos permite realizar inferencia sobre los mismos.
Las propiedades estadísticas de esta estimación son, bajo ciertos supuestos, deseables. Esta
cuestión se amplia significativamente en el Tema 5, de mayor dificultad técnica. El Tema 6
está dedicado a considerar cómo afecta la autocorrelación y la existencia de heterocedasticidad
al modelo de regresión que hemos presentado en los temas precedentes, y se profundiza sobre
las alternativas de las que disponemos en la práctica.
El Tema 7 presenta una extensión muy útil del modelo de regresión para cierto tipo de
variables y de cuestiones habituales en los estudios econométricos. No obstante, pese a las
bondades del modelo de regresión, las conclusiones que podemos extraer del mismo podrían
ser fácilmente invalidadas por fuentes. El Tema 8 precisamente expone las limitaciones que
puede presentar el modelo de regresión lineal para capturar los efectos causales, y anuncia las
posible soluciones que serán obtejo de estudio en la Parte II del libro.
9
Tema 1
ECONOMETRÍA, MODELOS
ECONOMÉTRICOS Y DATOS ECONÓMICOS
l. l. INTRODU CCIÓN
A día de hoy podemos decir que la econometría es el estudio unificado de modelos econó-
micos, estadística matemática y datos económico-empresariales. Esta definición encaja per-
fectamente con la definición original dada en la Sección I del Acta de Constitución de la
Econometric Society.
Dentro del campo de la econometría existen evidentemente subdivisiones y campos de
especialización. La teoría econométrica trata del desarrollo de métodos y herramientas, y del
estudio de las propiedades de los métodos econométricos. La econometría aplicada describe
el desarrollo de modelos económicos cuantitativos y la aplicación de métodos econométricos
a esos modelos utilizando datos económicos.
La econometría tal y como la entendemos en la actualidad se fundamenta en una aproxi-
mación estocástica (probabilística, en términos de Haavelmo) , en el sentido de que los modelos
cuantitativos deben ser de naturaleza probabilística. Los modelos no estocásticos (determinis-
tas) son inconsistentes con las magnitudes económicas observadas, de modo que sería incohe-
rente aplicar modelos deterministas a datos no deterministas. A diferencia de otras ciencias,
dada la inherente complejidad del comportamiento de los agentes económicos y de las insti-
tuciones económicas, no es factible desarrollar teorias (como en la Física) que conduzcan a
invariantes universales. Es esencial entender desde el inicio que no se trata de un problema
imputable al hecho de que la Economía (en cuanto a disciplina) esté en un estadio de desa-
rrollo más temprano que el de otras disciplinas , y que con el paso de los años se alcancen
unos niveles de madurez similares al de otras ciencias. Más bien se trata de que la teoría eco-
nómica tiene una limitación intrínseca para describir completamente la realidad económica.
Entender bien estas limitaciones nos lleva en primer lugar a reconocer que resulta demasiado
optimista considerar que los modelos econométricos (modelos de probabilidad) propuestos son
suficientemente adecuados para capturar esta complejidad inherente. Y en segundo lugar, a
considerar que resulta más operativo entender que un modelo econométrico (o la modelización
econométrica) es una cruda aproximación a la relación (verdadera) que existe entre los datos
11
12 ECONOMETRÍA: MODELOS Y DATOS
observados, y no tanto a ofrecer una descripción detallada de las relaciones probabilistas que
se establezcan entre la variables.
Los modelos económicos (econométricos) deben, por lo tanto, ser diseñados para incorpo-
rar explícitamente la aleatoridad. Si el modelo econométrico es un modelo de probabilidad,
parece natural que entonces se utilicen métodos apropiados y consistentes con la caracteriza-
ción del modelo. Este es el motivo por el que fundamentalmente se utiliza en economía una
teoría matemático-estadística para adecuadamente cuantificar, estimar, y realizar inferencias
y pronósticos.
Un dato interesante que indica la relevancia de la econometría dentro de la Economía es
que el número de económetras condecorados con el Premio Nobel a las Ciencias Económicas
es relevante. Ragnar Frisch en 1969, Lawrence Klein en 1980, Trygve Haavelmo en 1989,
James Heckman y Daniel McFadden en 2000, Robert Engle y Clive Granger en 2003, Thomas
Sargent y Christopher A. Sims en 2011 , y finalmente Eugene Fama, Lars Peter Hansen y
Robert Shiller en 2013.
Otra de las divisiones más comunes en la econometría es distinguir entre microeconometría
y macroeconometría. La primera fundamentalmente utiliza lo que, posteriormente veremos, se
denomina análisis de sección cruzada y datos de panel. Su interés prioritario son las decisiones
al nivel microeconómico. A modo de ejemplo, el tipo de preguntas en las que se utilizan este
tipo de herramientas econométricas es el siguiente: ¿la existencia de un seguro de salud induce
a los usuarios a utilizar más intensamente el sistema de salud? También la siguiente encajaría
dentro de esta categoría: ¿la formación universitaria superior ofrece o no un rendimiento
económico lo suficientemente atractivo como para dedicar recursos a este tipo de educación
superior? La macreconometría, por su lado, utiliza prioritariamente datos en forma de serie
temporal histórica. Ejemplos típicos son el nivel de precios, los tipos de cambio, la curva de
tipos, nivel de producción, tasas de crecimiento, etcétera. Las técnicas en uno y otro campo
son variadas. Con todo la frontera entre ambos ámbitos no es nítida, lo que facilita que las
técnicas sean en ciertas circunstancias aplicables a uno y a otro.
En la gran mayoría de ocasiones las herramientas o técnicas a utilizar requieren necesa-
riamente el uso de software econométrico, estadístico y de programación. En la actualidad es
imprescindible el uso de estas facilidades para realizar estudios aplicados y teóricos de corte
econométrico.
El mercado ha proporcionado a lo largo de años algunos programas informáticos. Los
que han sobrevivido y se han consolidado son varios. EVIEWS y STATA son extraordinarios
paquetes informáticos que proporcionan numerosas herramientas econométricas y estadísticas
que están completa y eficientemente programadas. La limitación principal es que su lenguaje
de programación no facilita la implementación de nuevas técnicas o técnicas menos frecuentes
o noveles. Ambos programas son comerciales. La alternativa de software libre más desarrollada
es el programa GRETL, con el que se pueden realizar la gran mayoría de los ejercicios prácticos
de este libro, así como los ejemplos utilizados en la exposición principal.
MATLAB y GAUSS son dos paquetes con un lenguaje de programación de alto nivel y con
orientación matricial, que ofrece al usuario una amplísima cantidad de funciones estadísticas
«built-in» (ya insertadas). La web proporciona la gran mayoría de técnicas econométricas ac-
tuales, principalmente porque se desarrollan originariamente en estas plataformas. La ventaja
Tema 1 13
principal de ambos paquetes es que el usuario tienen completo control sobre el análisis y sus
detalles.
La alternativa a este tipo programas de lenguaje de programación avanzado en código
libre es R y OCTAVE.
Al final, suele ser habitual que el economista o económetra acabe utilizando más de uno
de estos paquetes informáticos.
1.2. Los MODELOS ECONOMÉTRICOS

Los datos económicos, a diferencia de los de otras ciencias, no son generados mediante la
experimentación. Este hecho tiene implicaciones metodológicas no triviales las cuales se irán
haciendo patentes a lo largo de la exposición. Decimos entonces que en economía trabajamos
con datos no experimentales y en cierto sentido «pasivos», en la medida en que son fruto de
un proceso de observación y sobre los que inciden sucesos no controlables.
A partir de un fenómeno económico de interés. denotado por y (variable correspondiente
a dicho fenómeno), es posible construir un modelo formado por variables observables, {Xk :
k = 1, 2, ... , K}. A modo de ejemplo, si la variable de interés es el salario y las variables Xk
describen características tales como el nivel formativo de los trabajadores, el número de años
desempeñando el actual puesto de trabajo y el grado de experiencia en el mercado laboral,
sería factible elaborar modelos que relacionaran y con Xk· A estos efectos se distingue entre
modelos deterministas y modelos estocásticos.
Cuando la relación entre las variables viene arbitrada mediante una función real f (-)
decimos que X k determina Y del modo especificado por f (·). Esta explicación o relación
conforma un modelo determinista. Determinadas las características del trabajador quedará
unívocamente determinado el salario. Es decir, dos t rabajadores con las mismas características
tendrán el mismo salario.
Por otra parte, cuando la relación entre Xk e Y se establece mediante g(·, ·)
Y= g(X, E)
donde g es una función real y e es una variable aleatoria no observable, el modelo es esto-
cástico. En el ejemplo anterior, dos trabajadores con las mismas características podrían tener
ocasionalmente unos salarios apreciablemente diferentes. Las razones de tal diferencia estarán
incluidas en la variable no observable.
Los modelos econométricos son modelos estocásticos. Un familia de modelos estocásticos
muy utilizada es aquella en el que la aleatoriedad es aditiva
Yi = g(Xi) + Ei, í = 1, 2, ... , N.
La interpretación econométrica de este modelo se caracteriza por el hecho de ser considerado

un modelo no experimental (es decir, formado por variables no controladas). En caso de ser un
modelo experimental, podríamos interpretar la expresión anterior como un proceso generador
de datos (PGD) en el que Yi es el resultado observado de un experimento cuando se controlan

las k-variables input y Ei es una perturbación aleatoria que varía entre cada experimento que
es llevado a cabo sobre las mismas k variables. La interpretación experimental de este modelo
sería entonces
y¡ =g(Xi)+
...__,_, ..._,_..,
...__,_,
Ci i=l,2, .. .,N. (1.2.1)
Output Input Perturbación
En este sentido, considerando que el resto de factores están controlados, los mismos inputs
generan esencialmente los mismos resultados.
Sea por ejemplo la ley física del periodo de un péndulo descrita mediante la ecuación
determinista
T ~ 21ff1a,
donde T, l y g son el periodo, la longitud de la cuerda y la gravedad, respectivamente. Esta
relación determinista no lineal es linealizada del siguiente modo
1 1
In T = In 27r - '2 In g + '2 In l.
En esta situación es posible reproducir N experimentos en los que se midan la longitud de
cuerda y el periodo, manteniendo prácticamente controlados el resto de factores que pudieran
influir. El modelo sería entonces de tipo experimental
donde f3o y {31 son dos parámetros del modelo, Yi =In Ti, Xi = ln li y finalmente Ei contem-
pla los errores o perturbaciones (posiblemente de medida) cometidos durante el experimento
el cual se repite N veces. Dentro de este modelo es posible indicar que la variable longitud de
la cuerda está relacionada causalmente con el periodo del péndulo. De hecho, cambios en X
«causan» cambios 1 en Y.
En economía, los datos no son generados como si la economía fuera un experimento con-
trolado, y por tanto los datos son frut o de la observación y recopilados por procedimientos
generalmente administrativos. Como resultado, la econometría cuenta con ecuaciones aparen-
temente similares a la Ecuación (1.2.1), pero esencialmente distintas, tal y como ya hemos
comentado en el epígrafe anterior. En general un modelo econométrico puede expresarse así
y¡
...__,_, = f (Xi) +
'-....--'
observado explicado error o
no explicado por f (X)
donde el dato observado se descompone en la parte explicada y la parte no explicada por
f(Xi)· Se trata por tanto de un modelo empírico, y no necesariamente de un modelo causal.
1
En cambio modificaciones en Y no tienen necesariamente que provenir de cambios en X pues también
pueden estar originados por cambios en€. En este último caso se atribuirían incorrectamente a cambios en X.
Tema 1 15
Incluso esta partición es posible realizarla cuando Yi depende de otros factores , digamos h(zi)·
La parte no explicada recogería, junto con los errores de medida, todos los otros factores que
explican la variación de Yi y están omitidos en el modelo empírico.
Las propiedades de los modelos empíricos dependen, por tanto, del tipo de datos observa-
dos. Precisamente la econometría se ha desarrollado como una disciplina distinta de la esta-
dística matemática ya que se centra en los problemas propios del análisis de datos económicos
de naturaleza no experimental. Estos datos no experimentales son utilizados, generalmente,
para contrastar una teoría económica o una relación relevante para la toma de decisiones
empresariales o para el análisis de políticas públicas.
En cualquier caso (teorías, decisiones empresariales o políticas económicas), un objetivo del
economista es inferir si una variable tiene un efecto causal sobre otra(s). La misma naturaleza
de los modelos empíricos hace que hayan de darse ciertas circunstancias para que pueda
establecerse una relación de causalidad. La noción ceteris paribus resulta fundamental para el
potencial establecimiento de una relación causal. La demanda de los consumidores establece la
relación entre cantidad demandada y precio considerando que el resto de factores (relevantes
como ingresos, precios de otros bienes o gustos) permanecen inalterados. En caso de variar el
resto de factores relevantes no podríamos conocer el efecto causal propio de la variación del
precio. Igualmente, para analizar el efecto causal de una política económica sería necesario
mantener inalteradas un número de variables o factores que de manera relevante inciden sobre
la variable objetivo. Una característica de los datos no experimentales es que los niveles de
una variable de control no se determinan independientemente de todos los demás factores que
influyen sobre la variable objetivo.
En el caso de la formación del salario es factible que la experiencia laboral, una de las
variables explicativas del modelo empírico, afecte a la variable años de educación. A mayor
número de años dedicado a la formación, menor será la experiencia laboral, que es otra de
las variables explicativas del modelo. De modo que una variable explicativa (educación) está
asociada a otra variable explicativa (experiencia laboral) y a su vez afecta a la variable objetivo
(salario).
Esto se debe a la distinta naturaleza de los modelos empíricos y de los modelos experimen-
tales, lo cual nos permite observar que rara vez (por no decir nunca) será posible identificar
con certeza relaciones de tipo causal. Ante este t ipo de limitación, un objetivo podría ser
hacer experimentos sociales. Sin embargo, estas prácticas están lejos de darse en la actua-
lidad fundamentalmente por lo caro que result aría tanto en términos económicos como en
términos sociales. En la práctica, el objetivo de cara a realizar inferencia causal es crear un
marco de trabajo en el que el uso de los datos no experimentales limite lo menos posible el
análisis del ceteris paribus , y por tanto, de las relaciones causales. En términos muy generales
puede considerarse que el avance de la econometría consiste en cómo resolver el problema de
la existencia de factores no observados (algunos ni tan siquiera observables) en los modelos
econométricos de cara a contemplar el efecto de las variables en condiciones lo más próximas
posibles al ceteris paribus.
La formulación rigurosa de los modelos econométricos implica establecer una serie de
supuestos o suposiciones mantenidas que alivien las limitaciones propias del mundo no expe-
rimental de la economía, tal y como veremos en los temas desarrollados en este manual.
1.3. EFECTOS CAUSALES O ESTRUCTURALES
En último término muchas de las cuestiones del análisis econométrico se centran en saber
cuál es el efecto de una determinada acción, decisión o política sobre una variable de interés.
Por ejemplo, es normal que un economista esté interesado en saber cómo afectan los años
de formación en el salario, el cambio climático en la actividad económica, los incentivos en
el comportamiento de un agente, los impuestos sobre el tabaco en la reducción del número
de fumadores, etcétera. En realidad, todas estas cuestiones están relacionadas con relaciones
causales entre variables. De un modo muy intuitivo podemos decir que una acción causa un
efecto determinado si este es resultado directo (o consecuencia) de la acción. Echar fertilizante
sobre una planta causa una mayor producción de la planta en cuestión que si no lo echamos, y
además podemos medir la consecuencia o «efecto causal». Del mismo modo , podemos pensar
sobre el efecto causal de un tratamiento médico en el nivel de salud de una persona. En este
caso, el efecto causal del tratamiento es la diferencia en términos de salud de un individuo al
que se le ha sometido al tratamiento, respecto o en comparación con el nivel de un enfermo
que no ha sido tratado. Ambos casos (fertilizar y tratar) son ejemplos de un experimento
controlado aleatoriamente. Está controlado en el sentido de que hay un grupo de control que
no recibe tratamiento, y un grupo de tratamiento que sí lo recibe. Es aleatorio en la medida
en que la asignación de sujetos tratados es aleatoria. De este modo se eliminan posibles
relaciones sistemáticas o comunes entre los individuos afectados o estudiados. Es decir , que
la única diferencia sistemática entre dos individuos es si están o no sometidos al tratamiento
(médico o de fertilización).
El efecto causal propiamente sería el efecto sobre una variable de interés (outcome) de
un determinado tratamiento (acción o política) que resultaría de medirlo en un experimento
ideal controlado aleatoriamente. Lo importante del experimento aleatorizado es que permita
«aislar» el efecto del tratamiento, de modo que lo único que cause una diferencia en el resultado
(outcome) entre los individuos sometidos al tratamiento y los no sometidos sea precisamente
el tratamiento. Por ejemplo, supongamos que un individuo A hubiera ganado 11 euros por
hora en caso de tener estudios de bachillerato y 20 euros por hora si los estudios fueran
universitarios , mientras que otro individuo B hubiera logrado 8 euros y 12 euros por hora,
respectivamente. En este caso el efecto causal sería de 9 euros/ hora para el individuo A y de
4 euros/ hora para el B. En ambos casos el t ratamiento es tener o no un nivel de formación
determinado.
Este ejemplo nos facilita ver varias cuestiones importantes. La primera, y tal vez más re-
levante, es que el experimento controlado aleatoriamente nos permite idealizar una situación
en la que sería posible comprobar cuál es la respuesta (el efecto causal) sobre la variable y
(objetivo o output) ante un cambio en una de las variables control (en este caso años de for-
mación académica) manteniendo constante o inalteradas (ceteris paribus) el resto de variables
explicativas ya sean esas observables o no observables. La segunda cuestión que pone de ma-
nifiesto este simple ejemplo es que el efecto causal sobre cualquiera de los individuos o sujetos
analizados es inobservable dado que lo único que observamos es el salario correspondiente a la
situación real dada (no a otras situaciones en las que tuviera más o menos años de formación ,
es decir, en las que estuviera o no sometido a un tratamiento). La tercera observación es que,
Tema 1 17
además de no ser observable, el efecto causal varía entre los individuos (sujetos A y B).
Esto nos conduce a una situación en la que a lo más que podemos aspirar es a agregar
los efectos causales individuales y, en particular, a estudiar el efecto causal medio en el total
de la población. En los términos del ejemplo sería considerar que la mitad de los individuos
son tipo A y la otra mitad tipo B. De este modo el efecto causal medio de tener estudios de
bachillerato sería (9+ 4) / 2 = 6,5 euros/ hora.
La pregunta latente consiste en saber si existe alguna construcción o herramienta formal
que nos permita identificar el efecto causal medio. La respuesta, como veremos, será afortu-
nadamente afirmativa. Sin embargo no todas las cuestiones que nos pueden interesar han de
estar fundamentadas en la causalidad.
1.3.1. Causalidad y predicción

Hemos insistido desde el principio en el interés de hacer predicciones fundadas en modelos
econométricos y en el hecho de que para hacer buenas predicciones no es estrictamente nece-
sario saber las relaciones causales; de hecho, las hacemos en la vida cotidiana con normalidad.
Por otra parte, la teoría económica proporciona valiosas relaciones causales que pueden ser
realmente útiles a la hora de realizar predicciones , y por tanto un objetivo loable es preci-
samente utilizar las técnicas presentadas para cuantificar relaciones importantes (históricas)
ugeridas desde la teoría económica, validar su est abilidad a lo largo del tiempo , y realizar
predicciones cuantitativas sobre el futuro de ciertas variables. Sin embargo, es relevante ob-
servar que no es necesario conocer una relación causal para realizar una buena predicción. Un
ejemplo típico , y un tanto naíf, que ilustra esta idea es que una buena manera de «predecir»
si llueve es observar si la gente está utilizando un paraguas, pese a que el mero hecho de «usar
un paraguas» no causa que llueva. No debe deducirse, sin embargo , que el conocimiento de
esquema de causas no ayuda o no facilita la realización de una buena predicción. De hecho ,
el análisis económico, que es un análisis causal, proporciona relevantes relaciones económicas
realmente útiles para hacer predicciones o pronósticos.
La técnica de la regresión múltiple facilita la cuantificación de las relaciones históricas que
sugiere la teoría económica, lo que permite evaluar la validez de dichas relaciones a lo largo
del tiempo y su estabilidad. En la medida en que dichas relaciones sean estables, serán útiles
para realizar predicciones cuantitativas. En paralelo, los métodos y técnicas que utilizan la
historia pasada de la variable objeto de estudio para predecir su futuro suelen ser métodos
con bastante éxito predictivo; sin embargo, no tienen una interpretación causal, y se utilizan
con fines exclusivamente predictivos, generalmente para horizontes temporales cortos.
1.4. ESTRUCTURA DE LOS DATOS ECONÓMICOS
Ya hemos indicado antes que los datos utilizados en la economía y los negocios son funda-
mentalmente de observación y no experimentales; esto generalmente es así pero no siempre,
y podemos concebir experimentos aplicados a la economía y los negocios. De hecho, podría
decirse que una característica definitoria de la econometría es que ha desarrollado herramien-
tas analíticas para el estudio de datos no experimentales. Sin embargo, cada vez aparecen
18 ECONOMET RÍA: MODELOS Y DATOS
más estudios en los que el análisis se realiza sobre datos de naturaleza casi experimental en el
sentido anticipado en la sección anterior cuando nos referíamos a experimentos aleatorizados,
y que desarrollamos en el Tema 12.
Veamos un ejemplo que entre otras cosas nos permita ver las consecuencias sobre el aná-
lisis de la causalidad que supone disponer de datos experimentales y no experimentales. Este
ejemplo complementa lo ya esbozado en la Sección 1.3. Supongamos que queremos determinar
la influencia del uso de fertilizantes sobre la producción de un determinado producto agrario.
Si disponemos de una parcela lo suficientemente grande y la calidad de la tierra es semejante,
podemos realizar el experimento de dividir la parcela en «n» partes iguales y utilizar distin-
tas cantidades de fertilizantes en cada una de ellas. Entonces podremos medir la influencia
de la cantidad de fertilizante sobre la cantidad producida, manteniendo el resto de factores
constantes. Este experimento parte de los siguientes supuestos: solo es válido para el producto
concreto, misma calidad de la tierra, idéntica climatología, semillas de igual calidad, etc.
Si nos plantemos el mismo problema en una región y tiempo determinado, la cuestión

varía radicalmente. Ahora no podemos simplemente medir la producción y la cantidad de fer-
tilizante utilizadas e inferir su influencia. La razón se encuentra en el tipo de datos utilizados,
antes experimentales y ahora de observación. Ahora la cantidad de fertilizante utilizada se
ha aplicado a tierras de distinta calidad, climatologías diferentes, etc., y la variación de la
producción depende también de estas otras variables y, lo que es más importante, estas otras
variables influyen en el efecto que produce la cantidad de fertilizante sobre la producción. Si
solo tenemos en cuenta fertilizantes y producción estaremos atribuyendo incrementos de pro-
ducción debidos a la calidad de la tierra o la climatología, a aumentos de fertilizante, es decir,
estaríamos midiendo erróneamente el efecto del fertilizante sobre la producción porque las
variaciones en la calidad de la tierra y la climatología contaminan la relación. Técnicamente
decimos que la relación entre fertilizante y producción está sesgada por la influencia de otras
variables. La única forma de evitar el sesgo es tener en cuenta también la influencia de esas
otras variables sobre la producción.
Como no puede ser de otra manera, la calidad de los datos utilizados importa. En ocasiones
nos encontramos con que, además del problema de su carácter no experimental, también puede
haber errores de medición producidos por errores de observación. Los datos económicos suelen
ser muy agregados, bien porque los datos macroeconómicos son el objeto de los institutos de
estadística o por problemas de confidencialidad. En ocasiones esto hace que no sean indicativos
de las micro-unidades objeto de estudio. En las encuestas, el problema de los individuos que
no contestan puede generar sesgo en la información; además, los métodos de muestreo son tan
variados que a veces puede resultar difícil comparar resultados.
En consecuencia, al realizar un análisis empírico debemos ser conscientes de que el resul-

tado del mismo depende de forma decisiva de la calidad de los datos utilizados. En el análisis
aplicado se suelen distinguir tres tipos de datos: series de tiempo, transversales o sección cru-
zada y mixtos (combinación de series de tiempo y transversales). Veamos en qué consisten
cada uno de ellos.
Tema 1 19
Figura 1.4.1: Precios del Petróleo Brent. 1990 - 2010

140
120
100
80
60
40
20
1.4.1. Datos de series temporales

Los datos de series temporales son datos para un único individuo o entidad (por ejemplo,
un país, una persona, una empresa ... ) que son recogidos para múltiples periodos consecutivos.
En los datos de series temporales las observaciones de las variables muestran su evolución en
el tiempo, suelen tener frecuencia temporal regular y consecutiva, diarias (como las cotiza-
ciones de valores en la bolsa, la información meteorológica, etc.) , semanal (como las ventas
y premios de lotería, quinielas , etc.), mensual (como los índices de precios y producción),
trimestral (como los de la contabilidad nacional t rimestral) o anual (como los presupuestos
del gobierno y de las empresas). Las series de tiempo presentan algunos problemas especiales
en su tratamiento, como la característica de dependencia entre observaciones sucesivas. La
Figura 1.4.1 muestra un ejemplo de serie temporal, la evolución de los precios del petróleo
desde enero de 1986 hasta diciembre de 2010.
1.4.2. D atos de sección cruzada o transversales

Este tipo de datos son de individuos o entidades diferentes (trabajadores, consumido-
res, empresas, administraciones locales, etc.) para un único periodo temporal. Es decir, las
observaciones de las variables se presentan en un mismo momento de tiempo o se ignora su
evolución temporal. En general estos tipos de datos se utilizan frecuentemente para individuos,
empresas y regiones, siendo importantes para evaluar políticas microeconómicas. La Figura
1.4.2 muestra un ejemplo de datos transversales, el PIB per cápita español por comunidades
autónomas en el año 2009.
1.4.3. Datos mixtos

Las observaciones en las que se combinan datos de series temporales con transversales se
denominan series de datos mixtos o combinados. Este tipo de datos plantea los problemas
del tratamiento de datos de series temporales y transversales, algunos autores distinguen dos
tipos de datos combinados: los datos fusionados de sección cruzada y los datos de panel.
20 ECONOMETRÍA : MODELOS Y DATOS
Figura 1.4.2: PIB per cápita en España, año 2009 en euros.

~iiiiiiiiiiiiiiiiiiiiiiiiilii-¡-¡¡
jllllllllli-.-.--...----.-.-
RIOJA
PAfsVASCO
MURCIA ,
NAVARRA - _- . . ,-. _- - - - - - - - -
MADRID , . .. . ._ ...._ , . . .. . .- . . . . .- ....
GALICIA . . . .- ..
EXTREMADURA
VALENCIANA - - - - ·
CASTILLA · LA MANCHA
CASTILLA Y LEÓN - - - - - - - -
CANTABRIA ~--------·
CANARIAS · - - - -
BALEARS . . . . . .--~--
ARAGÓN ,-_
ASTURIAS -" _ " "_" - ,_ ll!mil
.." " "_ " __
ANOALUCfA .¡::=:::::¡::=----+---l---+--+--+--+--1-----4
15.000 17.000 19.000 11 .000 23.000 25.000 27.000 29.000 31.000 33.000
En ocasiones disponemos de datos de encuestas en momentos de tiempo diferentes , por

ejemplo la encuesta de presupuestos familiares de los años 2008 y 2009 ambas se realizan
mediante muestreo aleatorio en las que se encuesta a los hogares sobre gastos, ingresos, tamaño
de las familias, etc., en ambas se realizan las mismas preguntas. Podemos utilizar los datos de
ambas encuestas con el objetivo de aumentar el tamaño de la muestra formando un conjunto
de datos fusionados de sección cruzada. Este tipo de datos es útil además para analizar los
efectos de cambios en las políticas económicas y de las empresas. Por ejemplo si tenemos datos
sobre los ingresos por sexo en dos años diferentes y entre ambos años se ha aprobado una
legislación contraria a la discriminación salarial de la mujer, podemos analizar si el cambio
legislativo ha provocado o no efecto alguno en la diferencia salarial entre sexos.
1.4.4. Datos de panel o longitudinales

Cuando se estudia la misma unidad transversal en el tiempo, es decir, cuando tenemos las
mismas familias o las mismas empresas o las mismas regiones (datos de corte transversal) y
además su evolución temporal (series temporales) , entonces el conjunto de datos resultante
se denomina datos de panel. Dado que los datos de panel presentan la evolución de la misma
familia (o región o empresa o sucursal) en el tiempo, suelen ser más difíciles de obtener, pero
presentan muchas ventajas puesto que además de los datos transversales tenemos su evolución
en el tiempo de manera que se facilita la inferencia causal entre variables. La Tabla 1.1 muestra
el ejemplo del PIB per cápita español por comunidades autónomas entre el año 2000 y 2010.
Puede observarse que tenemos para las mismas unidades de observación datos de corte
transversal: el PIB per cápita de las comunidades autónomas en 2010 por ejemplo. Y datos
de series temporales como la evolución del PIB per cápita de Andalucía entre 2000 y 2010.
1.5. CONCLUSIÓN
Finalmente, antes de empezar la materia propiamente dicha, es ilustrativo concluir indi-

cando cuál es el papel que desempeñará la Econometría en el futuro. A tal efecto la siguiente
Tema 1 21
Tabla 1.1: PIB per cápita anual por CC.AA. Euros corrientes
CCAA 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
A:-IDALUC!A 11.538 12.363 13.206 14.207 15.181 16.261 17.318 18.155 18.384 17.498 17.405
ARAGÓ:-1 16.365 17.468 18.765 19.884 21.012 22.359 23.948 25 .599 26.093 24.656 24.886
ASTURIAS 13.081 14.087 14.979 15.905 17.001 18.495 20.210 21.678 22.427 21.512 21.882
BALEARS 19.282 20.301 20.904 21.349 22.251 23.334 24.538 25.431 25.706 24.580 24.672
CA'.'IARIAS 14.845 15. 764 16.550 17.424 18 .120 18.988 19.923 20.681 20.827 19.792 19. 746
CA:-ITABRIA 14.634 15.896 17.040 17.971 19 .154 20.630 22.078 23.552 24.222 23.111 23.464
CAST ILLA-LEÓ:-1 14.164 15.141 16.195 17.313 18 .5 15 19.822 21.246 22 . 735 23.206 22.475 22.974
CASTILLA-LA MA:-ICHA 12.307 13.138 13.852 14. 721 1 5 .402 16.359 17.357 18.321 18.425 17.573 17.621
CATALU~A 19.072 20.388 21.409 22.448 23 .588 24.796 26.351 27 .532 27.897 26.863 27.053
VALE:-ICIA:-IA 15.102 16.155 16.891 17.571 18 .372 19.327 20.477 21.255 21.392 20.295 20.465
EXTREMADURA 9.965 10.670 11.417 12.230 13 .085 14.231 15.156 16.266 16.845 16.590 16.828
GALICIA 12.163 12.972 13.824 14.764 15 .843 17.114 18.517 19.841 20 .546 20.056 20.343
MADRID 21.281 22.573 23.541 24.579 25 .837 27.343 29.197 30.533 30.928 30.142 29.963
MURCIA 13.132 14.013 14.860 15.778 16 .538 17.665 18.673 19.476 19.694 18.731 18.654
:-IAVARRA 19.927 21.045 22.254 23.408 24 .748 26.351 28.026 29.540 30.296 29.495 29.982
PA!S VASCO 19.182 20.493 21.703 23.019 24 .603 26.553 28. 710 30.602 31. 791 30.683 31.314
RIOJA 17.826 18.712 19.404 20.584 2 .. 377 22.513 23.911 25.110 25.631 24.811 25.020
entrada del Diccionario internacional New Palgrave (2007) nos proporciona información su-
gerente:
Econometric theory and practice seek to provide information required for in-
formed decision-making in public and private economic policy. This process
is limited not only by the adequacy of econometrics, but also by the develop-
ment of economic theory and the adequacy of data and other information.
Effective progress, in the future as in the past, will come from simultaneous
improvements in econometrics, economic theory, and data. Research that
specifically addresses the effectiveness of the interface between any two of
these three in improving policy - to say nothing of all of them - neces-
sarily transcends traditional subdisciplinary boundaries within economics.
But it is precisely these combinations that hold the greatest promise for the
social contribution of academic economics.
La Econometría recoge aspectos necesariamente teóricos y prácticos. Unos y otros evolu-

cionan de la mano de la matemática estadística, la teoría económica y de la disponibilidad
de datos informativos para las cuestiones a estudiar. Por tanto, será útil en la medida en que
resuelva o ayude a la toma de decisiones informadas y rigurosas en el ámbito privado y público
de la actividad económica, entendida esta última en un sentido amplio.
Tema 2
ANÁLISIS DE REGRESIÓN LINEAL.

,,.
ESTIMACION
2.1. MODELO DE REGRESIÓN
Este tema presenta el modelo de regresión lineal que relaciona una variable, «X», con
otra, «Y». El modelo plantea una relación lineal entre «X» e «Y», de modo que es una recta
la que relaciona una variable con la otra. Esta recta define la relación entre ambas variables
mediante una pendiente que es el efecto que tiene una variación en una unidad de «X» sobre
«Y».
La variable «Y», que la denotaremos , generalmente, por Y , es una variable aleatoria que
tendrá una distribución poblacional desconocida, y lo mismo sucederá para la variable «X».
Estas variables tendrán cada una de ellas una media poblacional desconocida. Del mismo modo
que dichas medias son características propias de las distribuciones poblacionales de X y de Y,
la pendiente de la recta que relaciona a X con Y también será una característica desconocida
de la distribución poblacional conjunta de X y de Y. El problema que pretende resolver
este tema es precisamente «estimar» dicha pendiente, es decir , estimar, a partir de los datos
muestrales de ambas variables, el efecto sobre Y de una variación unitaria en X.
Normalmente nos encontraremos que la variable objeto de estudio Y está relacionada no
solo con X , sino con otras variables X1 , X2 ,... , Xk, y entonces nuestro objetivo será explicar
cómo varía «Y» ante cambios en alguna(s) de las «k» variables explicativas.
Sin embargo se van a presentar una serie cuestiones fundamentales que han de ser con-
sideradas previamente antes de lograr tal objetivo. La lista de las «k» variables, con toda
seguridad, no será una relación exhaustiva de las variables que expliquan el comportamiento
de <<Y», de manera que la relación entre «Y» y las «k» variables no será exacta o determinada,
sino solo aproximada. Puesto que la relación solo puede ser aproximada, nos enfrentamos al
problema de cómo dar cabida al resto de facto res no explícitos y que, sin embargo, afectan a
«Y». Es decir cómo vamos a tener en cuenta el resto de variables que afectan a «Y» y que
no hemos tenido en cuenta en las «k» variables. También tenemos que determinar cuál es
la forma funcional que relaciona a cada una de estas «k» variables con «Y». En todo caso,
la forma que se plantee debe asegurarnos que nos facilita la captura el efecto parcial (efecto
23
24 ANÁLISIS DE R EGRESIÓN LINEAL. ESTIMACIÓN
ceteris paribus) de cada una de las «k» variables sobre «Y».

La forma con la que vamos a relacionar las «k» variables con «Y» de manera que nos
permita considerar los aspectos que acabamos de comentar es:
La ecuación anterior define lo que llamaremos modelo de regresión lineal múltiple o

regresión lineal multivariante. Una regresión más sencilla sería
(2.1.2)
que denominaremos modelo de regresión simple.

Hay varias cuestiones relevantes en estas ecuaciones y que vamos a tratar a continuación.
La primera parte de la Ecuación (2.1.2)
es la función de regresión poblacional (FRP) , y define la relación entre Y y X que se

cumple en promedio para la población. Por tanto, si conociéramos el valor de X, podríamos
predecir utilizando la recta poblacional, el valor esperado de Y.
Algo parecido sucedería para el caso de la ecuación de regresión lineal múltiple, Ecuación
(2.1.1). Esta ecuación define la relación promedio entre las variables a la derecha del signo
igual (las Xj) y la variable Y. Esta relación promedio, que se expresa adecuadamente mediante
la esperanza condicionada 1 , es la función de regresión poblacional (FRP):
(2.1.3)
que indica que el valor esperado de la variable Y condicionado a los valores que toman las
variables explicativas Xj es f3o + f31X1 + f32X2 + ... + f3kXk.
Esta expresión y el aspecto condicional de la misma es muy importante dado que nos
permite obtener el efecto parcial (efecto ceteris paribus) sobre Y: el efecto esperado sobre Y
de la variación de una variable (digamos, X 1) manteniendo constantes el resto de factores
(X2, X3, ... , Xk)· De hecho, el coeficiente de la pendiente de X1 o parámetro f31 captura el
efecto que X 1 tiene sobre Y teniendo en cuenta (controlando) los otros factores explicitados
en la relación. Esta interpretación se obtiene fácilmente si a partir de la FRP imaginamos
una variación de X1 por una cuantía b.X1, mientras que el resto de variables no varían (se
mantienen constantes). El cambio de X 1 hará que cambie Y en una cierta cantidad b.Y. El
nuevo valor resultante para Y será
(2.1.4)
Si a esta expresión le restamos el valor esperado de Y cuando no hay cambios, entonces se

obtiene
1
En el siguiente tema y en la separata del libro se trantan tanto el papel que desempeña
la esperanza condicionada como las propiedades matemáticas de la misma. La expresión formal es
IE[Y; IX1i = X1 , X2i = X2, ... , xk i = xk J.
Tema 2 25
por lo que la expresión

~y
/Ji= ~X1'
indica que el coeficiente poblacional /31 es el efecto (cambio esperado) sobre Y ante un cambio
en X1, manteniendo fijas Xj,j = 2, 3, ... , k.
El término constante «/30» frecuentemente no es relevante en el análisis empírico, si bien
hay algunas aplicaciones en las que sí lo es. Su interpretación es sencilla: es el valor esperado
de Y, cuando X1 = X2 = ... = Xk =O.
Por otra parte, se hace necesario y práctico diferenciar los tipos de variables que intervienen
en una ecuación de regresión. Los roles que desempeñan las variables del modelo son distintos,
y por tanto hay una terminología comúnmente aceptada al respecto. La variable objeto de
estudio será Y o variable dependiente, y las variables Xj serán variables explicativas de
«Y». A lo largo de la literatura econométrica, y de este libro, a estas variables también se las
denomina de forma indistinta con la siguiente terminología:
Tabla 2.1: Denominación de variables

y X
Variable explicada Variable explicativa
Variable dependiente Variable independiente
Regresada Regresara
Endógena Exógena
Variable respuesta Variable de control
Predicha Predictora
La variable «E» se denomina término error y representa todos los otros factores que ade-
más de X1 , X2 , ... , Xk determinan el valor de la variable dependiente Y para una observación
concreta que llamamos observación i, por lo que para cada observación i habrá un error Ei·
Es decir Ei representa los diferentes factores, distint os de las variables explicativas X 1i, X2i,···
de la Ecuación (2.1.1) que afectan a la variable dependiente Y;.
Comprobamos por tanto que el término error «E» es la forma de incluir el resto de fac-
tores no incluidos expresamente y que afectan a la variable regresada. Su incorporación es
fundamental básicamente debido a que nunca tendremos un listado completo de los factores
que influyen en «Y». En otras ocasiones resulta que simplemente no tenemos acceso a la in-
formación de una variable determinada. Otros motivos por los que se incorpora el término
error son:
• Siempre habrá factores excluidos que influyan aunque sean, a priori, poco relevantes co-
mo para incluir una variable explicativa más, de modo que podría no interesar incluirlos
expresamente (principio de simplicidad). Este tipo de factores decimos que son poco
relevantes en el sentido de que no afectan sistemáticamente a la variable que deseamos
explicar. Son por lo tanto variables que afectan, pero de forma irregular a la variable
de interés. Este tipo de factores no-sistemáticos podría decirse que son innumerables,
26 ANÁLISIS DE REGRES IÓN LINEA L. ESTIMACIÓN
de manera que el término error representaría el efecto neto de estos numerosos, pero
pequeños e independientes, factores. 2
• El error explica el carácter intrínsecamente aleatorio de la conducta humana. Las accio-

nes humanas , en cuanto a decisiones de elección , son en ocasiones tales que incluso bajo
idénticas circunstancias las acciones pudieran ser diferentes en un sentido aleatorio.
• En muchas ocasiones solo tenemos acceso a una variable cercana «proxy» a la variable
que desearíamos explicar. En este caso el error también muestra la diferencia entre la
verdadera variable y la aproximada. El error sería también representativo de este tipo
de error de medida.
En defini tiva el término de error tiene un papel crucial en el modelo de regresión y tendre-
mos que tener especial cuidado al analizar su comportamiento para evaluar el modelo en su
conjunto 3 .
El siguiente ejemplo nos puede ayudar a comprender en la práctica lo que hemos expuesto
hasta el momento.
Ejemplo 1. Demanda de café.

Pongamos el ejemplo de la estimación de la demanda de café: Consideremos que la demanda
de café depende de su propio precio (ley de demanda) , de la renta disponible (demanda-renta) ,
del precios de un bie n sustitutivo como el t é y del precio de otro complementario como la leche.
En este caso el modelo poblacional de regresión múltiple sería
cantidadca f é = f3o + f3i preciocafé + f32 Y D + {33preciOté + f34 preci ozeche + e (2.1.5)
La función de regresión poblacional (FRP) será
JE (cantidadcafé ¡precios, Y D ) = f3o + f31preciocafé + f32 Y D + {33precioté+ f34precio zeche

que es una func ió n poblacional y que desconocemos, y que se cumple en media para la población .
No obstante , esta relación no se cumple con exactitud debido a que hay muchos otros factores que
influyen en la cantidad de demanda de café. Estos factores están recopilados en el término error,
e, de la Ecuación (2.1.5). La FRP nos indica que si los precios del café , el té y la leche tomaran
los valores Pe, Pr, y PL, y la renta dispon ible alcanzara el nivel Y D 0 , entonces el valor esperado
de la cantidad demanda de café condicionado por los precios y nivel de renta contemplados sería :
Uno de los objetivos centrales de este tema es ser capaces de realizar una estimación de la función
de regresión poblacional a partir de los datos provenientes de la observación . Dicha estimación
2
En el caso de que hubiera factores omitidos (variables omitidas) que sí fueran sistemáticos, en el sentido
de afectar regularmente a la variable a explicar, entonces diremos más adelante que estos errores constit uyen
un tipo de error de especificación: esto ocurriría cuando la naturaleza de la relación económica modelizada no
estuviera correctamenta esp ecificada.
3
E l siguiente tema presenta un análisis más pormenorizado del término error. El lector interesado puede
encontrar útil su lectura.
Tema 2 27
se denomina función de regresión muestra! (FRM), función que para una muestra determinada
arrojará unas estimaciones de la FRP diferentes de los que obtendríamos con otra muestra. Las
variables explicativas son « precio del café », «precio del té» y « precio de la leche». Los coefi-
cientes de cada una ellas son (31, /32. y (33, respectivamente. Por ejemplo el coeficiente relativo al
precio del café indica el efecto parcial (efecto cete ris paribus) que se prevé sobre la cantidad de
café demandada como consecuencia de una variación un itaria en el precio del café, manteniendo
in alterados (constantes) los precios de los otros bienes, y el nivel de renta dispon ible.
Una cuestión que es necesaria observar es que t anto el modelo de regresión múltiple como
el simple contemplan relaciones lineales. Por simplificar, consideremos el caso más sencillo de
regresión
(2.1.6)
La Ecuación (2.1.6) es una ecuación en la que el t érmino lineal se refiere, geométricamente
hablando , a que la relación entre ellas es una recta. Los modelos de regresión , en general,
pueden ser lineales en las variables o lineales en los parámetros. Es conveniente distinguir
claramente la diferencia entre ambos conceptos:
• Un modelo lineal en las variables present a la forma indicada en la Ecuación (2.1.1) o

(2.1.6). No sería, sin embargo, lineal en las variables el modelo y = /30 + (3 1X[ +E, o
el modelo y = /30 + /31 (1/X1) + E. Es decir, X 1 no puede estar elevado a una potencia
diferente de la unidad para que sea lineal en las variables. Tampoco puede estar ni
multiplicado ni dividido por otra variable.
• Un modelo no es lineal en los parámetros cuando «/3j » aparece elevado a cualquier

potencia diferente de la unidad o multiplicado o dividido por otro parámetro.
De los dos términos en los que se puede entender la no linealidad (en las variables o en los
parámetros), el primero no es preocupante puesto que siempre podremos realizar el cambio
de variable que lo haga lineal (Zl = X[ ó Zl = 1/ X1). No ocurre lo mismo en el segundo
caso (no linealidad en los parámetros), de manera que a partir de ahora con el término lineal
nos referiremos solo a linealidad en los parámetros , tanto en el modelo de regresión lineal
simple como múltiple. Sobre estas cuestiones volveremos más adelante en este tema. Ahora
nos concentraremos en cómo estimar la FRM a partir de unos datos observados.
2.2. MÍNIMOS CUADRADOS ORDIN ARIOS
2.2.1. Regresión simple

Supongamos, por simplicidad, que queremos estimar la función de regresión poblacional
del modelo de regresión lineal poblacional de la Ecuación (2.1.6)
(2.2. 1)
28 ANÁLISIS DE REGRESIÓ LINEAL. ESTIMACIÓN
donde hemos añadido un subíndice «i» que recorre las «n» observaciones disponibles. De cada
una de ellas (de cada i) que tenemos un valor observado para la variable Y, que denotamos
Yi, y otro para la variable X, que indicamos por Xi. 4 Queremos estimar los parámetros de la
FRP, es decir, de f3o + f31X1. Estos coeficientes o parámetros poblacionales son desconocidos,
y tendremos que utilizar los datos disponibles de ambas variables para estimarlos5 . Estimados
los coeficientes, «/30, /31», por alguna técnica estadística estos serán los homólogos muestrales
de los coeficientes poblacionales. Con ellos podremos explicitar la (FMR) función de regresión
muestra! /30 + /31X 1, que es el homólogo a la función de regresión poblacional f3o + {31X 1. A
partir de la FRM puedo obtener Yi,
que es el valor estimado «Yi» dado el valor que toma
X1i, y que también puede considerarse como un valor de predicción de Yi a partir de la recta
de regresión estimada (es decir de la FRM). La diferencia entre el valor observado y el valor
estimado o previsto se denomina residuo de la regresión
(2.2.2)
que es el homólogo muestra! del término (poblacional) error Ei. Obsérvese que la Ecuación
(2.2.2) nos permite descomponer el valor observado como la suma del valor estimado (valor
de predicción) y el residuo:
(2.2.3)
La técnica o método con el que vamos a estimar los coeficientes es el método de los
mínimos cuadrados ordinarios (MCO). Esta técnica permite estimar los parámetros o
coeficientes que minimizan el cuadrado de la suma6 de las discrepancias producidas entre los
valores observados y los valores estimados (valores de predicción), es decir, localiza para la
muestra que tenemos aquellos valores de los coeficientes que minimicen la expresión
(2.2.4)
La Figura 2.2.1 muestra la recta de regresión que minimiza la suma cuadrática de las
discrepancias.
La estrategia de seleccionar los valores paramétricos f3o y {31 que minimizan la suma de
los cuadrados de los residuos impide que los valores positivos (valores por encima de la recta)
se compensen con los negativos (valores por debajo de la recta).
4
A efectos meramente de cálculo no resulta relevante si los datos proceden de una sección cruzada o de
una serie temporal. En este último caso, se suele utilizar el subíndice «t » para indicar que las observaciones
utilizadas son de series temporales, mientras que el subíndice «i» se suele utilizar para observaciones de corte
transversal. De hecho en varios ejercicios de este tema utilizamos datos de naturaleza temporal (serie de
tiempo) y en consecuencia utilizamos el subíndice correspondiente a este tipo de datos.
5
Del mismo modo que para estimar Ja m edia poblacional de una variable Z utilizamos la media muestral
como estimador
6
También llamado «suma cuadrática».
Tema 2 29
Figura 2.2.1: Mínimos cuadrados ordinarios

y
•
Matemáticamente el problema se resuelve derivando e igualando a cero la expresión (2.2.4)
respecto de los coeficientes a estimar (/Jo, /31). La consecuencia del proceso 7 de minimización
el cuadrado de los residuos nos conduce a las denominadas ecuaciones normales
n n
L (Yi-/30 -/31X1i) = L Ei =o (2.2.5)
i=l i=l
y
n n
¿ xli (Yi-/30 -/31X1i) = ¿ x1iti =o. (2.2.6)
i=l i=l
A partir de las ecuaciones normales, (2 .2.5)(2.2.6) , se calcula la pendiente /31
n n
2::: XliYi 2::: (X1i - X) (Yi - Y) éoV (X1, Y)
•
(3 1 =
i=l i=l
- n- -
n 2
(2.2.7)
var(X1) '
'L: xii 2::: (Xli -X)
i=l i=l
donde definimos Yi =Yi -
Y y X1i X l i - X. =
Si dividimos la Ecuación (2.2.5) por nen ambas partes y sumamos en í, tras unas sencillas
operaciones se llega a
Y = /Jo+ /31X1, (2.2.8)
que nos permite recuperar la estimación del coeficiente de la constante f3o:
(2.2.9)
7
En el Apéndice técnico de este tema se desarrolla formalmente el proceso.
30 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
y nos indica que la recta de regresión pasa por las medias muestrales de las variables.
También las ecuaciones normales nos permiten obtener algunos resultados analíticos útiles
que desarrollamos seguidamente.
Resultados algebraicos de la regresión en el modelo de regresión simple

La Ecuación (2.2 .5) nos indica que la suma de los residuos es nula, por consiguiente su
media también lo es (ti= O). Teniendo en cuenta este resultado junto con la expresión (2 .2.3)
se deduce que la media_ de la variable dependiente observada y la estimada por ).!ICO tienen
la misma media (fi = °f;).
Restando la Ecuación (2.2.8) de (2.2 .3), tenemos que
(2.2.10)
Esta última expresión expresa las variables en desviaciones a las medias (Yi - Y o Xi - X).
Esto nos permite formular la expresión (2.2.10) de la siguiente forma
(2.2.11)
donde nuevamente usamos que Yi = Yi - Y y X1i = X1i - X , y observamos que es la misma

expresión que (2.2.3) pero con las variables en desviaciones a sus medias. Es interesante
observar que en esta expresión el término constante ~o desaparece. Ahora la estimación mínimo
cuadrática de la FRM es
(2.2.12)
Multiplicando la expresión (2.2.12) a ambos lados por los residuos Ei, sumando desde 1 hasta
n y operando se comprueba que
n
L YíEi =o, (2.2.13)
i=l
por lo que el valor esperado previsto por la ecuación de regresión, "f;, y los residuos míni-
mo cuadráticos, Ei, no están correlacionados. Dividiendo por n obtenemos que entonces la
covarianza entre ellos será nula [cov (fi, ti)
=O].
A partir de la definición de covarianza, y teniendo en cuenta las ecuaciones normales, se
llega a demostrar que la variable independiente X1i y los residuos Ei están incorrelacionados
[cov (X1i, ii) =O]. Dejamos este ejercicio técnico al lector.
Coeficiente de determinación R2
U na vez estimada una regresión lineal parece lógico que nos preguntemos cómo de preciso
es el ajuste, es decir en qué medida esta regresión describe correctamente los datos: ¿Captura
el regresar mucha o poca proporción de la variación de la variable dependiente? El coeficiente
de determinación o R 2 de la regresión responde a esta cuestión relativa a la bondad del ajuste
de la recta a los datos observados . Veamos cómo se calcula y qué significa8 .
8
A lo largo de varios temas se tratan aspectos relativos al R-cuadrado . El lector interesado puede leer las
Sección 5.1.4.3 y la Sección 3.4.3.
Tema 2 31
De la Ecuación (2.2.3) comprobamos que es posible escribir la variable dependiente como

suma del valor estimado (o de predicción), más el residuo
expresión que nos permite relacionar la varianza muestral de Yi con la varianza muestral de
Pi,que depende de Xli junto con /Jo y /31, como vemos a continuación:
(2.2.14)
ya que por la Ecuación (2.2.13) sabemos que las variables "fi y ti están incorrelacionadas. Ttas
despejar se obtiene
var ( "fi)
= var (Yi) - var (ti). (2.2.15).
El cociente entre (2.2.15) y (varYi) nos permite ver la proporción de la varianza muestral de
Pi
Yi explicada por X i, o dicho de otro modo , el cociente entre la varianza muestral 9 de y la
varianza muestral de Yi proporcionando una medida de la bondad del ajuste realizado por la
regresión:
R2 = var (Pi) = 1 - var (ti).
(2.2.16)
var(Yi) var(Yi)
También se puede demostrar que el coeficiente de determinación es igual al coeficiente de
correlación al cuadrado 10
El coeficiente de determinación o R 2 es, por construcción, siempre es positivo y menor o igual

a la unidad (O :::; R 2 :::; 1) . Si R 2 = 1, la regresión explica completamente la variación de
la variable dependiente, es decir todos las observaciones estarían sobre la recta de regresión de
la Figura 2.2.1 (sería un ajuste exacto o determinado). Si el R 2 = O, la regresión no explicaría
nada sobre el comportamiento de la variable dependiente. El R 2 multiplicado por 100 se
interpreta como el porcentaje de la variable dependiente explicado por la regresión, es decir
que si el coeficiente de determinación es O,7 podemos decir que la regresión explica el 70 %
de la variable regresada. Veremos más adelante que un alto coeficiente de determinación no
garantiza que el modelo de regresión tenga necesariamente buenas características.
A partir de (2.2.14) y de la definición de varianza podemos escribir
1~( - 2 1~(, _ )2
- L.t Yi - Y) = - L.t Yi - Y
n ~l n ~l
+ -n1 Ln ti2= 1
n
1
n
1
-SCE + -SCR = -SCT,
n
(2.2.17)
~l
9
Varianza muestra! que depende de Xli para los parámetros estimados, /Jo y /11 .
10
Como mostramos en la Sección 3.4.3.
32 ANÁLISIS DE REGRES IÓN LINEAL . ESTIMACIÓN
donde SCT es la suma cuadrática de la variable dependiente en desviaciones a las medias,

SCE es la suma cuadrática de la variable estimada en desviaciones a las medias y SCR es la
suma cuadrática de los residuos estimados . Multiplicando por na ambos lados tenemos que
SeT = SeE+ SeR (2 .2.18)
y el R 2 en términos de sumas cuadráticas es
R2 = se E = 1_ se R (2.2 .19)
ser ser ·
A efectos meramente de ilustrar la técnica de regresión MCO , la interpretación de los

coeficientes estimados, y la evaluación de la bondad de la recta estimada, examinamos se-
guidamente tres ejemplos económicos, uno de corte microeconómico o de ámbito empresarial,
otro de economía laboral, y un tercero macroeconómico.
Ejemplo 2. Demanda de tabaco

La ley de demanda nos dice que la cantidad demandada depende inversamente del precio del
bien . El modelo de regresión simple , en consecuenci a, se puede plantear de la siguiente forma
cantidad= /30 + /31precio + é

donde el resto de factores no considera dos se recogen en error é. Esperamos que la pendiente
sea de signo negativo , indicativo de la re laci ón prevista debe ser inversa , es decir, cuando sube el
precio se reduce la cantidad consumida si se mantienen el resto de factores constantes. A partir
de la encuesta continua de presupuestos fa mil iares entre el primer trimestre de 1998 y el cuarto
de 2005 , disponemos de observaciones de precios medios de la cajetilla de 20 cigarrillos en euros y
también del número de cajet illas co nsum ida s por trimestre de la población española . La regresión
estimada es
---
(ta bacotfpobt) = 33, 48 - 8, 98 · (preciotfipct), (2 .2.20)
n = 32, R 2 = O, 906 .
donde la variable de cantidad se ha dividido por la población de cada año , por tanto estamos
hablando de cajetillas de tabaco consum idas per cápita . La variable independiente está deflactada
por el índice de precios al consumo (2005=1) , de manera que el precio está en euros constantes
de 2005 . La regresión no es lineal en las variables , para que sea lineal también en las variabl es
debemos realizar cambios en las va ri ables, por ejemplo podemos hacer el siguiente camb io tabt=
tabacotf pobt y pret = preciot/ IPC t· Nosotros utilizaremos a lo largo del texto expresiones como
esta con fines didácticos, pero se entiende que para realizar la regresión previamente hay que
realizar el cambio de variable para que el modelo sea lineal en las variables 11 .
La interpretación de la regresió n es clara, a un precio de 2 euros (la media del periodo en la
muestra es de 1,74 euros) el modelo predice un consumo medio de 16 cajetillas (33, 48-8,98 ·2 =
11
Aunque hay muchos programas de regresión que actu almente perm iten realizar la regresión como ind ica la
expresión (2.2.20).
Tema 2 33
15,52) por persona y trimestre . Si el precio se incrementa en un euro , ceteris paribus, el consumo
se reduce en 9 unidades y viceversa . De manera que podemos realizar predicciones a partir de
precios hipotéticos, y su util idad es obvia para las em presas productoras de tabaco . El R 2 = O, 906
indica que la regresión explica el 90 % de la varianza del consumo per cápita de tabaco.
Otro ejemplo ilustrativo es el siguiente:
Ejemplo 3. Relación entre el salario y el nivel de estudios en el sector turístico

La relación entre el salario y el nivel de estudios y otras variables no observadas se puede medir
a partir del siguiente modelo poblacional :
salario = f3o + f31estudios + E:,

donde el resto de factores que influyen en el salario se recogen en el término de error.
Con los datos de la encuesta de estructura salari al española de 2006 estimamos la ecuación de
regresión que relaciona el salario por hora con el nivel de estudios terminados en el sector de la
hostelería y el turismo, su estimación es
-
salarioi = 7, 97 + 1, 13 · estudiosi (2.2. 21)
2
n = 5286, R = O, 098,
donde el subíndice i indica que los datos son de corte transversal, el nivel de estudios se mide por
estudios completados .
La expresión (2.2. 21 ) se interpreta de la siguient e forma : la variable estudios toma el valor 1
cuando el trabajador no tiene estudios, 2 si t ien e estudios primarios ,. .. , y 8 si es licenciado. A
partir de la expresión podemos calcular la pred icción del salario en función del nivel de estudios. El
cálculo es sencillo , simplemente hay que multiplicar el valor de la pendiente por el nivel de estudios
y sumar el término constante. De esta forma en el Tabla 2.2, hemos calculado la columna del
valor de salarios esperados condicionado por el nivel de estudios terminados JE(Salarios lestudios) ,
o simplemente la predicción de salarios estimada por la FRM. La última columna muestra cómo
varía el salario a medida que cambia el nivel de estudios, en realidad es un índice en el que
hemos considerado con valor 100 el nivel de estudios med io de la muestra, estudios de secundaria
1 (valor 3 de la variable). Aproximadamente el incremento salarial es del 10 % por cada nivel de
estudios finalizado, los trabajadores que no tiene n estudios ganan un 20 % menos que la media y
los trabajadores con licenciatura ganan un 50 % más que la media . En términos ceteris paribus,
el salario/hora aumenta 1,13 euros por cada nivel de estudios finalizado. El modelo , sin embargo,
solo explica el 9,8 % del comportamiento del sal ario, por lo tanto la FRM se ajusta poco a las
observaciones, y el resultado sugiere que necesaria mente hay otros factores que influyen en el
salario .
Además de otras variables que pueden ser importantes, el modelo considera que el incremento
de las retribuciones es lineal a medida que cambia el nivel de estudios finalizado , es decir el
incremento salarial es constante con el increment o de estudios lo que puede no ser cierto . Más
adelante analizaremos como se puede hacer para que estos incrementos sean variables.
34 ANÁLIS IS DE RE G RESIÓN LINEAL. ESTIMACIÓN
Tabla 2.2: Salario por hora condicionado por niveles de formación

Nivel de estudios estudiosi !E( Salarios! estudios) %
Sin estudios 1 9,10 80,11
Estudios primarios 2 10,23 90,05
Estudios secundaria I 3 11 ,36 100,00
Estudios secundaria II 4 12,49 109,95
Formación profesional grado medio 5 13,62 119,89
Formación profesional grado 6 14,75 129,84
superior
Diplomado universitario o 7 15,88 139,79
equivalente
Licenciado, Ingeniero superior o 8 17,01 149, 74
Doctor
Un ejemplo también interesante es el siguiente:
Ejemplo 4 . Función de consumo keynesiana

Con datos del consumo y del PIB español 12 , estimamos por MCO la función de consumo que
relaciona niveles de consumo con niveles de renta o producción . La función de de regresión muestra!
obtenida es
consumo= - 1660 +O, 85 · PIE , n = 64. (2.2.22)
La interpretación de la pend iente es sencilla : si el PIB ( ingreso) aumenta 1 euro , el modelo

prevé que en promedio el consumo lo hará en 0,85 céntimos . La regresión tiene un R 2 = 0,996,
que indica que el PIB explica el 99 ,6 % de la variac ión del consumo .
El término constante solo lo podemos int erpretar como coeficiente de ajuste y no como mínimo
de subsistencia. Si interpretáramos litera lmente la expresión (2. 2.22) entonces cualquier valor infe-
rior de O, 85 x PI B a 1660 (en millones de euros) de ingreso o PIB implicaría consumos negativos ,
lo que no tiene sentido . La explicación de este resultado se encuentra en que , en la muestra, los
valores mínimos del consumo y del PI B son muy superiores a esa cantidad , de manera que los
valores muestrales de consumo son siem pre positivos.
Esta expresión se refiere a datos macroeconómicos y en por tanto podrían ser , en su caso,
útiles para planteamientos de política econ ómica . Sin embargo, si nuestra intención fuera estimar
la relación entre consumo e ingreso personal o fam iliar t endríamos que dividir ambas variables por
la población o el número de famili as. Entonces tendríamos el consumo y el PIB per cápita o por
12
Utilizamos datos provenientes de la Con tab ilidad Naciona l Trimestra l entre el prime r trimestre de 1995 y el cuarto
de 2010 , en miles de millones de euros co nsta ntes de 2010 , y series desestacional izadas.
Tema 2 35
familia. Veremos en la siguiente sección que este camb io de unidades tendrá consecuencias sobre la
estimación del término constante , pero no sobre el coef iciente del PIB, que su estimación no variará
(0,85) . De manera que interpretar (2.2.22) como el incremento del ingreso personal es legítimo
siempre que hagamos abstracción del término constant e. La validez de esta interpretación depende
decisivamente, sin embargo, de si el promedio per cápita (consumo/población y PIS/población)
seann representativos del consumo y el PIB personal, en este sentido sabemos por la Figura 1.4.2
que las diferencias entre comunidades autónomas son acusadas, por consiguiente la agregación
nacional puede hacer que su media no sea representativa en algunas regiones.
El modelo poblacional de partida es consumo = /30 + {3 1 ingreso + E donde el consumo se
refiere al consumo privado de los hogares y el ingreso a la renta disponible. El modelo estimado
(FRM) no utiliza sin embargo la renta disponible sino el ingreso total , es decir la renta disponible
más los impuestos, de manera que el modelo estimado está utilizando una variable aproximada de
la renta disponible , y por tanto a la hora de interpret ar los resultados debemos considerar que ya no
estamos midiendo la función del consumo keynesiana sino de una versión aproximada. Volveremos
más adelante al uso de variables aproximadas o proxy.
En estos ejemplos hemos visto que es importante tener en cuenta las unidades de medida
de las variables para interpretar correctamente los modelos de regresión estimados. En muchas
ocasiones se nos plantea la cuestión de modificar las unidades de medida de las variables, de
manera que analizaremos cómo afectan estos cambios a los parámetros (coeficientes) estima-
dos. En otras la forma funcional adecuada podría ser no lineal. Estos casos los tratamos a
continuación.
2.2.2. Interpretación de los coeficientes del modelo: cambios de escala y

relaciones no lineales
2.2.2.1. Cambios de escala
Los cambios en las unidades de medida técnicamente se denominan cambios de escala y
se pueden representar de modo general como
(2.2.23)
donde w1 es el cambio de escala de la variable dependiente y w2 el cambio de escala de la

variable independiente. Utilizamos ""' para distinguir los coeficientes con cambios de escala de
los originales o sin cambio de escala . La cuestión que nos plantemos es como varían los valores
estimados respecto del modelo general }i = ~o + ~1 X li + h Se puede compro bar que en estas
condiciones
- W1 ,
/31 = - /31, (2.2.24)
W2
/Jo= W1~0 , (2.2.25)

(2.2.26)
Por consiguiente la pendiente de la variable independiente se ve afectada por los cambios de
escala de ambas variables, expresión (2 .2.24). El término constante y los errores estimados
36 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN
(residuos) sin embargo solo son afectados por el cambio de escala de la variable explicada
[(2.2.25) y (2. 2.26) ]. Veamos un ejemplo.
Ejemplo 5. Los salarios de alta dirección de las empresas españolas

A partir de la media de los salarios anuales (en miles de euros) de alta dirección de las empresas
que cotizaban en el IBEX en 2010, y de los beneficios de las empresas (en millones de euros) de ese
mismo año, nos planteamos si los salarios de alta dirección están relacionados con los beneficios
de la empresa. El modelo poblacional se puede escribir de la siguiente forma
salario= f3o + f31beneficios +e,

donde esperamos que cuando los beneficios crezcan, también los hagan los salarios de alta dirección
(f31> 0) .
La estimación de la FRM es
--
salarioi = 296 , 362 +O, 267993 · beneficiosi,
n = 31,R2 =O, 786,

donde el parámetro es positivo tal y como esperábamos, y el modelo explica el 78,6 % de los
salarios. Un incremento de un millón de euros en los beneficios provoca un incremento de 0,268
miles de euros en los salarios si los demás factores que explican el salario permanecieran constantes.
Podemos expresar los beneficios en m iles de millones, entonces el modelo estimado se convierte
en
--
salarioi = 296, 362 + 267, 99 · (beneficiosi/1000),
n = 31,R2 =O, 786.
La pendiente de la variable beneficios se ha multiplicado por mil, el incremento de mil millones

de euros de beneficios produce un incremento salarial de 267,99 miles de euros. El coeficiente R 2
comprobamos que no varía.
Si queremos expresar la variable dependiente en euros y los beneficios en millones entonces
--
(salarioi · 1000) = 296362 + 267, 99 · (beneficiosi),
n = 31,R2 =O, 786,

el término constante se ha multiplicado por mil (296,362 ·1000 = 296.362) en consonancia con
la expresión (2.2.25); la pendiente se ha dividido por mil respecto de la expresiones anteriores. El
modelo prevé un sueldo medio de alta dirección de 296.362 euros, y además nos indica que en
promedio el sueldo aumenta 267,99 euros por cada millón de euros de beneficios.
Tema 2 37
Figura 2.2.2: Ajuste lineal y logarítmico

a) Modelo lineal b) Modelo logarítmico ln (~)
pobt
= 3 ' 39
( ~) pobt
= 33 ' 48 - 8 ' 98(pr.eciot)
ipct - 0,97·ln ( ~)
ipct
2.4
.. ..... .
2.4
2.2
iO 22
iO
~ o
o
N
2.0
~ UJ 2.0
o
~
::> 1.8
(/)
o
a:
!!!. ::> 18
(.)
o..
'a
·~
1.8
!!!.
(.)
o..
'¡)
o
16 . ,,
c.
1.4
ü
!!!
c.
14
.. .
1.2
12
10 12 14 18 18 20 22 24
10 12 14 16 18 20 22 24
clgarrillos/población (CAJETILLAS POR PERSONA)
cigarrillos/población (CAJETILLAS POR PERSONA)
2.2.2.2. Forma funcional

El modelo de regresión es lo suficientemente flexible como para contemplar relaciones no
lineales. Los modelos de regresión no lineales en las variables los podemos linealizar mediante
cambios de variable, y es habitual realizar transformaciones en las variables en los estudios
aplicados. Algunas de las transformaciones más comunes son: los modelos logarítmicos o de
elasticidad constante (log-log), los semilogarítmicos [logarítmicos lineales (lag-nivel) y lineales
logarítmicos (nivel-lag)] y los recíprocos
Cuando la relación entre las variables es exponencial del tipo
(2.2 .27)
si tomamos logaritmos y operamos, la Ecuación (2.2.27) se puede expresar como
ln Y = ln .Bo + .81 ln X + e = ao + .81 ln X + e, (2 .2.28)
puesto que ln .Bo es una constante podemos hacer el cambio (ln ,80 = a 0 ). Por consiguiente
el modelo (2.2.27) lo hemos transformado en otro, expresión (2.2.28), en el que las variables
están en logaritmos. A este tipo de modelo se le conoce por el nombre de modelo log-log o
modelo de elasticidad constante.
La Figura 2.2.2 reproduce la diferencia entre el ajuste lineal y el ajuste en logaritmos de
la demanda de tabaco.
La Figura 2.2.2.a dibuja la recta que minimiza la suma de los cuadrados de los residuos
para las variables en niveles. La Figura 2.2.2.b se corresponde con el modelo en logaritmos.
Como en el gráfico las variables están en niveles, el ajuste logarítmico aparece como una curva,
pero si representáramos en abscisas y ordenadas la variables en logaritmos entonces la línea
de regresión de la Figura 2.2.2b sería una línea recta.
En el modelo logarítmico el coeficiente /31 (0,97 para el caso de la demanda de tabaco)
estima la elasticidad de Y respecto de X. En este modelo, por tanto, una variación de un
1 % en la variable explicativa (que está en logaritmos) está asociada con una variación en la
variables dependiente (también en logarit mos) de un (31 %.
Resulta útil repasar la relación entre el logaritmo y el porcentaje para entender el porqué
de las interpretaciones que hacemos cuando aparecen logaritmos. Consideremos una variación
«pequeña» de cualquier variable x que denotamos como .6.x. La diferencia entre el logaritmo
de x+.6.x y el logaritmo de x es «aproximadamente» .6.x/x. Por ejemplo, si x = 100 y .6.x = 1,
entonces .6.x/ x = 1/100 = 0,01, mientras que ln (x + .6.x) - ln(x) = ln(lOl) - ln(lOO) que
arroja un valor de 0,00995, que es aproximadamente igual (indistinguible en la práctica) de
0,01. Por tanto, siempre que .6.x / x sea pequeño, la diferencia 13 de los logaritmos captura la
variación porcentual en x dividida entre 100. Es decir, .6.x/x = 0,01 implica que la variación
porcentual en x ha sido del 0,01 x 100 = 1 %.
Consideremos ahora la variación en lnY ante de un cambio en la variable en ln(X), esto
es
ln (Y+ .6.Y)-ln (Y) = [(Jo+ f31ln (X+ .6.X)]-[fJo + f31ln(X)] = f31 (ln (X+ .6.X) - ln(X)),
y aplicamos en ambos la relación comentada anteriormente:
6x
ln(x + .6.x) - ln(x) ~ -,
X
entonces se tiene
6Y ~ (3 6X
1
y X'
o lo que es lo mismo
6Y/Y
1
(3 = 6X/X'
que es el ratio de variación de proporciones, y por tanto si multiplicamos por 100, obtenemos
el ratio de cambio porcentual, que es la elasticidad.
Por ejemplo, en la Figura 2.2.2b, ante un aumento del 1 % en el precio del tabaco la can-
tidad consumida disminuye en un 0,97 %, siempre que todo lo demás se mantenga constante.
Si la variable endógena Y está en logaritmos y la variable explicativa X en niveles entonces
el modelo se denomina logarítmico lineal (log-lin o lag-nivel), su forma general es
(2.2.29)
donde la pendiente f31 multiplicada por 100 es aproximadamente la tasa porcentual de cambio
de la variable dependiente 100·(31.6.X= .6.Y %, y se suele denominar semielasticidad. Lo que se
13
En términos de cálculo matemático esta interpretación se basa en que la diferencial de la función ln(x) ,
d(lnx) = dx / x.
Tema 2 39
interpreta fácilmente ya que si X cambia en una unidad (cambio unitario), este cambio está
asociado a un cambio de 100 x {31 % en Y. Esto es así 14 porque si comparamos los valores de
lnY antes y después de que se haya producido una variación discreta b,.X en X , tenemos
ln (Y+ b,.Y) - ln (Y) = [f3o + f31 (X+ b,.X)] - [f3o + f31X] = f31 (b,.X).
Si aplicamos a la diferencia que está a la izquierda del igual, el resultado, visto anteriormente,
de la diferencia de logaritmos se aproxima a b,.Y/Y, entonces
luego un cambio unitario en X genera un cambio en b,.Y/Y de f31, que implica una variación
porcentual en Y de 100 x f31 %.
Ejemplo 6. El crecimiento de la economía española
Tanto en la economía, como en los negocios el análisis del crecimiento de las variables es
algo habitual. Uno de los procedimientos para estimar la tasa de crecimiento es el uso de tenden-
cias. Ademas , como veremos en otros temas, estos modelos son a veces adecuados para realizar
predicciones temporales.
Con los datos del producto interior bruto PIB a precios del mercado español en millones de euros
de 2000 corregidos de efecto calendario (es decir, desestacionalizados) y periodicidad trimestral
entre el primer trimestre de 1970 y el cuarto de 2010 vamos a analizar algunos de los modelos
usuales de crecimiento que podemos utilizar.
El más sencillo es regresar el PIB directamente con el tiempo, es decir calcular una tendencia
lineal, el modelo de crecimiento en este caso es
(2.2.30)
que es un modelo que plantea este tipo de relación lineal entre la variable dependiente el PI B y la
variable independiente el tiempo t.
La función de regresión muestra! obtenidad a partir de los datos es
----
pibt = 55041, 70 + 840, 7810. t (2.2.31)
n = 164, R 2 =O, 9541.

Cada trimestre que pasa el PI B crece 840.7810 millones de euros. La predicción para el primer
trimestre de 2011es193.771 millones de euros [55.041.7 + {840.781·165) '.: : :'. 193.771] el valor del
PIB del primer trimestre de 2011 fue de 194.292 millones de euros, es decir un error de predicción
del 0,27 %.
Si queremos estimar la tasa de crecimiento enton ces debemos estimar una tendencia exponen-
cial, que tiene la forma logarítmico lineal (log-lin o log-nivel), es decir la el modelo es
14
Diferenciando a ambos lados (2.2.29) tenemos dY/Y = (3 1 dx. Si multiplicamos por 100 en ambos lados,
y sustituimos el diferencial por un pequeño incremento discreto (.ó.x), resulta: (3 1 .ó.X·lOO = (ti.Y / Y)·lOO =
ti.Y%.
40 ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
F igura 2.2.3: Ajuste lineal y logarítmico
Mo~o logarít mico lineal

--
Modelo lineal
pibt= 55041 ,70
220,000
+ 840, 78·t ln pibt = 11,1 + 0,00 1·t
220,000
200,000 200000
o o
8N 180,000 8N 180,000
"
"O "
"O
e::>"' 160,000
e
::>
160 000
"" ""
140,000 140 000
"O "O
g""'e 120,000
g"
"'e 120 000
§. 100,000
§.
CD CD
100000
;;:: ;;::
80,000 80,000
60.000 60 000
o 40 80 120 160 200 40 80 120 160 200
cuya estimación es
--
ln pibt = 11, 11444 + O, 006833 · t
2
(2 .2.32)
n = 164, R = O, 9833.
2
El R ahora es mayor, explica el 98,33 % de la variable dependiente , mientras que (2.2.31) explicaba
el 95.41 %. Pero el primero se refiere al PI B mientras que el segundo al In PIB de manera que
estamos comparando ajustes entre variabl es dependientes diferentes, lo que no tiene sentido, y por
consiguiente el R 2 de (2. 2.32) y (2 .2.31) no se pueden comparar 15 . La Figura 2.2.3 muestra el
ajuste lineal y el logarítmico lineal.
Hemos visto que en los modelos logarít micos lineales la tasa de variación es la pendiente
multiplicada por 100 , en consecuencia la t asa de variación trimestral es aproximadamente 0,6833 %
(100·0 ,006833 = 0,6833) , de manera que nuestra predicción para el primer trimestre de 2011
es el va lor de la producción interior en el cuatro trimestre de 2010 multiplicado por 1,006833
(193.735 ·1,006833 ~ 195.059) lo que impl ica un error del 0,39 %. Mientras que el modelo de
tendencia lineal subestima la predicción , el modelo de tendencia exponencial la sobreestima 16 . El
error de predicción de la tendencia expon encial es mayor.
En el modelo lineal logarítmico (lin-log) la variable dependiente está en niveles mientras

que la independiente aparece en logaritmos, es decir que ahora el modelo poblacional es
Y= /30 + /31 (lnX) +e, (2.2.33)

Para hacer la comparación habría que calcular el anti logaritmo exp(ln pí'bt) = pí'bt de (2.2.32) y calcu lar su
15
2
R , entonces
podemos comparar la bondad del ajuste entre ambos modelos
16
Veremos más adelante que la pred icción más adecuada cuando la variable explicada está en logaritmos no es
la expresada aqu í.
Tema 2 41
donde la pendiente f31 dividida por 100 es aproximadamente el cambio de la variable explicada
.6.Y =(f3i/100).6.X 17 . Esta interpretación es así por lo siguiente. Consideremos la diferencia
en la función de regresión poblacional entre los valores de X que se diferencian en la cantidad
.6.X: es decir
[f3o + f31ln (X+ .6.X)] - [f3o + f31ln (X)] = f31 (ln (X+ .6.X) - ln (X)) ~ f31 (.6.X/ X).
Por tanto si cambia X en un 1 %, es decir si .6.X/ X = 0,01, entonces dicho cambio tiene
asociado en este modelo una variación en Y de O, 01 x {31 .
Ejemplo 7. Esperanza de vida e ingresos

A partir del informe sobre desarrollo humano mund ia l de 2010 elaborado por la ONU , obtenemos
datos del ingreso per cápita de 178 países en miles de dólares en términos de paridad de poder
adquisitivo (PPA) y de esperanza de vida al nacer. Con base a estos datos nos planteamos si los
ingresos per cápita influyen en la esperanza de vida.
El modelo poblacional es
esperanza = f3o + f31 (ln ingresos) +E (2.2.34)
y la función de regresión muestra! (FRM) es
esperanzai = 57, 27 + 6, 197 · (ln ingresosi)
n = 178, R 2 =O, 6487.
El coeficiente de la pendiente se explica de la siguiente manera ,: un incremento de un 1 % en

los ingresos per cápita (PPA) propicia un incremento de 0,06197 años en la esperanza de vida
.6.Y =(f3i/ 100) .6.X %.
La Figura 2.2.4 muestra el ajuste lineal logarítmico del ejemplo.
Se conoce como modelo recíproco a aquel en que la variable independiente aparece en su

forma inversa, es decir
Y= f3o + f31 (1/X) +E. (2.2.35)
A medida que X aumenta la variable independiente disminuye 1/ X, en el límite se va acer-

cando a cero, momento en que la variable explicada Y se hace igual al término constante Y =
f3o, por tanto este tipo de modelos tiene sentido cuando la variable dependiente tiene límite
asintótico f3o.
17
Diferenciando a ambos lados de la ecuación lin-log, se tiene dY = f3 1 dX/ X. Sustituyendo diferenciales por
incrementos pequeños, tenemos /3 1 (!:::..X / X) = !:::.. Y , multiplicando y dividiendo en el lado izquierdo por 100
obtenemos el cambio (/3¡/100)(1:::..X/X)·lOO = !:::..Y.
42 A NÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓ N
Figura 2.2.4: Ajuste lineal logarítmico: esperanzai= 57,27 + 6,197·(1n ingresosi)

90
80
~
Cll
e
iij
Cll 70
-o
·;:;
QJ
-o
~
e
60
e!
QJ
o.
"'
UJ
50
..
40 -+-~~~~~~~~~~~~~
o 1o 20 30 40 50 60 70 80 90
Ingreso per cápita (miles de dólares en PPA)
Ejemplo 8. Mortalidad infantil y años de estudio

Con datos de mortalidad infantil por cada cien mil habitantes y años de estudios en promedio
(informe sobre desarrollo humano mundial de 2010) de 185 países nos planteamos como influyen
los estudios en la mortalidad infantil util izando el modelo poblacional recíproco, es decir
mortalidad= f3o + f31 (1/estudios) + é (2.2.36)
y su modelo estimado (FRM)
mo-:;:¡;;¡;-dad = - 1, 56 + 292, 78 (1/estudios)
n = 185, R 2 = O, 4983.
De manera que a medida que aumentan los años de estudios disminuye la tasa de mortalidad
infantil, si los años de estudio son igual a uno, entonces el modelo predice una tasa de mortalidad
por cien mil de 291, 22(292, 78-1, 56). El promedio mundial de años de escolaridad es 7, 57 años.
Aplicando este valor, la predicción de la tasa de mortalidad es 37, 11[-1: 56 + 292, 78(1/7, 57)]
por cada cien mil nacidos vivos menores de cinco años.
La elección de la forma funcional en los modelos de regresión simple puede ser a priori
relativamente fácil de determinar puesto que podemos realizar el gráfico de las variables y
hacernos una idea de cómo podría ser la forma funcional. El problema se agrava cuando
introducimos más de una variable independiente (regresión múltiple) , entonces la elección
de la forma funcional de las distintas variables puede ser todo lo complicada que queramos.
En ocasiones la teoría económica (o el sentido económico) nos sugieren una forma funcional
Tema 2 43
Tabla 2.3: Formas funcionales habituales

Modelo Variable Variable Interpretación del Elasticidad
Dependiente Independiente Cambio
Nivel-nivel y X ó.Y = f3ó.X f3 (Xjy)
Nivel-lag y lnX ó.Y = (igo)
ó.X% f3 (1/Y)
Lag-nivel lnY X ó.Y % = l00/3ó.X /3X
Log-log lnY lnX ó.Y % = f3ó.X % /3
determinada. También puede resultar útil el cálculo de la tasa de cambio y la elasticidad de

los parámetros. La Tabla 2.3 muestra la interpretación del cambio en las variables y el cálculo
de las elasticidades de los modelos en niveles y en logaritmos
2.3. REGRESIÓN MÚLTIPLE
El modelo de regresión simple facilita la comprensión del método mínimo cuadrático pero
tiene la limitación de admitir solo una variable independiente. En este sentido el modelo de
regresión múltiple extiende el modelo de regresión simple para incluir variables adicionales
como regresares. Como hemos dicho en la Sección 2.1, el modelo permite estimar el efecto
sobre Y de la variación de una variable X 1i manteniendo constante el resto de regresares. Por
tanto, el hecho diferencial es que en vez de considerar una variable explicativa, consideramos k
variables explicativas de la variable dependiente. El modelo de regresión múltiple poblacional
es por tanto
(2.3.1)
Como dijimos en la Sección 2.1 el modelo con múltiples variables explicativas nos permite
contemplar que, a diferencia de lo que plantea el modelo de regresión simple, la variable a
explicar depende, y por tanto varía, en función del valor que tomen varias variables. Algo que,
por otra parte, es perfectamente esperable para las variables económico-empresariales. Vere-
mos en posteriores temas que no incluir variables que afectan sistemáticamente a la variación
de Y conduce a problemas severos en la validez del modelo. También en la referida Sección
explicamos el significado de los coeficientes en términos relativos a que los mismos capturan
el efecto parcial, esto es, el efecto esperado sobre Y ante un cambio en una de las variables
explicativas, cuando el valor de las otras variables explicativas toma un valor determinado y
por tanto a esto efecto fijo. De ahí que digamos que el coeficiente o pendiente /31 captura el
efecto parcial de la variable X 1 controlando por el resto de variables Xj, j = 2, 3, .. ., k , esto
es, descontando el efecto que sobre Y tienen el nivel que alcancen dichas variables.
La Figura 2.3.1 muestra el plano de regresión que interseca con el eje vertical al nivel
determinado por (30 , el término constante. Los otros dos parámetros miden la pendiente en
el plano en las direcciones de las variables explicativas X1 y X2. Los datos observados están
representados por los puntos , y vemos que, al igual que sucedía con la recta de regresión, no
caen todos dentro del plano, unos estarán por encima, otros por debajo y otros sobre el plano.
ndiente en la dirección de X1
La discrepancia entre el valor observado y el previsto por el plano es precisamente el error

estimado.
2.3.1. Estimación MCO

El modelo (2.3. l) no es observable directamente puesto que solo tenemos acceso a una
muestra y no a la población. Siempre podemos definir el modelo estimable a partir de Ei =
}".;i - "f:i, luego
(2.3.2)
Se trata, igual que en el modelo de regresión simple, de localizar los parámetros que
permiten minimizar la suma de los cuadrados de los residuos, es decir
(2.3 .3)
Lo que se consigue derivando respecto a cada parámetro e igualando a cero. Operando se llega
a k + 1 ecuaciones normales
n n
L (Yi - So - S1X1i -S2X2i - .... -fekxki) = L: ti =o, (2.3.4)
i=l i=l
n n
¿x1i (Yi -So -S1X1i -S2X2i - .... -fekxki) = ¿x1iii =o, (2.3.5)
i=l i=l
n n
¿xki (Yi -So -fe1X1i -fe2X2i - .... -Skxki) = ¿xkiii =o, (2.3.6)
i=l i= l
Tema 2 45
que permiten deducir los k + 1 coeficientes o parámetros de la regresión, y establecer algunas

expresiones útiles semejantes a las deducidas en el modelo de regresión simple. La Ecuación
(2.3.4) nos indica que la suma de los residuos es nula, por consiguiente su media también lo
es (l =O). Puesto que Yi = Yi + Éi y la media de los errores es nula, ~e deduce que la media
de la variable dependiente observada y la estimada son iguales (Y = Y).
A partir de la Ecuación (2.3.4) dividiendo por nen ambas partes y realizando operaciones
sencillas se llega a
(2.3.7)
Se observa que cuando la regresión pasa por las medias de las variables independientes los
errores se anulan (la relación es exacta en las medias).
En ocasiones resulta operativo considerar el mismo modelo pero centrado en sus medias.
Para ello, si centramos en torno a su media a la variable dependiente Yi
(2.3.8)
Si realizamos los cambios, Yi = Yi - y y Xki = xki - xi entonces
(2.3.9)
donde se ha cancelado el término constante ~O · La estimación mínimo cuadrática en desvia-

ciones respecto de las medias es
(2.3.10)
A partir de las ecuaciones normales (2.3.4) a (2.3.6) se despejan los parámetros ~j· Este
cálculo se hace más sencillo utilizando expresiones matriciales y así llegamos a la expresión
'
f3MCO = ( 1
XX )-1 Xy.
1
(2.3.11)
donde f:JMco es 18 el vector columna de los parámetros estimados {~o , ~1, ~2, ... , ~k} y cuya
deducción se muestra en el Apartado 2.5 del Apéndice técnico de este tema.
En la Sección 3.4.1 se muestra que se llega a la misma estimación a partir de
(2.3.12)
donde eji son los residuos de la regresión entre Xj con el resto de regresares o variables
explicativas, es decir para el caso de j = 1 e1i son los residuos de la siguiente ecuación mínimo
cuadrática
(2.3.13)
18
En algunas partes del texto utilizaremos la expresión b como el estimador MCO, es decir b = f3Mco. En
este sentido notacional cabe decir que a lo largo de este libro la expresión /3, que no indica tampoco el método
de estimación, indicará que nos referimos a la estimación MCO.
y
- - -
eii = X1i - f3o - f32 X2i - ... - f3kXki, (2.3.14)
donde hemos utilizado el símbolo ,. . ., en los coeficientes para distinguirlos del modelo original.
La expresión (2.3. 12) muestra que !J1 se puede calcular mediante regresión simple entre
la variable dependiente Y i y eji 19 y, lo que es más importante: en la estimación de cada
parámetro se tiene en cuenta no solo la relación entre variable regresara y regresada, como
ocurría en el análisis de regresión simple, sino que en la regresión múltiple se tienen en cuenta
la relación entre todas las regresaras para el cálculo de cada parámetro. De manera que la
introducción de una nueva variable explicativa hará que el resto de parámetros se modifiquen
salvo que la nueva variable no esté correlacionada con el resto, en cuyo caso los parámetros
de 2.3.12 son nulos; o bien que el parámetro de la nueva variable introducida sea nulo.
En general las características que vimos en el análisis de regresión lineal simple se pueden
extender al múltiple:
• ('t, =o) ,
i=l
YiÉi la estimación de la variable regresada «fi» y los residuos «Éi» no están
correlacionados, lo que implica que su covarianza es nula [cov (Y, É) = O].

• Las variables independientes «Xji» y los residuos «Éi» también están incorrelacionados
[cov (X1J) = cov (X2, €) = ... = cov (Xk, t) =O].
• var (Yi) = var ( 'fi + Éi) = var ( }¡) + var (ti) .

Ejemplo 9. Consumo de las familias catalanas dedicadas a la hostelería y el turismo
La encuesta de presupuestos familiares de 2009 suministra datos sobre ingresos y gastos de las
familias así como información general sobre sus condiciones de vida . Con datos de Cataluña y del
sector de la hostelería , nos proponemos ana lizar el consumo de las familias catalanas. Partimos de
un modelo de elasticidad constante keynesiano, es decir, el consumo de las familias depende de
sus ingresos. El modelo poblacional es
ln consumo = f3o + (31 (ln ingresos) + E

y su versión estimada (FRM)
---
ln consumo= 3, 89 +O, 615(1n ingresos)
2
n = 95, R = O, 3292.
En este modelo estimado un incremento del 1 % en los ingresos provoca que el consumo
se incremente un 0,615 %, si todo lo demás se mantiene constante . Lógicamente el consumo
familiar depende de otros factores además de los ingresos familiares . Parece lógico pensar que el
19
Para el caso de j = 1 regresamos Y; = flo + fheii· Utilizando la propiedad de media nula del regresor
ei =o y de la fórmula de la pendiente tenemos que fl1 = ¿: (Y. - Y)e1 / L: ei; = ¿: (rteli)/L: eii que es la
expresión (2.3.11) para el caso de j = l.
Tema 2 47
consumo tiene también relación con el número de miembros de la unidad familiar. Esperamos que a
medida que crece el tamaño de la unidad, también aumente su consumo, de manera que añadimos
una segunda variable cuyo valor es el número de miembros de las familias encuestadas, la nueva
estimación es
-----
ln consumoi = 5, 15 +O, 443 · (ln ingresoi) +O, 1420 · tamañoi,
n = 95, R 2 = O, 4149.
La elasticidad y el término constante han variado debido a la introducción de la nueva variable

explicativa. La nueva estimación nos aporta información sobre cómo influye el incremento, o de-
cremento , del número de miembros en el consumo de las familias , dado un nivel determinado de
ingresos. La interpretación de los coeficientes estimados nos indica que, manteniendo constante el
el nivel de ingresos, es decir controlando el efecto del ingreso en el consumo, entonces el incremen-
to de un miembro en la familia se prevé un incremento medio del 14,20 % del consumo familiar
( 100·0,1420 = 14,20). Por otro lado, el incremento de los ingresos en un 1 %, dado un tamaño
familiar determinado , solo produce un incremento del 0,443 % del consumo, que contrasta con
el 0,615 % de la expresión del modelo un ivariante. Por tanto la introducción de nuevas variables
(tamaño) afecta al resto de coeficientes de las variables del modelo (In ingreso) de acuerdo con
la expresión (2.3.12) .
Para poder calcular los coeficientes mínimo cuadráticos ninguna de las variables indepen-
dientes o explicativas puede ser constante (las variables deben recoger variabilidad para poder
observar la intensidad de la relación entre las variables regresoras y la variable objetivo). No
obstante, no puede haber relaciones lineales exactas entre las variables explicativas (colinea-
lidad o multicolinealidad exacta). Además el número de observaciones tiene que ser mayor
que el de coeficientes a estimar «n>k + 1». Por otra parte, por definición, el coeficiente de
determinación o R 2 se calcula igualmente y tiene la misma interpretación que en el modelo
de regresión lineal simple
R 2 = var(Y) = SCE/n = _ SCR

1 (2.3 .15)
var(Y) SCT/n SCT ·
2.3.2. Coeficiente de determinación R 2 corregido

Una característica del modelo de regresión múltiple es que a medida que aumentamos
el número de regresores X 1 el coeficiente de determinación «R 2 » necesariamente aumenta
alvo que el coeficiente estimado sea exactamente nulo. Para comprobar esto, imaginemos
que comenzamos con un solo regresor y luego le añadimos un segundo. Cuando usamos la
técnica de estimación MCO para estimar el modelo con ambos regresores, MCO localiza los
valores de los coeficientes que minimizan la suma del cuadrado de los residuos. Si sucede
que MCO asigna un coeficiente de cero al regresor nuevo, entonces SCE será exactamente la
misma que obtendríamos si no hubiéramos incluido el segundo regresor. P ero si MCO asigna
cualquier otro valor diferente de cero es porque para ese valor se ha reducido la SCE relativa
a la regresión que excluye dicho regresar (obviamente esto así simplemente por la propia
construcción del MCO). Por este motivo decimos que generalmente el R 2 nunca disminuye al
incorporar nuevos regresares.
Debido a esto, un incremento del R 2 no significa necesariamente que añadir una nueva
variable realmente haya mejorado la calidad del ajuste de nuestro modelo. En realidad incluso
si la nueva variable incluida en el modelo mejora nuestro ajuste, sabemos que necesariamente
el R 2 de la nueva regresión estará artificialmente «inflado» por el mero hecho de incorporar
un nuevo regresar. Por este motivo se utiliza el R2 corregido, que ajusta por el número de
coeficientes estimados y cuya definición es
R 2 = l _ S C R/n-k - 1 0-2
= 1 - 52' (2.3.16)
SCT/n-1 y
donde se divide la suma cuadrática de los residuos por «n» menos el número de parámetros
estimados «k+ l», es decir, por «n - k - 1»; y la suma cuadrática total se divide por «n - l».
«8" 2 » es un estimador insesgado de la verdadera varianza de los residuos, <«r 2 » y «Si» es la
varianza muestral de «Y» 2º.
Hay tres cuestiones que conviene saber del R2 :
l. El R2 es siempre menor que el R 2 , puesto que al ser k > O, se tiene que (n-1) / (n- k-1)
es mayor que 1.
2. Añadir un regresar tiene dos efectos opuestos sobre R2 . Por una parte, SCR disminuye,
lo que incrementa R2 . Por otra, el factor (n - 1) / (n - k - 1) aumenta. El efecto final
sobre R2 dependerá de cuál de ambos efectos sea mayor.
3. El R2 puede ser negativo. Esto sucede cuando los regresares, considerados conjuntamen-
te, reducen SCR por una cantidad tan pequeña que dicha reducción no logra superar el
efecto del factor (n - 1)/(n - k - 1).
2.3.3. Formas funcionales cuadráticas

La regresión múltiple permite establecer relaciones funcionales de una variable que no se
pueden tratar o modelizar mediante la regresión simple. En esta sección y las dos siguientes
vamos a tratar este tipo de consideraciones relativas a la forma funcional 21 .
Supongamos una relación cuadrática del siguiente tipo
Y= /30 - /31X1 + /32Xf +e, (2.3.17)
donde la variable explicativa X1 aparece en niveles y al cuadrado. Esta aproximac10n se
denomina modelo de regresión cuadrático 22 porque la función de regresión poblacional, es
2ºSe puede demostrar que el estimador insesgado de la varianza es «S~ = L:(Y-Y) 2/n-i>> donde «n - 1» son
los grados de libertad de la variable, puesto que para estimar la varianza primero hay que calcular la media, lo
que le quita un grado de libertad. El mismo razonamiento se sigue para la varianza muestra! de los residuos ,
que para calcularlos es necesario previamente estimar k+ 1 coeficientes.
21
Estas secciones se completan con el tratamiento dado en el Tema 7 dedicado a variables explicativas
binarias.
22 Con independencia de los signos de parámet ros poblacionales.
Tema 2 49
decir JE (Yi IXi) = /30 - /31X1,i + /32Xf,i, define una función cuadrática respecto de una sola
variable independiente, en este caso, X l · El modelo por tanto relaciona la variable dependiente
Y con una variable independiente X 1 de un modo no lineal y, pese a que esto podría parecer
a priori de complejo tratamiento, la regresión múltiple nos permite tratarla adecuadamente
al considerar como variables distintas a X[, y a X 1 .
La interpretación del efecto en la variable Y de un cambio en la variable X 1 será diferente.
Para ver la relación entre ambas variables observemos que aproximadamente
(2.3.18)
Lo primero que advertimos es que la variación esperada en la variable dependiente Y ahora

depende del nivel inicial en el que se encuentre la variable explicativa X l · Lo segundo es que
existirá un nivel determinado para el cual la variación esperada en la variable dependiente
ante un cambio en la variable explicativa sea nula. Si igualamos a cero la Ecuación (2.3.18)
obtenemos
(2.3.19)
Luego , en este caso, a partir del nivel umbral encontrado, el efecto sobre la variación en la
variable Y será distinto si la variable independiente está por encima o por debajo del mismo.
Al ser la segunda derivada positiva, el efecto de X 1 sobre Y será decreciente hasta llegar al
valor /31/2/32 y creciente a partir de ese momento . Si invertimos los signos, Y = /30 + /31 X 1 -
f3oX 12 + e estaremos ante un máximo, de manera que la relación será creciente hasta /31/2/32
y decreciente a partir de ese momento. Veamos un ejemplo.
Ejemplo 10. Salarios en el sector turístico español

Con datos de encuesta salarial de 2006, estimamos el modelo en que el salario hora en el
sector turístico español depende, con una relac del nivel de estudios acabados , y también de la
antigüedad en la empresa, de la misma forma . El modelo planteado es
salario = /30 + /31 estudios + f32estu dios 2 + /]3antigüedad + f34antigüedad 2 + e,

y su estimación (FRM)
s-¡;¡;;;::¡-oi = 8, 04 - O, 385 · estudiosi + O, 189 · estudios;

+ O, 299 · antigüedadi - O, 0017 · antigüedad;,
2 -2
n = 5286, R = O, 2165 , R = O, 2159.
Los estudios tienen una relación en forma de U con mínimo en 1,01 (0,385/(2 x 0,189)) de
manera que el efecto sobre el salario es distinto para los trabajadores sin estudios (ver Tabla 2.2)
que lo es para el resto de trabajadores con estudios terminados. La relación de los salarios con la
antigüedad tiene forma de U invertida con máximo en los 87,94 años trabajados, de manera que
en todo el tramo relevante la relación es creciente pero con incrementos decrecientes.
50 ANÁLISIS DE REGRESIÓN LINEAL. ESTIM ACIÓN
Manteniendo constante la antigüedad, para el trabajador sin estudios (valor de la variable

estudios igual a 1), el modelo predice una disminución del salario hora de aproximadamente 0,2
euros, -0,385· 1+ 0,189· 12 = -0, 196; para trabajadores con estudios primarios, el modelo predice
una disminución promedio del salario prácticamente nula -0 ,385·2 + 0,189·2 2 = -0 ,014. Debemos
observar que el paso del valor 1, sin estudios, a 2, estudios primarios, implica un incremento del
salario hora de O,182 euros. El incremento del salario hora que predice el modelo cuando pasamos
del valor 7, diplomado, al 8 , licenciado, es, aplicando la expresión (2 .3.18), de aproximadamente
2,4 euros [-0,385 + 2·(0,189·7) = 2,261.
La predicción del salario hora cuando la antigüedad aumenta es positiva pero con incrementos
decrecientes. Cuando el trabajador pasa de uno a dos años de antigüedad , el incremento del salario
hora es aproximadamente de 0,296 euros [0 ,299 - 2·(0,0017·1) = 0,2956], y cuando pasa de una
antigüedad de 29 a 30 años, la predicción es aproximadamente de un incremento medio de 0,2
euros [0 ,299 - 2·(0,0017·29) = 0,2004].
Ejemplo 11. Consumo de las familias dedicadas a la hostelería

A partir del Ejemplo 9, nos preguntamos cómo influye el nivel de estudios terminados de la
persona principal de la unidad familiar en el consumo de la familia, para ello introducimos en el
modelo el nivel de estudios en forma cuadrática, el modelo estimado es
--
ln (consumo) = 4, 689 +O, 410 ln (ingresos) +O, 154 ·tamaño
+O, 337 · estudios - O, 029 · estudios 2 ,
n = 95, R2 = O, 4619, R-2 = O, 4379 .

donde los estudios se miden de igual forma que en la Tabla 2.2.
La influencia de los estudios terminados de la persona principal de la familia sobre el consumo
familiar tiene forma de U invertida con máximo aproximado en 6 [0 ,337 /(2 x 0,029) = 5,81] por
tanto el consumo familiar es creciente (pero con incrementos decrecientes) hasta el nivel de estudios
6, formación profesional grado superior, y decreciente para los niveles 7 y 8, diplomado y licenciado.
La predicción del modelo , dado un nivel de ingresos, es que el consumo familiar aumenta
cuando pasamos del nivel de estudios primarios, valor 2, al de estudios de secundaria 1, valor 3, en
aproximadamente un 22,1 % {100 ·[0 ,337 - 2·(0,029·2)] =
22 ,1 %}. Si pasamos de tener un nivel de
estudios de diplomado, valor 7, a licenciado , valor 8, el consumo familiar decrece aproximadamente
un 6,9 % {100·[0,337 -2 ·(0 ,029·7)] = -6 ,9 %}.
2.3.4. Términos de interacción

En ocasiones es adecuado para dotar de mayor realismo o afinación al modelo previsto
hacer que una variable explicativa dependa de la magnitud o nivel que alcanza otra varia-
ble independiente. Es como si ambas variables explicativas tuvieran un efecto parcial no solo
aisladamente, sino también conjuntamente. Este tipo de interacción se puede considerar in-
troduciendo en el modelo un término nuevo que actúe como término de interacción. El
Tema 2 51
caso para dos variables con término de interacción es
(2.3.20)
donde la variable producto X 1 X 2 es el término de interacción. El efecto parcial de X 1 es

ahora
(2.3 .21 )
En ocasiones se reparametriza el modelo para interpretar de forma más clara el término de

interacción. Veamos un ejemplo .
Ejemplo 12. Usuarios de internet

A partir del informe sobre desarrollo humano mundial de 2010, obtenemos datos del ingreso
per cápita de 169 países en miles de dólares en térmi nos de paridad de poder adquisitivo (PPA); el
número de años de escolaridad promedio de la población ; y la proporción de usuarios de internet
en cada país 23 . Dados estos datos nos plantemos si los ingresos per cápita y los años de estudio
influyen en la proporción de la población usuaria de internet. Consideramos además que el efecto
sobre los usuarios de internet de una variación porcentual en los ingresos depende de los años
de educación. Para ello añadimos a la regresión habitual un término de interacción entre ambas
variables
--
internet = 52,608 - 6, 26 ln (ingr esos) - 19, 08 · estudios
+ 2, 511 [In (ingresos)· estudios] (2.3.22)
n = 169 R
'
2
=o ' 8024 ' JF =o ' 7988 .
En principio sorprende que los coeficientes estima dos sean negativos tanto pa ra los ingresos, como
para los estudios; pero recordemos que ahora el efecto parcial de cualquiera de las varia bles regre-
soras no se explica mirando únicamente el valor del parámetro correspondiente. Veamos entonces
cómo debemos interpretar el modelo.
El efecto parcial de los ingresos respecto de la proporción de usuarios de internet, ceteris paribus
el factor estudios , es por (2.3 .21 ) y, utilizando adecuadamente la información de la Tabla 2.3, el
siguiente
-- (-6 , 26 + 2, 51 ·estudios)
6.internet = 6. [In (ingresos) ] . (2.3 .23)
100
El efecto parcial depende de los años de estudios. Si consideramos, por ejemplo, el nivel de es-
tudios medio , que en la muestra es de 7 ,59, y sustituimos el valor de la media en la expresión
(2.3.23), podemos establecer el efecto parcial sobre internet de los ingresos: su valor es 0,13
[(-6,26+2,51·7,59)/100 = 0,1279] . Así pues, un incremento de un 1 % en los ingresos produce
un incremento de la proporción de usuarios de internet del 0,13/100 puntos porcentuales, para
personas con 7,59 años de estudio.
El efecto parcial de los años de estudio es
--
6.internet = [-19, 08 + 2, 51 · ln (ingresos)] D..estudios. (2.3.24)
23
Este ejemplo es meramente ilustrativo del uso de los términos de interacción . Cuando la variable dependiente
está medida en proporciones hay modelos más adecuados. Estos modelos y sus técnicas se presentan más adelante.
52 A NÁLISIS DE REGRESIÓN LINEA L. ESTIMACIÓN
El ingreso medio per cápita en términos de PPA en logaritmos de la muestra es 8,8 y por consi-
guiente el valor de (2 .3.24) es aproximadamente 3 [(-19 ,08+2 ,51·8 ,8) = 3,008]. de manera que el
aumento de un año de estudios produce un incremento de 3 puntos en la proporción de usuarios
de internet para niveles de ingresos igual a su media (8 ,8). Por supuesto se puede utilizar cualquier
otro valor que interese analizar además de su s valores medios.
Alternativamente, si estamos interesados , podemos reparametrizar el modelo sustituyendo en
el término de interacción las variables en niveles por sus desviaciones a las medias. En ese caso
estimamos el sigu iente modelo
-
internet = -11 5, 11 + 12, 80 · ln (ingresos) + 3, 02 · estudios
+ 2, 51 {[ln (ingresos) - 8, 8] [estudios - 7, 59]} (2.3. 25)
n = 169 R 2 =O 8024 R2 = O 7988
' ' ' ' '
donde podemos apreciar que los coeficientes estimados son iguales a los efectos parciales calculados
a partir de las expresiones (2.3.23) y (2.3.24) en sus respectivas medias24 .
2.3.5. Regresiones con variables estandarizadas

Cuando alguna de las variables tiene una escala de valores de difícil interpretación puede
ser interesante medirla en términos t ipificados o estandarizados. Tipificar no es más que restar
la media a todos los valores de la variable y dividirla por su desviación t ípica o error estándar
X·J - X J·
Z J. -- (2. 3. 26)
Sxj
Cuando t ipificamos obtenemos variables con media nula y varianza unitaria. La unidad
de medida en este caso es la desviación típica (o error estándar). Si la variable se distribuye
normalmente entonces un incremento de una desviación t ípica equivale a un incremento apro-
ximado del 34 % sobre su valor medio y un incremento de 0,25 desviaciones a un incremento
del 10 %.
En otras ocasiones puede resultar adecuado expresar todo el modelo estandarizado. En
este caso el modelo se denomina habit ualmente modelo de coeficientes beta. Si en el modelo de
regresión múltiple restamos a todas las variables su media y las dividimos por sus respectivos
errores estándar obtenemos el siguiente modelo
Yiif- = ( *) ~1 ( x~;;1 ) + ( ~) ~2 ( x~;2X2 )

(2.3.27)
+ ... + ( s~k ) ~k ( x~;:k ) + ~ ·
donde desaparece el término constante, pues estamos utilizando una regresión en desviaciones
a las medias y los coeficientes de la regresión del modelo en niveles aparecen mult iplicados
por el cociente de las desviaciones típicas en aplicación de las expresiones (2.2.24), (2. 2.25), y
(2.2.26) podemos expresar (2 .3.27) en términos de variables tipificadas Z
(2 .3.28)
24
Las discrepancias se deben al efecto redond eo.
Tema 2 53
donde utilizamos ""' para distinguir los coeficientes beta respecto de los mínimo cuadráticos
«'».
Una de las ventajas de los coeficientes beta es que no dependen de las unidades de
medida utilizadas y permiten determinar la influencia de las variables explicativas sobre la
explicada a partir de la magnitud del coeficiente, lo que normalmente no ocurre en los otros
casos en que los coeficientes pueden modificarse cambiando las unidades de medida de las
variables.
En el Ejemplo 9, del consumo de las familias cuyo cabeza de familia se dedica al turismo
en Cataluña obtuvimos la siguiente expresión
---
lnconsumoi = 5,15 + 0,443· (1n ingresoi) + O,l420·tamañoi·
Los coeficientes beta son
ln ~moi = O, 4138 · (lningresoi) +O, 3335tamañoi·
2.4. MODELIZACIÓN
De cara a la práctica de la modelización hemos ofrecido varias alternativas o aspectos que

vamos a sintetizar en esta sección.
En ocasiones podemos observar que los datos que tenemos para llevar a término un estudio
o responder una pregunta de interés están en una escala que no nos resulta conveniente. Hemos
comprobado que en esta situación habitual podemos modificar la escala sin cambiar ninguna
de las relaciones económicas que subyacen entre las variables. Hemos de usar unas unidades
de medida que nos sean útilies en la práctica y que nos permitan dar sentido y facilitar la
comprensión de los coeficientes estimados.
El punto de partida de prácticamente todo análisis econométrico es la teoría económica.
¿Qué dice la teoría económica sobre una relación determinada de interés?¿Qué dice el sentido
económico? En pocas ocasiones nos vamos a encontrar que la respuesta explícitamente diga
que la relación es lineal. A veces nos encontraremos que el análisis económico puede llegar a
sugerir una relación no lineal. Si bien en muchos casos la teoría no entrará directamente en
esta cuestión explícitamente.
Como quiera que sea, el «econometrista» o economista debe elegir una forma algebraica
para establecer la relación económica. Esto, como hemos visto , requiere elegir la <<transfor-
mación» adecuada de las variables originales. Cómo hacerlo es algo que se adquiere sin duda
desde la práctica, e inicialmente no es fácil. Para facilitar este proceso hemos considerado en
este tema algunas transformaciones simples como potencias y logaritmos naturales. Usando
estas transformaciones se abre un sorprendente abanico de posibilidades y de formas .
En la Figura 2.4.1 hemos representado varias alternativas que nos ofrece el conjugar las
potencias y las relaciones con logaritmos que anticipamos en epígrafes anteriores. Como vi-
mos entonces, cuando transformamos las variables entonces la interpretación de los resultados
cambia, pues las variables ahora están relacionadas de forma no lineal. En la Tabla 2.3 incor-
poramos las interpretaciones de los modelos con algunas datos en logaritmos; y en el epígrafe
2.3.3 introdujimos el caso cuando algún regresor está en forma de potencia. Así pues, tenemos
modelos alternativos que contienen diferentes transformaciones tanto de la variable depen-
diente, como de las independientes. Más aún, algunas de la formas tienen ciertas semejanzas.
En términos generales, la guía más natural para elegir la forma funcional , si bien no es la
única y podría matizarse en función del problema a tratar, consistiría en:
• (i) optar por una forma que sea consistente con lo que indica la teoría económica sobre
la relación,
• (ii) elegir una forma que sea suficientemente flexible para «ajustar» los datos, y
• (iii) elegir una forma funcional que (mejor) asegure que los supuestos que veremos en
el Tema 4 son satisfechos, de modo que los estimadores - en este caso MCO- tengan
igualmente las propiedades deseadas para un estimador. Estas propiedades también las
veremos a partir de dicho tema. Comprobaremos entonces que el análisis de los residuos
del (de los) modelo( s) estudiado(s) será reveledor al respecto de la calidad del modelo
seleccionado finalmente.
Resulta enormemente útil no olvidar que nunca sabemos el «verdadero» modelo, es decir, la
«verdadera» relación funcional entre la variables socio-económicas. Nuestro modelo selecciona-
do, tras haber realizado suficientes pruebas y comprobaciones, siempre será una aproximación
(y esperemos que útil).
Recuerde el lector a estos efectos lo comentando en el tema precedente a este respecto:
Cuando decimos que el modelo es una aproximación nos referimos al hecho innegable de la
excesiva complejidad del comportamiento económico debido entre otros a la dificultad de medir
con precisión (incluso de definir con precisión aspectos determinantes del comportamiento
económico) y debido a que el economista tiene poco o ningún control sobre el fenómeno bajo
estudio.
En estas circunstancias resulta demasiado optimista considerar que los modelos econo-
métricos (modelos de probabilidad) propuestos son suficientemente adecuados para capturar
esta complejidad inherente. Por este motivo, resulta más ajustado considerar que un mode-
lo econométrico (o la modelización econométrica) es una cruda aproximación a la relación
(verdadera) que existe entre los datos observados.
Tema 2 55
Figura 2.4.1: Formas funcionales

Ecuación cübica
Ecuación cuadrática
Y= Po+ P,X'
Y=Po+P1 X3
y y
\('
p, >o
-----\
'-........___-:;,-=-- -
X X
Modelos log-log
Modelos log-log
lnY =Po+ p,lnX

\ lnY =Po+ p,inX
'
y
\\~' < -1
"~ -'\,',,,'',,,
y
/----- ------~-~·;.:-!-
Modelos lineal-lag
Modelos lag-lineal
Y =Po +p,111x lnY=Po+P,X
p, >0
y y p, >o
"-.................____ _
---------
-·-----. --
p,<O
---
---------------------
X
X
2.5. APÉNDICE TÉCNICO
Estimación de los parámetros MCO de la regresión simple

El modelo de regresión simple es
que siempre podemos reescribir del siguiente modo
Yi = f3o + f31X1i +ti= "fi +ti, (2.5.1)

para unos estimadores cualesquiera /30, /31, ya sean los MCO o no. En función de cuáles elijamos
obtendremos unos residuos diferentes. La técnica MCO trata de calcular los parámetros que
minimizan la suma del cuadrado de los residuos, es decir
mín f t ; = t (Yi - "tir = t (Yi - f3o -

i=l i=l i=l
f31xli)2· (2.5.2)
Lo que conseguimos si derivamos con respecto a los coeficientes e igualamos a cero , que es la
condición de primer orden necesaria para que tenga mínimo,
(2.5.3)
8 e~ t[) n A A
- A = -2 ¿x1i(Yi -f3o - f31X1i) =o. (2.5.4)

8(31 i=l
El término constante -2 que aparece en el término de la izquierda de ambas ecuaciones es
irrelevante para el problema, lo que indica que los parámetros que buscamos deben satisfacer
las ecuaciones normales:
n n
LEi = L (Yi -f3o - /31X1i) =O, (2.5.5)
i=l i=l
n n
¿x1iti = ¿x1i (Yi -f3o -/31X1i) =o. (2.5.6)
i=l i=l
La expresión (2.5.5) indica que la media de los residuos es cero l = O, y teniendo en cuenta
c2.5.l), d~ducimos la media de la variable dependiente observada es igual a la estimada y=
Y +l =Y.
Operando en (2.5.5) tenemos que
n n n
L (Yi -f3o -/31X1i) = LYi - nrJo -/31 L.:x1i =O, (2.5.7)
i=l i=l i=l
y dividiendo entre n
(2.5.8)
Expresión que indica que la regresión pasa por las medias de las variables. Así la estimación
MCO del intercepto será
(2.5.9)
Tema 2 57
Por otro lado, a partir de (2.5.6) y dividiendo por n tenemos que

n n n n
1""' 1""' A
- ¿ X1iYi = /30 - ¿ X1i

n n
+ /31 -n1""'
A 2
¿ X1i = /30X1
A -
+ /31 -n1""'
A 2
¿ X1i· (2.5.10)
i==l i==l i==l i==l
Sustituyendo (2.5.9) en (2.5.10)
(2.5.11)
y despejando /31 obtenemos dos expresiones útiles mencionadas anterioremente:

1
n - -
n 2: XiiYi - YX1
cov(Y,X1)
/31 = _ i_==_l_ _ _ __ (2.5.12)
ln ~ x2.1i - (.X 1)2 Vai- (X1) .
6
i==l
n n
n1 2: XiiYi - - -
YX1 ¿ (X1i - X) - (Yi - Y)
/31 = _ i_==_l_ _ _ __ i==l
~ x2.li - (.X 1)2

n 2
ln 6 2: (X1i - X)
i==l i==l
Incorrelación de la variable estimada y los residuos

El modelo en desviaciones a las medias se consigue restando (2.5.8) de (2.5.1)
(2.5.13)
los residuos son

(2.5.14)
y la estimación es
(2.5.15)
que multiplicado por los residuos a ambos lados de la ecuación y sumando hasta n tenemos
(2.5.16)
que dividido por n es la covarianza, por consiguiente cov(Y, t) = O.

Incorrelación de la variable independiente y los residuos

Por definición de covarianza tenemos que
n
cov (X1, t) = ~ 2:::
(X1i - X) h
n
i=l n n n
= ln~ I - ln~
ú X 1ii ú X t i· = ln~ I -
ú X 1ii Xn
l ~
ú t i· (2.5.17)
i=l
n
i=l i=l i=l
= ~ 2::: X1iti =O.
i=l
Estimación de los parámetros MCO de la regresión múltiple

Deseamos estimar el modelo con varias variables explicativas
(2.5.18)
de manera equivalente a la que hemos utilizado en el modelo con una sola variable. Por tanto,
MCO localizará los parámetros Sí
que minimicen la suma de sus residuos cuadráticos definidos
por el modelo estimado Éi
Y1 = So + S1X11 + S2X21 + ... + Skxk1 + t1
Y2 =So+ S1X12 + S2X22 + ... + Skxk2 + €2
l[ l
que se puede expresar en notación matricial de la siguiente forma
~o ~1..
es decir
[: l [¡ Xk2
Xk1
..
.
Xkn
/31
Sk
..
.
+
[ c2
.
in
(2.5.19)
Y= x,8 + €, (2.5.20)
donde y es el vector columna n x 1 de las observaciones de la variable dependiente observada.
X la matriz (n x (k + 1)) de observaciones de las k variables independientes, la primera
columna son unos para obtener el término constante. f3 el vector columna ((k + 1) x 1) de
los parámetros estimados. € el vector columna de los residuos estimados que es de la misma
dimensión que el vector y .
Los residuos son
€ = y-X{3 (2.5.21)
Tema 2 59
y su suma al cuadrado
i~ t; =€'€=(Y - xf3)' (Y - xf3) = (y' - {3 x') (Y - xf3)

1
(2.5.22)
= y'y - y'Xf3 - {3 1 X'y + {3 1X1X{3 = y'y - 2y'Xf3 + {3 1X1X{3,
que si minimizamos derivando respecto a los parámetros e igualando a cero obtenemos
8
€~€ = - 2y'X + 2X'X{3 = O (2 .5.23)
8(3
operando tenemos
b= A
f3M C O = (
X X )-1 X /y
/
(2.5.24)
o lo que es lo mismo
n n n -1 n
n L Xli L X2i I::: xki I:::Yi
i=l i=l i =l i=l
n n n n n
L X1i LXfi L X 1iX2i L X1iXki L YiX1 i
b= i= l i=l i=l i=l i= l
n n n n n
¿xki I::: xkix1i I::: x kix2i ¿x~i L YiXki
i=l i=l i=l i=l i= l
(2.5.25)
También podemos obtener los parámetros mínimo cuadráticos a partir de
(2.5 .26)
y derivando respecto a cada parámetro e igualando a cero, obtenemos las (k + 1) ecuaciones

normales siguientes
n
L (Yi - /Jo - /31 X1i - /32X2i - .... - /Jkxki) =o (2.5.27)
i= l
n
¿x1i (Yi - /Jo - 81 X1 i - /32 X2i - .... - /Jkxki) =o (2.5.28)
i= l
n
L X2i ( Yi - /3o - f31 X1 i - /32 X2i - .... - /Jk xki) =o (2 .5.29)
i=l
n
¿xki (Yi - f3o - /31 X1 i -/32X2i - .... - /Jkxki) =o. (2.5.30)
i=l
Operando y simplificando las ecuaciones normales mínimo cuadráticas se pueden expresar

de la siguiente forma
n n n n
(2.5.31)
i=l i=l i=l i=l
n n n n n
L X1iYi =bo L X1i + b1 L x ?i + b2 L xlix2i + .... + bk L X1iXki (2.5.32)
i=l i=l i= l i=l i=l
n n n n n
L X2iYi =bo L X2i + b1 L X 2iX1i + b2 L Xii + .... + bk L X2iXki (2.5.33)
i=l i=l i=l i=l i=l
(2.5.34)
que expresado mediante matrices resulta:

1 1 1 Y1 1 1
Xu X12 X1n Y2 Xu X12
X21 X22 X2n Y3 X 21 X22
Xk1 Xk1 Xkn Yn X k1 Xk1

Lo podemos escribir más compactamente
X'y = X'X/3,
que premultiplicando por (X'X)- 1
para lo cual debe existir la inversa de la matriz , X'X, lo que está garantizado siempre que
la matriz X sea de rango completo. Las ecuaciones normales [(2.5.28) a (2.5.30)] demuestran
que la estimación MCO genera que las variables independientes estén incorreladas con los
residuos [cov (Xi, i) = cov (X2, €) = ... = cov (Xk. €) =O].
A partir de la Ecuación (2.5.28) también podemos deducir la expresión (2.3.12). Realiza-
mos la regresión de X li respecto del resto de variables independientes
(2.5.35)
de manera que por (2.5.28) se tiene

n
L( X1i + e1i) (Yi - bo - b1Xli - b2 X2i - .... - bkxki) =o, (2.5.36)
i=l
Tema 2 61
donde Xli es una combinación lineal del resto de las variables independientes y por consi-
n •
guiente ¿ X1iEi =O. De este modo la expresión (2.5.36) puede expresarse así
i=l
n
L e1i ( Yi - /Jo - /31X1i - /32 X2i - .... - /Jk xki) =o, (2.5.37)
i=l
n
como e1i son los residuos MCO de la regresión (2. 5.35) y por tanto ¿ Xj ieli = O para todo
i=l
j = 2, 3, .. ., k, lo que nos facilita expresar (2.5.37) así:
n
2: e1i ( Yi - /31X1i ) = o. (2.5.38)
i=l
n • •
Si nuevamente utilizamos que ¿ X1ie1i =O, se tiene que /31 resuelve la siguiente expresión
i=l
n
I::e1 i (Yi - /31e1i ) =o (2.5.39)
i=l
y por consiguiente
n n
2: hiYi - /31 ¿ eii = o; (2.5.40)
i=l i=l
operando llegamos a la expresión (2.3.12)
(2.5.41)
Incorrelación de la variable estimada y los residuos (regresión múltiple)

El modelo estimado en desviaciones a las medias es
Yi = /31x1i + /32x2i + ... + /3kxki + Ei = Yi + Ei (2.5.42)

y la estimación de la variable dependiente
Yi = /31x1i + /32x2i + ... + /JkXki· (2.5.43)

Multiplicando por los residuos y sumando hasta n tenemos
n n ( . • • )
i?; EiYi = i?; /31X1i + /32X2i + ... + /3kXki Ei
• n • n • n (2.5.44)
= /31 ¿ X1iEi + /32 ¿ X2iEi + ... + f3k ¿
XkiEi = o,
i=l i=l i=l
y puesto que sabemos que las variables independientes están incorreladas con los residuos
tenemos que [cov(Y, i) = O].
Cálculo del coeficiente de determinación en notación matricial

El coeficiente de determinación es
R2 = se E = ser - se R
(2 .5.45)
SCT SeT .
La suma cuadrática total es
SeT = f= (Yi - Y) = f= (Y¡2 + Y

2 2
- 2YYi)
n i=l ~=1 n ( n )
= i~ J'i2 + nY 2 - 2Y i~ Yi = i~ Ji2 + nY 2 - 2Yn n- 1 i~ Yi (2.5.46)
n n
= ¿ Ji2 + nY 2 - 2nY 2 = ¿ Ji2 - nY 2 = y'y - nY 2 .
~1 ~1
A partir de la suma cuadrática de los residuos y, teniendo en cuenta la forma matricial de las
ecuaciones normales, tenemos que
n
SeR =¿ t¡ =€'€ = y'y - 2y'X,6 + ,61X 1X,6
i=l
= y'y - 2y'X,6 + ,6 1X'y (2.5.47)
= y'y - 2,61X'y + ,61X'y puesto que y'X,6 = ,61X'y
= y'y - ,6'X'y.
Sustituyendo (2.5.47) y (2.5.46) en (2 .5.45), obtenemos la expresión matricial del coeficiente

de determinación
R2 _ SCT-SCR _ (y' y-nY 2 )-(y'y-¡3'X'y)
- SCT - y y-nY2 1
2 (2.5.48)
_ @'X'y-nY
- y'y-nY 2 •
EJERCICIOS
Teóricos
l. Trabajando con datos expresados en desviaciones con respecto a la media, se han obte-
nido las siguientes estimaciones entre el consumo (c) y la renta disponible (y), y= 1,2c,
e= 0,6y. Obtenga si es posible el valor del coeficiente de determinación de estas regre-
siones.
2. Supongamos que se desea estimar el modelo Yi = a + f3Xi + Ei y dispone de distintas

muestras. ¿Elegiría una muestra en la que X i hubiese permanecido relativamente estable
o una en la que hubiese variado mucho? Justifique su respuesta.
3. Considere los modelos y = 0'.1 + f31Xi + Ei y xi = a2 + f32Yi + Ui

a) Explique en qué condiciones se cumpliría que f31 = f32 1
Tema 2 63
b) Si conociese el valor del coeficiente de determinación de la primera regresión, ¿cómo

podría obtener el de la segunda?
4. Considere el modelo de regresión Yi = a+.B1X1í+.B2X2í+Eí· A partir de una muestra de

N observaciones, se calculan los coeficientes de correlación entre las variables del modelo,
obteniéndose que la correlación entre Y y X 1 es nula. En vista de este resultado se decide
estimar el modelo omitiendo esa variable, es decir Yi = a+ .B2X2i +e:i . Razone si en estas
condiciones, el estimador correspondiente a la variable X2 coincidirá en ambos casos.
5. Si designamos por Eí los errores del modelo de regresión y por e:i su estimación, diga si
son nulas y por qué las expresiones, JE( e:), JE(€), €, l.
6. Los paquetes informáticos suelen proporcionar el logaritmo de verosimilitud de la re-

gresión suponiendo que los residuos son normales. Consiste simplemente en evaluar la
función de verosimilitud para los valores estimados de los coeficientes. Razone cómo
variará dicho estadístico en función del grado de ajuste.
7. Compruebe que las denominadas ecuaciones normales se obtienen igualando a cero las
primeras derivadas parciales de .L €[ respecto a cada uno de los betas. Pero igualar a
cero las primeras derivadas no garantiza que hayamos minimizado la función objetivo.
Compruebe que se cumple también la segunda condición.
Prácticos
8. La tabla ET2 1 contiene, entre otras, la serie del Producto Interior Bruto en EE.UU.
entre los años 194 7 y 2011 medida en términos corrientes (billones de dólares) así como
el defiactor del PIB.
a) Obtenga la serie expresada en términos reales y represente ambas gráficamente.

b) Estime un modelo en el que se haga depender el PIB real del tiempo. Estime la
misma ecuación para la serie expresada en términos nominales. ¿Qué representa en
estos modelos el valor de la pendiente estimada?
e) Estime los mismos modelos pero con las series expresadas en logaritmos. Calcule los
valores de R 2y R2 para cada uno de los modelos estimados hasta ahora. ¿Utilizaría
estos estadísticos para decidir sobre la forma funcional? Justifique su respuesta
d) Suponga que desea expresar los resultados de las regresiones anteriores no en bi-
llones de dólares, sino en miles de billones de dólares. ¿Cómo debería transformar
los datos? ¿Cuál sería, sin necesidad de calcularla de nuevo, el resultado de las
regresiones anteriores? (recuerde que en EE.UU un billón son mil millones).
9. Con la información de la tabla ET2 _ 2, que contiene datos trimestrales correspondientes

al periodo 1995-2011 de las series renta personal disponible y consumo personal, ambos
medidos en términos reales,
a) Estime la propens10n marginal al consumo y la propens10n marginal al ahorro

derivadas de una función de consumo keynesiana simple.
b) Estime la misma función con los datos en logaritmos. ¿Cuál es la diferencia entre
las pendientes de ambas regresiones?
e) Represente gráficamente la propensión media al consumo y valore si es estable o
creciente en el periodo. ¿Es acorde con la hipótesis keynesiana?
d) Emplee el consumo y la renta retardados para estimar las ecuaciones Ct = a +
,81 Yt + ,82 Ct-1 + Et y Ct = a + ,81 Yt + ,82 Yt-1 + Vt donde Ct es el consumo e yt la
renta disponible. Compare estas regresiones con la del primer apartado y elija la
que considere más adecuada.
e) Para cada una de las regresiones del apartado anterior, indique cuánto crecerá el
consumo si las variables explicativas aumentan en una desviación estándar.
10. La tabla ET2 _ 3 contiene una muestra de 200 individuos extraída de los datos empleados
por Koop y Tobías (2004) para estudiar los determinantes del salario. En dicha tabla se
describen las variables consideradas.
a) Obtenga la regresión para explicar el salario en función de los años de educación

y la experiencia. ¿Son los resultados obtenidos acordes con lo esperado? Calcule la
Suma Cuadrática de los Residuos y el coeficiente de determinación.
b) Incluya los años de educación de la madre como variable explicativa adicional y
compare esta regresión con la anterior, valorando la reducción de la SCR.
e) Obtenga el coeficiente de determinación corregido correspondiente a las regresiones
calculadas en los dos apartados anteriores y decida en función del mismo, si la
experiencia de la madre es una variable a tener en cuenta.
d) Repita los cálculos anteriores pero considerando como variable explicada el loga-
ritmo del salario. ¿Cómo deben interpretarse ahora los resultados?
e) Especifique una ecuación para el salario que contemple como explicativas todas
las variables de la tabla. Explique cuál es el signo esperado de cada uno de los
coeficientes y por qué.
!) Estime dicha ecuación y valórela tanto en términos estadísticos como económicos.
Decida cuál de las ecuaciones consideradas es la más apropiada para analizar el
salario.
11. En la tabla ET2 4 se recogen los datos empleados en el Ejemplo 3 (salarios y nivel de
estudios en el sector turístico).
a) Trate de reproducir los resultados obtenidos en dicho ejemplo. Obtenga el valor del
coeficiente de determinación corregido.
b) Según la ecuación estimada, ascender un grado en la escala de estudios siempre
tiene el mismo rendimiento en términos de salario. Estime el modelo log(yi) =
Tema 2 65
a+ f3xi + Ui y obtenga asimismo el coeficiente de determinación. ¿Cómo deben

interpretarse ahora los resultados? ¿Cuál es el valor del salario esperado según este
modelo, para una persona sin estudios?
e) Estime ahora el modelo doblemente logarítmico y dé una interpretación correcta
de los estimadores. Reconstruya la Tabla 2.2 con los datos correspondientes a los
tres modelos y compare los resultados.
Tema 3
ASPECTOS AVANZADOS DEL ANÁLISIS DE

REGRESIÓN
En el Tema 2 presentamos el modelo de regresión múltiple. A través de la función de

regresión poblacional (FRP) este modelo nos facilita la interpretación de los coeficientes de
regresión poblacionales. La FRP se define a partir del concepto de esperanza condicionada,
que si bien es un concepto estadístico, desempeña un papel central para la adecuada inter-
pretación y construcción de los modelos econométricos. Por este motivo la Sección 3.1 está
dedicada a presentar el concepto con cierto grado de detalle. Para ello definimos qué significa
la distribución condicionda de una variable aleatoria y la media de dicha distribución. La
esperanza condicionada, entendida como un operador matemático, tiene destacables propie-
dades que son útiles en los desarrollos analíticos habituales en econometría. También dentro
de la misma sección tratamos la esperanza condicionada y su relación con distintos aspectos
centrales del análisis econométrico. Una de las cuestiones fundamentales es localizar las con-
diciones bajo las cuales es posible dar una interpretación causal de los parámetros estimados.
Este es precisamente uno de los objetivos de este tema, y por tal motivo dedicamos parte
de la sección a profundizar sobre la relación entre la esperanza condicionada, el análisis de
efectos parciales de las variables explicativas sobre la variable dependiente , y la causalidad.
La Sección 3.2 presenta una metodología o enfoque que permite tratar la esperanza con-
dicionada del modelo , que es desconocida, desde una perspectiva más amplia. De hecho,
considera que el modelo de regresión múltiple es una aproximación lineal de la esperanza
condicionada del modelo . Esta perspectiva resulta muy útil y realista en la práctica.
Las dos últimas secciones del tema presentan algunas técnicas estadísticas relacionadas
con la estimación del modelo que resultan operativas en la elaboración de resultados econo-
métricos.
El tratamiento de este tema no es imprescindible para el siguiente tema. Se trata por tanto
de unos contenidos de carácter avanzado, no necesariamente indicados para el lector novel.
67
68 ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN
3.1. LA ESPERANZA CONDICIONADA Y LA ECONOMETRÍA
Hemos comentado anteriormente que la noción de ceteris paribus es central para plantear-
nos posibles inferencias causales a partir de un modelo econométrico como es el modelo de
regresión múltiple. Cuando queremos conocer la respuesta media o la respuesta esperada de la
variable dependiente respecto a una variación o cambio en la variable independiente (Xj), la
aproximación ceteris paribus requiere, como primer paso, estimar el valor esperado de Yi con-
dicionado al vector xi, formado por las variables explicativas. Es decir, JE(Y¡ IXil,Xi2, ... , XiK ).
A partir de esta esperanza condicionada será posible preguntarse sobre el efecto parcial que
tiene la variable Xk sobre el valor esperado de Y, para lo que será necesario mantener cons-
tantes el resto de variables explicativas. El motivo para proceder de esta manera es debido
a que la naturaleza de los datos económicos (y sociales en general) nos hace pensar que Xj
puede estar fácilmente correlacionado con otras variables X 8 , s =F k, que también afectan a la
variable dependiente.
Es necesario, por tanto, comprender el contenido de la esperanza condicionada.
3.1.1. La función esperanza condicionada

Genéricamente, las variables (y, x) son variables aleatorias que tienen una función de
distribución conjunta determinada a la que nos referimos como población. En este tema hay
una cuestión notacional que ha de ser considerada: en lugar de utilizar la notación Y para
referirnos a la variable aleatoria dependiente, vamos a utilizar la grafía y, de manera que
una y otra son intercambiables. La muestra { (Yi, Xi)} para i = 1, 2, ... , n es una realización u
observación de dicha población. Para estudiar poblacionalmente cómo varía la distribución de
y con relación a la variables contenidas en x, empezamos por considerar f (y lx), la densidad
condicionada de y dado x.
Consideremos, por ejemplo, el salario por hora pagado a hombres con un nivel de estudios
universitarios y con al menos cinco años de experiencia laboral, y el salario por hora pagado
a mujeres con los mismos condicionantes, es decir, con al menos cinco años de experiencia.
Ambos salarios vienen descritos por dos funciones de densidad condicionadas 1 distintas, de
modo que ambas muestran el efecto del género sobre la distribución de los salarios, mantenien-
do constantes los factores mencionados. Es interesante poder medir la diferencia entre ambas
funciones de densidad condicionadas, y para ello una medida importante que resuma algún
aspecto relevante de cada una de las funciones es precisamente la función de esperanza
condicionada
m(x ) = JE(y lx) ,
m(x) : JRK ---+ lR existe si JE(y) < oo que, como ya sabemos, indica cómo varía la media
(esperanza) de y cuando las variables contenidas en x se alteran . Obsérvese que x es un
vector aleatorio de variables explicativas e y es una variable aleatoria, de modo que m(x) es
también una variable aleatoria. Para una realización determinada del proceso generador de
1
Es decir, las variables en cuestión provienen de una población con una distribución determinada y desco-
nocida, y a partir de una muestra de la misma procuraremos aprender algo de la distribución a través de las
técnicas propias de la inferencia estadística.
Tema3 69
x , por ejemplo, xo, m(xo) será (como cualquier ot ra esperanza) una cantidad no estocástica
o determinista. En cambio, al considerar m(x) estamos condicionando sobre cada posible
realización de x. En general, m(x) puede tener cualquier forma (lineal o no-lineal) y como
esperanza puede obtenerse a partir de la función de densidad condicionada de y dado x
(mediante integración y/ o suma).
Por tanto la esperanza condicionada es una variable aleatoria, susceptible de ser expresada
formalmente. Supongamos que definimos y = log(salario) y X = experiencia, como el número
de años en el mercado laboral. En tal caso podemos considerar la función de distribución
de probabilidad conjunta f(y, X), y a partir de ésta la variable X (experiencia) tendrá una
función de densidad marginal
fx(X) = i f( y, X)dy.
Para cualquier X tal que fx(X) > O, la función de densidad condicionada de y dado X se
define como
f(y, X)
fy ¡x (y IX)= fx(X) .
La función esperanza condicionada de y dada X es la media de la densidad condicionada

anterior
m(X) =JE (y [X)= i y · fy ¡x (y [X)dy.
Intuitivamente, y extendiendo al caso de más de una variable condicionante, m(x) es la me-

dia de la variable dependiente y para una hipotét ica subpoblación para la que las variables
condicionantes, x , se mantienen como constantes, es decir, son fijas.
En el ejemplo anterior, la expresión fy ¡x (y IX) equivaldría a observar distintas funcio-
nes de densidad para cada año de experiencia laboral (X = 5, 10, 15,. .. años), y m(X =
número de años) sería la media del log(salario) para cada periodo de años acumulados como
experiencia laboral, y, como función de los años de experiencia, irá cambiando con los mismos.
Este cambio (función) puede ser por tanto de naturaleza no lineal. Otra ilustración la encon-
trábamos en la Tabla 2.2 donde teníamos el valor esperado del salario por hora, condicionado
a distintos niveles de formación. La idea es la misma que cuando condicionamos salarios a
experiencia. Incluso , como sabemos, podríamos condicionar a dos o más variables.
3.1.2. Esperanza condicionada: propiedades

Dado que JE(y lx) es una variable aleatoria, entonces la propia esperanza condicionada
puede tener una esperanza que denotamos por JE[JE(y lx)]. La Ley de las Esperanzas Totales
indica que esta esperanza es precisamente la esperanza no condicionada de y
Teorema l. Si JE [y[ < oo, entonces para cualquier vector x ,

se tiene
JE [JE(y fx)] = JE(y).
En otras palabras, la media de medias condicionadas es la media no condicionada.

Cuando x es una variable discreta
00
JE (JE (y lx)) = Z:: JE (y lxj) Pr(x = Xj) ,
j=l
y cuando es continua
JE(JE(yl x)) =
}Rk
f JE(y/xj)fx(x)dx.
Consideremos un ejemplo sencillo en el que ponemos unos números para operar. Sea la
variable log( salario) por hora en el sector de la hostelería, y distingamos entre el salario medio
condicionado a la variable género. En la muestra hay 2536 mujeres y 2750 hombres. En este
caso tendremos la media del log(salario) condicionado a la variable (género = hombre) y la
media condicionada a (género= mujer). Hemos representado en la Figura 3.1.1 una estimación
de la función de distribución del log (salario) para hombres y para mujeres. La línea de trazado
continuo representa la función de distribución empírica de la variable para mujeres.
Figura 3.1.1: Densidad del Log Salarios

Ln (salario)
1.8
1.4
1.2 r'
1
1
1.0 1 1
1 1
?:' 1 1
·~ 0.8 / 1
1
"
o
0.6
1
1
\
\
1
1
/ 1
1
1 1
0.4 1
/
1
' -- '
0.2
o.o
1.2
~/
1.6
/
I
/
2.0 24 2.8
"--- _______
3.2
......
3.8 4.0 4.4 4.8 5.2
Si estimamos las medias condicionadas tenemos que JE (log( salario) /género = hombre) =
2,45 y JE (log( salario) lgénero = mujer) = 2,27. La Ley de las esperanzas totales nos indica lo
siguiente
JE (log( salario)) JE (log( salari o) /género = hombre) Pr (género = hombre) +

JE (log( salario) lgénero = mujer) Pr (género = mujer) ,
que numéricamente implicaría
2,45 . 0,52 + 2,27. 0,48 = 2,36.

Tema 3 71
La Ley de las esperanzas totales puede ser fácilmente ampliada para que sea posible considerar
dos conjuntos de variables condicionantes. La ley resultante de esta generalización se conoce
como Ley de las Esperanzas Iteradas.
Teorema 2. Si JE IYI < oo, entonces para cualesquiera vectores x1, x2,
se tiene
Este Teorema es especialmente útil en el análisis econométrico. La esperanza interna (a la

expresión) está condicionada por un conjunto de información (dos vectores) más amplio que
el condicionante de la esperanza externa (uno de los dos vectores anteriores), y el resultado
de aplicar el operador esperanza matemática iteradamente es algo tan sencillo como JE (y lx 1 ).
Es decir, que al final de la iteración predomina el conjunto de «menor información».
Consideremos otro ejemplo numérico sencillo. La siguiente tabla indica las medias de
salario por hora para seis tipos de poblaciones (subpoblaciones) del mercado laboral de una
región económica determinada en la que conviven varias razas que agrupamos en A, B y
Otras, con una presencia en el mercado dada por las siguientes proporciones 84 %, 8 %, y 8 %,
respectivamente.
Tabla 3.1: Salario medio para seis subpoblaciones

Hombres Mujeres
Raza A 3.07 2.82
Raza B 2.86 2. 73
Otras razas 3.03 2.86
La Ley de las esperanzas iteradas aplicada a esta situación y datos nos indica que
JE (log( salario) lgénero = hombre) =

= JE (log( salario) lgénero = hombre, raza = A) Pr (raza = A lgénero = hombre) +
+JE (log(salario) lgénero =hombre, raza = B) Pr (raza = B lgénero =hombre)+
+JE (log( salario) lgénero = hombre, raza = Otra) Pr (raza = Otra lgénero = hombre) ,
que numéricamente sería
3,07. 0,84 + 2,86 . 0,08 + 3,05 . 0,08 = 3,05.
Cuando estudiamos la esperanza condicionada del salario medio es posible que no todas las
variables explicativas sean observables, pensemos por ejemplo en la variable habilidad innata
de cada trabajador para un puesto de trabajo. Pese a esta limitación, habitualmente queremos
saber cuáles son los efectos de la variable Xj sobre la variable y, dejando inalterados todos
los demás de factores influyentes, sean estos observables o no. Consideremos por un lado a
los factores influyentes, pero no observables (que llamamos, por ejemplo, z), y por otro a los
factores influyentes y observables (x). La Ley de las esperanzas iteradas nos permite relacionar
ambos factores condicionantes:
JE [JE (y lx, z) lx J = JE (y lx) .
Adicionalmente, se puede dar una expresión más general que la enunciada en el Teorma
2. Consideremos que w es un vector aleatorio y que x es cualquier función de w , digamos,
x= f(w). Podemos pensar, por ejemplo, que el vector x es un subconjunto de w. La versión
general de la Ley de las Esperanzas Iteradas es la siguiente
JE(y lx) = JE[JE(y lw) Jx J, (3.1.1)
JE(y lx) = JE[JE(y lx) lw J. (3.1.2)
Es decir, es posible calcular JE(y lx) calculando el valor esperado (condicionado por x) de
JE(y lw ), que es una función de w . Nótese que parte del interés y potencia de la Ley reside
en (3.1.1): que si bien conociendo w podemos obtener x , el recíproco no es necesariamente
cierto. Un resultado menos potente es (3 .1.2) que se verifica dado que x es función de w y
por tanto el valor esperado de m(x) (que es función de x) conocido w , es propiamente m(x),
es decir JE(y 1x). Una forma de memorizar fácilmente ambos resultados es considerar que el
conjunto de información menor siempre domina.
Otra propiedad muy útil de las esperanzas condicionadas es que cuando condicionamos
sobre un vector aleatorio x , realmente este puede tratarse (al operar con la esperanza) como
una constante:
Teorema 3. Si JE lg(x)yl < oo, entonces
JE (g(x)y lx) = g(x)JE (y lx)
y
JE (g(x)y) =JE (g(x)JE (y lx)).
Habitualmente nos referimos a este teorema como la propiedad condicionante del opera-
dor esperanza. Se usa frecuentemente, y en muchas ocasiones junto con el hecho de que la
esperanza condicionada es un operador lineal:
Tema 3 73
Teorema 4. Si JE IYI < oo, y JE laj(x)yjl < oo entonces si consideramos G

funciones escalares de x, resulta que
Para ilustrar estos últimos resultados consideramos que w = (X1, X2, Xi, X1X2) y que
x = (X1,X2) por lo que w = f(x). Si la ecuación que explica en promedio y viene descrita
del siguiente modo
donde g es una función real de variable real. En este caso podemos aplicar los últimos resul-
tados:
JE(y lx) = lE(y 1 X1,X2) = JE[JE(y 1 w) lx] =
=JE [g(f(x)) lxJ = gJE(f(x) lx) = g(f(x)) =
= (f3o + f31 X1 + f32X2 + {33Xi + {34X1X2) = JE(y 1w) .
Es decir, una vez condicionado sobre X1, X2 es redundante hacerlo incluyendo también (fun-
ciones del conjunto de información) Xi, X1X2. Conviene observar que en este ejemplo hemos
considerado que la función esperanza condicionada es lineal en los parámetros f3} aun incor-
porando expresiones no lineales en las variables explicativas. En general, la función m(x) no
tiene que ser necesariamente lineal. De hecho los resultados teóricos presentados en este tema
son en buena medida independientes de la forma funcional.
3.1.3. La función esperanza condicionada del término error

Definamos por función esperanza condicionada del error E a la diferencia entre y y la
función esperanza condicionada evaluada en el vector aleatorio x
E = y - m(x).
Por construcción, esto nos conduce a la expresión
y= m(x) +E. (3.1.3)
En ambos casos podemos entender que el error E se deriva de la distribución conjunta de

(y, x), y por tanto sus propiedades se obtienen de esta construcción. La primera propiedad de
la función esperanza condicionada de E es que tiene media condicionada nula. El resultado se
obtiene aplicando las propiedades vistas en los teoremas previos relativas a la linealidad del
operador esperanza y al teorema del condicionante
JE(é lx) =JE ((y - m(x)) lx)
=JE (y lx) - JE (m(x) lx)

= m(x) - m(x)
=0.
Si combinamos esto con la Ley de las esperanzas iteradas resulta que
Teorema 5. Si JElyl < oo entonces
l. JE(é lx) =O.
2. JE(é) =o.
3. Si JElylr < oo para r 2: 1 entonces JEIElr < oo.
4. Para cualquier función h(x) tal que JElh(x)EI < oo entonces

JE(h(x)é) <OO.
El cuarto resultado indica que el término error E está incorrelacionado con cualquier fun-
ción de las variables regresaras.
En todo caso conviene matizar que JE( E lx) = O resulta o viene implicado directamente
de la definición de E como diferencia entre y y m(x). Esta característica indica que la media
condicionada de E es O y por tanto independiente de x. Lo que no implica que la distribución
de E sea independiente de X. Por ejemplo, consideremos que un modelo y= Xu donde X y
u son independientes y JE(u) =l. En tal caso,
JE(y IX)= JE(Xu IX)= XJE(u IX)= X ,
por otro lado

y = m(X) +E = X+ E
donde
E= X(u - 1).
Resulta evidente que E es dependiente de X , mientras que en media sí es independiente:
JE(é /X)= JE(X(u - 1) /X)= O.
La introducción del término error E asociado a la función esperanza condicionada m(X)

nos permite comprender una propiedad importante de la media condicionada. Para ello supon-
gamos que dado un valor consumado de X, deseamos hacer una predicción de y. Cualquier
Tema3 75
predictor podemos ponerlo como función g(X) de X. Este predictor cometerá un error de
predicción para una X determinada de y - g(X). Una medida no estocástica de la magnitud
del error de predicción es el valor esperado de su cuadrado
JE(y - g(X ))2. (3.1.4)
El mejor predictor sería áquel que minimizara la expresión (3.1.4). Pues sucede que la
función que minimiza dicho error es precisamente m(X), la función esperanza condicionada.
Lo podemos comprobar como sigue
lE(y - g(X)) 2 = lE(E + m(X) - g(X) )2

= lEc 2 + 2lE(c(m(X) - g(X))) + JE(m(X) - g(X)) 2
= lEc 2 + JE(m(X) - g(X)) 2
2 lEc 2 = lE(y - m(X)) 2 • (3.1.5)
En la primera igualdad usamos la Ecuación (3.1.4), en la tercera utilizamos el Teorema 5.

Después de la igualdad tercera, el segundo sumando se minimiza haciendo justamente m(X) =
g(X), lo que arroja la inecuación final. La existencia del mínimo queda garantizada también
por la expresión (3.1.4), siempre que exista (sea finito) el momento de segundo orden del
término y. Por tanto, podemos concluir diciendo que la esperanza condicionada es el mejor
predictor, lo cual sin duda es uno de los argumentos que hacen que la esperanza condicionada
desempeñe un papel tan relevante en el análisis econométrico. El siguiente teorema recoge
este resultado:
Teorema 6. Si lEy 2 < oo, entonces para cualquier predictor g(x ),

lE(y - g(x)) 2 2 JE(y - m(x)) 2
donde m(x) = lE(y lx).
3.1.4. Interpretación de la esperanza condicionada en términos

ceteris paribus
Un modo de interpretar la función de esperanza condicionada m(x) =JE(y lx) es en
términos de cómo los cambios marginales en las variables explicativas (regresores) x implican
cambios en la media condicionada de la variable respuesta (o variable a explicar) y. Es útil
y típico considerar cambios marginales en uno de los regresores , manteniendo constantes los
restantes. Si el regresor X 1 se distribuye de modo continuo, podemos definir el efecto marginal
de un cambio en X1 , ceteris paribus el resto de variables X2 , X3, ... , Xk , como la derivada
parcial de m(x)
Del mismo modo podemos construir un vector con los k efectos, es decir, un vector de
derivadas parciales (en caso de que sean continuas):
\i'im(x)
Y'2m(x)
1
V'm(x) =
1 V'km(x)
donde la última igualdad es correcta en caso de ser variables continuas.

Como hemos dicho anteriormente, el vector de derivadas parciales mantiene constante (sin
modificaciones) las demás variables consideradas, pero no todas las demás posibles variables ,
solo aquellas explícitamente recogidas en la media condicionada. Por tanto, no es exacto
considerar que estamos estrictamente apelando al concepto teórico (en economía) conocido
como ceteris paribus.
Por otro lado, el vector de derivadas parciales (en su caso) recoge la variación o cambio
en la media o esperanza condicionada de la variable dependiente y, sin embargo no recoge el
cambio sobre el valor real de y de un individuo i particular.
3.1.5. Regresión y causalidad

En la Sección 1.3 orientativamente apuntamos una noción operativa de causalidad y esbo-
zamos bajo qué condiciones sería posible llevar a cabo un análisis en términos de causalidad.
En particular señalábamos que es el experimento controlado aleatoriamente el que nos permite
idealizar una situación en la que sería posible comprobar cuál es la respuesta (el efecto cau-
sal) sobre la variable y (por ejemplo, el salario medio por hora) ante un cambio en una de las
variables explicativas (por ejemplo, la variable años de formación académica) manteniendo
constantes o inalteradas (ceteris paribus) el resto de variables explicativas, tanto observables
como no observables.
También indicábamos que el efect o causal sobre cualquiera de los individuos o sujetos
analizados es inobservable dado que lo único que observamos en este caso es el salario corres-
pondiente a la situación real dada (no a otras situaciones potenciales en las que el individuo
tuviera más o menos años de formación, es decir, en las que estuviera o no sometido a un
tratamiento).
Para hacer precisas estas consideraciones de causalidad necesitamos cierta formulación
matemática. Podemos escribir el modelo completo para la respuesta de cualquier variable de
interés y
(3.1.6)
donde X1 y x2 son variables observables, u es un vector l x 1 de factores (variables) no

observados, y h describe una relación funcional. Definimos entonces el efecto causal de X 1 en
este modelo (h) como el cambio en y debido a un cambio en X 1 manteniendo constantes la
variables x2 y u.
Tema 3 77
Definición l. En el modelo (3.1.6) el efecto causal de X1 sobre y es
(3.1.7)
el cambio en y debido a un cambio en X 1 manteniendo constantes la

variables x2 y u.
Podríamos escribir igualmente esta relación que acabamos de definir como una función
que recoja el resultado potencial
que indica (la notación) que el resultado potencial y(X1) considera el output en caso de
mantener constantes x2, u. Por ejemplo, si X1 = 1 indica tratamiento e X1 =O no tratamiento,
entonces y(O) es el resultado en términos de salud si no hay tratamiento, y viceversa. Por tanto,
tendríamos dos resultados posibles imputables a la situación «si hay tratamiento» o «si no lo
hay». Esto nos permite entender el efecto causal del tratamiento para un individuo como el
cambio en la variable objetivo debido exclusivamente al tratamiento (es decir, manteniendo
constantes las variables x2 y u):
C(x2, u)= y(l) - y(O).
Al depender de (x2, u) , es una función aleatoria que puede tomar diferentes valores para
cada individuo. Sin embargo, en una muestra determinada no podemos observar al mismo
individuo bajo los posibles valores de X1 . Esto hace que no podamos observar el efecto indi-
vidual, y nos centremos en el efecto causal promedio.
Definición 2. En el modelo (3.1.6) el efecto causal promedio de X1

sobre y condicionado a x2 es
ECP(X1, x2) = E(C(X1 , x 2, u) IX1, x2) (3.1.8)
= r Y'1h(X1, x2, u)f(u IX1, x2) du

1~1
donde f(u IX1, x2) es la distribución condicionada de u dado X1 , x2.
En este punto nos preguntamos si existe alguna relación entre el efecto causal promedio
ECP(X1,x2) y la derivada parcial de la regresión Y'1m(x) = Y'1m(X1,x2). A partir de la
Ecuación (3.1.6) la función esperanza condicionada es
m(X1, x2) = IB:(h(X1, x2, u) IX1, x2)
= r h(X1, x 2, u)f(u IX1, x2) du,
}~1
que es la ecuación ECP promediada a lo largo de la distribución condicionada de componente

no-observado u.
Si aplicamos ahora la derivada parcial, tendremos
\71m(X1, x2) =
kr \71h(X1, x2, u) f (u IX1, x2) du + kr h(X1 , x2, u)\7if(u IX1 , x2) (3.1.9)
du
(3.1.10)
Nos indica que, en general, el efecto causal promedio no coincide con la derivada parcial
de la regresión. Sin embargo, serían iguales cuando el segundo término de (3.1.10) fuera cero.
Esto sucede cuando \7if(u IX1,x2) =O , es decir , cuando la función de densidad condicionada
de u dado X 1, x2 no depende de X1. Esta condición es conocida (poco en econometría) como
Definición 3. La hipótesis de independencia condicionada, CIA:

condicionadas a x 2 , las variables aleatorias X 1 , u son estadísticamente in-
dependientes.
Esta hipótesis implica que J(u IX1, x2) = f(u lx) no depende de X1 , y por lo tanto
\lif(u IX1 , x 2 ) =O. Luego la hipótesis implica que en caso de cumplirse, entonces la derivada
de la regresión sería igual al efecto causal promedio:
Teorema 7. En el modelo (3.1.6), la hipótesis de independencia condicio-

nada implica
Observaciones importantes:
• Cuando el vector de términos no observados es independiente respecto de la variables
«tratamiento» (después de condicionar sobre los regresores adecuados), la derivada par-
cial de la regresión es igual al efecto causal promedio.
• Por tanto , la función esperanza condicionada tiene un significado económico causal, lo
cual una vez más pone de manifiesto el interés de la esperanza condicionada.
• En paralelo , si la hipótesis no se cumple la relación de igualdad no existe.
• La hipótesis de independencia condicionada es menos restrictiva que la hipótesis de
completa independencia de u respecto de los regresores X1, x2. La independencia con-
dicionada es por tanto la condición mínima que nos permite obtener la relación entre
derivada parcial de la regresión y el efecto causal.
Estos resultados y observaciones serán especialmente útiles en el tema dedicado a los cuasi
experimentos.
Tema3 79
3.1.6. Esp eranza condicionada lineal

Un caso muy importante es cuando la función de esperanza condicionada m(x) =JE( y lx)
es lineal. En tal caso es evidente que podemos escribir
m(x) = X1/31 + X2/32 + · · · + Xkf3k (3.1.11)

= x'fJ, (3.1.12)
donde
es un vector k x 1 de parámetros o coeficientes. Al modelo inducido por esta configuración de

la media se le denomina MCRL (modelo clásico de regresión lineal), pero para ello es preciso
incorporar algún supuesto sobre la población.
Bajo este supuesto (o suposición) de linealidad, la interpretación del significado de los
coeficientes es muy natural dado que directamente coincide con el efecto marginal de cada
una de las variables explicativas manteniendo inalteradas el resto de las consideradas, es decir
Por otra parte, este simple modelo nos permite tratar con variables explicativas con efectos
no lineales. Para verlo consideremos el modelo cuadrático siguiente
La ecuación es cuadrática en los regreso res (X 1, X 2), pero lineal en los coeficientes recogi-
dos en el vector fJ6x l · Por tanto podemos reescribir el modelo de la forma habitual redefiniendo
rnriables: X3 = X1; X4 =X§; Xs = X1X2. Resulta que
La interpretación, no obstante, de la derivada parcial debe hacerse respecto de las variables

originales:
[)
oXi m(X1, X2) = /31 + 2Xi f33 + X2j35
[)
ax2m(X1, X2) = /32 + 2X2f34 + X1j35 .
Esta expresión nos invita a evitar la interpretación singular de los coeficientes, y a centrar-
nos más en una interpretación global dado que la derivada es función de varios coeficientes
no solo uno) y de los niveles que tomen las variables X1, X2. El término j35 recoge en ambos
casos la interacción entre ambas variables.
3.1.7. La función varianza condicionada

Así como la función esperanza condicionada es una buena medida de localización de la
distribución condicionada, sin embargo no es informativa sobre la dispersión de dicha distri-
bución. Por otro lado , el análisis de la dispersión es importante en numerosos ámbitos del
análisis económico como son la distribución de la riqueza, de los ingresos, de la desigualdad
económica, de los precios, etcétera. A fin de aumentar la calidad informativa sobre la disper-
sión se suele utilizar la función varianza condicionada de y dado x. En particular se define del
siguiente modo:
Definición 4. Si lEy 2 < oo, la varianza condicionada de y dado x es
<7 2 (x) = var(y lx)

= lE ((y - JE(y lx)) 2
lx)
2
= lE(c lx).
De esta definición podemos observar que:
• Se trata de una función no trivial de x. Es decir, depende de los observables. Por ejemplo,
la función de densidad estimada del log(salarios) para hombres y mujeres nos permite ver
que tanto las medias salariales como la dispersión de ambas distribuciones condicionadas
son distintas. En particular, podemos observar que la dispersión (la desviación estándar)
de la densidad condicionada de los hombres es mayor que para el caso de las mujeres
(ver Figura 3.1. l).
• Se puede interpretar como la varianza condicionada del término e, es decir, la varianza

de la función esperanza condicionada del error, toda vez que aplicamos el Teorema 5. O
bien, alternativamente, como la media de c 2 dado x.
• Permite definir la desviación estándar condicionada <7(x) = ~·

• Además podemos calcular la varianza no condicionada del error aplicando la Ley de las
esperanzas iteradas (ver Teorema 2):
Comprobamos que por definición la varianza incondicionada (no condicionada), <7 2 , es una
constante y es independiente de los regresores x. Sin embargo, la varianza condicionada, <7 2 (x) ,
sí es función de los regresores. Recordemos que la varianza de la variable salarios medios (en
log) es diferente para el caso de hombres y de mujeres, es decir, la varianza condicionada del
salario dado que se observa en «hombres» es diferente a la varianza en caso de ser mujer. Sin
embargo, en el ámbito teórico es posible considerar que la varianza condicionada no cambia
Tema 3 81
(es constante) con el condicionante. Para tales casos decimos que la varianza condicionada es
constante o, más habitualmente, decimos que el error es homocedástico. En contraposición,
diremos que el error es heterocedástico cuando, como es habitual, sucede que la varianza
condicionada depende de los observables (condicionantes).
Formalmente:
Definición 5. El error es homocedástico si JE( c 2 lx) = a 2 no depende

de x , mientras que es heterocedástico si lE(c 2 lx) = a 2(x) depende de x.
En aparente contradicción con lo que estamos diciendo, habitualmente (en sede teórica)
se obtienen desarrollos haciendo el supuesto de homocedasticidad (pese a su infrecuencia
empírica). Esto es así porque simplifica enormemente los cálculos teóricos que se presentan
en los libros de texto a un nivel básico o intermedio. Por lo tanto debe quedar claro que los
supuestos de homocedasticidad no son impuestos porque se crea que sea una virtud propia de
un buen modelo empírico, sino por su capacidad simplificadora.
3.1.8. Modelos de esperanza condicionada lineal

Las definiciones y propiedades anteriores nos permiten establecer de forma natural las
condiciones de un modelo . Un modelo está caracterizado por supuestos o restricciones sobre
la distribución conjunta de las variables. Dado que la función esperanza condicionada m(x)
disfruta de interesantes ventajas, sería deseable que nuestro modelo también fuera partícipe de
las mismas. El modelo de esperanza condicionada lineal incorpora dos supuestos: una función
esperanza condicionada de tipo lineal (ver Ecuación (3.1.12)) y una relación entre el error de
regresión y las variables explicativas que nos permita extraer conclusiones con garantías:
Modelo de esperanza condicionada lineal
y= x'f3 +E
lE(c \x) =O.
A tenor de la definición de homocedasticidad, podemos incorporar otro supuesto para definir

otro modelo de utilidad teórica.
Modelo homocedástico de esperanza condicionada lineal
y= x'f3 +e
lE(c lx) =O
lE(c2 lx) = a2.
En ambos casos restringimos de tal manera los posibles modelos que solo optamos por los
que satisfacen JE( E lx) = O, y bajo este supuesto necesariamente se satisface que la función
esperanza condicionada es
JE(y lx) JE(x',B+E)

JE(x' ,8 x) + JE(E x)
1 1
JE(x' ,8 1 x)+O
x',B.
En caso de no cumplirse el supuest o, entonces x' ,8 no sería la función m(x) esperanza

condicionada. En esa circunstancia, el término error asociado a la esperanza condicionada
1
E= y - m(x) sería diferente a€= y - x ,B.
3.2. PREDICTORES LINEALES Y MODELO DE PROYECCIÓN LINEAL
Generalmente desconocemos la forma funcional que define la esperanza condicionada, ya

sea esta lineal o no lineal, m(x) = JE(y lx) , y sin embargo sabemos, por (3.1.5), que m(x) =
JE(y lx ) es precisamente el mejor predictor de y. El hecho de que además sea lineal es todavía
más improbable. Por este motivo es más realista y operativo considerar que la especificación
lineal (3.1.12) es una aproximación.
Podemos definir una aproximación a m(x) = JE(y lx) mediante un modelo lineal que tenga
también el menor error cuadrático medio entre todos los posibles predictores lineales. Para
realizar este desarrollo de búsqueda se requieren las siguientes condiciones de regularidad:
Suposición l. Condiciones de regularidad

l. JEy2 <OO.
2
2. JE ll xll < 00.
3. ~xx = JE(xx') es una matriz definida positiva.
Las dos primeras condiciones implican que las variables y y x tienen medias, varianzas y
covarianzas finitas. La tercera condición requiere que las columnas de xx' no sean linealmente
dependientes. En ocasiones, en algunos libros de texto la expresión ~xx se indica por Qxx ·
Cualquier predictor de tipo lineal será de la forma x 1,8 para algún ,8 E JRK. El error
cuadrático medio de predicción será
S(,B) = JE(y - x',8) 2.

El mejor predictor lineal de y dado x, que lo escribimos como P(y lx) será el vector ,8 que
minimice S(,8). Para calcularlo desarrollamos el cuadrado y derivamos 2 respecto del vector
2
Las normas básicas de derivación vectorial se presentan en los Apéndices y Tablas de este libro.
Tema 3 83
de parámetros:
2
:(38((3) = :(3E(y - x' (3)
= ~ [Ey
2
-
1
2{3 E (xy) + f3'E(xx')f3]
= -2E(xy) + 2E(xx')f3.
Igualando a cero para satisfacer la condición necesaria de mínimo y simplificando,
1
f3 = (E(xx')r E(xy). (3.2.1)
La expresión explícita del mejor predictor lineal de y dado x, también denominado pro-
yección lineal, es
1
P(y lx) = x' (E(xx')r E(xy).
Esta proyección permite definir un error que denominamos error de proyección
-
c =y-x'(3 . (3.2.2)
El error de proyección coincide con el error de regresión si y solo si la esperanza condicio-

nada es lineal, en caso contrario son distintos. De modo equivalente podemos descomponer y
en la suma de la proyección lineal y un error de proyección
y= x'f3 + c. (3.2.3)
El error de proyección tiene la siguiente propiedad
E(xc) = E(x(y- x'f3))

1
= E(xy) - E (xx') (E(xx'))- E(xy))
=o,
expresión equivalente a
E(Xjc) =O, para todo j = 1, 2, .. ., K. (3.2.4)
Como habitualmente el vector de regresión x contiene una constante, la expresión (3.2.4)

equivale para la variable constante, por ejemplo X 1 = 1, a
E(c) =O. (3.2.5)
Usando (3.2.4) y (3.2.5) se tiene que dado que las variables Xj y e no están correlacionadas,
toda vez que cov(Xj, e)= E(Xjc) - E(Xj)E(c) =O.
En resumen , bajo unas condiciones muy generales previstas en la Suposición 1, po-
demos definir la Ecuación (3.2.3) que tiene las propiedades que recogemos en el siguiente
teorema:
Teorema 8. Propiedades del modelo lineal de proyección

Bajo las condiciones dadas en la Suposición 1,
1. Los momentos JE(xx') y lE (xy) existen con elementos finitos.
2. El vector de coeficientes de la proyección lineal (3.2.1) existe, es único,
y es igual a
1
{3 = (lE(xx')f JE(xy).
3. El mejor predictor lineal de y dado x es
1
P(y lx) = x' (lE(xx')f lE(xy).
4. El error de proyección E = y - x' {3 existe y satisface
y
JE(xé) =O.
5. Si x incorpora una constante, entonces
lE(é) =o.
Este teorema nos indica que para cualquier par (y , x) de variables aleatorias con varianzas
finitas podemos definir una ecuación lineal como y = x' {3 + E que tiene las propiedades
recogidas anteriormente en el Teorema 8. En comparación con el modelo de esperanza
condicionada lineal, observamos que
• El modelo de proyección lineal es más general en la medida que los supuestos que requiere
para poder usarlo son menos est rictos que los planteados por el modelo de esperanza
condicionada.
• La ecuación lineal y = x' {3 +E es el mejor predictor lineal, pero no es (no coincide)

necesariamente con la media condicionada, que es el mejor predictor posible (como
hemos visto en (3.1.5)). Por lo tanto el modelo no puede ser interpretado como un modelo
causal o estructural. No obstante, como hemos visto en la sección 3.1.5 es posible extraer
relaciones de causalidad en la medida en que el supuesto de independencia condicionada
se verifique.
3. 2 .1. Regresió n normal

Supongamos que las variables (y, x) se distribuyen conjuntamente como normales. Sabe-
mos entonces que el mejor predictor lineal de y dado x es
y= x'{3 + E.
Tema 3 85
(3.2.1). Dado que el término error e es , en este caso, una transformación del vector (y, x ),
resulta que el vector (e, x ) también se distribuirá conjuntamente como una normal. Por otro
lado hemos comprobado que JE(xc) =O, es decir, que están incorrelacionados. Por tanto, toda
vez que se distribuyen conjuntamente de acuerdo a una distribución normal y además están
incorrelacionados, se tiene que son independient es . Esta independencia implica que
lE(c lx ) = lE(c ) =O,
y
JE(c2 lx) = lE(c2) = 0"2,
ambas propiedades del modelo homocedástico de esperanza condicionada lineal. En
buena medida, la relación que acabamos de exponer es otro de los atractivos que ha contribuido
a motivar el uso y predominio del modelo de esperanza condicionada lineal. No obstante, no
debe considerarse un motivo de mucho peso puesto que en las aplicaciones econométricas los
datos son con bastante frecuencia no normales.
3.3. ESTIMACIÓN POR EL MÉTODO DE LOS MOMENTOS
En el tema anterior hemos expuesto una forma de estimar los coeficientes o parámetros
de modelos mediante la técnica MCO. Sin embargo no es la única. Presentamos ahora otra
alternativa denominada estimación por el método de los momentos (MM). Tanto la una co-
mo la otra requieren unas mínimas condiciones de regularidad que garanticen la posibilidad
de realizar todas sus operaciones. Dichas condiciones son las recogidas precisamente en los
supuestos recogidos en la Suposición 1.
De acuerdo con el modelo de proyección lineal, para cada individuo i,
y¡ = x~,B+ci , i = 1, ... , n,
siendo X i un vector (K x 1) que incorpora las variables explicativas del individuo i-ésimo; ,B,
el vector de parámetros a estimar; é i el error de proyección (cuya existencia está garantizada
por el Teorema 8). También el teorema 8 nos indica que existe un vector de parámetros /3 que
satisface la no correlación entre el término error y los regresares
JE(xc) =O.
O de forma equivalente:
JE[x (y - x' ,8)] = O,
que arroja K restricciones poblaciones en la media.
El estimador del vector de parámetros o coeficientes ,B por el método de los momentos
se define como el vector resultante de imponer las restricciones satisfechas en los momentos
poblacionales a sus análogos momentos muestrales. Esto equivale a que la media muestra! sea
cero:
1
-n
¿
n
f
Xi(Jli - X·,8MM)
i
A
= 0.
i=l
Reordenando mínimamente esta expresión obtenemos
o bien
cuya existencia está garantizada por las condiciones de regularidad anteriormente citadas , y
que coincide con el estimador MCO ya presentado en el tema anterior [ver Ecuación (2.3.11)].
Observemos que el vector de parámetros estimados f3MM genera un vector de residuos (errores
estimados) que vamos a denotar como e = (Ei) i = 1, ... , n donde {i es el error estimado por
MM (o por MCO) del individuo i-ésimo3 . A lo largo de este libro nos referimos al término
error de cualquier modelo (salvo que genere confusión) generalmente por E . Nos referimos a
sus respectivas estimaciones por t, o por e, sin indicar la técnica de estimación utilizada para
obtenerlos. Por tanto, los unos y los otros pueden ser utilizados indistintamente.
3.4. ASPECTOS GEOMÉTRICOS Y ALGEBRAICOS DEL ESTIMADOR

MCO
A partir de la solución MCO, que es equivalente a la del método de los momentos, podemos
definir conceptos y deducir algunas propiedades que, posteriormente, serán de gran utilidad.
Estos aspectos pueden considerarse aspectos numéricos de la estimación MCO (MM) y, por
tanto, en absoluto ligados a la población o al proceso generador de los datos con los que
trabajamos. Dicho de otro modo, siempre se satisfacen.
En primer lugar , a lo largo de lo que resta de tema vamos a denotar al vector de parámetros
o coeficientes estimados, ya sea por MCO o MM, con la grafía b, por tanto b = f3Mco = f3MM·
El valor ajustado o ajuste de la observación i es Y¡ = x~b. El vector de valores ajustados será
entonces, y = Xb, por lo que podemos reescribir el vector de residuos como
e= y-y,
notación que se mantiene a lo largo de este epígrafe, es decir, que e= i.

El vector de valores ajustados se interpreta entonces a partir del producto de la matriz de
observaciones con K columnas por el vector de parámetros (de dimensión K) MCO o MM: Xb.
El vector de valores ajustados es por tanto una combinación lineal de los vectores formados
3
También podríamos denotarlo , siguiendo con la notación anterior, como iMM =(e".;).
Tema3 87
por las columnas de la matrix X
Una expresión más desarrollada que la anterior se encuentra en la Ecuación (2.5.19).

En general, cualquier relación lineal y = X/3 es una combinación lineal de las columnas
de X. Particularmente, la combinación arbitrada por el vector b tiene la propiedad de ser
aquella que verifica las ecuaciones normales
X'Xb = X'y {::}X' (y - Xb) =O{::} X'e =O (3.4.1)
que indican, entre otras cosas, que las columnas4 de X y el vector de residuos MCO son
ortogonales (es decir, el producto escalar (xj , e ), donde Xj indica la columna j-ésima de X y
j = 1, .. ., K, es cero).
También el vector de valores ajustados (y = Xb) es ortogonal al vector de residuos
b'X'e =O
Geométricamente si el producto escalar de dos vectores es cero, entonces ambos vectores

son perpendiculares (forman un ángulo recto), por lo que decimos que Xb forma un ángulo
recto o es ortogonal al vector de residuos MCO . Podemos ahora interpretar estos resultados
gráficamente dado que, por construcción, la suma de los vectores de valores estimados y de
residuos MCO es el vector que contiene la variable explicada: y= y+ e.
Utilizar MCO (y también MM) es una forma indirecta de proyectar el vector y en dos
planos distintos, uno el generado a partir de la columnas de la matriz X , y otro el formado
por los residuos. La Figura 3.4.1 muestra Xb como el vector resultado de la proyección de y
sobre el plano horizontal; y muestra e como el resultado de proyectar y en el plano vertical.
Geométricamente las proyecciones se realizan mediante matrices de proyección. En es-
te caso particular de los mínimos cuadrados ordinarios hay dos matrices que actúan como
proyectores
p (3.4.2)
nxn
M = In -P , (3.4.3)
nxn
4
Y, por definición, filas de X '.
Figura 3.4.1: Proyección sobre el subespacio generado por Xb
1 e
Xb
y las llamaremos matrices de proyección básicamente porque para cualquier matriz Z que
pueda ser escrita a partir de X del modo Z = xr para alguna matriz r , resulta que
PZ = X(X'x)- 1 X'Xr = xr = z
MZ = xr - PXr = o.
P proyecta en el subespacio generado por las columnas de X. El vector y es proyectado
mediante Py en el subespacio generado por dichas columnas, y en particular su proyección es
el vector de valores ajustado MCO y:
Py = X(X'X)- 1 X'y = Xb. (3.4.4)
Se puede observar que

PPy = PXb = Xb.
Esto es, la proyección de la proyección es la propia proyección, lo contrario sería contraintui-
tivo. Así, para que una matriz represente una proyección debe ser idempotente (matriz que
multiplicada por sí misma devuelve la matriz original)
pp =P
MM =M
Adicionalmente, se observa que ambas matrices son simétricas, es decir, P = P' y M = M'
y que
PM=MP=O. (3.4.5)
Tema 3 89
M proyecta sobre un subespacio que guarda cierta relación con el generado por P. Cuando
M es aplicado a y , obtenemos un vector de dicho subespacio que precisamente es el vector de
residuos
My = (1 - X(X'X)- 1 X')y =y - Xb =e, (3.4.6)
que a su vez es ortogonal a X
(My)'X = y'MX = y'(I-P)X = y'(X-X) =O.
Estos resultados concuerdan con los ya estudiados anteriormente, así que cualquier vector
y puede expresarse como la suma de las dos proyecciones del mismo (Py y My)
y = Py + My = Xb + e. (3.4.7)
El uso de estas matrices de proyección simplifica en numerosas ocasiones los cálculos y nos
permite relacionar variables importantes dentro de los modelos con los que trabajamos.
La SCR bajo la solución MCO se relaciona con el término del modelo de la siguiente
manera
SCR = e'e = c 1Mc. (3.4.8)
Con la expresión anterior medimos la variabilidad de los residuos mediante e' e, y también
podemos medir la variabilidad de la variable dependiente mediante ¿ Y'.¡ 2 = y'y. A partir de
(3.4.7) se tiene
y'y (Py + My)'(Py + My) (3.4.9)

y'PPy + y'PMy + y'MPy + y'MMy (3.4.10)
y'PPy + y'MMy (3.4.11)
y'y + e'e. (3.4.12)
Esta última ecuación indica que la suma total de los cuadrados es igual a la suma de
los cuadrados de las variables explicativas más la suma del cuadrado de los residuos (SCR).
Es decir, (3.4.12) descompone la variación total de la variable dependiente como suma de la
variación de la parte explicada del modelo y la variación de la parte no explicada.
Por otra parte, es relevante conocer la discrepancia que hay entre la estimación MCO,
b , y el verdadero vector de parámetros, {3. A este tipo de discrepancia se le denomina error
muestral, definido como b - {3 y puede relacionarse igualmente con e
(3.4.13)
La obtención de las ecuaciones (3.4.8) y (3.4.13) se deja como ejercicio para el lector.
3.4.1. Regresión residual

Consideremos que dividimos el conjunto de regresares incluidos en X en dos bloques
cualesquiera X 1 y X2, de modo que la regresión básica y= X/3 + e se puede reescribir como
(3.4.14)
donde X1 es n x ki, X2 es n x k2 y X = [X 1 X2] con K = ki + k2.

Del mismo modo, ahora, la regresión MCO será
(3.4.15)
Supongamos que estamos inicialmente interesados únicamente en b2. Vamos a comprobar

que, si este es el caso, no es preciso estimar el modelo completo.
Para ello consideremos la matriz de proyección Mx 1 que definimos a partir de M como
(3.4.16)
de propiedades similares a las explicadas para el caso de la matriz de proyección M , por

ejemplo, que Mx1X1 = O.
Igualmente, podemos escribir Mx 1= In-Px 1, con Px 1 = X 1 (X~X 1 ) - 1 X~. Es posible
establecer relaciones entre las matrices de proyección P y P Xl·
PPx1 (3.4.17)
PX1 (X~ X1)- 1 X~
X1(X~X1)- 1 X~ (porque PX1 = X1)
Px1.
Para comprobar que PX1 = X1 obsérvese que todas las columnas de X1 están ya en el
subespacio generado por las columnas de X, y en consecuencia las columnas de X1 no se
modifican al proyectarlas mediante P en el subespacio generado por las columnas de X. El
resultado final de (3.4.17) indica que el producto de dos proyecciones, donde una proyecta en
el subespacio de la imagen de la otra, es la proyección en dicho subespacio. Del mismo modo,
las matrices de proyección Mx1 y M pueden relacionarse del siguiente modo:
(In -P x1)(In -P)

In-P - Px1+Px1P
In-P = M.
De esta última expresión podemos comprobar que
En estas condiciones es posible proyect ar y sobre Mx1 en (3.4.15)
Mx1X1b1 + Mx1X2b2+Mx1e
O+ Mx1X2b2+e. (3.4.18)
Si premultiplicamos la expresión anterior por X~ tendremos
X~Mx 1 X2b2+X~e
X~Mx 1 X2b2,
Tema3 91
condiciones en que es posible despejar b2 y así obtener una forma alternativa de estimar f32
in usar el modelo completo
(3.4.19)
En (3.4 .19) destacamos las proyecciones Mx 1x 2 = Mx 1X2 y Mx 1y = Mx 1y. Ambas

proyecciones calculan los residuos MCO de la regresión de X2 sobre X 1, y de la regresión de
y sobre X 1, respectivamente.
Dada la propiedad de idempotencia de los proyectores (MM = M) , resulta evidente a
partir de estas dos definiciones que
(X~Mx1Mx 1 X2)- x;Mx1Mx1Y

1
b2 =
1
(M'.x-1x 2 Mx1x2) - M'.x-1x 2 Mx1y ,
que muestra como b 2 puede simplemente obtenerse a través de la regresión de Mx 1y sobre

Mx1x 2. Como consecuencia de las definiciones de estas dos matrices como residuos, esta
técnica se denomina regresión residual.
Al ser b2 exactamente la estimación MCO en la regresión de Mx1y sobre Mx1x 2 , el
vector de residuos de dicha regresión debe coincidir numéricamente con los residuos MCO de
(3.4.15), por lo que hemos probado que:
Teorema 9 . En el modelo (3.f 14), el estimador MCO de f32 y los residuos

MCO e pueden calcularse de manera equivalente mediante una regresión
MCO del tipo (3.4.15) o bien siguiendo estos pasos
l. Calcular la regresión y sobre X 1 y obtener los residuos Mx 1y
2. Calcular la regresión X2 sobre X1 y obtener los residuos Mx 1x 2
3. Calcular la regresión de Mx1y sobre Mx 1x 2 , obtener la estimación

MCO b2 y los residuos e .
Este resultado se conoce como teorema de Frisch-Waugh-Lovell (FWL). Su utilización es

de corte teórico y no práctico o computacional. Una aplicación muy utilizada de este teorema
consiste en calcular la regresión a partir de datos que están en desviaciones respecto de sus
medias, es decir, datos centrados.
3.4.2. Modelo en desviaciones respecto a la media

Consideremos que hacemos la siguiente partición a partir del Modelo (3.4.14): [X 1 X 2 ]
donde X 1 = l es un vector de unos, y X2 contiene el resto de regresores: [ l X2 ]. En
nxl nx(K-1)
este caso particular Mx 1 será
1
donde se comprueba que el término (l l ) = n.
Mx 1y será
y-y.
Es decir, premultiplicar un vector columna por la matriz de proyección Mx1 supone trans-
formar los datos contenidos en el vector en otro vector con datos en desviaciones sobre las
medias.
Al estar X2 formado por vectores columna tendremos ahora Mx1x 2
1 1
Mx1x 2 = ( I n-l(l l)- l') X2
l) - 1 l'X2
1
X2 - l(l
X2-X2.
El teorema de FWL indica que la regresión de la variable dependiente en desviaciones

respecto de su media (y - y) sobre las variables independientes, también en desviaciones
respecto de sus medias, (X2 - X2) y que por tanto sus columnas no incorporan ninguna
constante o término independiente, arroja b2 , es decir el mismo estimador MCO de /32 en
(3.4.14), modelo que como vemos sí contiene una constante o término independiente. También
arroja el mismo vector de residuos e que habríamos obtenido en (3.4.15) que también incorpora
una constante, i.
El teorema de FWL nos permite calcular los estimadores MCO sin contemplar el término
independiente, y sin embargo el modelo (3.4.14) incorpora uno. Podemos obtener la estima-
ción MCO del parámetro asociado al término independiente si premultiplicamos (3.4.15) por
(l 1l)- 1l 1 y recordando que X 1 = l y que, por (3.4.1) , l 1e =O
1 11
(l l)- l [ib1 + X2b2+e]
b1 + (l 1l)- 1 l'X 2b2 +O ,
es inmediato comprobar que al premultiplicar una columna por (l 1l)- 1l 1 se calcula la media de
dicha columna, por lo que (l 1l)- 1l 1Y =y y además (l 1l)- 1l'X 2 calcula las medias muestrales
de los regresares (K-1) del modelo sin término constante; como resultado obtenemos
de donde resulta inmediato calcular b1 a partir de y - X 2b2, es decir, los promedios o medias
muestrales de la variable dependiente y de la parte explicada (X2b2) con K-1 regresares
coincide siempre que introduzcamos una variable constante. Es por pues importante valorar
siempre la inclusión de un término constante.
Tema 3 93
Resulta ilustrativo observar que geométricamente, mediante la transformación basada en

restar a las observaciones su media observada, logramos que l y Mx1x 2 sean ortogonales:
i' (X2 - X2)
i'X 2 - i'X 2
n
¿x2-nX2
i=l
o.
3.4.3. Bondad del ajuste de una regresión MCO

La Ecuación (3.4.12) descompone la variación total de la variable dependiente como suma
de la variación de la parte explicada del modelo y la variación de la parte no explicada, como
anticipamos en la Sección 2.3.2. En este caso la variación se mide a través de la suma de
los cuadrados. La suma total del cuadrado de la variable dependiente (SCT) es igual a la
suma de los cuadrados de las variables explicativas (SCE) más la suma del cuadrado de los
residuos (SCR). A partir de esta descomposición podemos evaluar la «bondad» del ajuste
de la regresión calculando el cociente entre la variación de la parte explicada (SCE) sobre la
variación de la parte a explicar (SCT)
2 _ SCE SCR e'e y'y

Rnc = SCT = 1 - SCT = 1 - y'y = y'y'
donde O ~ R~c ~ 1 al tratarse de sumas de cuadrados. R;c tomará valores cercanos a 1 cuando
la variación de la parte explicada por los regresares esté próxima a la variación de la variable
dependiente. Por otra parte, este ratio no centrado (ne) será próximo a O cuando suceda lo
contrario (los residuos expliquen prácticamente toda la variación de la variable y).
Sin embargo el R 2 no centrado (~e) no es del todo adecuado para valorar la bondad del
ajuste MCO debido a que es sensible a cambios en las unidades de medida, de manera que el
valor del ~e variaría en función del cambio de medida introducido.
U na forma de solventar este problema en aquellos modelos que incluyan un término cons-
tante sería, utilizando el teorema de FWL , expresar todas las variables en desviaciones respecto
de sus medias muestrales (centradas) y calcular el mismo ratio.
La matriz Mx 1 = In-l(l 1l)- 1 l 1 nos permite transformar los datos de las columnas del
modelo en otras columnas con dichos datos en desviaciones respecto de las medias muestrales.
Recordemos que Mx1 es una matriz de proyección y, por tanto, si el modelo incorpora una
constante, según la Ecuación (3.4.18) tendremos:
Mx1Y = Mxi(Xb+e)
Mx1X1b1 + Mx1X2b2+Mx1e
Mx1X2b2+e
[X2 - X2]b2 + e,
es decir, el vector en desviaciones respecto a la media [y - y] se descompone en la suma del
vector residuo. más la parte explicada por la regresión (excluida la constante). De este modo,
utilizando las variables centradas respecto de sus medias, es posible añadir cualquier constante
al regresando y no afectar a los residuos ni tampoco a los coeficientes estimados b 2.
La suma total del cuadrado de la variable dependiente centrada (en desviaciones respecto
de su media muestral) será
(Mx1Y + e)'(Mx1Y +e)

(Mx1Y )' (Mx1Y) + e' e ,
o expresado de otro modo
(y - y)' (y - y)= (y - y)' (y - y)+ e'e. (3 .4.20)
Podemos definir así el R 2 como el coeficiente de determinación 5 , es decir,
R2 = (y - y)' (y - y) =1_ e'e

(3.4. 21)
(y - y)' (y - y) (y - y)' (y - y).
En definitiva, ahora R 2 indica la capacidad explicativa de los regresares no-constantes en

el modelo estimado.
EJERCICIOS
l. Supongamos que las variables aleatoria Y y X solo toman valores O y 1, y la distribución

de probabilidad se muestra en la Tabla 3.2
Tabla 3.2: Distribución de probabilidad

X=O X=l
Y=O 0.1 0.2
y= 1 0.4 0.3
Calcule E (Y IX), E (Y 2 IX) y var (Y IX), para X= O y para X= l.
2. Supongamos que tiene dos regresares: X 1 es binario (valores O y 1), y X2 es categórico

con 3 categorías A , B , C. Escriba JE (Y IX1, X2) como una regresión lineal.
3. Dadas la variables aleatorias Y, X1 y X2, considere el modelo
a) ¿Cuáles son los efectos parciales de X1 y X2 sobre :l (Y IX1, X2 )?

b) Si reescribimos la ecuación como
y= f3o + 31X1 + f32X2 - {hx; - 34X1X2 +e,
qué puede decirse de JE (e IX1, X2) y de E(=: X1. X2. X~. X1X2 )?
5
Estos resultados se pueden ampliar con la lectura de la Sección 5.1...1.3.
Tema 3 95
e) En la ecuación de b, ¿qué puede decirse de var (e IX1, X2 )?
4. Sean Y y X dos escalares tales que

2
JE(Y IX)= '/'O+ ')'1 (X - µ) + '/'2 (X - µ) '
dondeµ= JE(X).
a) Halle 8JE(Y IX)/8X, y comente su dependencia respecto de X.

b) Muestre que '/'les igual al promedio de 8JE(Y IX)/8X.
e) Supongamos que X tiene una distribución simétrica, por lo que E (X - µ) = O.
Compruebe que la proyección lineal
P(Y 11, X)= ao + 11X
para algún valor de ao.
5. Supongamos que
a) Esta esperanza puede reescribirse en términos del error c. En tal caso, ¿Cuáles
serían las propiedades del error?
b) Consideremos que las dos variables explicativas tienen media nula. Compruebe que
el coeficiente /31 es el valor esperado de
cuando la esperanza se calcula para la distribución poblacional de la variable X2.

e) En el caso de que ambas variables explicativas fueran independientes, verifique que
la proyección lineal sería
6. Sea e el residuo MCO de la regresión de y sobre x. Halle el coeficiente de estimación de

la regresión de e sobre x.
7. Muestre que si Mes idempotente entonces MM= M.

Tema 4
ANÁLISIS DE REGRESIÓN LINEAL.

INFERENCIA
En los temas precedentes hemos estudiado cómo estimar la función de regresión pobla-
cional por el método de los mínimos cuadrados ordinarios (MCO) o bien , equivalentemente,
por el método de los momentos (MM), en la Sección 3.3. De hecho, hemos visto cómo se
puede aproximar la FRP por medio de una forma lineal , y hemos descrito cómo estimar los
coeficientes de la aproximación lineal.
En la Sección 1.4, indicamos que los datos económicos son no experimentales, luego tanto
la variable dependiente como las independientes o regresores son consideradas como variables
aleatorias 1 . Consideraremos que las variables económicas arrojarán valores observados (datos)
que son realizaciones de variables aleatorias. Un modelo se define como un conjunto de restric-
ciones sobre la distribución conjunta de las variables dependientes e independientes. Dicho de
otro modo, un modelo está configurado por una serie de distribuciones conjuntas que satisfa-
cen unos supuestos. Estos supuestos son el primer objetivo de este capítulo, y constituyen lo
que denominamos modelo (clásico ) de regresión lineal , modelo que desempeña un papel
central en la econometría. Los supuestos que se van a realizar pueden inicialmente parecer
un tanto abstractos, sin embargo tienen una interpretación natural, y el entendimiento de los
mismos es esencial para saber cuándo los MCO darán estimaciones útiles de los coeficientes
y cuándo no.
El modelo clásico de regresión lineal es la piedra angular de gran parte de la teoría eco-
nométrica, ya que plantea los supuestos poblacionales necesarios para que los estimadores
muestrales (función de regresión muestra!) cumplan una serie de propiedades deseables res-
pecto de los verdaderos valores poblacionales (dados en la función de regresión poblacional).
La Figura 4.0.1 es un ejemplo gráfico que nos permite comparar la FRM con la FRP.
Esto significa que analizaremos las propiedades de los coeficientes /Jj como estimadores de los
parámetros poblacionales fJJ.
1
En caso de considerar solo la variable económica a explicar o dependiente como aleatoria y considerar los
regresores como no estocásticos o fijos , estaramos incurriendo en una contradicción dado que, en general, no
hay motivos para considerar unas variables económicas como aleatorias o estocásticas, y otras no (solo por el
mero hecho de desempeñar un papel de variables explicada o variable a explicar dentro del modelo).
97
98 ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA
Figura 4.0.1: Función regresión muestral y función regresión poblacional

y
Las propiedades estadísticas de los estimadores de los coeficientes irán cambiando en fun-
ción de los supuestos que configuren el modelo. En este caso, a diferencia de lo que sucede
con las técnicas de estimación, será importante considerar si los datos son de sección cruzada
o son una serie temporal.
Los supuestos en uno y otro caso no serán exactamente los mismos, y estos supuestos son
los que nos permiten deducir las distribuciones estadísticas muestrales de los estimadores de
los parámetros. A partir de las distribuciones, veremos cómo practicar contrastes de hipótesis
sobre la significación o no de los parámetros del modelo.
En las últimas secciones de este tema se aborda cómo utilizar las técnicas de regresión
para realizar predicciones a partir de la FRM, y cómo hacer una valoración estadística de las
mismas. A tal fin se presentan una serie de «medidas» que evalúan la capacidad predictiva
del modelo. Algunos de los elementos presentados aquí, especialmente los relacionados con las
series temporales, serán de utilidad en la Parte III dedicada específicamente a la predicción
económica.
4.1. SUPUESTOS CLÁSICOS PARA DATOS TRANSVERSALES Y TEM-

PORALES
A continuación consideramos inicialmente un conjunto de supuestos básicos que dotan de

estimabilidad y de ciertas propiedades a la técnica de estimación utilizada. Discriminaremos
entre los supuestos que son aplicables al caso más sencillo de datos de corte transversal y
aquellos que son necesarios cuando trabajamos con series temporales.
Supuestos básicos del modelo de regresión lineal que son comunes a ambos tipos de datos:
Tema4 99
SUPUESTOS BÁSICOS El proceso generador de (X1i, X2i, .. ., Xki, Yi), i =

1, .. ., n es un modelo
LINEAL
(4.1.1)
donde Ei, i = 1, .. ., n es la sucesión de términos error de cada una

de las observaciones. En el caso de datos de sección cruzada i es
un índice individual para cada unidad de análisis, mientras que
si los datos son temporales el índice es temporal de observación.
Por tanto, n en un caso es el número de individuos o bien el
número de observaciones temporales.
NO MULTICOLINEALIDAD PERFECTA
JE(xix~) >O, es decir, es una matriz definida positiva, (4.1.2)
donde Xi = (X1i, .. ., xki)'.
Por un lado , la linealidad, ya comentada en los dos temas anteriores, considera explícita-
mente que el proceso estocástico del que provienen los datos es de naturaleza lineal. No se
trata en este caso de una aproximación o proyección lineal. Por otra parte, el supuesto de
no multicolinealidad perfecta permite que las variables independientes estén correlacionadas,
pero no admite que estén exacta o perfectamente correlacionadas. Se trata de un requisito
técnico que nos permitirá hacer la estimación. Intuitivamente nos indica si una variable ex-
plicativa es una función lineal de otros regresares, en cuyo caso no se pueden calcular los
coeficientes por MCO.
Recordemos que en la regresión múltiple, el coeficiente asociado a una variable captura
el efecto de un cambio en el regresar, manteniendo constantes el resto de regresares. Si dos
variables están perfectamente correlacionadas -digamos (por poner un caso extremadamente
simple) que ambas miden el PIB , una en euros y otra en miles de euros- entonces sería
imposible medir el efecto en la variable objetivo de una variación en el PIB dejando constante
el PIB.
En la práctica, la multicolinealidad perfecta aparece por problemas con el conjunto de
datos que estamos manejando. El software que se utiliza lo detecta inmediatamente porque
no puede calcular los estimadores de los parámetros.
El siguiente supuesto es también común a ambos tipos de datos; sin embargo, es conve-
niente tratarlo por separado por razones que en breve serán manifiestas.
Suposición 2. ESPERANZA CONDICIONADA NULA o EXOGENEIDAD

Sección cruzada
lE(Eilxi)=O, i=l,2, ... ,n. (4.1.3)
Series temporales
lE(Et/X)=O, t=l , 2, ... ,n. (4.1.4)
La Suposición 2 indica que para cada i (o para cada t si son datos temporales) el valor
esperado de los errores condicionados a los valores de todas las variables explicativas es nulo.
Este supuesto es central y señala que los otros factores contenidos en Ei no están relacionados
con Xi en el sentido de que dado un valor para una Xi , la media de la distribución de
estos otros factores es cero. Es decir, en media, el error no depende del valor que tomen las
variables explicativas. Dicho de otro modo, los factores incluidos en los errores no influyen
sistemáticamente en el valor medio de la variable dependiente, los valores positivos de los
errores se compensan con los negativos de manera que su valor esperado es nulo.
El supuesto implica que x i y Ei están incorrelacionadas. Recuérdese que la correlación es
una medida de asociación lineal. Por tanto , sería posible tener correlación nula entre Xi y Ei,
y sin embargo la función esperanza condicionada del error (que por lo general es no lineal)
podría ser perfectamente distinta de cero. Del mismo modo, si ambas están correlacionadas,
entonces el supuesto sería necesariamente violado. Un caso más extremo sería que Xi y Ei
provinieran de procesos estadísticamente independientes. En tal caso el supuesto se satisfaría
necesariamente. La independencia es, por tanto , un requisito más severo que el supuesto
esperanza condicionada nula.
Figura 4.1.1: Supuesto de exogeneidad y homocedasticidad

/ y
f1&1) /
X3
x.
X
La Figura 4.1.1 permite visualizar geométricamente el cumplimiento del supuesto de espe-

ranza condicionada nula (exogeneidad) para el caso de la regresión simple. En ella podemos
comprobar visualmente que este supuesto es equivalente a suponer que la recta de regresión
poblacional es la media condicionada de Yi dado Xi. El valor esperado de la variable explicada
Tema4 101
condicionada a las variables explicativas, utilizando este supuesto, JE ( Ei 1 Xi) = O, es
(4.1.5)
Cuando se cumple este supuesto decimos que tenemos variables explicativas que denomi-
namos exógenas. Si alguna de las variables explicativas está correlacionada con los errores
entonces diremos, por motivos que serán evidentes más adelante, que esa variable explicativa
es endógena.
En caso de que hubiéramos especificado el supuesto de la siguiente manera
IE(t:ilX) =O, i = 1, 2, ... ,n, (4.1.6)
indicaría que para cada i (o para cada t si son datos temporales) el valor esperado del error i-
ésimo condicionado a los valores de todas las variables explicativas en todas las observaciones,
-ería nulo. A estos efectos recordemos que X está definido en (2.5.19). Habitualmente esta
versión del supuesto se denomina exogeneidad estricta. El uso de una versión o de otra
depende de si es o no de aplicación el siguiente supuesto fundamental.
Suposición 3. MUESTRA ALEATORIA
(X1i, X2i, ... , Xki i Yi ), i = 1, ... , n son i.i.d. (4.1.7)
En el caso de datos de sección cruzada i es un índice individual para cada

unidad de análisis, mientras que si los datos son temporales el índice
es de observación temporal.
La muestra de los datos que tenemos está formada por observaciones tomadas de modo
que sean independientes unas de las otras y estén distribuidas idénticamente (provengan de la
misma distribución conjunta). Este supuesto indica que las observaciones están en condiciones
de asemejarse a una muestra aleatoria simple. Por ejemplo, sea X la edad de un trabajador e
Y su salario, e imaginemos que tomamos al azar un trabajador de toda la población de tra-
bajadores. Esa persona elegida al azar tendrá una edad y un salario (es decir, X e Y tomarán
unos valores determinados). Si en lugar de tomar un trabajador, tomamos n trabajadores,
entonces podemos decir que necesariamente (Xi, Y;,) provienen de la misma población (dis-
·ribución). Si los n trabajadores los hemos tomado al azar, entonces podemos decir que se
distribuye cada observación (Xi, Yi) de modo independiente.
Este tipo de muestreo no siempre garantiza la condición de ser iid (independiente, e iden-
·icamente distribuido). Supongamos que las observaciones se refieren a la misma unidad ob-
servada a lo largo del tiempo, es decir , tenemos datos temporales. Consideremos, por ejemplo,
a variable tipo de interés. Si los tipos de interés est án muy bajos ahora, es muy posible que
·ambién lo estén el próximo mes. Hay un grado de correlación importante entre observaciones
fechadas con proximidad temporal. Por tanto, los datos en forma de series temporales suelen
\iolar este supuesto de muestra aleatoria. El supuesto para datos temporales equivalente al
de muestra aleatoria es el siguiente,
Suposición 4. Adaptación de la Suposición 3 Las variables alea-

torias (Xit, X2t , ... , Xkt, Yt) {i) tienen una distribución de probabili-
dad que no cambia a lo largo del tiempo, {ii) (Xit, X2t, ... , Xkt , Yt) y
(X1t-j, X2t-j, ... , Xkt-j , Yt-1) se convierten en independientes a medida que
j aumenta.
La parte (i) indica que la distribución de los datos hoy es la misma que la del pasa-
do. Es por tanto la versión de series temporales del requisito de distribución «idéntica» del
supuesto iid anterior. La parte (ii) es el homólogo en sección cruzada de observaciones «in-
dependientemente» distribuidas, esto es que, pese a que por construcción de la serie, existirá
un cierto grado de dependencia entre valores temporalmente próximos, tal dependencia irá
desapareciendo progresivamente.
Podemos relacionar ahora el supuesto de muestra aleatoria (o equivalente para series de
tiempo) y el supuesto de exogeneidad estricta de la Ecuación (4.1.6). Si exigimos conjunta-
mente ambos supuestos entonces, para el caso de datos transvers ales o de sección cruzada, la
exogeneidad estricta se simplificaría del siguiente modo
(4.1.8)
que coincide con el Supuesto (2). La expresión (4.1.8) implica que cov(Xji, Ei) =O. Por tanto
bajo el supuesto de muestra aleatoria (4.1.7) si se satisface (4.1.8), entonces se verifica 4.1.6,
y viceversa. En cambio para datos temporales esto no es cierto: Si se cumple el supuesto de
exogeneidad estricta, también se cumple
pero no necesariamente se cumple el recíproco. Obsérvese que (4.1.6) requiere que no exista
relación ni contemporánea ni no contemporánea, es decir, que cov(Xjs, Et) =O incluso cuando
s =f t.
Por otro lado, el supuesto de muestra aleatoria implica que los errores Es y Eh para dos
individuos o unidades son independientes. Esta independencia garantiza, bajo este marco de
análisis, que no existe correlación entre los errores imputables a los individuos analizados.
Sin embargo, esto no está garantizado y habrá que buscar condiciones o supuestos que no se
vean afectados por la posible correlación dentro del error. Esto es especialmente importante
porque cuando consideramos series temporales es perfectamente factible que el fenómeno
de la autocorrelación exista. Si por ejemplo los tipos de interés son inesperadamente altos
(respecto a su comportamiento medio habitual) , es bastante probable que en el siguiente
periodo también estén por encima de su comportamiento medio. En este caso la correlación
de las perturbaciones o errores sería positiva corr(ct, ft_¡,_1) > O.
Tema4 103
4.2. DISTRIBUCIÓN MUESTRAL DE LOS ESTIMADORES MCO

4.2.1. Propiedad de insesgadez y distribución para muestras
suficientemente grandes
Dado que los estimadores MCO /3j, j = 1, .. ., K , se calculan a partir de muestras alea-
torias, los propios estimadores son variables aleatorias con una distribución de probabilidad
-la distribución muestra! del estimador- que describe los valores que podrían tomar los
coeficientes a lo largo de las posibles muestras aleatorias.
Los supuestos básicos , junto los supuestos de exogeneidad y el de muestra aleatoria (o
equivalente) garantizan unas primeras propiedades de los estimadores MCO del modelo de
regresión clásico, propiedades que caracterizan a la distribución muestral de los mismos.
Teorema 10. Ins esgadez de los parámetros muestrales

Bajo el supuesto de esperanza condicionada nula de los errores, los estima-
dores muestrales son insesgados
(4.2.1)
(4.2.2)
La demostración del teorema puede encontrarse en el Apéndice técnico de este tema (Sec-
ción 4.6.1) y también de modo más general en la Sección 5.1 del tema siguiente. La primera
ecuación del teorema indica que el estimador es insesgado, es decir, que está centrado en torno
al verdadero valor /3j. La segunda ecuación indica que el estimador es insesgado para cualquier
realización de la matriz de regresores X .
Parece lógico, desde un punto de vista aplicado, que el número de unidades observadas, n,
con las que contamos sea una cuestión importante. Básicamente será mejor disponer de muchos
datos que de pocos. Obviamente, es mejor contar con más información. Pero desde el punto de
vista técnico el número de observaciones juega un papel también relevante para estudiar las
propiedades estadísticas de los estimadores. En este sentido y en términos generales, podemos
decir que cuanto mayor sea el número de observaciones, menos restrictivos serán los supuestos
que necesitaremos.
Pese a ello, Ja propiedad de insesgadez de los estimadores MCO se verifica con indepen-
dencia del número de observaciones, es decir, se cumple para cualquier tamaño muestra!. Sin
embargo , la insesgadez, per se, no nos indica qué tipo de distribución muestra! siguen los coefi-
cientes estimados. Para llegar a una distribución estadística de los coeficientes rJj es necesario
incluir otro supuesto que no es muy restrictivo:
Suposición 5. Grandes atípicos son poco probables. Formalmente,

X 1i, X2i, ... , Xki, e Yi tienen momentos de cuarto orden distintos de cero y
finitos.
Esto es, las observaciones que presentan valores de Xji, o de Yi , o de ambas que están muy
alejados del rango habitual para el tipo de datos considerados (y nos referimos a ello con el
calificativo de atípico) son altamente improbables. Formalmente, los atípicos están controlados
asumiendo que la curtosis de la distribución de probabilidad está acotada, supuesto que es
equivalente a considerar que
(4.2.3)
Una fuente común de atípicos altos es que se produzcan errores en el proceso de introducción
de datos, por ejemplo por errores tipográficos o cambios en la unidades de medida. En caso de
que existieran atítipicos severos la estimación MCO se vería dominada posiblemente por esas
observaciones. De ahí que intutitivamente debamos acotar el campo de variación potencial
de los mismos. Por otro lado, obsérvese que este supuesto es necesario tanto para datos de
sección cruzada como para datos en forma de series temporales.
Para poder establecer la distribución muestra! necesitamos considerar, junto con el su-
puesto que acabamos de señalar, que tenemos un número de observaciones suficiente. En ese
caso podemos aplicar el Teorema Central del Límite (TCL), que ahora enunciamos para una
sola variable, y tratamos en mayor detalle en el tema siguiente.
Teorema 11. Si Y1, Y2, ... , Yn son una muestra aleatoria con mediaµ y
varianza CJ 2 , entonces a medida que n ~ oo
Y, - µ d
Vn ~ ~ N(O, 1).
(J2
La variable estadarizada o tipificada vny:;:¡;t·

tiene media cero y varianza l. Lo que añade
el TCL es que la variable también se distribuye aproximadamente como una normal, y que la
aproximación a la distribución normal mejora a medida que n aumenta. El TCL es un resul-
tado muy potente en teoría estadística. Nos indica que el simple proceso de hacer promedios
(medias) conduce a la normalidad. Técnicamente, tal y como está enunciado, es relativo a la
distribución de medias (promedios) como Y. Por simplificar nos centramos en el modelo de
regresión con una variable. Recordemos que el estimador es
rJi = éoV (X1, Y) = ( l /n) I:(X1i - X)(Y1i - Y)

var(X1) (1/n) I:(X1i - X) 2 '
cuyo numerador es también un promedio (de hecho, el promedio del producto (X1i-X)(Yii -
Y)). Como promedio, y bajo los supuestos que hasta ahora hemos enunciado, al numerador,
como veremos a continuación, le es potencialmente aplicable el TCL. Por otra parte, el deno-
minador es un estimador de la varianza poblacional de 2 X 1 . Por tanto la distribución a la que
converge es una distribución normal. Sabemos por el Teorema 10 que la media (esperanza)
de la distribución será /31.
2
Que vamos a denotar en esta sección por simplicidad notacional cuando convenga por X.
Tema4 105
En el apéndice de este tema mostramos que una forma alternativa de escribir el estimador
/31 es la siguiente
A _{3 (1/n) l:(X1i - X)Ei
{3 1 1 (4.2.4)
- + (1/n) l:(X1i - X) 2 '
que nos permitirá saber su varianza. Para ello observemos inicialmente que el estimador X
de la media poblacional es tal que, a medida que el tamaño muestral aumenta, la media
muestral se hace prácticamente indistinguible de la media poblacional, µx, y por tanto se
puede sustituir una por otra. Observamos también que el supuesto de esperanza condicionada
nula (4.1.3) hace que el promedio (1/n) l: (X1i - X)Ei sea cero. El supuesto de muestra
aleatoria garantiza que (X1i-X)Ei sea iid. La varianza de (X1i -X) Ei [var[(X1i-X)t:i]] existe
y es finita y distinta de cero por el supuesto relativo a los atípicos (esta varianza incorpora
momentos de orden cuatro, véase Apéndice y Tema 5). Por tanto, estamos en condiciones de
aplicar el TCL sobre el numerador del segundo sumando de la expresión (4.2.4):
(1/n) l:(X1i - µx )Ei

Jvar[(X1i - µx )t:i](l/n)'
que se distribuirá como una N(O, 1). Así, la distribución de (1/n) l:(Xi- µx )Ei se aproximará
bien por una N(O, var[(Xi - µx)Ei](l/n)). Ya hemos visto que el denominador del segundo
sumando de la expresión (4.2.4) es un estimador de la varianza poblacional de X1. Por tanto,
combinando ambas conclusiones obtenemos que
y en consecuencia podemos establecer que la distribución muestral de ~1 se aproxima a una

N (f31 , va~[~~:(~~3J~e;]) a medida que aumenta el tamaño muestral n. Resumimos el resultado
a continuación:
Teorema 12. Bajo los supuestos indicados por la expresiones (4.1.1),

(4.1.2), (4 .1.3) , (4.1.7) o su equivalente en series temporales, y (4.2.3), en-
tonces la distribución de ¡31 a medida que n crece es una N(f31, ªS)' donde
la varianza de esta distribución, ªSi, es
A)- lvar[ (X1i-µx)Ei]
var({31 = ª 2' 1 = - (4.2.5)
f3 n [var(X 1i)J 2
Observación 1. Se trata de una distribución aproximada, y por tanto no de una distribución

exacta. La aproximación mejora a medida que el tamaño muestral crece. La cuestión inme-
diata es cómo de grande debe ser n para que estas aproximaciones sean lo suficientemente
realistas. Podemos considerar como estándar que para n > 100 la aproximación es merecedora
de garantías salvo que existan fuertes motivos para pensar de forma diferente. En caso con-
trario no deberíamos a priori confiar en la aproximación. Las aplicaciones econométricas en la
actualidad generalmente cuentan más de cien observaciones, por lo que consideraremos, salvo
que digamos lo contrario, que la aproximación normal es la adecuada. No obstante existen
alternativas que serán comentadas posteriormente.
Observación 2. El estimador es consistente, es decir, cuando el tamaño muestra! es gran-
de, el estimador /31 estará cada vez más cercano al coeficiente /31. La varianza CTS tiene en
1
el denominador el tamaño muestra! n. Por tanto, la varianza CTS tiende a cero cuando n cre-
1
ce. Así, la distribución de los estimadores MCO tenderá a estar cada vez más concentrada en
torno a sus verdaderos valores. La consistencia es una propiedad estadística de los estimadores
importante. Incluso estimadores sesgados pueden ser útiles siempre que al menos sean con-
sistentes. La consistencia es una propiedad asintótica (de muestras grandes) y es el requisito
necesario para que un estimador sea útil.
En general, un estimador es de mayor calidad cuanto menor sea su varianza. Las dos siguientes
observaciones recogen el comportamiento del estimador MCO en ese sentido.
Observación 3. A mayor varianza de X 1, menor varianza CTS de /31.
1
Observación 4. A menor varianza de Ei . menor varianza CTS de /31 .

1
Definición 6. El error estándar ee(/3) de un estimador /3 es una estimación

de la desviación típica de la distribución muestra! de /3.
En este caso el error estándar es ee(/31) = n, = V v-::(ii). Obsérvese que esto implica
que debemos encontrar un procedimiento que nos permita estimar adecuadamente ~ .
Tanto el teorema anterior como las observaciones realizadas las hemos presentado para
un solo regresor. La extensión a varios regresores es más compleja, pero se simplifica exposi-
tivamente considerando las expresiones matriciales presentadas en temas precedentes. En el
próximo tema (ver apartado 5.2.2) se tratan esos aspectos más técnicos.
4.2.2. Distribución muestra! de (3j bajo homocedasticidad, ausencia de

autocorrelación y errores normales
Un tratamiento alternativo para obtener la distribución muestra! de los estimadores MCO
consiste en añadir nuevos supuestos de manera que las expresiones se simplifiquen. En función
del número de supuestos que vayamos añadiendo es posible que la normalidad esté garantizada
para cualquier número de observaciones, en tal caso diríamos que la distribución normal es
exacta, y no aproximada. Esto es especialmente interesante si la muestra es pequeña y se
cumplen los supuestos que vamos a indicar.
Recordemos que hasta ahora solo hemos hecho un supuesto sobre la distribución de Ei
condicionada a Xi, que es que dicha distribución tiene media cero. Si además sucede que
Tema4 107
.a varianza de esta distribución condicionada es constante, es decir, que no depende de Xi,

,.;ecimos entonces que los errores son (condicionalmente) homocedásticos.
Homocedasticidad
(4.2.6)
En el caso de datos de sección cruzada, i es un índice individual para

cada unidad de análisis, mientras que si los datos son temporales el
índice es temporal de observación.
La Figura 4.1.1 mostraba, en el caso de la regresión simple, una varianza constante de

errores, es decir, errores homoscedásticos. En el marco de las series temporales se habla
~e errores contemporáneamente homocedásticos, es decir que var (Etlxt) = 0' 2 . En el caso de
::!l.uestreo aleatorio simple la homocedasticidad es directamente
2
var(Ei jx¡) = var(Ei) = 0' .
El incumplimiento de (4.2.6) implica que
var ( Eil Xi) = var (Ei) =O'¡. (4.2.7)
:..as varianzas de este tipo se denominan varianzas heterocedásticas. La Figura 4.2.1 mues-
-ra un ejemplo de varianza heterocedástica para el caso de regresión simple.
Intuitivamente , si estamos estudiando las variables determinantes de los salarios de una
:egión o país, la homocedasticidad implica que la varianza de Ei no depende de la(s) variable(s)
plicati va( s). Esto es, consideremos que una de las variables explicativas es, por ejemplo, «el
"'énero» (una variable que toma el valor de 1 o de O en función de si el individuo i - ésimo
mujer o no). Cuando hablamos de homocedasticidad/ heterocedasticidad nos referimos a
la desviación del salario de la i-ésima persona respecto del salario medio de su respectiva
;:ioblación (salario medio poblacional de los hombres y salario medio de las mujeres). Aceptar
homocedasticidad supondría que dichas desviaciones son iguales para los hombres que para las
mujeres. Otro ejemplo relacionado con los salarios aparece cuando consideramos la variable
explicativa «años de formación »: la homocedasticidad supone que la variabilidad de los salarios
es la misma con independencia de los años de formación completados. Sin embargo, no parece
-ampoco que esto sea muy realista. Es probable que la población con mayor nivel formativo
enga mayores oportunidades de empleo. Las población de personas con niveles de formación
más bajos tienen menos oportunidades, y es frecuente que tengan que trabajar con salarios
mínimos. Esto hace que la dispersión del salario respecto a la media para el individuo i-ésimo
ea menor cuanto más bajo es el nivel de formación .
En la discusión anterior está implícito que la homocedasticidad implica que la varianza
condicionada de la propia variable dependiente es también constante
2 2
var ( Y 1 X) = JE [Y - JE (Y) 1 X] = JE ( E2 I X) = 0' . (4.2.8)
108 ANÁLISIS DE RE G R ESIÓN LINEAL. INFEREN CIA
Figura 4.2.1: Modelo de regresión simple heterocedástico
J{v,)
x,
Es importante observar que, tanto con homocedasticidad como con heterocedasticidad, las
propiedades de insesgadez, de consistencia del estimador MCO y de distribución asintótica
normal son ciertas. Esto es así porque los supuestos que hemos utilizado para derivar estas
propiedades estadísticas del estimador MCO no incorporan ninguna consideración sobre la
varianza condicionada del error. En cambio, si consideramos que los errores son homocedásti-
cos y en realidad no lo son , obtenemos unos errores estándar de los estimadores /31 diferentes
(y por tanto erróneos) de los que obtendríamos al existir heterocedasticidad. Evidentemente
estimar con imprecisión errores estándar para los parámetros tiene posteriores consecuencias
que veremos en la parte de este tema dedicado a la inferencia. Dado que los errores están-
dar del tipo expresado en (4.2.5) son válidos con independencia de que los errores sean o no
heterocedásticos, se les denomina errores estándar robustos a la heterocedasticidad.
Sin embargo, aunque calculemos errores estándar robustos a la heterocedasticidad, en el
caso de trabajar con datos temporales con mucha frecuencia existe otro problema: el término
error está autocorrelacionado. Supongamos por ejemplo que estudiamos de nuevo la demanda
de café, que como sabemos depende del nivel de ingresos, y omitimos esta variable de la
especificación lineal del modelo. La variable ingreso medida a través del ingreso agregado
suele estar serialmente correlacionada: el ingreso tiende a caer en las recesiones y a aumentar
en la fase de expansión. Si omitimos esta variable, y la incorporamos, por tanto, en el término
error, éste estará también serialmente correlacionado. En general, cualquier variable realmente
explicativa que omitamos y que esté serialmente correlacionada causará autocorrelación. La
Tema 4 109
autocorrelación surge porque con datos temporales si omitimos en la especificación del modelo
una variable, estos factores omitidos pueden estar serialmente correlacionados.
Ausencia de autocorrelación
Condicionados a X , dos valores cualesquiera de los errores están incorrela-

cionados
corr(ét,EslX) =O, t #s. (4.2.9)
La existencia de autocorrelación no interrumpe las propiedades de insesgadez, consistencia

y distribución asintótica normal. Sin embargo, al igual que ocurre con la homocedasticidad,
si consideramos que no existe autocorrelación serial cuando en realidad sí la hay, entonces los
errores estándar de los estimadores MCO estarán mal calculados.
Si los errores siguen patrones sistemáticos, entonces hay correlación serial o autocorrela-
ción, y lo que requiere este supuesto es que no haya patrones sistemáticos o que las correla-
ciones entre distintos valores de los errores sean nulos, con independencia de los valores que
toman las variables explicativas3 .
El supuesto de ausencia de autocorrelación es innecesario para los datos de sección cru-

zada ya que bajo el supuesto de muestreo aleatorio los errores Et y .:: 8 son independientes
para cualquier par de observaciones. Por tanto, será necesario considerarlo en caso de datos
temporales con escasas observaciones.
Sin embargo, si al conjunto de supuestos (4.1.1 ), (4.1.2), (4.1.3), (4.1.7) (o equivalente en

eries temporales y (4.2.3)), le añadimos el supuesto de homocesticidad (4.2.6), y el de au-
tocorrelación (4.2.9) para el caso de series temporales, entonces los estimadores MCO serían
además teóricamente los más eficientes entre todos lo estimadores lineales que fueran insesga-
dos. Esta propiedad queda recogida dentro del teorema de Gauss-Markov, presentado más
adelante. La ganancia en eficiencia conlleva otras expresiones de las varianzas de los estima-
dores MCO. De hecho, bajo este nuevo y más amplio conjunto de supuestos, las expresiones
se simplifican.
3
A veces se utiliza el supuesto de no correlación serial en términos contemporáneos E(ét,éslXi,Xs) =O
para todo t # s.
110 ANÁLISIS DE REG RESIÓN LINEAL . lNFERE CIA
Teorema 13. VARIANZA DE LOS ESTIMADORES MCO

En el caso de datos de sección cruzada bajo los supuestos de (4.1.1),
(4.1.2), (4.1.3), (4. 1.7) y homocedasticidad (4.2.6) ; y en el caso de datos
temporales bajo los supuestos de (4.1.1), (4 .1.2) , (4.1.4); (4.2.3), homo-
cedasticidad (4.2.6) y no autocorrelación (4.2.9), entonces las varianzas y
covarianzas de los parámetros estimados son, en términos matriciales
var(,BI x) = () 2
(X'X)-
1
(4.2.10)
o también
' ) ()2
var ( f3J = ( )' paraj=l,2, ... , k (4.2.11)
SCTJ 1- RJ
n 2
donde SCTj = 2: (X jt - Xj) es la suma cuadráti ca total de la variable
t=l
independiente j y R] es el coeficiente de determinación de la regresión de
Xj con el resto de variables explicativas.
La expresión (4. 2.10) nos informa de que las varianzas de los estimadores serán mayores
cuanto mayor sea la varianza de los residuos, y también nos indica que cuanto mayor sea la
varianza de Xj, menor será la varianza del estimador. Obsérvese que las expresiones (4.2.10) y
(4.2.11) son equivalentes entre sí, pero ambas diferentes a (4.2 .5), entre otros factores porque
los supuestos bajo los que se derivan son distintos.
Especial atención requiere el término Rj 2 , que mide la relación entre el resto de variables
explicativas con X j . A medida que la relación entre ellas se hace más estrecha, también lo
hace su R/ de manera que la varianza del estimador también aumenta. Este es el problema
de la multicolinealidad.
Cuando la multicolinealidad es perfecta, Rj 2 = 1, entonces los coeficientes MCO no se
pueden estimar, su varianza sería infinita y violaría el supuesto de ser estimable por MCO.
Realmente la multicolinealidad (no perfecta) no viola ninguno de los supuestos, pero cuando
R/ se acerca a uno la varianza puede hacerse realmente grande, lo que implica una mayor
imprecisión en la estimación de parámetro . En consecuencia, la correlación entre variables
explicativas hace que los estimadores sean menos precisos y resulte más difícil separar la
influencia individual sobre la variable dependiente.
No está definido cuándo la multicolinealidad es realmente un problema, es decir, a partir
de qué valor de Rj 2 debemos preocuparnos, de manera que no hay una regla fija o común-
mente aceptada sobre la importancia del problema. En todo caso y a efectos prácticos cabe
decir que lo mejor es que la relación entre las variables independientes sea pequeña puesto
que ello permite estimadores más precisos. Cuando dos variables están muy correlacionadas
provocando problemas de multicolinealidad, la única manera de reducirla es prescindir de una
de ellas en el modelo.
Tema4 111
Teorema 14. ESTIMADOR !'.\!SESGADO DE 0' 2

(4.1.2), (4.1.3), (4.1.7) y homocedasticidad (4.2.6); y en el caso de datos
temporales bajo los supuestos de (4.1.1), (4.1.2), (4. 1.4), (4.2.3), homo-
cedasticidad (4.2.6) y no autocorrelación (4.2.9), entonces el estimador in-
sesgado de la varianza de los errores es
SCR
(4.2.12)
n-(k+l)
es decir, la suma cuadrática de los errores estimados dividida por sus grados
de libertad.
Teorema 15. TEOREMA DE GAUSS-MARKOV

(4.1.2), (4.1.3), (4.1.7) y homocedasticidad (4.2.6); y en el caso de datos
temporales bajo los supuestos de (4.1.1 ), (4.1.2), (4.1.4), (4.2.3), homo-
cedasticidad (4.2.6) y no autocorrelación (4.2.9), entonces los estimadores
MCO son estimadores lineales insesgados y óptimos (ELIO ), condicionados
a X.
Cuando se trata de datos de sección cruzada no es necesario incorporar el supuesto de

ausencia de autocorrelación ya que se deduce de los anteriores. Dado que el supuesto de mues-
tra aleatoria garantiza que (Xi,Xj) son iid, se tiene por un lado que IE(ci€j IXi, .. .,Xn) =
3(ci€j !Xi, Xj ). Por otro lado , se tiene que IE(ci€j !Xi, Xj) = IE(ci !Xi )IE(cj IXí) para to-
do j i- i; y dado que sabemos por (4 .1.3) que IE(ci JXi) = O para todo i, resulta que
"1'..(ci€j !Xi, ... , Xn) = O por lo que necesariamente se satisface la condición de ausencia de
autocorrelación (4.2.9).
El teorema de Gauss-Markov ofrece claramente una justificación adicional para el uso de
YICO. Sin embargo, el teorema tiene dos limitaciones severas. La primera es que los supuestos
bajo los que es cierto pueden fácilmente no satisfacerse en la práctica. Si el término error es
heterocedástico, como ocurre en la mayoría de las aplicaciones en economía, entonces deja de
ser ELIO. Como hemos dicho anteriormente, en el caso de tener errores heterocedásticos, si
utilizamos los errores estándar robustos a la heterocedasticidad podremos realizar con garan-
tías inferencias, pero entonces MCO ya no es el estimador óptimo (más eficiente). La segunda
limitación es que incluso si las condiciones del teorema se cumplen, existen potencialmente
otros estimadores que son no lineales e insesgados condicionadamente que podrían ser más
eficientes que los MCO.
Para posteriormente poder realizar inferencia estadística sobre los parámetros en caso de
tener muestras pequeñas es necesario añadir a los supuestos que nos garantizan el cumpli-
miento del teorema de Gauss-Markov el supuesto de que los errores del modelo se distribuyen
conforme a una distribución normal.
Normalidad Los errores poblacionales Ei son independientes de X, son

independientes entre sí y se distribuyen normalmente con media nula
y varianza constante o- 2 , es decir que
E--+ N (0 , o- 2 ). (4.2.13)
Una de las ventajas que incorpora el supuesto de normalidad es que se verifica el siguiente
resultado:
Teorema 16. DISTRIBUCIÓN MUESTRAL NORMAL DE LOS ESTIMADORES

MCO EN EL MODELO CLÁSICO DE REGRESIÓN NORMAL
En el caso de datos de sección cruzada bajo los supuestos de (4.1.1 )',
(4.1.2), (4.1.3), (4.1.7), homocedasticidad (4.2.6) y normalidad del error
(4.2.13); y en el caso de datos temporales bajo los supuestos de
(4.1.1), (4.1.2), (4.1.4), (4.2.3), homocedasticidad (4.2.6), no autocorrela-
ción (4.2.9) y (4.2.13), entonces
donde var (/3j) es (4.2.10) o (4.2.11).
Obsérvese que este teorema implica que cualquier combinación lineal de los parámetros
estimados se distribuye también normalmente y que cualquier subconjunto de ellos también
tiene una distribución conjunta normal.
Pruebas de normalidad de los residuos

U na primera aproximación al estudio de la normalidad de los residuos puede ser (pero no
solo) hacer una inspección gráfica del histograma de los residuos del modelo estimado. Los
software habituales incorporan esta utilidad.
El histograma no es más que la representación gráfica de una variable. El eje de abscisas
se divide en intervalos , y en ordenadas el número de observaciones registradas dentro de cada
uno de ellos {o su proporción respecto del total [(nº obs. del intervalo) / n]}.
Algunos programas nos permiten además introducir en el mismo gráfico del histograma
la distribución teórica de referencia, en este caso sería la distribución normal, para hacernos
una idea sobre lo adecuado de la aproximación. Veamos un ejemplo.
Tema4 113
Figura 4.2.2: Histograma de los residuos {i

.06
.05
.04
.03
.02
.01
.OO..l.,.--ml!!l!~...L..L..l-l-...L.L..l-l-...L..L.l-l-...L...L.l-l-...L...L.l-l-...L...L.1~~.....- -
-40 -30 -20 -10 o 10 20 30 40
La Figura 4.2.2 reproduce los residuos estimados en la regresión del Ejemplo 12, sobre los
uarios de internet. La figura muestra que los residuos no presentan una distribución normal
?erfecta aunque quizás sí aproximada. Obviamente, el problema del histograma es que solo nos
_;:> ermite hacernos una idea sobre la distribución de los residuos estimados, pero la adecuación
o no a la distribución normal de la variable representada en el gráfico es subjetiva si solo
· tilizamos su histograma.
Como sabemos, la distribución normal se caracteriza por ser simétrica respecto a su media
lo que podemos medir mediante el coeficiente de asimetría S: si es igual a cero entonces es
simétrica) y también por el apuntamiento de la dist ribución, es decir, si es más alta o menos
ue la distribución teórica normal (lo que también podemos medir mediante el coeficiente de
urtosis K: si tiene el mismo apuntamiento que la distribución teórica normal entonces este
::oeficiente vale tres).
El estadístico Jarque-Bera, JB, es válido asintóticamente o para muestras grandes y es el
siguiente
J
B - [ 32
- n 6 +
(K - 3) 2
24 '
l (4.2.14)
onde S es el coeficiente de asimetría y K el de curtosis.

El estadístico sigue una chi cuadrado x2 con 2 grados de libertad y sirve para contrastar
la hipótesis nula Ho de que los residuos siguen una distribución normal Ha: los residuos
timados se distribuyen normalmente. Si el valor estimado es mayor que el de tablas para un
determinado nivel de confianza, entonces rechazamos la hipótesis nula.
Al 95 % de confianza [o al 5 % de significatividad (o:)] el valor de tablas es 5,99 (x~.a =
\~ 0 05 = 5, 99), de manera que si el valor empírico de (4.2.14) es mayor que 5,99 entonces
' '
rechazamos la hipótesis nula y los residuos estimados no se distribuyen normalmente con el
95 % de confianza.
En el caso de los usuarios de internet el coeficiente de asimetría es 0,0978 y el de curtosis

3,838. El valor empírico del estadístico JB es 5,15 {167[(0,0978 2 / 6) + (3,838-3) 2 / 24] = 5,15},
luego no podemos rechazar la hipótesis de normalidad de los residuos al 95 % de confianza.
4.3. INFERENCIA
En la práctica habitual los modelos estimados, como el modelo de regresión múltiple que
hemos presentado, se utilizan para la toma de decisiones sobre cuestiones o problemas espe-
cíficos de la empresa y la economía. Algunos de estos problemas requieren para su resolución
(ya sea total o parcial) realizar un juicio sobre el valor específico de un parámetro. Por ejem-
plo, iniciar una campaña nueva de marketing puede depender de si el efecto sobre ingresos
esperados de cada cien euros de la campaña sobrepasa cierto valor. Y esta valoración ha de
hacerse a partir del modelo econométrico y de los datos (es decir, la muestra) que disponemos,
ambos de naturaleza estocástica.
Los contrastes estadísticos de hipótesis facilitan evaluar una conjetura sobre la población
a partir de la información contenida en la muestra, por ello decimos que inferimos una carac-
terística de la población. A partir de un modelo econométrico, en este caso a partir del modelo
de regresión múltiple, planteamos hipótesis de carácter económico. Estas hipótesis son por
tanto aseveraciones sobre los parámetros de la población. En particular, los contrastes (esta-
dísticos) de hipótesis utilizan varios elementos para llegar a una conclusión sobre la hipótesis
a contrastar: la información (en este caso sobre un parámetro) que está contenida en los datos
muestrales, la estimación puntual que hemos realizado (en este caso con MCO), y su error
estándar (que está directamente relacionado con la precisión con la que se ha estimado el
parámetro en cuestión).
Todo contraste o test de hipótesis tiene los siguiente elementos:
l. Una hipótesis nula, Ha .
2. Una hipótesis alternativa, H 1 .
3. Un test o contraste estadístico.
4. Una región o zona de rechazo.
5. Una conclusión.
La hipótesis nula es una creencia que mantendremos hasta que estemos convencidos por
la evidencia dada por la muestra de que no es verdad, en tal caso rechazaremos la hipótesis
nula. El caso más sencillo consiste en especificar un valor concreto para un parámetro de la
regresión
Ho: f3J =e
donde este valor específico e es un valor importante dentro del modelo econométrico, por tanto
es importante desde un punto de vista económico.
En función de cómo hemos definido la hipótesis nula así será la hipótesis alternativa
porque ésta es una alternativa lógica que aceptaremos si la hipótesis nula es rechazada. La
Tema4 115
hipótesis alternativa es flexible y depende del contexto económico planteado. Así pues, dada
la hipótesis nula anterior Ha : /31 = e, hay tres hipótesis alternativas que podemos plantear
en función de la teoría económica en la que se enmarque el modelo estimado:
• H1 : /31 > c. En este caso rechazar la hipótesis nula conduce a aceptar la conclusión de
que (31 >c.
• H1 : /31 < c. En este caso rechazar la hipótesis nula conduce a aceptar la conclusión de
que /31 <c.
• H1 : /31 =/; c. En este caso rechazar la hipótesis nula conduce a aceptar que /31 es o mayor
o menor que c.
El valor que tome el test estadístico, que se construye a partir de la hipótesis nula (más
adelante en este tema veremos algunos), dependerá de la información contenida en la muestra
por lo que la información muestral sobre la hipótesis nula queda recogida en el valor que tome
el test. En función del valor rechazaremos o no la hipótesis nula. Lo fundamental de un test es
que tiene una función de distribución de probabilidad que es completamente conocida cuando
Ha es cierta, y tiene otra distribución si Ha es falsa.
El test estadístico puede potencialmente tomar un rango de valores. Será la región de
rechazo la que nos indique si se rechaza o no. Dicha región de rechazo depende de la forma que
tome la hipótesis alternativa. Para conformar la región de rechazo precisamos de un test, cuya
distribución conocemos cuando la hipótesis nula es verdadera, de una hipótesis alternativa y
de un «nivel de significatividad».
La región de rechazo la forman los valores (infinitos) que puede arrojar el test que son
poco probables si la hipótesis nula es cierta. Así pues si tras obtener el valor del test para
la muestra este valor cae en la zona baja probabilidad, entonces es poco probable que la
hipótesis nula sea cierta. Cuando la hipótesis alternativa es cierta, los valores que tome el test
tadístico tenderán a ser especialmente grandes o pequeños. Para ser operativos necesitamos
decidir sobre qué es «grande» y «pequeño» y qué es «baja probabilidad». Para ello el usuario
ha de fijar un nivel de significatividad para el test, y entonces dotaremos de contenido a
a «baja probabilidad». En este sentido, fijar un nivel de significatividad implica reconocer
que cada vez que rechazamos la hipótesis nula es posible que estemos cometiendo un error,
decir es posible que estemos rechazando aun siendo cierta la hipótesis nula. El nivel de
-ignificatividad precisamente fija de antemano el nivel del error que estamos dispuestos a
-olerar, de hecho fijamos la probabilidad rechazar la hipótesis nula cuando esta es verdadera
Error Tipo !). Por ejemplo, el usuario puede estar dispuesto a cometer un Error Tipo 1 a
un nivel de significatividad del 0,05, indicativo de que la cantidad de error que está dispuesto
a sorportar es de un 5% (= (100 x 0,05) %), que es un criterio bastante habitual en las
aplicaciones econométricas. Sin embargo podría optar por un nivel de 0,01, y entonces estaría
-iendo más exigente posiblemente porque cometer el error tipo I tenga un coste más alto.
Como hemos dicho es inevitable cometer un error cuando rechazamos o no una hipótesis
nula. En términos del nivel de significatividad esto supone que el Error Tipo I no puede hacerse
nulo. Pero es posible cometer otro error, el que se produce si decidimos no rechazar la hipótesis
nula cuando es falsa (Error Tipo JI ). Sin embargo este Error Tipo II no lo podemos controlar
directamente puesto que depende del valor verdadero (que desconocemos) del parámetro sobre
el que hacemos el contraste de hipótesis. Conviene advertir que cuando reducimos el nivel de
significatividad, no solo reducimos la probabilidad de cometer Error Tipo I (algo deseable),
sino que además aumentamos la probabilidad de no rechazar la hipótesis nula si esta fuera falsa
(algo indeseable). Es decir, hay simultáneamente un coste y un beneficio al decidir disminuir
el Error Tipo 14 .
Por último, cuando se ha realizado un contraste de hipótesis, es preciso dar una conclusión
en términos de si se rechaza o no la hipótesis nula considerada en el contraste. A este respecto
hay que considerar que el procedimiento estadístico utilizado no es un fin en sí mismo; más
bien es una herramienta para obtener alguna conclusión económica, por lo que lo adecuado
es explicar la conclusión alcanzada con el contraste en términos económicos marcados por el
contexto del problema sobre el que se está trabajando. Es desde esta perspectiva desde la
que se entiende que hay que distinguir entre la significatividad estadística y la relevancia o
importancia económica de los parámetros del modelo estimado.
En los siguientes epígrafes se ofrecen distintos escenarios que nos podemos encontrar como
usuarios para llevar a término un contraste de hipótesis. En todos ellos se siguen los cinco
pasos esbozados anteriormente, sin hacer explícitamente alusión directa a los mismos.
4.3.1. Contraste de hipótesis sobre una de las pendientes /3j : el contraste

individual o contraste de la t
En este epígrafe5 analizaremos cómo contrastar hipótesis de un solo parámetro (3j pobla-
cional. La formulación general de cualquier contraste basado en un test estadístico tipo t
tiene la siguiente forma:
estimador - valor hipotético

t= . (4.3.1)
error estándar del estimador
En muchas ocasiones uno de los primeros elementos a valorar tras estimar un modelo será
4
U n ejemplo puede ayudar al lector a recordar estos conceptos. Supongamos que una profesora realiza
un tipo de examen para evaluar si los estudiantes saben lo suficiente de la materia de cirugía como para
acreditar delante del sistema sanitario que está facultado para operar. La hipótesis nula es «el estudiante no
sabe la suficiente cirugía» y la alternativa es «el estudiante sí sabe cirugía». La evaluación del examen puede
conducir a los dos errores comentados. El Error Tipo 1 consistiría en aprobar a un estudiante que no tiene
los conocimientos suficientes de cirugía, mientras que el Tipo 11 sería suspenderle cuando realmente sí sabe
cirugía. La profesora considera menos grave cometer el error Tipo 11 que el error Tipo 1 (posiblemente el
usuario del sistema de salud también) , y fija un nivel de confianza del 5 % indicativo de la probabilidad de
cometer el Error Tipo l. Con este nivel, el examen planteado conducirá a que uno de cada 20 aprobados lo será
sin saber suficiente cirugía, pero también habrá provocado que alguno que sabía lo suficiente no haya logrado
superar el examen (Error Tipo II) , puede pensarse que se habrán quedado en notas cercanas al umbral del
aprobado. La profesora podría optar por ser más garantista aumentando el nivel de dificultad o exigencia del
examen, y así conseguir que solo uno de cada 100 aprobados no sepa suficiente cirugía como para operar. Sin
embargo esto llevará aumentar el número de estudiantes que sabiendo suficiente cirugía no superan la nueva
prueba. De hecho una forma de conseguir que no haya estudiantes que aprueben sin saber lo suficiente es no
aprobando a ninguno, o aprobando solo al que mejor resultado saca en el examen. En tal caso el Error Tipo
II habría crecido desmesuradamente.
Puede resultar ilustrativo sustituir «cirugía» por otra asignatura, digamos por ejemplo, «econometría».
5
Este epígrafe presenta varios resultados que extendemos y demostramos en la Sección 5.1.4.
Tema4 117
contrastar si el parámetro estimado influye significativamente sobre la variable explicada o

si tiene algún efecto sobre ella. La hipótesis alternativa es que el parámetro de la variable
explicativa no influya o no tenga ningún efecto sobre la variable que pretendemos explicar.
Este es el contraste individual más usual y todos los programas informáticos lo muestran como
salida de la regresión. Formalmente las hipótesis nula y alternativa son
Ha: {Jí =O
(4.3.2)
H1 : {Jí =/= O.
Consideremos, de manera ilustrativa, la ecuación del consumo familiar
consumo= f3a + f31ingresos + f32tamaño +c.
La hipótesis nula sobre el tamaño familiar Ha : f32 = O significa que, descontado el efecto
de los ingresos sobre el consumo, el tamaño de la unidad familiar no tiene efecto sobre el
consumo familiar. Si rechazamos la hipótesis nula, entonces el tamaño de la unidad familiar
influye sobre el consumo una vez que hemos (descontado) tenido en consideración el efecto de
los ingresos.
En general, una vez que hemos estimado el coeficiente ¡3j, para realizar un contraste tipo
t tenemos que seguir los siguientes pasos:
1. Primero calcular el error estándar de ¡Jj. El error estándar de ¡Jj

es, como ya hemos dicho, un estimador de la desviación típica de la
distribución muestra! de ¡Jj:
ee(/Jj) = ¡;¡; =Vv~).

2. Calcular el estadístico tipo t de la ecuación (4.3.1), considerando
el valor bajo la hipótesis nula Ha : Pí = O, es decir
(4.3.3)
3. Rechazar o no la hipótesis nula a un nivel de significatividad deter-

minado por el usuario.
Observará el lector que estos tres pasos contienen adecuadamente lo que hemos presentado
al comienzo de esta sección , y que seguidamente desarrollamos en varios escenarios habituales.
4.3.1.1. Caso teórico: condiciones de homocedasticidad y normalidad
Una cuestión central para el contraste de hipótesis tipo tes calcular el error estándar
del estimador. En la sección anterior hemos señalado que podemos tener distintos errores
estándar de un coeficiente del modelo, ¡;r,
en función del tipo de supuestos que utilicemos
en el modelo econométrico. Naturalmente, también en virtud del tipo de supuestos, tendremos
distintos estimadores del error estándar, (f;f.
V~ i31
En caso de que consideremos el supuesto de varianza homocedástica (4.2.6) , el estimador de
los errores estándar consiste en construirlo a partir de las expresiones (4.2.10) y (4.2.11). Esto
se reduce únicamente a estimar adecuadamente la varianza del término error o- 2 . Utilizamos
el estimador insesgado que hemos dado en la expresión (4.2.12) , es decir que el estimador del
error estándar del coeficiente ¡jj será la raíz cuadrada del elemento de (j , j)-ésimo de la matriz
va:r (!3/x) = 0-
2
(x'x)- 1 , (4.3.4)
donde 0- 2 es el estimador insesgado de la expresión (4.2.12) obtenido bajo esos supuestos. Esta
expresión se reduce para el caso univariante (de una sola variable) a la siguiente 6
2
Virr (fi1 ¡x i ) = n 0- .
2
¿(xi-X-)
i =l
Por otra parte, siguiendo los pasos esbozados para realizar inferencia sobre un paráme-
tro, es imprescindible saber qué tipo de función de distribución estadística tiene t. En el
modelo caracterizado por los supuestos del Teorema 16, que incorporan homocedasticidad y
normalidad, se tiene que dicha distribución es una t-de student, tal y como recoge el siguiente
resultado:
Teorema 17. DISTRIBUCIÓ N t DE LOS ESTIMADORES TIPIFICADOS

(4.1.2), (4.1.3), (4.1.7) , homocedasticidad (4.2.6) y normalidad del error
(4.2.13) ; y en el caso de datos temporales bajo los supuestos de
(4.1.1), (4.1.2), (4.1.4), (4.2. 3), homocedasticidad (4.2.6), no autocorrela-
ción (4.2.9) y (4.2.13), entonces
fi1· - !31·
~-"--~=---
,6J. - (3J.
J var (,Bj) ee (,Bj)

(4.3.5)
6
Consultar el Apéndice técnico de este tema.
Tema4 119
Este resultado, que demostramos 7 en el tema siguiente, nos permite contrastar hipótesis
obre posibles valores de los coeficientes utilizando el estadístico
Para realizar el contraste de hipótesis utilizando el estadístico tipo t de la expresión (4.3.3) ,

utilizamos como hemos dicho la expresión (4.3.4) .
Normalmente en las aplicaciones el valor estimado del parámetro no es nulo , pero la
cuestión no es si la estimación es exactamente cero. sino si el verdadero valor poblacional es
nulo a partir de la estimación obtenida del mismo, y con qué grado de confianza lo es. Es útil
apreciar que el estadístico tipo t indica cuántas desviaciones típicas se aleja la estimación del
\·alor nulo.
Para determinar la regla práctica, tal y como indicamos al principio de esta sección,
de rechazo debemos primero determinar con qué confianza o nivel de seguridad queremos
realizar el contraste. En las ciencias sociales lo habitual es utilizar niveles de confianza del
95 3 , aunque a veces se utiliza el nivel del 99 3 o del 90 3 . Confianza y significatividad (a)
-on términos relacionados: Un nivel de significatividad del 5 3 es lo mismo que hablar de un
nivel de confianza del 95 3. La suma de los niveles de confianza y significatividad es siempre
del 100 3 (o 1 si estamos hablando en términos de t anto por uno o proporcionales), es decir,
,a relación es la siguiente
confianz a 3 = (1 - a) 100, (4.3.6)
donde a es el nivel de significatividad en tanto por uno y la confianza se expresa en porcentaje.

La regla de rechazo consiste en elegir un nivel de confianza o significatividad; determinar el
·alor crítico en tablas 8 tn-k-l ,a / 2 de la distribución; y si el valor que arroja el estadístico tipo
~ (4.3.3) es mayor, en términos absolutos, que el valor crítico de las tablas de esta distribución,
entonces rechazamos la hipótesis nula. Es decir, si
> tn- k -1,~ (4.3.7)
7
Tipificar no es más que restar su media y dividir por su desviación típica o error estándar ( ee) o raíz
cuadrada de la varianza muestra! o estimada. Una versión simplificada de la demostración es la siguiente:
dado que se satisfacen las condiciones del Teorema 10, sabemos que el parámetro estimado es insesgado,
de manera que el numerador de la expresión (4.3.5) es la estimación muestra! del parámetro menos su valor
perado (media). También sabemos que la distribución muestra! del coeficiente estimado /Ji es una distribución
normal, al satisfacerse las condiciones del Teorema 16. Así, el numerador es una variable normal menos su
media. En el denominador aparece la raíz cuadrada de la varianza, estimada a partir de la estimación de la
arianza insesgada de los errores. Por la expresión (4.2.12) observamos que se trata de la suma del cuadrado
de variables aleatorias normales, cuya distribución es por definición una chi cuadrado con n - k - 1 grados
de libertad (X~ - ( k+i ) ). Una distribución t de Student es el cociente de una variable aleatoria normal y una
Chi-cuadrado .
8
Las tablas estadísticas más relevantes para realizar inferencia en econometría se encuentran en el apéndice
correspondiente del documento Apéndices y Tablas de este libro.
Figura 4.3.1: Distribución t de Student. H1 : /3j '::/: O, n = 27, a= 0,05
Rechazo Ho No rechazo Ho
Rechazo Ho
Área=0,95
-t,, º·"" =-2,05

o tv.o.oi. = 2,05
rechazamos la hipótesis nula Ha: /3j =O. El parámetro estimado es significativamente distinto
de cero y, en consecuencia, la variable X j influye significativamente en la variable dependiente.
Cuando rechazamos la nula, aceptamos la hipótesis alternativa H 1 , ya que si la alternativa es
cierta entonces el valor del estadístico-t tiende a ser o bien mayor o bien menor que los valores
más habituales (definida la habitualidad con a) de la distribución, en este caso, tn-k-I,%. Para
tener un test con una significatividad de a definimos los valores críticos de tal manera que la
probabilidad de que el estadístico-t caiga en valores alejados por la derecha del cero sea de
a/2 , y la probabilidad de que caiga en valores alejados por la izquierda del cero sea también
de a/2. Así la probabilidad de que caiga en cualquiera de estos dos extremos es justamente
a.
Decimos entonces que el test es de dos colas puesto que solo nos planteamos en la Ho
si el coeficiente influye o no en la variable explicada, es decir, en este contraste no importa
que la influencia sea positiva o negativa, ya que lo sustantivo es que sea distinta de cero.
El signo de (4.3.3) lo determina el numerador puesto que el coeficiente estimado puede ser
positivo o negativo, mientras que el denominador es por definición siempre positivo. Cuando
la hipótesis nula es cierta, la probabilidad de obtener un valor del test estadístico que caiga
en cualquier cola es pequeña. Los valores muestrales del test que están en las áreas de las
colas de la distribución (en este caso una distribución t de Student) son incompatibles con la
hipótesis nula y forman evidencia en contra de que dicha nula sea cierta.
La Figura 4.3.1 muestra una distribución t de student con 27 grados de libertad y las áreas
de no rechazo («aceptación») y rechazo de la hipótesis nula fijado un nivel de significatividad
del 5 3 (95 3 de confianza). Vemos que si la hipótesis nula es cierta, entonces la probabilidad
de obtener un valor del test estadístico en la zona central de no-rechazo es alta. Valores
muestrasles del test en la zona de no-rechazo son compatibles con el contenido de la nula y
por tanto no pueden tomarse como evidencia en contra de que la nula sea cierta.
En tal caso, la norma es que rechazamos con un nivel de confianza del 95 3 (5 3 de
significatividad) la hipótesis nula si el valor de la expresión (4.3.7) es mayor que 2,05 o menor
que -2,05, pues estos son los valores críticos de la distribución de probabilidad bajo la hipótesis
nula. Equivalentemente, también con esta distribución, podríamos comprobar que si el p-valor
Tema4 121
asociado es de 0,05 o menor rechazaríamos la hipótesis nula. Veremos en el apartado siguiente

que esta distribución solo es aplicable bajo ciertas condiciones teóricas , pero no lo es en el
caso más general.
En general, a este tipo de contraste lo denominamos indistintamente como test tipo t, o
contraste tipo t, o ratio de la t, con independencia de la distribución que tengamos que utilizar
para contrastar la hipótesis y con independencia de la forma de la hipótesis alternativa.
De hecho, muchos contextos económicos nos permiten saber o considerar que la hipótesis
alternativa es H 1 : f3k < c. Si ésta es cierta, entonces el valor del ratio de la t tendería a ser
menor que el habitual para una distribución de probabilidad determinada (en este caso teórico
una t de Student). En este caso decimos que el test es de una sola cola porque los valores
poco probables de test tipo t caen solo una de las colas de la distribución de probabilidad, en
este caso en la cola de la izquierda (ver Figura 4.3.2). Rechazamos la hipótesis nula si el valor
observado del test es menor que el correspondiente valor crítico.
Para abundar sobre ello consideremos que e= O. En este caso las hipótesis son:
Ho: f3J =O
(4.3.8)
H1 : f3J <O
i la hipótesis nula fuera cierta, entonces el ratio de la t, esto es 4.3.3, tiene (en este caso
teórico) una distribución t de Student, y el valor del ratio tendería a caer sobre el centro de
la distribución, a la derecha del correspondiente valor crítico, que es la región que acumula
mayor masa de probabilidad. Como hemos dicho , rechazamos la hipótesis nula si
~j (4.3.9)
_e_e_("""~-j):- < -tn-k-1 ,a·
A la izquierda de la distribución t de Student debe quedar el 0,05, si es ese el nivel de

significatividad elegido (a). Con este nivel de significatividad indicamos que si la hipótesis
nula fuera cierta, la probabilidad de que por azar el ratio de la t arrojara un valor a la izquierda
del valor crítico -tn-k-1 ,a sería del 0,05. La Figura 4.3.2 muestra las regiones de rechazo y
aceptación de la hipótesis nula con un 95 % de confianza en una t de Student con 27 grados
de libertad y contraste de una sola cola.
Por tanto si el valor de la expresión (4.3.9) es menor que -1,70 , entonces rechazamos la
hipótesis nula pues el resultado muestra evidencia en contra de lo mantenido bajo la hipótesis
nula, y nos lleva a concluir que es poco probable que la hipótesis nula sea cierta. Esta evidencia
en contra de la nula, es evidencia a favor de lo mantenido en la hipótesis alternativa, y nos
lleva a concluir que la alterniva es cierta, en este caso que el parámetro negativo.
El contraste de una cola también se puede plantear en un escenario económico o de análisis
que nos permita considerar que la hipótesis alternativa es H 1 : f3J > c. Si esta hipótesis
alternativa es cierta, entonces el valor del ratio de la t tendería a ser mayor que el habitual
para una distribución de probabilidad determinada (en este caso teórico una t de Student).
Consideremos nuevamente que e= O. Nos interesa contrastar, como hipótesis alternativa,
si el parámetro es mayor que cero, es decir, positivo y distinto de cero , entonces el contraste
122 ANÁLISIS DE R EGRESIÓN LINEAL. INFERENCIA
Figura 4.3.2: Distribución t de student. H 1 : (3j < O, n = 27, a = 0,05
Rechazo H0 No rechazo Ho
Area={),95
-t21o.os = -1,70 o
de hipótesis que nos planteamos es

Ho: (3í =O,
(4.3.10)
H1 : (3í >O.
Si la hipótesis nula fuera cierta, entonces el ratio 4.3.3 tiene (en este caso teórico) una dis-
tribución t de Student, y el valor del ratio tendería a caer sobre el centro de la distribución,
a la izquierda del correspondiente valor crítico, que es la región que acumula mayor masa de
probabilidad. Rechazamos la hipótesis nula si
/3j
_e_e_(;c.--/3-j,...-) > tn-k-1,a (4.3.11)
Es decir, rechazamos si el valor empírico del ratio está a la derecha del valor crítico de la
distribución t de Student con un determinado nivel de significatividad a. La Figura 4.3.3
muestra las regiones de rechazo y aceptación de la hipótesis nula con un 95 3 de confianza
para una t de student con 27 grados de libertad.
Figura 4.3.3: Distribución t de student. H1 : (3j > O, n = 27, a = 0,05
No rechazo Ho Rechazo H0
Area=0,95
o 121.0.os = 1, 70
Tema4 123
En consecuencia, si el valor de (4.3.11) es mayor que 1,70 entonces rechazamos la hipótesis

:mla y el parámetro estimado es significativamente positivo.
Habitualmente al usario lo primero que le preocupa es saber si hay una relación entre la
·-ariable Xj y la variable Y en los términos en que hemos especificado el modelo. Si f3J = O
entonces no hay una relación lineal entre ambas variables. Por este motivo hemos aprendido a
contrastar la hipótesis nula de que f3J = O con diferentes configuraciones de la hipótesis alter-
:iativa, y así determinar si la muestra ofrece evidencia suficiente para rechazar o no la hipótesis
:mla. A modo de ejemplo, la teoría económica no indica que el número de entradas vendidas
de un servicio de cine (o cualquier otro espectáculo) depende del precio de las entradas de
cine. La propietaria de las instalaciones esperaría encontrar que un modelo econométrico le
confirmara con los datos disponibles que el coeficiente de la variable «precio de la entrada»
fuera distinto de cero. Para ello haríamos un contraste de hipótesis de una sola cola, puesto
que en todo caso habría una relación negativa entre precios y número de entradas.
En ocasiones queremos contrastar que la influencia parcial de la variable Xj tome un valor
determinado, queremos contrastar la hipótesis de que f3J sea igual un valor importante para
el problema que es distinto de cero: Ho : f3J = c. Volviendo sobre el ejemplo anterior del
cine, supongamos que una empresaria está planeando montar una sala de multiproyecciones
de películas de estreno, y que la rentabilidad del negocio de multicines que planea depende
de que los hogares de la zona de influencia de los multicines se gasten en cine más de 5 euros
de cada 100 euros de ingresos adicionales que obtengan al mes. En caso de que esto no sea
así, es decir si no tiene una clara evidencia de que f3J > 5, entonces no le resultará rentable
empreder el negocio (y buscará otro ámbito de negocio en el que invertir).
Imaginemos que la estimación MCO del modelo que hemos planteado arroja un valor de
10,1, es decir /:Jj = 10, 1, que es mayor que 5, si aún así la evidencia estadística basada en los
datos nos permite concluir que realmente f3J > 5. Para llegar a emitir un juicio al respecto no
podemos basarnos únicamente en el valor estimado de 10,1 , sino también en la precisión con
la que se ha estimado dicho 10,1, es decir, nos basaremos en ee(/:JJ)·
Para esta situación la hipótesis alternativa será del tipo H 1 : f3J > 5 y por tanto las
hipótesis a contrastar en este caso son
Ho: f3J =e= 5

(4.3.12)
H1 : f3J >e= 5
y se trata de un contraste una cola. El estadístico t es en este caso
(4.3.13)
y se rechaza la hipótesis nula si el ratio de la expresión (4.3.13) es mayor que el valor crítico de
tablas tn-k-1.o:· La zona de rechazo es la misma que muestra la Figura 4.3.3. En este ejemplo
hemos puesto una situación en la que la elección del nivel de signifividad o: es de bastante
importancia. Llevar a cabo el proyecto cuesta varios millones de euros y la decisión depende
de tener una convincente evidencia de que los hogares gasten más de 5 euros por cada 100
euros adicionales. En este caso podemos ser más conservadores reduciendo la probabilidad
de que el test estadístico rechazace la hipótesis nula (en favor de la alternativa) cuando la
nula realmente es cierta, para lo cual fijaríamos a = O, 01. En este ejemplo si la nula es
verdadera, el negocio no sería rentable. y queremos que la probabilidad de construir unos
multicines ruinosos sea muy pequeña. En la vida de los negocios, la elección del nivel de
significatividad debe de hacerse sobre la base de un juicio sobre el riesgo y las consecuencias
de tomar decisiones incorrectas.
En relación con esto último, resulta muy interesante y más informativo utilizar el p-valor 9
para realizar un contraste de hipótesis (ya sea de una o dos colas). Veamos primero en qué
consiste y luego particularizamos para el ejemplo.
De acuerdo a la distribución de probabilidad (en este caso exacta) que estamos dando en
el hipotético caso de que se satisfagan los supuestos de homocedasticidad y normalidad, y
según el concepto de p-valor para un contraste de dos colas
(l;Jj - el > l¡Jj (muestra) - el) = Pr (lwl > lt¡§i 1),

p - valor= Pr
donde la probabilidad se calcula bajo la hipótesis nula, w = (;Jí - e) /ee(;Jj)

1 es como 1
sabemos una variable aleatoria que sigue una distribución t de Student (que es la distribución
bajo la hipótesis nula, pero podría ser otra distinta de la t - Student), y t¡§i está definido en
(4.3.13).
El criterio del p-valor lo podemos ut ilizar de un modo equivalente al nivel de confianza.
Obtener 10 un p-valor inferior al 5 % proporciona evidencia en contra de la hipótesis nula (valor
hipotético) en el sentido de que, bajo la hipótesis nula, la probabilidad de obtener un valor
de ¡Jj al menos tan alejado del previsto por la Ho como lo está el observado (estimado) en la
realidad es inferior al 5 %. En el caso de que el valor previsto por la hipótesis nula sea /3j = O,
entonces el p-valor nos indicaría la probabilidad de observar un valor de ¡Jj al menos tan
diferente de O como el estimado (con la muestra dada) en realidad ¡Jj está por debajo del 5 %.
Cuando esto es así, decimos que la hipótesis nula se rechaza con un nivel de significatividad
del 5 %.
En el caso del ejemplo sobre los multicines, si el error estándar del parámetro estimado
fuera ee(;Jj) = 2, dado que la hipótesis alternativa define un contraste de una cola por la
derecha se tendría para unos grados de libertad (que ahora no son importantes a los efecto
ilustrativos)
p - valor= Pr (t > (10 - 5, 1)/2)
que arrojaría un valor entre cero y uno. Si por ejemplo el p-valor fuera de 0,0153, concluiríamos
diciendo que no rechazamos la hipótesis nula al nivel 0,01. Lo interesante del p-valor es que
además nos proporciona información precisa sobre el menor nivel de significación al cual se
rechazaría la hipótesis nula. En este ejemplo, tal nivel sería el 0,0153 y por tanto el nivel de
confianza sería del 98,47 %.
9
También conocido por valor-p, o valor de probabilidad; ambas denominaciones provienen de la traducción
inglesa de «p-value ».
10
Advierta el lector que, en general y solo en disposición de las habituales tablas estadísticas, no podrá
calcular el p-valor. Para ello requerirá de un software especializado como , por ejemplo, Gretl que dispone de
un buscador de p-valores.
Tema4 125
4.3.1.2. Caso general: heterocedasticidad

Dejemos ahora a parte el caso relativo al modelo clásico normal homocedástico, y volvamos
caso habitual que nos encontramos en los datos económicos.
Con independencia de la distribución de los errores del modelo, el estimador de los errores
tándar robustos a la heterocedasticidad consiste. por ejemplo para el caso de un modelo
e regresión simple, en reemplazar las varianzas poblacionales de la ecuación (4.2.5), por sus
-~ianzas muestrales ajustadas adecuadamente por los grados de libertad perdidos:
n
1"""'
n _
2
-22
¿_.)(X1i - X) ii ]
--- (/31) -= a-/31
var
.2 1 i=l
= ~ x -[-~-¿-~-=-1-(X_ii_·--X-_-)2-J-=2-, (4.3.14)
·. posteriormente, calcular su raíz cuadrada. En el caso multivariante, la expresión matricial

omóloga a (4.3.4), y que trataremos en profundidad en el siguiente tema (ver Sección 5.3.1),
_..._
var (.al X) = n
A -1 (x'x)- n (x'x)-
--;;;:--
1
•
--;;;:-- ,
1
donde n• = 1 n 1
n-(k+l) ¿i=l XiXiéi .
·2
(4.3.15)
Por otra parte, sabemos que para poder calcular el p-valor es imprescindible saber qué tipo
e distribución estadística tiene la Ecuación (4.3.3). En la Sección 4.2.1 comprobamos que
cuando una muestra es suficientemente grande, la distribución muestral del estimador ¡Jj es
aproximadamente una normal con independencia de si los errores del modelo son homocedás-
-icos, y aunque los errores sigan una distribución alejada de la distribución normal. Por tanto,
bajo la hipótesis nula que estamos considerando, al dividir por el error estándar, tendremos
ue el estadístico tipo t se distribuirá aproximadamente como una variable aleatoria normal
tándar
Teorema 18. En el caso de datos de sección cruzada bajo los supues-

tos de (4.1.1), (4.1.2), (4.1.3), (4.1.7); y en el caso de datos temporales
bajo los supuestos de (4.1.1), (4.1.2), (4.1.4), (4. 2.3) y no autocorrelación
(4.2.9), entonces a medida que n crece se tiene
de modo que el p-valor para un contraste de dos colas será
p - valor= Pr (IZI > !ti) = 2 (- ltl) .
Por ejemplo, un p-valor inferior al 5 % proporciona evidencia en contra de la hipótesis nula

valor hipotético) en el sentido de que, bajo la hipótesis nula, la probabilidad de obtener un
126 ANÁLISIS DE RE G R ESIÓN LINEAL. INFERENCIA
valor de ¡3j que al menos se aleje de cero lo mismo que se aleja de cero el valor observado de /31
en esta muestra particular, está por debajo del cinco por ciento. Cuando esto es así, decimos
que la hipótesis nula se rechaza con un nivel de significatividad del 5 %. Alternativamente,
podemos también contrastar al 5 % de significatividad simplemente comparando el valor del
estadístico tipo t con ±1, 96, que es el valor crítico para un contraste de dos colas, y rechazar
la hipótesis nula a un nivel del 5 % si ltl > 1, 96.
En general, y salvo que exista un buen motivo para suponer normalidad y homocedastici-
dad, cuando queramos llevar a cabo un contraste tipo t de significatividad de los coeficientes,
y siguiendo los tres pasos esbozados anteriormente, utilizaremos preferentemente el estima-
dor del error estándar robusto a la heterocedasticidad y una regla de decisión basada en una
distribución normal.
Los programas informáticos actuales incorporan todos ellos el cálculo de los errores están-
dar, tanto los robustos frente a la heterocedasticidad como los que no lo son. Es una práctica
común poner debajo de los valores de los parámetros estimados sus correspondientes erro-
res estándar; para ello debe quedar claro qué tipo de errores estándar se están calculando y
utilizando.
4.3.1.3. Intervalos de confianza

También podemos establecer intervalos de confianza de los parámetros estimados. A partir
de la expresión del estadístico tipo t , y fijado un nivel de confianza determinado a priori por
el usuario, podemos escribir
(4.3.16)
donde ivc es el valor crítico a utilizar, que dependerá de cómo estimemos el error estándar
(o
ee 1): en caso de estimarlo por la expresión 4.3.4, usaríamos valores críticos indicados
por la distribución de la t-student; mientras que si optamos por el estadístico robusto a
la heterocedasticidad (4.3.15), usaríamos la aproximación normal. Operaciones básicas nos
conducen a la siguiente expresión
P [01 - ivc x ee (01 ) ::; !31 ::; 01 + ivc x ee (oj)J = 1 - a= confianza. (4.3.17)
Por consiguiente el intervalo de confianza para el parámetro poblacional !31 con el nivel de
confianza (1 -a)lOO es
(4.3.18)
que al nivel habitual de a= O, 05 (es decir, al 5 %), y para el caso general (es decir, usando la
versión robusta a la heterocedasticidad), se convierte para un contraste de dos colas (bilateral)
en
[01 -
1, 96 x ee (01) ,01
+ 1, 96 x ee (01)
J. (4.3.19)
Tema4 127
En cualquier caso, conviene recordar que un intervalo de confianza al 95 3 para un pará-

metro poblacional t iene dos definiciones equivalentes. La primera lo define como el conjunto
de valores que no pueden ser rechazados realizando un contraste de hipótesis bilateral con un
nivel de significatividad al 5 3. La segunda lo define como un intervalo que tiene una pro-
babilidad del 95 3 de contener al verdadero valor del parámetro f3J, es decir, en un 95 3 de
las posibles muestras que pudiéramos obtener, el int ervalo construido contendría al verdadero
valor de f3J. P or este último motivo decimos que el nivel de confianza es del 95 3, dado que
el intervalo construido contiene al verdadero valor en el 95 3 de todas las muestras.
El intervalo de confianza al 95 3 para un parámetro f3J puede ser fáci lmente utilizado
para construir un intervalo de confianza para el potencial efecto de un cambio general en la
variable Xj. Consideremos que Xj cambia exactamente .6.x. El cambio previsto en la variable
Y asociada con este cambio en Xj es f3J.6.x. El parámetro poblacional f3J es desconocido, pero
del mismo modo que construimos un intervalo de confianza para f3J, podemos construirlo para
3j .6.x : uno de los extremos del intervalo de confianza es /3j - 1, 96 x ee (/3j), por lo que el
efecto del cambio .6.x utilizando el valor estimado del parámetro es [/3j - 1, 96 x ee (/3j ) J .6.x ,
y lo mismo sucede para el otro extremo del intervalo de confianza. Por tanto, el intervalo de
confianza para el efecto previsto por una variación .6.x en la variable Xj es:
[/3j .6.x - 1, 96 x ee (/3j) .6.x, /3j .6.x + 1, 96 x ee (/3j) .6.xJ . (4.3.20)
Ejemplo 13. Caso de la mortalidad infantil

Consideremos que en la actualidad el nivel educativo , el nivel per cápita y el grado de concen-
t ración de la renta a lo largo de la población son t res factores que explican la tasa de mortalidad
infantil de un país. Con datos elaborados por Naciones Unidas en su informe sobre desarrollo hu-
mano elaboramos la siguiente estimación sobre la t asa de mortalidad infantil (muertes de niños
menores de cinco años por cada cien mil nacidos):
ln(mo;¡;;j:¡d,adi ) = 8,92- O,llestudiosi- 0,62 ln(ingresosi)+O,Ol4GINii, (4.3.21)

(0,025) (0,067) (0,005)
2 -2
n = 144,R = 0,84,R = 0,84.
Lo primero que nos interesa es contrastar la signifi catividad de los paramétros de l modelo.
Puesto que el número de observaciones es sufi cientemente grande , util izamos los errores es-
tándar (ee) calculados según la expresión robusta a la heterocedasticidad (4.3.15), que aparecen
entre paréntesis debajo de los parámetros estimados. Recordemos que los valores críticos de una
normal tipificada al 5 % de significatividad es Zo,025 = 1,96 y para el 1 % Zo ,005 = 2, 58 para un
contraste bilateral (de dos colas , como los que vamos a realizar en este caso) .
El valor empírico del contraste tipo t para la va riable explicativa que incorpora los años de
estudios completados (escolarización ) es -4,40 (t f3· . = -0, 11 / O, 025 = - 4, 40); por consi-
estudios
guiente es significativamente distinto de cero al 99 % de confianza . Supongamos que Naciones
Unidas desea promover una serie de acciones encami nadas a reducir la tasa de mortalidad infantil.
Inicialmente , Naciones Unidas qu iere sabe r cu ál sería el impact o sobre la tasa de mortalidad si la
128 A NÁLISIS DE R EG RESIÓ N LI NEAL. I NFE RENCIA
acción que quiere llevar a término se centrara en aumentar los años de escolarización de la pobla-
ción. El efecto parcial de un incremento de un año de escolaridad, es decir, el efecto sin modificar
el nivel de ingresos per cápita de la población ni el índice de concentración de la renta sería una
disminución del 11 % de la tasa de morta lidad infantil por cada cien mil nacidos vivos (~Y% =
100/:Jestudios ~X ) . Es importante apreciar la diferencia entre una disminución del 11 % en la tasa de
mortalidad infantil y la disminución de 11 puntos en la tasa de mortalidad infantil. Por ejemplo, si
la tasa de mortalidad infantil en Guinea es de 146, un decremento del 11 % hace que la mortalidad
infantil pase a 130 [146·(1-0,11) = 129 ,94], que no tiene nada que ver con disminuir 11 puntos en
la tasa de mortalidad infantil. Podemos igualmente construir un intervalo de confianza al 95 % uti-
lizando la expresión (4.3.19):[-0, 11 - 1, 96 · O, 025 , -0, 11+1, 96 ·O, 025] = [-0 , 159, -0, 061].
Utilizando este intervalo podemos construir un intervalo de confianza al 95 % para el efecto pre-
visto que tendría sobre la tasa de mortalidad infantil la acción de aumentar en un año el tiempo de
formación de la población. En tal caso, a partir de (4 .3.20) tendríamos que la tasa de mortalidad
se reduciría entre un 15 ,9 % y un 6,1 %.
Los ingresos per cápita , medidos en términos de paridad de poder adquisitivo , arrojan un valor
empírico del contraste tipo t de -9 ,25 (t f3- = -0, 62/ 0, 067 = -9, 25), que es mayor, en
ingresos
términos absolutos, que los valores críticos (1, 96 y 2,58) , tanto al 95 % como al 99 %, de manera
que el parámetro poblacional también es significativamente distinto de cero. En caso de que la
acción que Naciones Unidas quiere desarroll ar consiguiese elevar en 1 % los ingresos per cápita,
y manteniendo constantes (controlando, si n variar) los niveles de concentración de la renta y los
años de escolarización , generaría un descenso del 0,62 % de la mortalidad infantil, considerados los
efectos de las otras variables.
El índice de GINI es una medida de concentración de la renta per cápita, de modo que si el
ingreso per cápita se distribuye igualment e por toda la población, entonces el índice es nulo . Si
por el contrario toda la riqueza la detenta un solo individuo, entonces su valor es 100. El valor del
parámetro estimado es positivo , de manera que a medida que la renta se distribuye menos iguali-
tariamente , la mortalidad infantil aumenta . Si la política que pretende desarrollar Naciones Unidas
logra reducir el nivel de concentración de la renta en un 1 punto, entonces, manteniendo constan-
tes los años de escolarización y el nivel de ingresos per cápita, se esperaría encontrar un descenso
de la tasa de mortalidad infantil de un 1,4 %. Esta interpretación se puede realizar toda vez que
rechazamos la hipótesis nula (H o : f3GIN I = O) , es decir, que el parámetro estimado es significativo
ya que el valor empírico que toma el esta díst ico tipo t es 2,80 (tf3- =O, 014/ 0, 005 = 2, 80),
GIN!
superior en términos absolutos al valor crít ico tanto con un nivel de significatividad del 5 % como
del 1 %.
La probabilidad exacta o p-valor es, como hemos visto, el valor exacto mínimo , en términos
de significatividad (a ) del contraste , que permite rechazar la hipótesis nula (Ho : /3j =O) . Dicho
de otra forma , el p-valor nos da el nivel de significatividad exacto para el cociente /:Jj / ee (/:Jj)
en un contraste bilateral. Por ejemplo el p-valor del parámetro estimado del índice de GINI en
el ejemplo anterior es 0,0051, lo que significa que tenemos ese nivel exacto de significatividad
o del 99,489 % en términos de confianza [(1 -0 ,00511026)100 = 99,489 %] de que el verdadero
parámetro poblacional f3c I N I sea distinto de cero. Este valor habitualmente lo proporcionan los
programas informáticos especializados.
Tema4 129
4.3.2. Contraste de hipótesis sobre dos parámetros

Hasta el momento hemos considerado realizar inferencia estadística para un parámetro.
Hemos estimado puntualmente parametros, hemos construido intervalos de confianza y hemos
contrastado hipótesis, pero lo hemos hecho para cada parámetro considerado individualmen-
te. Nos preguntamos ahora cómo contrastar una hipótesis sobre una combinación lineal de
parámetros. A modo de ejemplo, consideremos que estamos interesados en contrastar si el
efecto de dos de las variables explicativas del modelo es el mismo sobre la variable a explicar.
En este caso la hipótesis a contrastar es
Ha : f3i = {Jí, i =/= j

(4.3.22)
Hl : f3i =/= {Jí
que podemos escribir de forma equivalente como
Ha : f3i - (3í = O,
(4.3.23)
Hl : f3i - {Jí =/= O.
Existen varias alternativas para realizar este contraste; cuál usar dependerá posiblemente
del programa informático que se utilice. La primera de ellas recurre directamente al estadístico
tipo t de la expresión (4.3.1)
/Ji - /3j - o
ee (/Ji - /3j)
pero en ese caso deberíamos calcular
Actualmente bastantes programas informáticos proveen al usuario de la estimación de matriz

de covarianzas de los parámetros estimados, por lo que sustituiríamos en esta última expresión
por sus contrapartidas muestrales que nos da el programa.
La segunda alternativa consiste en realizar una transformación sencilla en la especificación
de la ecuación a estimar. Supongamos que la ecuación original que deseamos estimar es
sumando y restando f32X 1i, se transforma en
Yi = f3a + f31X1i - f32X1i + f32X2i + f32X1i + E:i

= f3a + ({31 - f32) X1i + f32 (X2i + X1i) + E:i
= f3a + 11X1i + f32 Wi + E:i,
donde ri = ({31 - f32), Wi = (X2i + X1i). Bajo la hipótesis nula (4.3.23), 11 = O, mientras
que bajo la alternativa. 11 =/= O. Este método requiere por tanto construir la variable suma
Wi, luego hacer la regresión MCO simplemente respecto de las variables X 1i, Wi, y realizar el
contraste de la t para el parámetro /'l ·
Ambos métodos son equivalentes y aptos para contrastes de dos colas.
Siguiendo el patrón indicado por la expresión general (4.3. l ), también podríamos utilizar
ambos métodos para contrastar hipótesis del tipo
Ha : f3i + (3j = e
H1 : f3i + (3j =/= c.
O en términos más generales, cualquier combinación lineal:
bajo varias hipótesis alternativas posibles
o
H 1 : c1f3i + c2f3j > c.
En todos los casos el estadístico de cont raste se construye como un ratio tipo t:
(c1f3i + c2 f3j) - e
ee ( c1f3i + c2f3j)
que se distribuirá asintóticamente como una normal si utilizamos errores estándar robustos.
Ejemplo 14. Salarios en el sector turístico

A partir de la encuesta de la estruct ura salarial española de 2006 , hemos seleccionado datos
del sector turístico y hemos estimado la regresión
--
ln(salarioi) = 1, 69
(0,023)
+ O, 07 estudiosi + O, 01 ant.i
(0,003) (0,0006)
+ O, 04 edadi
(0,005)
+ O, 09 tamañoi,
(0,006)
donde la variable dependiente es el «logaritmo del salario hora » en euros corrientes de 2006 ; la
variable «estudios » es el nivel de estudios terminados; la variable « antigüedad » está medida en
años de pertenencia a la empresa ; la varia ble « edad » (en décadas : 1 si tiene menos de 20 años,
2 entre los 20 hasta los 29 años ... , 6 si tiene más de 60 años) pretende aproximar el efecto de
la experiencia laboral; la variable « tama ño» se refiere al tamaño de la empresa (1 si la empresa
tiene menos de 50 trabajadores; 2 entre 50 y 199; 3 más de 200 trabajadores). Como el número de
observaciones es superior a 120 y los datos son de sección cruzada, utilizamos los errores estándar
robustos a la heterocedasticidad, de ma nera que el valor crítico para contrastes de dos colas es
1,96 y 2,58 al 95 % y 99 % de confianza , respectivamente. Como se puede comprobar, todas las
variables son significativas incluso al 99 % de confianza. Puesto que la variable dependiente está en
logaritmos y las variables independientes en niveles, multip licando por 100 los parámetros estimados
Tema4 131
Tabla 4.1: Matriz de covarianzas

Estudios Tamaño
Estudios 0,00000615 -0,00000140
Tamaño -0,00000140 0,0000317
t enemos aproximadamente la variación porcentual esperada para la variable dependiente. Así, si

ncrementamos en una unidad el nivel de estudios terminados, el modelo predice un incremento
del salario hora del 7 % si todos los demás factores permanecen constantes . El tamaño de la
empresa también influye en el salario, en el sentido de que si un trabajador pasa de una empresa
pequeña (menos de 50 trabajadores) a una mediana (entre 50 y 200 trabajadores), el modelo
predice un incremento de las retribuciones del 9 % si el resto de variables especificadas no varía.
Nos preguntamos si a nivel poblacional el efecto que tiene el tamaño de la empresa sobre el salario
hora es igual al que tiene la formación académica, es decir, si
Ha : f3tam. = f3estudios
(4.3.24)
H1 : f3tam. i- f3estudios
Rechazamos la hipótesis nula si
t .. ~
. __ /:Jtam. - /:Jestudios
~~~~~~~~ > l ' 96 (4 .3.25)
f3tam -f3estudios (/3• •
ee tam. - 13estudios
)
El numerador es 0,09 - 0,07 = 0,02 . El denominador lo obtenemos utilizando la matriz de varianzas

y covarianzas de los coeficientes De manera que el denominador es
ee ( /:Jtam. - /:Jestudios) = Jo, 0000317 +O, 00000615 - 2 · (-0, 00000140) = O, 00638

Por consiguiente, la t empírica es
t. .
f3tam. -f3estudios
=
Q
o, 2
º- 3 13
00638 - ' '
(4.3.26)
'
por lo que rechazamos la hipótesis nula de igualdad de efectos entre el nivel de estudios y el
tamaño de la empresa. Es importante distinguir entre « coeficiente mayor » y « mayor influencia»
de la variable explicativa . Ya vimos que para determinar cuál de las variables explicativas tiene
mayor influencia sobre la variable dependiente lo mej or es recurrir a los coeficientes beta que
comentamos en la Sección 2.3.5. En este caso, tales coeficientes indican que la variable que más
influye sobre el logaritmo del salario es el nivel de estudios concluidos.
4.3.3. Contraste de hipótesis conjunto: estadístico de la F

Por contraste de hipótesis conjunto nos referimos a un contraste cuya hipótesis nula impo-
ne, a diferencia del contraste tipo t , dos o más rest ricciones sobre los coeficientes o parámetros
de la regresión. Supongamos que queremos contrastar si de un total de K = k + q variables

explicativas, q de estas variables, digamos f3k-q+l a f3k, influyen conjuntamente en la variable
dependiente a explicar. La hipótesis nula y alternativa en una ecuación de regresión múltiple
quedarían del siguiente modo
Ho : f3k-q+1 = f3k-q+2 = .. . = f3k = O

(4.3.27)
H1 : una o más de las q restricciones de Ho no se cumple,
es decir, si al menos una de las restricciones previstas en la hipótesis nula es (son) falsa(s) ,
entonces la propia hipótesis nula es falsa.
De igual manera que en el caso de los contrastes tipo t, planteamos dos alternativas en
función de los supuestos con los que configuremos el modelo de regresión. No obstante, antes
de presentar las dos alternativas nos planteamos la posibilidad de utilizar q estadísticos tipo
t para contrastar la hipótesis nula planteada.
Para ello consideremos, por simplicidad, que q = 2. Sea t1 el estadístico tipo t para con-
trastar la hipótesis nula de que f3k =O, y sea t2 el estadístico tipo t que nos permite contrastar,
también individualmente, que f3k+ 1 = O. Podemos intentar utilizar estos estadísticos t1 y t2
para elaborar un contraste de hipótesis del siguiente modo: rechazar la hipótesis conjunta nu-
la, Ho = f3k = f3k+l =O, si t 1 o t2 sobrepasan en valor absoluto 1,96. En ese caso estaríamos
usando dos variables aleatorias, t1 y t2, caracterizadas por una distribución muestral conjunta.
A medida que el tamaño muestra! aumenta, sabemos que bajo la hipótesis nula conjunta los
estadísticos t1 y t2 tendrán una distribución normal bivariante, donde cada estadístico tipo t
tendrá media cero y varianza unitaria.
Consideremos el caso más sencillo de distribución bivariante, que es cuando los estadís-
ticos t1 y t2 no están correlacionados y son independientes. ¿Cuál será entonces el tamaño
del contraste, es decir, cuál es la probabilidad de rechazar la hipótesis nula cuando esta es
verdadera? En este caso, la hipótesis nula no se rechaza si it1i :'.S 1, 96 y it2i :S 1, 96. Dado que
ambos estadísticos son independientes, tendremos que
Pr(it1i :'.S 1, 96, it2i :'.S 1, 96) = Pr( t1i :'.S 1, 96) x Pr(it2i :'.S 1,96) = 0, 95 2 = 0, 9025;
por tanto, la probabilidad de rechazar la hipótesis nula cuando esta es verdadera será 1-0,9025
= 9,75 %. Es decir, rechaza la hipótesis nula mucho más frecuentemente que lo previsto en
el nivel (bajo la hipótesis nula) que hemos usado del test (5 %). Esto es así porque si no
logramos rechazar la hipótesis nula usando t 1, todavía podemos rechazarla usando t2. En
tal caso decimos que el contraste (test) tiene un tamaño erróneo. De hecho, utilizando los
estadísticos ti y t2, al nivel del 5 %, podríamos construir regiones o conjuntos de confianza
(que también serían incorrectos) del mismo modo que previamente construimos intervalos de
confianza. Obsérvese que en tal caso el conjunto de confianza para los dos parámetros sería
de la forma:
{ (f3k, f3k+1) : ~k - 1, 96 x ee (~k) < Bk < ~k + 1, 96 x ee (~k)

~k+l - 1, 96 x ee (r3k+l) < f3k+l < ~k+l + 1, 96 x ee (~k+l)} , (4.3.28)
Tema4 133
que define como conjunto de confianza a un rectángulo cuyo centro sería el punto (/3k, /3k+l),
y no un intervalo, como sucedía en el caso de un solo coeficiente. En caso de utilizar esta región
o conjunto de confianza (incorrectos en términos del tamaño por definir la región a partir de
estadísticos tipo t), si el par de valores estimados fuera un punto interior del rectángulo, no
rechazaríamos la hipótesis definida como nula.
Una posibilidad para corregir este comportamiento erróneo consiste en ajustar los valores
críticos de ambos contrastes tipo t a fin de ajustar el tamaño del test. La cuestión se complica
aún más cuando ambos estadísticos están potencialmente correlacionados. Afortunadamente,
existen otras formas de realizar el contraste conjunt o más accesibles, y para ello utilizaremos
estadísticos tipo F, como veremos a continuación, que facilitarán la construcción de conjuntos
de confianza correctamente definidos.
4.3.3.1. Caso teórico particular: condiciones de homocedasticidad y normalidad

Restricciones de exclusión
La hipótesis nula conjunta11 puede interpretarse como sigue: nos preguntamos si imponer
q restricciones hace que el ajuste empeore significativamente (esto es, más allá de la variación
aleatoria muestral) respecto al modelo sin restricciones. En este sentido entederemos que el
ajuste empeora si la suma cuadrática de los residuos del modelo aumenta.
Para realizar el contraste en estos términos debemos establecer dos ecuaciones: la ecua-
ción no restringida (o sin restricciones) y la ecuación restringida por las q restricciones que
caracterizan a la hipótesis nula. Esto nos daría dos ecuaciones o modelos:
Ecuación restringida: Yi = f3o + f31Xli + f32X2i + ... + f3k-qX (k-q )i + EiR , ( 4.3.30)
de los que tenemos que calcular las sumas cuadráticas de sus respectivos residuos. Para saber si
la variación de las sumas cuadráticas de ambos modelos es o no estadísticamente significativa
bajo la hipótesis nula, utilizamos el estadístico de contraste siguiente:
SCRR-SCRNR
q
SCRNR --n---'-ª--- '""Fq ,n-k-1· (4.3.31)
n-k-1 ¿; e;NR
i =l
n-k- 1
CRR es la suma cuadrática de los residuos de la ecuación restringida y SCRNR la suma

al cuadrado de los residuos de la ecuación sin rest ricciones. Como necesariamente SCRR -
CRNR >O, la expresión (4.3.31) es positiva. Además, como estamos en el caso teórico en que
:os residuos se distribuyen normalmente y están elevados al cuadrado (tanto en el numerador
como en el denominador), entonces la expresión en su conjunto se distribuye, por definición de
:a distribución F, como una F de Snedecor con q, n-k-l grados de libertad. El numerador está
dividido por el número de restricciones, es decir, la diferencia entre el número de grados de
11
Los resultados de este epígrafe son tratados en mayor detalle en la Sección 5.1.4.3.
134 ANÁLISIS DE REGRESIÓN LINEAL . INFERENCIA
Figura 4.3.4: F de Snedecor, con 4 y 27 grados de libertad

..
•..
•..
._,
Rechazo H0
o:
Área=0,05
...
F4 21.0 ,os =2,73
libertad de la ecuación restringida menos los grados de libertad de la ecuación sin restricciones
[g.l. restringida = (n - k + q- 1) - g.l. irrestricta = ( n- k- 1) = q]. El denominador, por su
parte, está dividido por el número de grados de libertad de la ecuación irrestricta; dicho de
otra forma, el denominador es el estimador insesgado de la varianza residual de la ecuación
no restringida. Rechazamos la hipótesis nula si
SCRR-SCRNR
--s~c=R_,_
q _N_R__ > Fq,n-k-1 ,a · (4.3.32)
n-k-1
La Figura 4.3.4 muestra la distribución de la F y las zonas de aceptación y rechazo de

la hipótesis nula con un nivel de confianza del 95 3, utilizando 4 grados de libertad en el
numerador y 27 en el denominador.
Ejemplo 15. Demanda de cerveza
Con datos de la encuesta continua de presupuestos familiares entre el primer cuatrimestre
de 1998 y el último de 2005 queremos est imar la ecuación de demanda de cerveza . Para ello
inicialmente observamos que el escenario de estimación contiene muy pocos datos de naturaleza
temporal , en particular n = 32. El pequeño tamaño de la muestra desaconseja utilizar errores
estándar distintos de los indicados para el caso de homocedasticidad y normalidad . Con todo,
ambos supuestos deberán ser contrastados estadísticamente en una fase posterior 12 . La estimación
la realizamos por MCO; los resultados son
ln ( cantT'daJ;erveza) = -10, 27 - O, 815 ln (preciocerveza) + 1, 383 ln (Y D)

(1,89) (0,356) (0,211)
- O, 053 ln (cantidadvino calidad) - O, 060 ln (cantidadvino mesa) (4.3.33)
(0,0345) (0,134)
n = 32, R 2 =O, 7052, R2 =O, 6615, SCR =O , 1397.
12
Este tipo de contrastes se realizarán sobre los residuos del modelo y se tratarán posteriormente en este libro. Del
mismo modo sería necesario contrastar el supuesto de no autocorrel ación en el error, al tratarse de datos temporales .
Tema4 135
De este modo, se relaciona la cantidad de cerveza consumida con su precio , la renta disponible
y con bienes sustitutivos como el vino de calidad y de mesa. Las cantidades y la renta disponible
están en términos per cápita, y los precios en euros constantes de 2005 . Todas las variables están
en logaritmos, de manera que se trata de un modelo de elasticidades constantes. Todos los signos
son los adecuados según prevé la teoría. El va lor crít ico al 95 % de confianza es 2,05(t27,o,025 =
2, 05) de manera que el precio de la cerveza y la renta disponible son significativos. Sin embargo,
tanto el vino de calidad como el de mesa no son ind ividualmente significativos. Nos preguntamos
si conjuntamente lo son. Para ello estimamos la ecuación restringida siguiente:
ln ( canti-¡¡;;¡;;,rveza) = -9, 67 - O, 672 ln (preci o cerveza) + 1, 312 ln (Y D) (4.3 .34)

n = 32 R2 =O 6567 R 2
=O 6330 SCR =O 1627
' ' ' ' ' '
El valor crítico con el 95 % de confianza es 3,35 ( F2,27,0,05 = 3,35) y la F empírica es
0,1627-0, 1397
--,o,...,,1'"""~=97=--- = 2 , 22 · (4.3.35)
-w-
En definitiva , después de descontar los efectos del precio de la cerveza y de la renta disponible,
no podemos rechazar la hipótesis nula (H o : f3vinocalidad = f3vinomesa = O) , puesto que el valor
em pírico (2,22) es menor que el valor crítico (3,35) . En consecuencia las variabl es «vino de calidad »
y «vino de mesa » son estadísticamente no significativas de forma conjunta.
Aunque en este caso el diagnóstico del contra ste individual o de la t coincide con el contraste
conjunto o de la F, esto no ocurre siempre así y en ocasiones la significación conjunta arroja
resultados diferentes de los individuales . Normalmente la razón se encuentra en la existencia de
multicolinealidad no perfecta entre las variables, lo que impide a menudo medir el efecto parcial
e las variables. Este contraste de restricción múltiple se suele usar cuando la s variables del grupo
oe exclusión están muy relacionadas.
Si tomamos como hipótesis nula Ho : f3J = O podemos realizar el contraste individual a partir
e la F; de hecho, como probamos en el siguiente t ema , el contraste de la t el evada al cuadrado se
::omporta como una F con n - k - 1 grados de libertad, es decir, t 2n -k-l = F1,n-k-1 de manera
ou e los dos métodos nos llevan al mismo resultado . En todo caso el contraste de la tes más versátil
:Jara el contraste individual dado que es más fácil de calcular, y permite hacer el contraste de una
sol a cola .
Veremos que, en cierto escenario , el contraste de la F se podría calcular usando el R 2
SCR3-SCRr-rn R'J,,rR-Rh_
q
_ _ q_ _ rv Fq ,n-k-1· (4.3.36)
SCRNR l-R'J,,r 8
n-k-1 n-k- 1
=:sta expresión es práctica puesto que el R 2 aparece en todos los programas informáticos, y los
cálc ulos resultan más sencillos. A continuación realizamos los cálculos para el ejem plo de la de-
11anda de cerveza
R'J,,rR-R1 0,7052-0,6567
-1-----'~"-=-Ft-R- = -l~---:0,.=,~7=0=
52~ = 21 22 · (4.3.37)
n-k-l 32-4-1
136 A NÁLISIS DE REG R ESIÓN LINEAL. I NFE RENCIA
El cálculo del p-valor , o probabilidad exacta min1ma con la que rechazamos la hipótesis nula ,
también sale generalmente por defecto en los programas informáticos econométricos, y es aplicable
de igual manera que en los contrastes individuales. Además nos da una idea clara de la fuerza o
debilidad del contraste respecto de la hipótesis nula. En este ejemplo, respecto de las variables
vino de calidad y de mesa , el p-valor = 0,1281, de manera que podemos rechazar la hipótesis nula
(H o : f3vinocalidad = f3vinomesa = O) con el 87,20 % de confianza [(1-0 ,1281)100 = 87,20].
Significatividad conjunta
Los programas informáticos realizan de forma rutinaria el cont raste de significatividad
conjunta de la regresión planteada. Es decir se aplica la F a la hipótesis nula siguiente
Ho : /31 = /32 = ... = f3k = O, (4. 3.38)
versus la alternativa
H1 : /3j f. O, por lo menos para un j, donde j = 1, ... k;
dicho de otra forma, se cont rast a la hipótesis nula de que ninguna de las variables explicativas
afecta estadísticamente a la variable explicada. El estadístico de cont raste es
SCE R2
- k- T F (4.3.39)
SCR = l- R 2 ---+ k,n-k-1,
n-k-1 n-k-1
y rechazamos la hipótesis nula al nivel de confianza (1 - a) lOO si el valor de la expresión

(4. 3.40) es mayor que el valor crítico de tablas F k ,n-k- 1,a·
En el ejemplo de la demanda de cerveza, de la expresión (4. 3.33) tenemos que
R2 0,7052
l-kR2 = 1~2 = 16, 15 . (4.3.40)
n-k- 1 27
El valor crítico es 2,73 ( F 4,27,0,05 = 2,73) de manera que rechazamos la hipótesis nula, y las
variables explicativas de la regresión son conjuntamente significativas. El p-valor es inferior a
o,0001.
4.3.3.2. Caso general: heteroceda sticidad

Las expresiones que hemos desarrollado para el caso teórico de homocedasticidad son fá-
ciles de calcular y especialmente ofrecen una interpretación int uitiva (también didáctica) en
términos de la bondad de los ajustes de los modelos restringidos y no-restringidos 13 . Desafor-
t unadamente, estas fórmulas solo son ciertas si los errores son homocedásticos. La homoce-
dasticidad no es realmente operativa para los conjuntos de datos con los que habitualmente se
trabaja en las ciencias sociales, en particular para datos de contenido económico, por lo que
en la práctica no podemos considerar que los estadísticos F calculados bajo homocedasticidad
13
El lector interesado puede ampliar su lect ura con la Sección 5.1.4.4.
Tema4 137
sean sustitutos totalmente satisfactorios de los estadísticos F robustos a la heterocedastici-

ad, que presentamos en el siguiente tema en mayor detalle, y que ahora solo indicamos. Sin
embargo, como acabamos de ver anteriormente, pueden resultar útiles en casos en los que el
-amaño muestral sea pequeño.
La expresión matricial general del estadístico tipo F robusto a la heterocedasticidad la
presentamos en el siguiente tema en la Sección 5.4.3, siendo un resultado asintótico, es decir,
para muestras grandes. Dicha expresión considera que los errores estándar se estiman de
:orma robusta. En este contexto general, contrastar una hipótesis de significatividad conjunta
riel tipo (4.3.38) frente a su correspondiente alternativa, es decir, que al menos uno de los k
:oeficientes de las pendientes sea distinto de cero, aunque el término independiente pudiera ser
:.Uerente de cero (bajo Ho, de hecho, sería la media de la variable dependiente) , se realizaría
·.:rilizando la distribución Xk, que es la distribución asintótica del contraste bajo la hipótesis
::mla no significatividad conjunta. Alternativamente, podemos usar una distribución Fk,oo dado
~ue una variable aleatoria distribuida como una Xk es igual a k veces una variable aleatoria
"1' tribuida como una Fk ,oo·
Del mismo modo podríamos considerar un estadístico tipo F con un número diferente de
:estricciones. El estadístico F robusto a la heterocedasticidad para contrastar q restricciones
rlel tipo consideradas en la expresión (4.3.27), que denotamos en esta sección por FqR -
e. tadístico , sería también el indicado según el Teorema expuesto en la Sección 5.4.3, cuya
· tribución asintótica sería una x~
Ff - estadístico ~ x~
~ equivalentemente, en función de la relación asintótica entre ambas distribuciones,
A efectos ilustrativos, indicamos ahora qué forma tendría el estadístico FqR - estadístico,
ue utiliza estimadores de las varianzas robustos a la heterocedasticidad, en caso de dos res-
-riciones (q = 2) del tipo f31 =O, f32 =O sobre la expresión (4.3.27). En tal caso, deberíamos
;>articularizar la ecuación (5.4.1) para esta restricción. El ejercicio analítico de esta particu-
:arización se deja como ejercicio técnico para el lector interesado.
(4.3.41)
que utilizando su equivalencia asintótica, resulta en
donde Pti .t 2 es un estimador de la correlación entre los dos estadísticos tipo t.

Las diferencias entre el uso de esta expresión asintótica y su respectiva distribución exacta
utilizada bajo homocedasticidad en apartados anteriores son esencialmente dos: (1) el proceso
de cálculo del error estándar en los estadísticos t1, t2 es distinto , y (2) utilizamos la tabla
de F2,oo y no la F2,n-k-l· Recordemos a estos efectos que el nivel de significación deseado.
y por tanto fijado por el usuario al contrastar la hipótesis nula, se aproxima al exacto (la
probabilidad de error tipo I dado un t amaño muestral fijo , n) cuando el tamaño muestral
crece, produciéndose una distrosión de tamaño que eventualmente se hace despreciable.
Este desarrollo con dos restricciones t ambién nos permite observar que (ya sea con hete-
rocedasticidad o no) los conjuntos o regiones de confianza serían de la forma
donde el valor de g dependerá de si usamos estimadores robustos o no. Independientemente de

ello, desde el punto de vista geométrico, esta expresión define una elipse, y no un rectángulo
como habíamos visto en la expresión (4.3.28). La posición de la elipse depende del punto
definido bajo la hipótesis nula (en este caso: (¡31 = 0,/32 =O) , y la orientación del signo de
Pt que refleja la correlación entre
1 .t 2 , (J1, ,62).
Por último, es ilustrativo observar que la expresión (4.3.41) se reduce a
p.R =
2
(ti+2 t~) '
en caso de que t 1 y t2 no estén correlacionados. Esto es, el estadístico Ff sería entonces un
promedio de cuadrados de estadísticos tipo t. La distribución del mismo dependerá de los
supuestos que hayamos hecho sobre la distribución de los errores del modelo. En este caso
particular, la región o conjunto de confianza será
es decir, una circunferencia centrada en los valores hipotéticos de la nula (/31 =O, {h =O), y
el radio vendría determinado por el valor de tablas de la F obtenido para H ,9 .
Como decimos, esto es una mera ilustración que nos permite entender que en el caso general
en que los estadísticos tipo t estén correlacionados, la fórmula (4.3.41) permitiría ajustar
(correctamente) este tipo de correlación para el caso de un contrastre con dos restricciones.
En el siguiente tema tratamos de modo avanzado cuál sería la expresión general en caso de
más restricciones.
También se obtiene de forma particular que en caso de una única restricción (q = 1, /31 =O)
se llega a Ff =ti,
donde ahora estamos utilizando los estimadores robustos del tipo (4.3.14).
Esto nos lleva de nuevo a la relación ya comentada entre el estadístico tipo t y el F.
Desde el punto de vista más aplicado, los programas informáticos especializados suelen
traer por defecto preseleccionado el cont raste no robusto, por lo que es necesario que el usuario
haga las selecciones oportunas previamente a la realización de la estimación.
Para concluir este amplio apartado dedicado al contraste de hipótesis, indicamos al lector
interesado que puede ampliar la información al respecto leyendo la Sección 5.4. Allí podrá
ver que no solo es posible estimar y contrastar combinaciones lineales de los parémetros, sino
que también es posible contrastar funciones no lineales g( • ) de los parámetros de la regresión.
Tema4 139
Para ello utilizamos el denominado Método Delta que básicamente nos muestra que es posible
linealizar y aplicar sobre la versión linealizada lo aprendido en este apartado respecto al
contraste de hipótesis.
4.4. EJEMPLOS
Estudio de la demanda de café en España

A partir de los datos de la encuesta continua de presupuestos familiares entre el primer
trimestre de 1998 y el cuarto de 2005 , estimamos la demanda de café en España.
ln ( cantid;;Jcafé) = -4, 63 - O, 92 · ln (precio café) + O, 81 · ln (cantidad1eche) (4.4.1)

(2,240) (0,119) (0,137)
+ O, 03 ln (precioté) + O, 41 ln (yd) ,
(0,018) (0,231)
2 -2
n = 32, R = O, 7256, R = O, 6850.
Todas las variables están en logaritmos, de manera que el modelo se interpreta en términos
de elasticidades. Las variables de cantidad están en términos per cápita (la leche y el café en
litros y kilos per cápita), los precios están en euros constantes de 2005 (deflactados por el
índice de precios al consumo), la renta disponible per cápita en miles de euros constantes de
2005. En todo caso, la interpretación de los parámetros se hace en términos porcentuales de
manera que las unidades de medida de las variables a estos efectos es irrelevante.
Recordemos que los coeficientes estimados nos indican el efecto parcial que tiene sobre la
variable a explicar, una vez que hemos controlado (o descontando) los efectos que tienen el
resto de variables a la derecha del igual sobre Ja misma. Una cuestión económica importante
es la relación inversa entre la cantidad demandada de café y el precio del mismo. El parámetro
estimado es -0, 92 , que nos sugiere, según esta muestra, una potencial relación negativa en el
modelo poblacional, de acuerdo a lo previsto. Sin embargo, a nosotros nos interesa saber si el
parámetro poblacional es realmente relevante para explicar el comportamiento de la cantidad
demandada de café en España. Para contestar esta pregunta hemos de considerar que hay
otras variables junto con el precio del café que también explican potencialmente la cantidad
demandada de café. De modo que la pregunta que nos interesa resolver sería saber si podemos
rechazar la hipótesis (nula) de que un cambio en el precio del café no tiene efecto alguno sobre
Ja cantidad demandada de café una vez que hemos tenido en consideración (controlando) el
efecto que pueden tener sobre dicha cantidad demandada la renta disponible per cápita y la
cantidad de leche consumida per cápita.
Tal y como hemos planteado la hipótesis, por una parte, sabemos que la podemos contras-
tar fácilmente con el modelo estimado por MCO. Sin embargo para hacerlo adecuadamente,
y siguiendo los tres pasos esbozados en apartados anteriores sobre como contrastar hipótesis,
es necesario establecer la hipótesis alternativa H 1. En este caso dada la relación inversa entre
precios y cantidades podemos establecer una hipótesis alternativa que defina un contraste de
un sola cola: contrastamos la hipótesis nula de elasticidad precio del café igual a cero Ha:
!3precio café = O frente a la alternativa negativa H1: f3precio café< O. A efectos meramente
ilustrativos hemos considerado que se satisfacen los supuestos de Gauss-Markov para datos
temporales, por lo que utilizamos los errores estándar no-robustos. Además, la escasez de
datos así lo sugiere.
Tal y como hemos calculado el error estándar y dados los grados de libertad (27 = 32-5),
la distribución que tenemos que utilizar para realizar el contraste tipo t es la distribución
t de student. El valor crítico al 95 % de confianza (o al 5 % de significati vi dad) es para un
contraste con una H1 : f3precio café< O, es -1,70 -t21,o,05 = -1,70. El valor empírico del
cociente entre el parámetro estimado y su error estándar es (-0, 92/0, 119) = -7, 73, por lo
que al ser -7, 73 < -1 , 70, rechazamos la hipótesis nula de elasticidad nula del parámetro
poblacional del precio del café, en favor de la hipótesis alternativa de elasticidad negativa.
El p-valor en este caso es inferior a 0.1 %; por tanto rechazamos la hipótesis nula con unos
niveles de confianza superiores al 99,9 %.
Dada la conclusión alcanzada con este contraste, podemos decir que cuando el precio del
café se reduce en un 1 % (si no hay variaciones en los precios del té, la renta disponible
y la cantidad de leche consumida, y descontados sus respectivos efectos sobre la cantidad
demandada de café), el consumo de café crecerá un 0,92 %.
La proximidad de este último coeficiente a la unidad nos invita a tratar una cuestión
económica interesante: saber si podemos (a la luz de los datos) considerar que el café es
un bien inelástico, elasticidad menor que la unidad, o si tiene elasticidad unitaria. Para ello
podemos contrastar la hipótesis unitaria Ha : f3precio café = -1 frente a la hipótesis no
unitaria H1 : f3precio café< -1 a partir de la expresión (4.3.1). El valor empírico sería
.Bprecio café - f3precio café = -0, 92 + 1 = .

0 672 (4.4.2)
'
ee (f3precio café
) o'
119 ,
Como el valor empírico no se encuentra en la región de rechazo, es decir, no es menor que

-1,70, entonces no podemos rechazar la hipótesis nula de elasticidad unitaria.
La relación entre las cantidades demandadas de café y leche consumida es positiva, lo
cual está en sintonía por lo previsto en la teoría de bienes complementarios o bienes que se
consumen conjuntamente. Para contrastar si el parámetro estimado es no significativo (Ho)
frente a una alternativa positiva H1 : í3 cantidad leche> O, calculamos el valor empírico del
cociente .Bcantidad leche/ ee (.Bcantidad leche) = 5, 91, que es mayor que 1,70 al 95 % de
confianza, y tiene un p-valor inferior al 0,1 %, por lo que rechazamos la hipótesis nula con
una confianza superior al 99,9 %. Podemos entonces interpretar que un incremento del 1 %
en la cantidad de leche consumida provoca un incremento de 0,81 % en la cantidad de café
consumida, descontada la influencia del precio del café, del té y la renta disponible.
Té y café son bienes sustitutivos (es decir, si todo lo demás se mantiene constante, en-
tonces cuando aumenta la cantidad consumida de café disminuye la de té, y viceversa), de
manera que con respecto al precio de un bien sustitutivo la teoría establece una elasticidad
cruzada positiva. Dicho de otra forma, el signo del coeficiente estimado para el precio del té
es el esperado. Su t empírica o cociente entre el valor estimado y su error estándar es 1,64
(0,03/ 0,0183) = 1,64) de manera que no podemos rechazar la hipótesis nula Ho : f3precioté =
Tema4 141
O al 95 % de confianza, pero sí al 90 % al ser el t27,o,10 = 1, 31. El p-valor es del 7,9 % por lo

que no podríamos rechazarla al 92, 1 % de confianza . La interpretación sugiere que si el precio
del té aumenta un 1 % entonces la cantidad de café consumida aumenta un 0,03 % siempre
que el resto se mantenga constante (descontada la influencia de las variables incluidas en el
modelo).
Finalmente, respecto de la renta disponible (yd ) también el signo es acorde con el esperado
por la teoría. En cambio, la t empírica es 1,78 (0 ,41 / 0,23 = 1,78), que es inferior en valor
absoluto al valor crítico de 2,05 (contraste de dos colas), de manera que no rechazamos la
hipótesis nula de que «la renta disponible es una variable no significativa» (al 95 % de con-
5anza). Este resultado encaja con el hecho de que el presupuesto de café respecto a la renta
disponible es mínimo, de manera que también parece razonable que incrementos de la renta
apenas influyan en la cantidad consumida.
Las dos últimas observaciones pueden llevarnos a considerar que para la configuración de la
demanda de café podemos prescindir de dos variables teóricas importantes (renta disponible y
precio de un sustitutivo). Sin embargo, antes de estimar uno nuevo, sería necesario evaluar si de
acuerdo a los datos podemos tener confianza en los supuestos que damos por válidos. Para ello
-ería necesario contrastar estadísticamente los supuestos relativos a los errores: normalidad,
homocedasticidad y ausencia de autocorrelación. Este tipo de contrastes (herramientas) se
presentarán más adelante.
Estudio de la función de producción en la economía española

A partir de los datos suministrados por la Contabilidad Nacional, hemos obtenido datos
de producción, empleo y stock de capital de maquinaria, material de equipo y otros, entre
1980 y 2010 en millones de euros del año 2000 , y miles de trabajadores totales medidos en
'ornadas equivalentes a tiempo completo.
Partimos de un modelo poblacional basado en la función de producción de Cobb-Douglas
PI Bt = e· empleo~empleo capitaz~capital ét. (4.4.3)
aplicando logaritmos tenemos
ln (PIBt) = /30 + f3empl eoln(empleot ) + /3capital ln(capitalt) +Et, (4.4.4)
donde ln (e) = f3o. La estimación de la FRP es
ln ( P Í Bt) = O, 72 + O, 59 ln( empleot) + O, 41 ln( capitalt), (4.4.5)

(0,265) (0,04) (0,086)
R 2 =O, 99 , n = 31 , SCR =O, 014094. (4.4.6)
Los errores estándar están calculados , a efectos meramente ilustrativos de la técnica, como
si los supuestos de Gauss-Markov fueran ciertos. El valor crítico del contraste individual al
95 % de confianza es 2,05 ( t28,0 ,025 = 2,05); por consiguiente todos los parámetros estimados
son significativos. El modelo es de elasticidades constantes, de manera que un incremento
del 1 % del empleo manteniendo constante el resto de factores y descontado el efecto del
142 ANÁLISIS DE REGRESIÓN LI NEAL . INFEREN CIA
stock de capital provoca un incremento de la producción de 0,59 %. Un incremento del 1 o/c

del stock de capital descontando el efecto del nivel de empleo y manteniendo el resto de
factores constantes produce un incremento del 0,41 3 de la producción. Un incremento del
1 % conjunto del empleo y del stock de capital tiene el efecto de un incremento del 1 3 en la
producción. La teoría económica postula rendimientos constantes a escala (un incremento del
1 3 en el empleo y el stock de capital provocaría un incremento del 1 3 en la producción) , de
manera que la teoría económica sugiere que
Ho : f3empleo + f3capital = 1 (4.4.7)
o, lo que es igual, que

Ho : /3empleo = 1 - f3capital· (4.4.8)
Sustituyendo (4.4.8) en (4.4.4), llegamos a la ecuación restringida (mínimos cuadrados res-
tringidos):
ln (PIBt) = f3o + (1- f3capital) ln(empleot) + f3capital ln(capitalt ) +Et

= /30 + ln( empleot) - f3capital ln( empleot) + f3capital ln( capitalt) + Et
= f3o + ln(empleot) + f3capital (ln(capitalt) - ln(empleot)) +Et,
es decir,
ln (PIBt)-ln(empleot) = f3o + f3capital (ln(capitalt) -ln(empleot)) +Et·
La ecuación con restricciones es entonces
PIBt )
In ( l
emp eot
= ;Jo + f3capital In (capitalt)
l
emp eot
+ Et, (4.4.9)
cuya estimación es
ln ( Plii; )
empleot
= O 76
'
+ O' 60 1n ( capitalt ) ' (4.4.10)
(0,111) (0,023) empleot
R 2 =O 95·n = 31· SCR =O 014108 (4.4.11)
' ' ' ' .
El número de restricciones impuestas es 1, de manera que el valor de la F empírica, es
SCRR-SCRNR 0,014108-0,014094
q
SCRNR -~o~,0~1~=,.,o,...,.9~
4 -- = O, 027 (4.4.12)
n-k-1 28
y el valor crítico de tablas es 4,20 (F1,28,0,05 = 4,20). Por consiguiente no rechazamos la

hipótesis nula de rendimientos constantes a escala en la economía española durante el periodo
1980 - 2010. Las conclusiones econométricas a las que hemos llegado en este ejemplo son
muy interesantes, pero hemos de considerar al menos dos cuestiones: la primera es que hemos
utilizado estimadores no robustos a la existencia de autocorrelación; y la segunda es que, como
veremos en la Parte III del libro, hay que tener especial cuidado cuando introducimos series
temporales en un análisis de regresión si estas series presentan tendencias.
Tema4 143
4.5. PREDICCIÓN
4.5.1. Predicción con datos de sección cruzada

Después de la estimación de los parámetros o coeficientes del modelo por MCO es habitual
utilizar el modelo estimado para hacer una previsión de la variable dependiente. La predicción
o pronóstico consiste en valorar el modelo estimado para un escenario dado por valores parti-
culares (de interés para el usuario) de las variables explicativas. Es decir, deseamos saber qué
'-alor tomaría la variable dependiente para un vector de variables explicativas determinado y
que denotamos por ( xp, xg, ... , xg) ' y por tanto este vector puede ser entendido como un
cenaría económico. Supongamos que hemos estimado el modelo general siguiente
(4.5.1)
·· que queremos realizar una predicción para los valores particulares de las variables inde-
pendientes xp, xg, ... , xg donde el superíndice o indica valores particulares de las variables
explicativas. La predicción entonces es
(4.5.2)
En el ejemplo del salario hora en el sector turístico español, Ejemplo 3, se reproducen las
predicciones del modelo estimado (2.2.21) para los distintos valores de la variable nivel de
tudios terminados.
El estimador de la predicción o predictor, expresión (4.5.2), es un estimador puntual, y
puesto que lo hemos elaborado a partir de las estimaciones mínimo cuadráticas, expresión
-1.5.1) , está sujeto a variación muestral, es decir, el predictor está sujeto a la variabilidad de
~os estimadores MCO. En consecuencia debemos obtener alguna medida de la incertidumbre
· -ociada al pronóstico realizado.
La varianza del predictor para la regresión simple y bajo el supuesto de homocedasticidad
var (Yº IX)= var (~o+ ~iXf IX) (4.5.3)

= ( 1, Xf )var(f:3 1X) ( 1, Xf )' (4.5.4)
xp ) (x'xr
l xp )'
1
= () 2 ( 1, ( 1, (4.5.5)
2 1 (X 1o - X1
- )2
=O" -+ n ' (4.5.6)
i~
2
[n (X 1i - X1)
onde la última igualdad se obtiene operando algebraicamente y se deja como ejercicio para
::'l lector interesado. Esta expresión para el modelo de regresión simple se puede generalizar
para la regresión múltiple en términos matriciales
var (Yº) = 0"

2
[xº' (x'x)- xº J
1
(4.5.7)
2
= () [ (xº-:X)' (x'xr 1 (xº-x)] , (4.5.8)
donde la expresión x'x indica en esta ocasión que las variables están tomadas en diferencia.<:
respecto de sus medias. Las expresiones (4.5.3) y (4.5. 7) son ilustrativas al mostrar que la
varianza del predictor y, en consecuencia, también sus errores estándar aumentan a medida
que las variables explicativas se alejan de sus respectivos valores medios.
Una forma alternativa de cálculo del error estándar consiste en restar las expresion~
(4.5.1) y (4.5 .2) , de donde operando mínimamente se tiene
(4.5.9
Esta expresión sugiere que el error estándar asociado a la constante en la expresión (4.5.9
coincide con el error estándar del predictor de la expresión (4.5.2), cuya forma de cálculo~
la habitual.
Como hemos dicho, al hacer la predicción cometemos un error que denominamos error
de predicción ; teniendo en cuenta el modelo poblacional, este error será
(4.5.10
La varianza del error de predicción es
var (tº IX )= var (eº)+ var (-Yº), (4.5.11 )
dado que c0 y yo son independientes y el resto de términos de convarianzas entre XJYº ,j =

O, 1, .. ., k se anulan. Si utilizamos ahora la expresión (4.5.3) se tiene
2
Sustituyendo la varianza de los errores var(cº) = <J por su estimador insesgado podemos
estimar
(4.5.12)
Una práctica extendida consiste en establecer un intervalo al 95 3 de confianza. Siguien-

do la regla que ya utilizamos anteriormente, podemos considerar que el valor en tablas es
aproximadamente 2 y, entonces, el intervalo de confianza del predictor sería
l
2 2
Yº ± 2ee(tº) = Yº ± 2 { [ee (Yº) J + 8" 2
} . (4.5.13)
Veamos un ejemplo.
Ejemplo 16. Predicción de los salarios hora del sector turístico

Tema4 145
Con los mismos datos del Ejemplo 14 estimamos un modelo con las mismas variables, pero
con la variable explicada en niveles (y no en logaritmos) . El modelo estimado es
---
salarioi = O, 81
(0,375)
+ 1, 24 · estudiosi
(0,044)
+ O, 17 · antigüedadi
(0,010)
+ O, 89 · edadi + 1, 19 · tamañoi, (4.5.14)

(0,0847) (0,10)
2 -2
n = 5286, R = O, 2394, R = O, 2388, SC R = 176722, 5.
Nos planteamos la previsión del salario hora de un licenciado (estudios = 8) con 35 años de edad
(edad = 3) y cinco de antigüedad en una empresa (ant igüedad = 5) de tamaño mediano (tamaño
= 2). El modelo prevé que aproximadamente sea de 16,74 euros de salario hora (0,8088 + 1,2452 ·8
+ 0,1773·5 + 0,8984·3 + 1,1934·2 = 16,7389) . Un intervalo de confianza para la predicción media
requiere estimar el error estándar del predictor. A tal efecto estimamos la ecuación procedente de
4.5.9) .
s;;;;;:;,-oi = 16, 7389 + 1, 24 · (estudiosi - 8) + O, 17 · (antigüedadi - 5) (4.5 .1 5)

(0,2197) (0,044) (0,010)
+ O, 89 · (edadi - 3) + 1, 19 · (tamañoi - 2). (4.5.16)

(0,0847) (0,10)
Podemos observar que la única diferencia entre esta expresión y la anterior , (4.5.14), se encuentra
en el término independiente (que coincide con la predicción puntual). La expresión (4.5.15) nos
muestra directamente el error estándar del predictor lo que nos permite establecer el intervalo al
95 % de confianza para la predicción individual apl ica ndo para ello la expresión (4.5.13). Ello nos
leva al siguiente intervalo para la predicción individual:
1
2 176 722 5 2
16 74±2{02197
' '
+ ' ' } =16 74±11 58
5286 - 5 ' ' '
(4 .5.17)
que es muy amplio 5, 16 ; 28,32 . La mayor variación deriva de los errores estimados , lo que nos
nd ica que el salario hora depende de otros factores además de los incluidos explícitamente en las
va riables independ ientes del modelo y que se reflej an en el error aleatorio.
Como hemos visto, con frecuencia la variable dependiente es el logaritmo de la variable

objetivo. Se puede demostrar que cuando la variable explicada está en logaritmos, la esperanza
de la predicción en niveles, si se cumplen los supuestos del modelo lineal clásico y el supuesto
de normalidad, es
(4.5.18)
de manera que utilizar el procedimiento de estimar la predicción en niveles a partir de la

expresión Y= exp[ln(Y}] es por tanto incorrecto al subestimar el valor esperado, y debe ser
aj ustado (multiplicando por exp ( a;
2
)) .
146 ANÁLISIS DE REGRESIÓN LINEAL . I NFERENCIA
No obstante, el método previsto por la expresión (4.5.18) es sesgado (pese a ser consistente)
y además depende crucialmente de que los errores de la regresión se distribuyan normalmente.
El problema del sesgo del estimador no se puede tratar fácilmente, sin embargo el de la
normalidad sí es tratable. Sabemos que cuando los errores no se distribuyen normalmente, los
estimadores MCO tienen buenas propiedades. Basta con suponer que el error es independiente
de las variables explicativas para que podamos realizar la predicción consistente a partir de
la siguiente regresión mínimo cuadrática
Y = 'Y exp [l-;y J , (4 .5.19)
donde 'Y es un estimador de exp(é). Este estimador se obtiene en tres pasos:
• Obtener los valores ajustados l~ de la regresión de ln(Y) sobre Xk. k = 1, 2, ... , K.
• Para cada i, calcular G¡ = exp(l~ ) .

• Hacer una regresión simple sin constante de Y sobre c. El coeficiente estimado constituye
la estimación de ¡.
A fin de completar e ilustrar este último aspecto, retomenos el ejemplo anterior.
Ejemplo. 16 (continuación). Predicción de los salarios hora del sector turístico
Los modelos de los Ejemplos 14 y 16 son iguales salvo por el hecho de que la variable explicada
en un caso está en niveles y en otro en logaritmos. Los resultados del modelo del Ejemplo 14 eran
ln ~oi = 1, 69 + O, 07 estudiosi + O, 01 ant.i + O, 04 edadi + O, 09 tamañoi ,

(0,023) (0,003) (0,0006) (0,005) (0,006)
a partir de este modelo, obtenemos G¡ = exp( ln salarioi) para cada una de las observaciones
e
muestrales. Tras regresar salario sobre sin té rmino constante, obtenemos:
S-¡;¡;;;:;,-Oi = 1, 0819 . exp [ln ( S-¡;¡;;;:;,-Oi ) ]

(0,0071)
(4.5.20)
n = 5286, R 2 = O, 2452,
por lo que podemos hacer una predicción del salario por hora para un escenario o sujeto (en este
caso) concreto . Supongamos, por ejemplo, que estamos interesados en la predicción por MCO para
el siguiente contexto económico : trabajador licenciado de 35 años y 5 años de antigüedad en una
empresa mediana . Para ello utilizamos ahora la expresión (4.5.9)
----
ln salarioi = 2, 66 +O, 07 (estudiosi-8)+ O, 01 (ant.i - 5)+ O, 04 (edadi-3)+ O, 09 (tamañoi-:
(0,012) (0, 003) (0,0006) (0,005) (0,006)
Es decir que la predicción del salario hora en logaritmos es 2,66 y a partir de (1,0819·exp(2 ,66)
= 15,47) , la predicción en niveles es de 15,47 euros . El intervalo al 95 % de confianza del salario
Tema4 147
hora para la predicción media en logaritmos es 2,6604 ± 2·0,0123, es decir que se encuentra entre
los valores 2,6358 y 2,685. En niveles será
1, 0819 · exp (2, 6358) = 15, 10

(4.5 .21 )
1, 0819 · exp (2, 685) = 15, 86
el intervalo de confianza de la predicción media (al 95 % de confianza) del salario hora se encuentra
entre los valores 15,10 y 15 ,86 .
El intervalo al 95 % de confianza de la predicción individual, a partir de la expresión (4.5.13)
es
1
554 6005 2
2 66
'
± 2 {o ' 0123 +
2
'
5286 - 5
} = 2 66
'
±o ' 648597. (4.5.22)
Y en niveles, aplicando (4.5.20)
1, 0819 · exp (2, 6604 - O, 648597) = 8, 089

(4.5.23)
1, 0819 · exp (2, 6604 +O, 648597) = 29, 598,
es decir que el intervalo al 95 % de confianza para la predicción individual se encuentra entre ambos
valores . De nuevo nos encontramos con un intervalo de confianza muy grande , consecuencia de
que en la determinación de los salarios intervienen variables explicativas no incluidas en el modelo
estimado y que se reflejan en la desviación típica de los errores estimados.
Aunque la predicción con datos transversales puede ser útil para establecer relaciones entre
fenómenos y por consiguiente también para tomar decisiones económicas y empresaria les de futuro,
en muchas ocasiones disponemos de conjuntos de datos en forma de series temporales. Aunque
la predicción con series de tiempo es una de las cuesti ones centrales de la Parte 111 de este libro,
hacemos ahora una pequeña introducción a este tipo de aproximación metodológica .
4.5.2. Introducción a la predicción con series temporales

Los errores de predicción tienen su origen en una combinación de los siguientes elementos:
l. La propia naturaleza estocástica del proceso, factor imputable igualmente a los datos de
sección cruzada de la sección anterior. Este factor es justamente el que hemos aprendido
a tratar. Incluso suponiendo que el modelo está bien estimado, el error aleatorio y las
varianzas de los estimadores implican errores de predicción.
2. Los valores futuros de las variables explicativas. La predicción está condicionada a sus
valores futuros y normalmente tampoco se conocen a priori. En ocasiones la empresa o la
administración tienen dominio sobre algunas de las variables del modelo. Tal es el caso
del precio en monopolio por ejemplo. pero incluso en este caso el modelo incluirá, casi con
toda seguridad, otras variables que no son controladas (como la inflación. el crecimiento
económico, etc.). En consecuencia la mayor debilidad de los modelos relacionales, en
términos de pronóstico, se encuentra precisamente en la inconcreción de los valores
futuro s de las variables explicativas. Este problema se soluciona, al menos en parte,
utilizando modelos de series temporales (modelos que analizaremos en la Parte 111 del
libro). Pero lo que en principio es su mayor debilidad se puede también interpretar como
su mayor virtud, así podemos sustituir los valores futuros de las variables explicativas
por sus valores más probables (calculados a partir de modelos de series temporales o de
cualquier otra forma) , y también podemos utilizar valores que, pese a ser improbables,
son posibles y que nos permiten realizar predicciones alternativas o por escenarios muy
útiles en el ámbito de la economía y los negocios para tomar decisiones estratégicas.
Los «tests de estrés» del sector financiero son un buen ejemplo, en ellos se plantean
escenarios pesimistas sobre la evolución económica y las medidas necesarias para superar
esos entornos adversos.
3. Mala especificación del modelo. Nunca podemos estar seguros de que el modelo especi-
ficado sea una representación precisa del verdadero modelo poblacional, en este sentido
siempre pueden existir sesgos de especificación. Cómo minimizar los sesgos es objeto
de otro tema. La capacidad predictiva del modelo se evalúa elaborando predicciones a
posteriori , o ex post.
4.5.2.1. Precisión de la predicción con datos de series temporales
Para evaluar la capacidad predictiva del modelo mostramos algunas de las medidas más
usadas:
RECM= (4.5.24)
que no es más que la raíz cuadrada del error cuadrático medio. Su valor dependerá de la
magnitud de la variable pronosticada.
El error medio absoluto es
donde utilizamos el artificio de calcular el error en términos absolutos para que los valores
negativos y positivos no se compensen. Su valor también depende directamente de la magnitud
de la variable.
El porcentaje del error medio en términos absolutos es
n° O ~ O
PEMA = 2_"' yt - yt · 100
nº ~
t=l
y:o
t
que tiene la ventaja respecto de las dos medidas anteriores de no depender de la magnitud de
la variable pronosticada.
La U de Theil o alguna de sus variantes es quizás el estadístico más utilizado para evaluar
Tema4 149
la precisión de la predicción
cuyo valor mínimo es nulo e implica predicción perfecta mientras que su máximo es la unidad,
lo que indica independencia entre la variable observada y la pronosticada.
El error cuadrático medio del numerador se puede descomponer en
nº
nº ~ ( ~o - ~
1 '""' A º) 2= (-Y o - ~-;: º) 2+ (Syo - S-yo )2+ 2 (1- r º) SyoS-y 0,
t=l
donde descomponemos el error en tres partes: error debido a la diferencia entre la media
observada y pronosticada; error debido a la diferencia entre las varianzas y resto de factores. En
consecuencia, podemos calcular el porcentaje del error debido a cada una de estas tres fuentes
de error, siendo r 0 el coeficiente de correlación entre la variable observada y la pronosticada.
El porcentaje de error debido a la diferencia entre las medias es
(?º - Ya
o
r 100. (4.5.25)
1
Ti!i ~
¿_,
(Y:Ot - °f:º)2
t
t=l
El porcentaje de error debido a diferencias entre las varianzas es
2
(Syo - S-y 0 )
o 100. (4.5.26)
1 ~ (Y:Ot - Y:0)2
Ti!i ¿_, t
t=l
Y el porcentaje de error debido a otros factores es
2 (1 - r 0 ) SyoS-yo
o 100. (4.5.27)
1 ~ (Y:ºt - °f:º)2
Ti!i ¿_, t
t=l
·:eamos un ejemplo.
4.5.2.2. Ejemplo: predicción de la demanda de pan

Con los datos de la encuesta continua de presupuestos familiares entre el primer trimestre
e 1998 y el último de 2004 estimamos la siguiente ecuación de demanda,
cat§3!an _ 21
87 _ 4 85 preci°¿an
·6 - ' ' IP
po bl aci n (1,09386) (0,540214)
(4.5.28)
n = 28, R 2 =O, 7562, R2 =O, 7468, SCR = 2, 816094.
La variable explicada, «cantidad consumida de pan per cápita», está medida en kilos, y
el precio en euros constantes de 2005 (JPC2005 = 1). El modelo explica más del 75 3 de la
cantidad consumida y los dos coeficientes son significativos.
La encuesta continua de presupuestos familiares contiene datos de precios y cantidades
también para el año 2005, de manera que podemos realizar predicción a posteriori para ese
año y evaluar la capacidad predictiva del modelo , al igual que antes la intentamos hacer
sustituyendo en la expresión (4.5.28) los precios que se produjeron en los cuatro trimestres de
2005. Los datos se recogen en la Tabla 4.2.
Tabla 4.2: Predicción 2005. Demanda de pan

año. trimestre preciopan/ IPC cantidadpan/poT)la;Ión
2005.1 2,198653 11 ,207
2005.2 2,302801 10,701
2005.3 2,169795 11,347
2005.4 2,201658 11,192
Utilizando la expresión (4. 5. 9) podemos calcular la desviación tí pica de la predicción media

para el primer trimestre de 2005:
catT§i!!an
.,
= l1 21 _
'
4 ' 85 (preci°¿an
IP
_ 2 ' 2)
pobl acion (0,1141 ) (0,540214)
(4.5.29)
n = 28, R 2 =O, 7562 , R2 =O, 7468, SCR = 2, 816094,
cuya predicción puntual es el término constante que coincide con el calculado en la Tabla
4.2 a partir de la expresión (4.5.28). Realizando el mismo procedimiento para los otros tres
trimestres y utilizando la expresión (4.5. 13) para establecer un intervalo al 95 3 de confianza
de la predicción media para cada trimestre, los resultados se reproducen en la Tabla 4.3
Tabla 4.3: Predicción media 2005. Intervalos de confianza (95 3 )

año. trimestre cantidadpan/poT)la;Ión 2·S-y 0 (Y!,ín; Y!,áx)
2005.1 11 ,207 ±0, 2282 10,99; 11,44
2005.2 10,701 ±0, 3283 10,37; 11 ,03
2005.3 11 ,347 ±0, 2028 11,14; 11,55
2005.4 11,192 ±0, 2309 10,96; 11 ,42
La estimación de la varianza residual es 0,1083 (a 2 = SCR / (n - k-1) = 2,816094/ 26 =

0,1083).
El cálculo de los intervalos de confianza de la predicción individual se muestra en la Tabla
4.4.
Cuando analizamos teóricamente los intervalos de confianza del predictor vimos que au-
mentan a medida que nos alejamos de los valores medios de las variables explicativas del
modelo. El precio medio del kilo de pan entre el primer trimestre de 1998 y el último de 2004
Tema4 151
Tabla 4.4: Predicción individual 2005. Intervalos de confianza (95 %)

año. trimestre cantid;;apan/población 2. (sy~ o + 0-2) 1 2 (Yºmín>. yomáx )
2005.1 11 ,207 ±0, 697 10,5 1; 11 ,90
2005.2 10,701 ±0, 736 9,96; 11,44
2005.3 11,347 ±0, 689 10,66 ; 12,04
2005.4 11,192 ±0, 698 10,49; 11,89
:Ue de 2,02 euros. La Figura 4.5.1 muestra los intervalos de confianza de la predicción media
e individual de la demanda de pan estimada, expresión (4.5.28), y cómo, a medida que nos
distanciamos del precio medio , los intervalos de confianza aumentan. Podemos representar
gráficamente los verdaderos valores del consumo. la predicción del modelo y las bandas de los
intervalos de confianza de la predicción individual en 2005: esto es lo que reproducimos en la
Figura 4.5.2.
Figura 4.5. l: Intervalos de confianza para la predicción de la demanda de pan

17
Intervalo Conf ia.nza de
16 la predicción individual
15
14
13
Función de
"O 12 Regresión Muestral
ni
:E 11
'E
~ 10
9 Intervalo Confianza de
la predicci6n media
8
7
6
5
1,2 1,7 2,2 2,7 3,2
precio
La Tabla 4.5 reproduce la cantidad observada y la predicción en 2005.

Podemos cuantificar la precisión de la predicción calculando la raíz cuadrada del error
cuadrático medio , utilizando la expresión (4.5.24)
RECM=
que evita el problema de que los valores positivos se compensen con los negativos.
152 ANÁLISIS DE REGR ESIÓN LINEAL. 1 FERENCIA
Figura 4.5.2: Predicción temporal individual de la demanda de pan

12,0 j // ____
11 ,6 ------............ , ................ .// . / / / , / --
11 ,2
10,8
10,4 -
2005q1 2005q2 2005q3 2005q4
Tabla 4.5: Consumo y predicción

año. trimestre ( cantidadpan / población) ( cantidadpan/ población) error =yo_ yo
2005.1 11,63411 11 ,207 0,427
2005.2 10,77055 10,701 0,070
2005.3 11 ,06020 11,347 - 0,287
2005.4 10 ,82068 11, 192 - 0,371
El error medio absoluto es
EMA = 1 Lt yt - yt nº ~ 1 º ~ ºI = 0, 289.
t =l
El porcentaje del error medio absoluto es
n° y:o _}:O
PEMA =~o~
n Lt
t
y:o
t · 100 = 2, 593.
t= l t
El estadístico U de Theil es
n° 2
~ ¿: (rtº - ~º)
u= t=l = 0,3191 - o 0144
--;==n=º===-----.===
n=
0 ===2 11,077+11,114 - ' .
~ I~ (ytº) ~ t~ (~º)
2
+
Puesto que el valor de la U está acotado entre O y 1 y el valor obtenido (0,0144) podemos
evaluar la precisión de la predicción del modelo como muy buena.
También podemos descomponer el error de predicción en tres componentes:
• Diferencia de medias o porcentaje del error atribuido al factor sesgo de predicción,

expresión (4.5.25):
Tema4 153
(?º-Ya
o
r
100 = 1,603. (4.5.30)
1 ~ (r:ºt - Y.º)
r¡rJL.....,, t 2
t=l
• Porcentaje de error debido a la diferencia de varianzas es
( sY º - s,yo ) 2 100 = 9,503. (4.5.31)

0
1 ~ (r:ºt - Y.º)
r¡rJL.....,, t 2
t=l
• Porcentaje del error debido al resto de fact ores o porcentaje de error en covarianza:
2 (1 - r 0 ) SyoSyo
o 100 = 88, 9 0110. (4.5.32)
i '""n ( y:o
r¡rJL.....,, t
~
_ y:ot
)2
t=l
4.6.1. Insesgadez del estimador MCO. Regresión simple

Teniendo en cuenta que los valores esperados están condicionados a las variables indepen-
dientes en la muestra, y que las X j actúan como si no fueran aleatorias cuando se condiciona
por ellas mismas, entonces las siguientes esperanzas condicionadas proporcionan:
n
L XI
i=l
donde se ha tenido en cuenta que el valor esperado de éi (condicionado a {Xi , X 2, ... , X n})
es nulo por la Suposición 2.
Para el término independiente tenemos
(4.6.1)
y aplicando esperanzas
E (~o) = f3o + E [ (f31 - ~1) X] + E (K)

sabemos que la esperanza de los errores es nula; por tanto
154 ANÁLISIS DE REGRESIÓN LINEAL. l~FERENCIA
4.6.2. Varianzas y covarianzas de los estimadores MCO. Regresión simple

Si
n n n n n
L XiYi L Xi (/31Xi + éi) /31 L XI L XiE i L XiEi
{3'1 -- _i=_l
n
__ i=l
n
~=l + i=~ = /31 + _
i=-~--
i=l
L:xz L:xz
i=l i=l
¿ xz ¿
i=l
xz ¿
i=l
xz
haciendo el cambio de variable
ki.-~
- n
L:xz
i=l
tenemos
n n
/31 = L kiYi = /31 + L kiEi,
i=l i=l
es decir que la varianza es
2
X) = E ( /31 - /31 I X) = E (ti X))
2
var ( /31 I ki ( Ei 1
n n
= L kzE (cz X) = cr2 L kf = :
2
1
i=l i=l L: x?
i =l
ya que E(L.kiéi) 2 = E(k1 2c1 2 + k2 2c22+ ... + kn 2 En 2 + klk2c1c2 + ... + kn-1kncn-lén); por
los supuestos de varianza constante E(i:i 2) = cr 2 y no autocorrelación E(ci, éi') = O, para
i # i' se deduce que E(L.kiéi ) 2 = cr 2 L.ki 2 .
A partir de la expresión (4.6.1) tenemos
var (/lo X) = JE Vo - /lo X)' = JE [ ( /31 - ¡j¡ X) X H = JE [ ( /31 - ¡j¡ X) X + .~«:·IX -

1 1 1 r 1
f: (e:¡¡x)
= E
[
,
( /31 - /31 I X) 2 _
X2+ i=l n + 2 ( /31 - /31 I
,
X) X_ f: (e:;n IX)l
i=l
= JE [ ( lli - /i1 1X) X'] + JE

2
[ .~ ~~ ¡x) l = var (/i1 1X) X 2+ ~
= +- _x2 + o-
2
=
0-2 (nx2 + t
t =l
x2)
t
0-2 t x2
';:'1 t .
¿ x? n n 'f: x? n L: x¡
i =l i= l i=l
A partir de la expresión (4.6.1) tenemos que

Tema4 155
multiplicando a ambos lados por (/31 - f31) y aplicando esperanzas tenemos que
cov (/30./311 x) =JE (/30 - f3ol x) (/31 - 811 x) = -XJE (/31 - f31I x)2
-Xvar (/31 IX) =-X f x;.
2
=
i=l
-1.6.3. Estimador insesgado de la varianza de los errores. Regresión simple

Partiendo de
(4.6.2)
y
Y = f3o + f31X + t (4.6.3)
:estando las expresiones (4.6. 2) y (4.6.3), y operando, tenemos que
Yi = f31xi + (éi - t), Yi =(Yi - Y), Xi= (Xi - X). (4.6.4)
:::xpresión que sustituimos en
· llegamos a
Ei = f31xi + (Ei - t ) - /31xi·
:i consideramos la suma de 1 hasta n del cuadrado de la expresión, se obtiene:
i~ ET = i~ [(éi -
2
€) - Xi (/31 - f31)] =
= i~ [ (éi - €)
2
+ XT (/31 - f31 2 (éi - r- €)Xi (/31 - f31)]
= i~ [ (éi - €)
2
+ XT (/31 - f31 2 (éi - r- €)Xi (/31 - f31)]
· tomando esperanzas, implícitamente condicionadas a la variable independiente, obtenemos
JE (t ET)= [t
i=l
JE
i=l
(éi -€) + t xf- 2 (/31-!31) i=l
(/31 -!31) i=l
2
t (Ei - t) x¡]
2
(4.6.5)
[i~ (éi - €) ] +JE (/31 - f31) i~ XT - 2JE [i~ (/31 - f31) (éi - E) Xi] ·
2 2
=JE
a primer sumando de la última expresión es
JE[t (Ei -
i=l
[.t (ET+
€)
2
] =JE
i=l
€
2
- 2Eit)] =JE [t ET+
i=l
nt2 - 2€ t
i=l
Ei]
[t ET+
=JE
i=l
t nt2 - 2tnn- 1
i=l
éi] =JE [t ET+
i=l
nt2 - 2nt2 ]
~ [,~ ,¡ - nt'] ~ l•~ ,¡ -

E E n (Et)']
=JE [t ET-~ ¿.n no-
i=l i=l
ET]= 2
-o- 2 = (n- l)o- 2 ;
el segundo
2 n n 2 n
JE /31 - /31 )
( ' ~
" " xi2 = var (/31 ~
' )" " xi2 = - n- ~
(7 - " " xi2 = ü 2,
i=l i=l
i=l
¿ x; i=l
y el tercero, teniendo en cuenta la expresión (4.2.4),
Sustituyendo este sumando en la Ecuación (4.6.5) tenemos
E (t,ti) = (n- l )a
2
+ a 2 -2a2 = (n- 2)a 2 ,
de manera que definiendo la varianza estimada de los errores como el sumatorio al cuadrado
dividido por sus grados de libertad
n
L: c;
' i =l
ü=--
n- 2
y aplicando esperanzas
demostramos que 0- 2 es un estimador insesgado.
4.6.4. Teorema de Gauss-Markov. Varianza mínima de los estimadores

MCO. Regresión simple
El estimador mínimo cuadrático es lineal
n
¿ XiYi n
ffi1 = i=~ =¿ kiyi, (4.6.6)
¿
i=l
x; i=l
donde ki es
Xi
ki = - n- - ·
L: x;
i= l
Tema4 157
Establecemos un estimador hipotético lineal , no necesariamente el mínimo cuadrático, es decir

n
~l = LWiYi
i=l
Aplicando esperanzas tenemos, donde mantenemos implícito que son condicionadas a la va-
riable independiente:
n n
JE (~1) = L WilE (yi) = /31 L WiXi·
i=l i=l
Y puesto que el estimador alternativo debe ser insesgado, se tiene que cumplir que
n
LWiXi =l.
i=l
u varianza es
n n
var (~1) = L [w[var (Yi )] = o-
2L w[
i=l i=l
y operando tenemos
Por consiguiente, para minimizar la varianza debemos hacer que los términos que dependen
de Wi se anulen, y esto sucede para
Xi
Wi = -n--·
l:x[
i=l
Es decir que la var (~1) es mínima si
de manera que la varianza es mínima si coincide con la mínimo cuadrática, que es el teorema
de Gauss-Markov.
EJERCICIOS
Teóricos
l. Disponemos de una muestra de n observaciones para estimar el modelo de regresión
simple Yi = (3xi + Ei· Considere los estimadores:
132 = Yn - Y1.
Xn - X1
Justifique si evaluados con el criterio de insesgadez, el primer estimador es mejor que el

segundo o viceversa. ¿Y si se tiene en cuenta también su varianza?
2. Suponga que el modelo correcto para analizar el comportamiento de la variable Y es Yi =

f31 + f32X2i + {33 X3i +vi, pero a pesar de ello, un investigador estima Yi = f31 + {33X3i +ui .
a) J\Iuestre que el estimador ¡33 en la segunda ecuación es sesgado.

b) Suponga que se conoce que la covarianza entre X2 y X3 es negativa, ¿es suficiente
esta información para conocer el signo del sesgo? Justifique su respuesta.
e) Con los mismos supuestos que en el apartado anterior, diga en cuál de las dos
ecuaciones obtendremos un estimador mayor para {33.
3. El estimador máximo verosímil de la varianza de las perturbaciones aleatorias del modelo

¿n 2
de regresión lineal es ~'donde e son los residuos de la regresión. Compare la calidad
¿n 2
de este estimador con el mínimo cuadrático n:._~¡ , en términos de sesgo, varianza, ECM
y consistencia.
4. De una población con distribución normal N (u, 1) se extrae una muestra de tamaño N.
Se propone para la media el estimador lineal 2::~ WiYi, siendo Yi los valores de las N
extracciones. Deduzca en qué condiciones el estimador anterior será insesgado.
5. Una variable Yi es generada según el proceso Yi = f3 + Ei donde f3 es una constante y

Ei es una variable aleatoria normal con media nula y varianza constante. Pruebe que el
estimador J\fCO de f3 es Y y calcular su varianza.
6. Se estima un modelo de regresión y se lleva a cabo el contraste de la hipótesis nula

Ha : f3 = O contra la alternativa H 1 : f3 f= O obteniéndose un valor p = 0.078. ¿Puede
rechazarse esta hipótesis? ¿Cuál sería el valor psi las hipótesis nula y alternativa fueran
resp ectivamente Ha : f3 = O y Hl : {3 > O?
Tema4 159
Empíricos
7. Emplee de nuevo los datos de la tabla ET4 l. Estime la regresión que relaciona el
salario con educación, experiencia laboral y habilidad.
a) Calcule la significatividad individual de cada uno de los parámetros a los niveles

del 10 %, 5 % y 1 %. ¿Hay algún caso en el que no se pueda rechazar la hipótesis
Ho : (3 = O?¿Qué significa esto?
b) Estime la regresión entre salario, educación y experiencia. Obtenga, tanto para
esta como para la regresión del apartado anterior, el coeficiente de determinación
corregido y los valores del logaritmo de verosimilitud y del criterio de información
de Akaike 14 . En función de dichos valores, ¿qué regresión sería preferible?
8. Considere la estimación de la ecuación (4.4.1) del estudio sobre la demanda de café.

Designemos por /Jo, /J1, /J2, /J3 y /J4 los respectivos estimadores.
a) Calcule la expresión de var(/J1 + /J2 ) y utilícela para contrastar la hipótesis de que

el estimador del log precio es igual al de la cantidad de leche cambiado de signo,
l
sabiendo que la matriz de varianzas y covarianzas de los estimadores (no se incluye
el término independiente) es,
[ 0,014173 -0,007850 -0,000367 0,005298

0,019039 0,000018 0,020184
0,000336 -0,00058
0,053420
b) Escriba la ecuación restringida bajo la hipótesis anterior. Suponga que el coeficiente

de determinación de dicha ecuación es R 2 =0.719188. Utilice este resultado para
contrastar la misma hipótesis que en el apartado anterior mediante la técnica de las
regresiones restringida e irrestricta. ¿Observa alguna relación entre los estadísticos
de contraste de los apartados a) y b) ?
e) Contraste la significatividad global del modelo.
9. Con los datos de la tabla ET4 _ 2 puede estimarse la ecuac10n (4.4.1) del ejerc1c10
anterior (la escala de la renta disponible es diferente). Emplee los contrastes de ratio
de verosimilitud, Wald y multiplicadores de Lagrange, para contrastar la hipótesis /J3 =
/J4 = O. Compruebe que se cumple la desigualdad M L :S: RV :S: W . En el documento
Apéndices y Tablas se encuentra una sección en la que se trata la relación entre los tres
t ipos de contrastes.
10. En el contraste de cambio estructural o test de Chow, se trata de analizar si la relación

entre las variables se mantiene estable o cambia a partir de un determinado momento del
14
U)
Este estadístico se calcula a partir de -2 + 2 ( ~) siendo l el logaritmo de verosimilitud, i el número
de observaciones y k el número de parámetros estimados.
160 ANÁLISIS DE REGRESIÓN LINEAL . INFERENCIA
tiempo. Para ello se compara la suma cuadrática residual (SCR) de la regresión obtenida
para todo el periodo con la SCR obtenida de ajustar dos regresiones separadas, una hasta
el momento del cambio y otra diferente hasta el final. La tabla ET4 3 contiene datos
anuales de ahorro y renta en España para el periodo 1954 - 2010. Analice si ha habido
cambio estructural en la función de ahorro en los años 1976 y 1980.
11. Con objeto de estudiar el efecto de la inflación y el déficit gubernamental sobre los tipos
de interés, la tabla ET4 4 recoge datos de estas variables para el periodo 1980 - 2000.
a) Estime la regresión entre dichas variables. Justifique la dirección esperada de los

efectos ¿Coincide la estimación con las expectativas teóricas?
b) Contraste la significatividad individual y conjunta de ambas variables.
e) El tipo de interés, la inflación y el déficit en el primer trimestre de 2001 , fueron,
respectivamente, 4.73, 1.38 y -1.28. Construya un intervalo de confianza del 953
para la predicción del tipo de interés y compruebe si el valor registrado está dentro
de dicho intervalo.
Tema 5
_L\SPECTOS AVANZADOS: INFERENCIA EN

EL MODELO DE REGRESIÓN LINEAL
El estimador por MCO y por la técnica MM, b = f3Mco = f3MM, del vector poblacional {3
, como sabemos, una función de la muestra (y , X ). Dado que (y, X) es un vector aleatorio,
-ambién tendrá esa naturaleza el estimador b. Es razonable, por tanto, preguntarse a pro-
;>ósito de las características del estimador b en cuanto a variable aleatoria. Las propiedades
~ tadísticas de la distribución muestra! del estimador MCO dependerán críticamente de los
supuestos que configuren el modelo de regresión. Inicialmente vamos a considerar las pro-
piedades de los estimadores bajo los supuestos que conforman el denominado modelo clásico
de regresión lineal (MCRL). Veremos que es el modelo bajo el cual los estimadores tienen
ierto grado de optimalidad, concepto que tendremos que definir. Este grado de eficiencia nos
nace incurrir en costes no despreciables que lo hacen escasamente operativo en práctica. No
obstante es muy útil comprenderlo como referencia o base teórica de comparación con otros
modelos. En la segunda parte del tema estudiaremos las propiedades del estimador MCO para
un modelo menos restrictivo y más útil en la práctica. Nos referimos al modelo de proyección
lineal (MPL) , que ya presentamos en la Sección 3.2. A lo largo de este tema vamos a consi-
derar que los datos son de sección cruzada, dejando para un tratamiento ulterior el caso de
que los datos sean de naturaleza temporal.
En el marco de la sección cruzada para datos de naturaleza observacional (no-experimental)
como son los datos económicos, y de las ciencias sociales en general, es razonable modelizar
cada observación i como una realización de una función de distribución conjunta F(y , x). De
este modo un supuesto que mantendremos a lo largo de este tema es el que enunciamos como
upuesto de muestra aleatoria (Sección 4.1), y que ahora escribimos en la notación matricial
utilizada en el tema 3:
Suposición 6 . Las observaciones (Y;, xi) son una muestra iid a lo largo
de i= 1, ... , n. Este supuesto es equivalente a la Suposición 3.
La «independencia» significa que la observación relativa al individuo i-ésimo, (Y;, Xi) es
161
162 ASPECTOS AVANZADOS: INFERE]'.;CIA EN EL MODELO DE REGRESIÓN LINEAL
independiente de la observación j-ésima (Yj , X j)· Es decir, se trata de una afirmación relativa
a la relación entre las observaciones i y j, no relativa, por tanto, a la relación entre Yi y las Xi·
La distribución «idéntica» significa que proviene de una población con una misma función de
distribución conjunta F(y, x). Cuando esto sucede decimos sumariamente que los datos son
una muestra aleatoria. Este supuesto es común a los modelos clásicos de regresión y al modelo
de proyección lineal. En caso de tratarse de observaciones con estructura de serie temporal el
supuesto equivalente sería el supuesto de «estacionaridad ergódica», que es una versión más
técnica de la Suposición 4. Los términos «estacionaridad» y «ergodicidad» son tratados en el
Tema 13 (Secciones 13.1 y 13.11) 1 11.
5.1. PROPIEDADES DEL ESTIMADOR MCO EN EL MODELO

CLÁSICO DE REGRESIÓN LINEAL
El modelo clásico de regres1on lineal se caracteriza, junto con el supuesto anterior de

muestra aleatoria, por unos supuestos que ya indicamos en el tema anterior y que ahora
resumimos con el estilo de notación que utilizaremos a lo largo de este tema.
Suposición 1. Las observaciones (Yi, xi), i = 1, 2, .. ., n, satisfacen la ecua-

ción lineal de regresión
LINEALIDAD
(5.1.1)
EXOGENEIDAD
(5.1.2)
NO MULTICOLINEALIDAD P ERFECTA
(5.1.3)
Una forma alternativa de escribir el supuesto de linealidad es como lo hicimos en la ex-

presión (4.1.1), otra es de forma matricial para lo cual definimos las siguientes expresiones
vectoriales:
1
En particular, el supuesto requeriría que el vector estocástico {Yi, Xt} fuera un proceso conjuntamente
estacionario y ergódico.
Tema 5 163
:~ ~:
1 Xu xlk
1 X21 X2k
y
(nxl)
[: 1
) é
(nxl)
=
[ 1
,X
(nxK)
[ 1 [ 1 Xn1 Xnk
1,
K = k + 1, {3 =
(Kxl)
r;u
De esta manera el supuesto de linealidad puede reescribirse de forma compacta así:
y= X{3 +e. (5.1.4)
El supuesto de exogeneidad ya lo hemos comentado cuando presentamos la expresión

-U.3). Este supuesto tiene igualmente varias implicaciones relevantes:
• La esperanza no condicionada del término error es cero:
E(éi)=O (i=l,2, ... n) (5.1.5)
como resultado de aplicar la Ley de las esperanzas totales 2 . Esta observación no indica
nada sobre la relación entre el término error y los regresores: directamente apunta que
el supuesto de exogeneidad implica que la distribución de los errores tiene media cero.
En realidad este supuesto podría parecer demasiado restrictivo, cuando no lo es. Consi-
deremos el caso más simple de dos variables y supongamos que la media es distinta de
cero, por ejemplo µ -=f. O. En este caso, y dado que incluimos un término constante, el
modelo y = /31 + f32x +E podría reescribirse y = (/31 + µ) + f32x + (E - µ) y evidentemente
y = /3~ + f32x + € 1 que reproduce la forma del modelo original. De modo que siempre
que podamos incluir un término constante. la implicación del supuesto de exogeneidad
sobre la esperanza no condicionada no es restrictiva.
• A partir de (5.1.5) se observa que E (Ei [ X ) =O= E (Ei), lo que supone que la relación
entre las variables explicativas y el término error es de tal tipo que el valor medio de
Ei no depende de los valores que componen X. La esperanza condicionada del término
error y la no condicionada coinciden y son nulas.
• Los regreso res son ortogonales al término error para todas las observaciones
E(xj · Ei) =
:~~~~: ::~ 1 = ÜK x l (para todo i,j = 1, 2, ... , n). (5.1.6)
[ lE (XjK · Ei)
2
Ver Teorema 1, E [E (éi 1 X )] =E (t:i) .
164 ASPECTOS AVANZADOS: INFEREN CIA EN EL MODELO DE REGRESIÓN LINEAL
Demostración. Dado que X 1k (k = 1, 2, ... , K ) es un elemento de X , utilizando la Ley de las espe-

ranzas iteradas (ver Teorema 2) resulta
A partir de la Ley de las esperanzas totales y la linealidad de la esperanza condicionada (JE [h(x)y 1
x] = h(x)JE(y 1 x))
lE[lE (X1k · éi 1 X1k) ] =

lE[X 1klE (ci 1 X1k) ] =
o.
o
Obsérvese que el supuesto de exogeneidad (fuerte) requiere que el término error sea ortogonal
no solo respecto de la misma observación de la(s) variable(s) explicativa(s) , sino también
respecto del resto de observaciones de las mismas. Esto es lo indicado por JE (Xjk · éi ) = O,
para todo i,j = 1, ... , n y para todo k = 1, ... , K , y no únicamente JE (Xik · é i ) =O.
• La exogeneidad implica también que los regresores están contemporáneamente no co-

rrelacionados o incorrelacionados con el término error
JE(ci · Xjk) - JE(ci)JE(Xjk) (por definición)

JE(ci · Xjk)
O (por la condición de ortogonalidad)
• El término error está incorrelacionado con cualquier función lineal o no lineal de X.

La función esperanza condicionada capta no solo la relación lineal entre las variables
explicativas y las no especificadas en el modelo (y por tanto integrantes del término
error), sino también las no lineales. Si conocer X no modifica el valor esperado de las
variables recogidas por el término error, entonces X y e deben estar incorrelacionadas.
En cambio al ser la correlación de carácter lineal, es posible que siendo X y e variables
no correlacionadas, la JE(ci 1 X) para i = 1, 2, ... , n pueda depender de X a través de una
relación no lineal. Precisamente cuando queremos conocer cuál es el efecto que sobre
el valor esperado de la variable dependiente que tiene la variación de una de las K
variables explicativas contenidas en X . no sería deseable que el término error estuviera
correlacionado con una función de alguna(s) de las otras K - 1 variables explicativas.
Este supuesto nos permite indicar que hemos tenido en cuenta completamente los efectos
que las variables explicativas tienen sobre el valor esperado de y. Por este motivo decimos
que controlamos los efectos de estas variables al interpretar los parámetros o coeficientes
de la regresión.
Finalmente el supuesto de ausencia de multicolinealidad de la Ecuación (5.1.3) indica que la

matriz n x K de datos, X, es de rango K con probabilidad 13 . De este supuesto se deduce
3
En el caso de que los datos tengan estructura de serie temporal, el cumplimiento lo garantiza el teorema
ergódico, Teorema 42 , junto con el supuesto que hacemos de rango completo.
Tema 5 165
que la matriz de datos es de rango completo, es decir, hay K columnas y son linealmente
independientes. Además el álgebra matricial 4 nos permite comprobar que el rango de X ~
mín(K, n), por lo que implícitamente se está suponiendo que n 2: K; de lo contrario no podría
er de rango K. Dicho de otro modo, necesariamente tiene que haber al menos K observaciones.
Este supuesto también se conoce como condición de identificación. En el caso de un modelo
con dos variables donde una de las cuales es la constante (Y= f31 + f32X +e), este supuesto
indica que necesariamente debe haber variación en la variable x. En caso contrario los datos
hacen que el modelo no sea explicativo dado que en realidad la constante y la variable x están
dando la misma información. Decimos que los regresares de un modelo son perfectamente
colineales si este supuesto no se satisface.
Si ahora consideramos conjuntamente los supuestos del modelo de regresión lineal (Supo-
ición 7) y la Suposición 6, es decir, consideramos que se trata de una muestra aleatoria (iid),
entonces podemos extraer las siguientes conclusiones:
La independencia del supuesto de muestreo aleatorio, junto con el supuesto de linealidad
5.1.1), permite comprobar que
IE(ci X) = IE(ci 1 xi)

IE(e:? X) = IE(d 1 Xi)
IE(cicj X)= IE(ci 1 xi)IE(cj 1 x1) (para i # j).
Las dos primeras expresiones se deducen a partir de comprobar que (ci, xi) es independiente
de x 1 (para i # j), lo cual es cierto dado que (Yi, xi) se supone independiente de (}j, Xj) (para
i # j) y dado que ci es una función (por el supuesto de linealidad, de (Yi, Xi)). La tercera
expresión se prueba a continuación, utilizando propiedades 5 de la esperanza condicionada:
Observemos inicialmente que (ci,Xi) es independiente de (cj,Xj) con j # i (es decir, es
independiente de (c1,x1 , ... ,Xi-1,xi+1, ... , xn)) y por tanto IE(ci 1 X,cj) = IE(ci 1 Xi)· Luego,
IE(cié:j IX) = IE[IE(cié:j 1 X,cj) 1 X] (por la Ley de las esperanzas iteradas)

= IE[cjIE(ci 1 X ,cj) 1 X] (por la linealidad de las esperanzas condicionadas)
= 1E[c11E(ci 1 xi) 1 X]
= IE(ci 1 xi)IE(cj 1 x1) (linealidad de la esperanza y por IE(ci 1 xi) =!(xi)).
El supuesto de muestra iid hace que estas expresiones se reduzcan a
Xi) = Ü ( i = 1, 2, ... , n) (5.1.7)

X)= O (i = 1, 2, ... ,n) (5.1.8)
En términos de los modelos de esperanza condicionada expuestos en la Sección 3.1.8,

el modelo de regresión lineal consiste en un Modelo de esperanza condicionada lineal con
unas condiciones de regularidad que permiten estimarlo , que son el supuesto de ausencia de
multicolinealidad (5.1.3) y el supuesto de que las observaciones son una muestra aleatoria.
4
Ver el documento Apéndices y Tablas.
5
Propiedades que presentamos en la Sección 3.1.2.
Este modelo se puede completar (y así lo hace la econometría clásica) con un supuesto
sobre la varianza condicionada del término error. El modelo clásico incorpora el supuesto de
errores homocedásticos.
Suposición 8. El término error es homocedástico:

2
IE(cI 1X ) = <7 > O (i = 1, 2, ... , n). (5 .1.9)
Por tanto, la Suposición anterior asume que el momento condicionado de segundo orden
del error del modelo, que en general es una función no lineal de X , es constante. Ya hemos
hablado en anteriores apartados de otros temas que esta situación es teórica y se presenta
con fines didácticos. Además faci lita mucho las expresiones y los cálculos. Sin embargo , por
didáctica que sea, no es realista en la mayoría de las situaciones prácticas.
Insesgadez Estos supuestos se pueden combinar para obtener algunas propiedades estadís-
ticas del estimador MCO (y MM). Una propiedad interesante es la insesgadez del estimador,
propiedad que ya comentamos en el Teorema 10, y que ahora demostramos.
Inicialmente podemos expresar el estimador MCO de manera que quede explícita su rela-
ción con el error del modelo poblacional:
b = (X'x )- 1 X'(X¡3 + e)
= (X'x )- 1 X'(X¡3 + e)
= ¡3 + (X'x)- 1 X'c);
haciendo la esperanza condicionada por X , se tiene
IE(b l X )= IE[/3+(x'x)- 1 X'c 1X]

IE[/31 X]+IE[(X'X)- 1 X'c1 X] (recuérdese que f3 no es aleatorio , por tanto)
¡3 + (X'x)- 1X'IE[c 1X]
¡3 + O= ¡3 (por el supuesto de exogeneidad).
Por otra parte, la Ley de las esperanzas totales indica que IE[IE(b 1X )] = IE(b ), por lo que
IE(b ) = ¡3.
Y por tanto hemos demostrado el Teorema 10.
La interpretación es que dado un conjunto de observaciones determinado, X , el valor
esperado del estimador del vector de parámetros será el verdadero vector , ¡3. Es más, si
estimáramos b para todas las posibles realizaciones de tamaño n, no solo de y , sino también
de X , en media obtendríamos el verdadero valor.
Tema 5 167
Puede observarse en la demostración que la insesgadez está garantizada siempre que

E[(X'X)- 1 X'e 1 X] = O. Esta igualdad se satisface en varios casos.
En el caso de que los datos pertenezcan a un experimento aleatorio controlado (esto es si
no fuera cierto el supuesto de muestra aleatoria, lo que equivale a considerar que los datos
contenidos en X son elegidos por el observador antes de determinar los de y), bastará con
aceptar (suponer) que JE(e) =O.
La proposición en sí misma nos informa de que no es necesario realizar un su puesto tan
fuerte como este último para garantizar la propiedad de insesgadez, y por tanto la propiedad
estaría garantizada con el supuesto de exogeneidad (5.1.2). Cuando los datos son de sección
cruzada (cada observación podría provenir de una persona, empresa, ciudad ... ), no resulta rea-
lista considerar que Ei pueda estar relacionado con los regresares de cualquier otra observación
distinta de i, por lo que el supuesto de exogeneidad no parece muy restrictivo (y por tanto
adecuado) en estos casos. Sin embargo, tendremos ocasión de comprobar que este supuesto
es más restrictivo cuando los datos provienen de la observación temporal de una variable (ca-
da observación corresponde a una variable observada en sucesivas unidades de tiempo: años,
meses, días ... ).
Por otra parte, la estructura lineal del estadístico b respecto a e es esencial para poder
realizar la demostración. El vector de discrepancias b - f3 = (X'X )- 1 X' e indica que estas
-on sumas ponderadas del término error, donde los pesos o ponderaciones pueden ser tratados
condicionalmente como constantes. Así la media condicionada del estimador MCO (MM) , b,
es un vector de constantes al que se le añade la suma ponderada de las medias condicionadas
de los elementos de e.
Varianza del estimador MCO En este caso es necesario considerar el supuesto de homo-
cedasticidad para obtener la expresión (4.2.10):
var(f3+(X X)- 1 X 1e 1 X)
1
var(bl X) =
var(f3 1 X)+var(Ae 1 X) (donde A= (X'X)- 1 X')
Avar(e 1 X)A'
(la variable (3 es no aleatoria y constante; A es función de X)
AlE(ee'I X)A' (por la exogeneidad)
= Aa 2 InA' (por homocedasticidad)
a 2 AA'= a 2 (X'X)- 1 X' · ((X'X)- 1 X')'
a 2 (X'X)- 1 donde AA= (X'X)- 1 X'X(X'X)- 1 = (X'X) - 1 .
Observamos que la varianza condicionada del est imador depende de la matriz (X'X) que
recoge los productos cruzados de las variables explicativas y de un escalar . por lo que en
realidad la varianza condicionada del estimador b es una matriz no trivial de orden K x K
que crece proporcionalmente con el escalar a 2 , y que claramente depende de las observaciones
contenidas en la matriz X ; en particular está directamente relacionada con la inversa de la
matriz X'X.
168 ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
A partir de la varianza condicionada del estimador :v!CO es posible analizar qué factores
determinan la precisión del estimador b. Inicialmente se observa que la precisión depende de
2 2
1J y de X. Para ver la relación entre 1J y var(b 1 X) , consideremos que tenemos dos modelos
referentes a dos poblaciones que únicamente difieren en el parámetro de varianza IJ~ < IJ1.
Estadísticamente la comparación entre dos varianzas se hace en términos de eficiencia rela-
tiva. Un estimador relativamente eficiente será aquel para el que cualquier combinación lineal
de los paramétros considerados tenga la menor varianza. Esto significa que var(bAj) :::;; var(bBj)
para cada j = 1, 2, ... , K y esta desigualdad debe persistir para cualquier otra combinación
lineal posible, es decir, para cualquier vector e E ~K, var(c'bA):::;; var(c'bB)·
En el caso que nos ocupa de los dos modelos poblacionales y sus estimadores MCO, resulta
que la diferencia
var(c'bB) - var(c'bA) e'IJ1 (X'X)- 1 e - e' IJ~ (X'X)- 1 e

(()1 - (}~) e' (x'xr 1 e > o
será positiva para todo e =f. O, y por tanto concluiremos diciendo que cuanto menor sea la
varianza (o la dispersión) de la variable dependiente6 y , menor (en términos de eficiencia
relativa) será la dispersión de los estimadores MCO de los parámetros f3 del modelo.
A continuación nos centraremos en evaluar y entender el efecto que tiene X (a través de
(X'X)- 1 ) sobre la eficiencia relativa de b . Pese a que en la gran mayoría de las ocasiones
X está dada, resulta ilustrativo comprender cómo la estimación se vería afectada por sus
características. En particular, comentaremos cómo la dispersión de X, el tamaño muestra[ y
la cuasimulticolinealidad afectan a la var(b 1 X).
A mayor dispersión en las variables explicativas contenidas en X, mayor eficiciencia rela-
tiva. Podemos verificarlo calculando algebraicamente la diferencia que hay entre considerar X
frente a considerar un cambio de escala (aX), a> l. Es inmediato observar que esta última
matriz genera o equivale a considerar un estimador con una menor varianza: en el primer caso
la varianza será 1J 2(X1x)- 1 , mientras que en el segundo (1J 2/a 2) (X'x)- 1 .
Consideremos, por ejemplo, el caso de dos variables explicativas en que la primera es la
constante. En este caso la varianza del estimador b2 MCO será 7 :
N · var(X2) ·
Es evidente que para un tamaño muestral dado, la eficiencia mejora relativamente cuanto
mayor sea var(X2). Lo mismo sucede si aumentamos el tamaño muestra! (suponiendo una
varianza determinada para la x2). Este resultado es absolutamente esperable, toda vez que
indica que cuanto mayor sea la información (en términos de observaciones de la población).
mayor precisión tendrá el estimador. De lo contrario , la calidad del estimador quedaría en
entredicho.
6
Recuérdese que var(y 1 X) = var(X,B + é 1 X) = var(é 1 X) = o- 2 In
7
Este resultado se obtiene directamente a partir de invertir (X ' X) = [ °"'
L.
n
X2;
L X2i ]
2
LX2;
y de sacar factor
común n del elemento (X'X)~~ . Se deja al lector su comprobación.

2
Tema 5 169
En la medida en que no haya multicolinealidad estamos seguros de que el sistema de

ecuaciones normales nos conduce a un estimador único del vector de parámetros. Incluso en el
caso de contener una(s) variable(s) aproximadamente linealmente dependientes de otra(s), y
por tanto casi multicolineales, tendríamos un estimador MCO que, con toda seguridad, sería
insesgado y con todas las propiedades que más adelante veremos sobre el mismo. Sin embargo,
en ese caso, sucedería que la matriz X'X sería aproximadamente singular (casi-singular), y por
tanto con algún valor propio próximo a cero, y en consecuencia con un determinante próximo
a cero. Esto genera que la matriz de varianzas (y covarianzas) del estimador MCO (que es
múltiplo de (X'X)- 1 ) sea muy elevada y por tanto dicho estimador será muy poco preciso.
Desde este punto de vista, la multicolinealidad hace referencia a la capacidad explicativa de
las K -1 variables contenidas en la matriz X para explicar cualquier variable Xk. De acuerdo
a lo expuesto anteriormente, el hecho de que alguna(s) de estas variables (K-1) explique muy
bien a Xk hará que el estimador MCO bk sea relativamente poco eficiente. Indirectamente,
este razonamiento nos conduce a observar que la precisión de la estimación del parámetro f3k
depende de la información facilitada tanto por el vector Xik, i = 1, ... , n como por el resto de
columnas de la matriz X.
Finalmente, conviene observar que esta proposición viene formulada en términos condicio-
nados. Sin embargo sería deseable tener la expresión análoga en términos no-condicionados.
Este aspecto lo abordaremos dentro del siguiente epígrafe.
5.1.1. Teorema de Gauss-Markov en el modelo clásico de regresión lineal
La linealidad del estimador b en y constituye un elemento central en el modelo de regre-

sión, tal y como acabamos de comprobar. Hemos verificado que el estimador MCO es también
insesgado y hemos derivado la expresión de su varianza bajo los supuestos del modelo lineal
clásico de regresión, es decir, en el modelo lineal de regresión con el supuesto de homocedastici-
dad. En paralelo, se han contemplado los determinantes de la eficiencia relativa del estimador
b. Ahora nos interesamos de nuevo por la eficiencia relativa (indicativa de la precisión) del
estimador respecto a toda la famila de estimadores lineales e insesgados.
El Teorema 15 de Gauss-Markov indica que el estimador MCO es más eficiente que cual-
quier otro estimador lineal insesgado. Este es el motivo por el que habitualmente se dice que
bes ELIO (estimador lineal insesgado óptimo) o B L UE (best linear unbiased estimator).
Teorema 19. Bajo los supuestos recogidos en las Suposiciones 7 y 8, el

estimador MCO es eficiente respecto de la clase de estimadores lineales
insesgados. Esto es, para cualquier estimador insesgado í3 lineal en y ,
var(í3 1 X) 2:: var(b 1 X).
Demostración. Podemos escribir /3 = Cy dado que es lineal en y, donde C es una matriz que posi-
blemente es función de X. Sea la matriz diferencia D = C - A, donde A = (X'X)- 1 X', entonces
{; = (D + A)y = Dy + Ay
D(X/3 + e )+ A (X(3 +e)
DX(3 +De+ (3 + Ac [porque AX = O]
(3 + DX(3+ (D + A) e [dado que hemos reordenado].
Por tanto, la esperanza de /3 condicionada a X será

IE(f; 1 X) = IE(/3 + DX(3+ (D + A ) e 1 X)
(3+1E(DX(3 1 X)+IE(Ce 1 X )
(3 + DX(3 + CIE(e 1 X ) [C y D son funciones de X]
(3 + DX(3 (por el supuesto de exogeneidad].
Ahora bien, dado que el estimador f; debe ser, por el enunciado del teorema, insesgado, entonces ha
de suceder que la matriz D sea tal que DX =O. Así el estimador puede expresarse
por lo que /3 - (3 = Ce. y por tanto su matriz de varianzas y covarianzas condicionada será
A A I
var(/3 1 X) = IE[(/3 - (3)((3 - (3) 1 X]
IE[(Ce) (Ce)' 1 X]
CIE[u' 1 X ]C' (porque Ces función de X]
(D + A) cr 2 1 (D + A )' [por definición de C y por homocedasticidad]
= cr 2 (DD' + AA' + AD' + DA').
La matriz cuadrada producto DA'= DX(X'X)- 1 = O dado que, como se ha comprobado, Des tal que
DX = O; así, (DA')'= AD'= O. Por otra parte es inmediato obtener que el producto AA' = (X'X)- 1 ,
por lo que
1
var(f; 1 X) = cr 2 (DD' + (X ' X )- )
> cr 2 ( (X'X)- 1 ) [dado que DD' es semidefinida positiva].
o
El teorema anterior también es aplicable a la varianza no condicionada. Nos interesamos ahora
por la varianza no condicionada del estimador MCO b. En general, el objetivo es relacionar
términos condicionados sobre los que se cumple el teorema de Gauss-Markov con términos
no condicionados. En particular, primero establecemos una forma alternativa de calcular la
var(/3) : observamos inicialmente que se trate o no de un estimador insesgado. Podemos
expresar la discrepancia entre el estimador y su valor esperado de la siguiente manera en la
que solo hemos sumado y restado el término JE(/3 1X )
/3-JE/3 = f3 - JE(/3 1X)+JE(/31 X)-JE/3.

Tema 5 171
La varianza, por definición, será
var(/3) = JE[(/3-JE/3)(/3-JE/3)'] = JE[aa'],
donde hemos definido a= (/3-JE/3). Del mismo modo definimos, por claridad notacional,
d ¡3 - JE(/§ 1X)
e - JE(/3 1X)-JE/3
y por tanto tendremos que a = d + e, y que
aa' (d + e) (d + e)'
dd' +de' +cd' +ce', (5.1.10)
elementos necesarios para calcular JE[aa']. Consideramos inicialmente JE(dd'), sobre la que
tomamos esperanzas no condicionadas
JE(dd') JE(JE[dd' 1X]) (por Ley de esperanzas totales)

1
JE (JE [ (/3 - JE(/§ 1X)) (/3 - JE(/§ 1X)) 1X])
JE(var[/3 1X]) (por definición de varianza condicionada) ,
es decir, la esperanza no condicionada de la varianza condicionada. Por otra parte la JE( ce')
está relacionada con la varianza de la esperanza condicionada, como vemos a continuación
var(JE[/31 X]) JE ( (JE[/31 X]-JE/3) (JE[/31 X]-JE/3)')
JE(cc').
Finalmente se deja como ejercicio analítico comprobar que cd' = O = de', lo que permite
expresar cualquier varianza del modo siguiente
var(/3) =JE(var[/3 1X])+var(JE[/31 X]).
En el caso particular de un estimador insesgado, JE(/3 1 X) = {3, se tiene, lógicamente, que

var(JE[/3 1X]) = O. Evidentemente, esto es aplicable en particular al estimador insesgado b,
de modo que
var(b) JE[var(b 1X)]

JE[0' 2 (X'X)- 1 ]
0' 2 JE(X'X)- 1 .
Por una parte, este resultado indica que la varianza no condicionada del estimador MCO se
describe en términos del comportamiento en media de X. Es decir, a partir del comportamiento
de la varianza condicionada a X es posible tomar esperanzas (medias) para todas las posibles
172 ASPECTOS AVANZADOS: INFERE NCIA EN EL MODELO DE REGRESIÓN LINEAL
X estableciendo un resultado no condicionado. Por otra parte, a partir del resultado anterior
podemos extender el teorema de Gauss-Markov al caso no condicionado fácilmente. El teorema
establece que var(,B 1 X) 2 var(b 1 X) para cualquier X compatible con las condiciones del
teorema, por lo que también debe satisfacerse para el valor( es) medio(s) de X , así resulta que
lE[var(/3 1X)] 2 lE[var(b 1X)]{::> var(/3) 2 var(b).

Por tanto, las propiedades estadísticas que se derivan del teorema de Gauss-Markov para
el estimador MCO lo son tanto para el estimador condicionado como para el no condicionado.
Sin embargo, y pese a la importancia del resultado, conviene no perder de vista las limitaciones
del teorema. En primer lugar el teorema no establece que el estimador MCO de ,B sea más
eficiente que cualquier otro estimador. Es posible que existan estimadores no lineales y/ o
sesgados que se comporten mejor que el MCO. Y en segundo lugar, debe recordarse que el
teorema se aplica únicamente cuando el modelo está correctamente especificado, con errores
homocedásticos y serialmente no correlacionados.
5 .1. 2. El estimador de la varianza del términ o error u 2

El vector de residuos mínimo cuadráticos, e , se puede calcular fácilmente una vez estimado
b , dado que e = y - y = y - Xb. Los residuos MCO recogidos en el vector e son un estimador
de los errores del modelo recogidos en c. Como estimador de e , a parte de las propiedades
algebraicas y geométricas esbozadas en el Tema 3, posee ciertas propiedades estadísticas que
son fundamentales para el análisis posterior. En particular, a continuación, vamos a utilizar
los residuos para estimar la varianza del término error a 2 . Esta estimación evidentemente
nos permite estimar la matriz de varianzas y covarianzas del estimador b , a 2 (X'X)- 1 puesto
que X es observable. No obstante, el uso de los residuos tiene numerosas aplicaciones tanto
teóricas como prácticas en econometría.
En primer lugar examinamos la conexión existente entre residuos estimados y los errores
poblacionales. La relación que existe entre los residuos MCO e y los errores e se refleja
mediante la expresión que mostramos a continuación, que ya usamos al definir las matrices
de proyección y sus propiedades. Utilizando la expresión (3.4.6), se tiene
e= My = M(X,B +e)= Me. (5.1.11)

Es decir, los residuos son una combinación lineal (arbitrada por la matriz de proyección M) de
los errores. A partir de esta expresión podemos calcular la matriz de varianzas y covarianzas
del vector de residuos que nos servirá para calcular la varianza del residuo de la observación
i-ésima ei, var(ei 1X),i=1, 2, ... , n.
var( el X) = var(Mc 1X)

lE(Mcc'M 1 X) (por JE(Mc 1X) = O y las propiedades de M)
MlE(cc' 1X)M (al ser Mes función de X)
2
= Ma I M (por el supuesto de homocedasticidad)
2
a MM (al ser a 2 un escalar y por la propiedad de la matriz I)
a 2M (por la propiedad de idempotencia de M), (5.1.12)
Tema 5 173
de donde podemos apreciar cómo es var(ei 1 X) en relación con u 2 . Para ello seleccionamos un
elemento cualquiera del vector de residuos que denotamos como ei y obtenemos la expresión
de su varianza (que es un escalar)
(5.1.13)
Es manifiesto, a partir de esta expresión, que en general la varianza calculada para el residuo
~1CO será distinta de la varianza del error de la observación i-ésima. A priori, la diferencia
erá menor o mayor que la varianza del error correspondiente en función del signo y del valor
que tome el producto x~(X'X)- 1 xi. Este término es el elemento i-ésismo de la diagonal de P.
La matriz de proyección P es una matriz semidefinida positiva por lo que cualquier elemento
de la diagonal será positivo o nulo. Es posible decir algo más sobre este elemento. A partir, de
P podemos reescribir x~(X'X)- 1 xi como e~Pei, siendo ei un vector de dimensión n de ceros
excepto en la posición i-ésima que toma valor unit ario. Algebraicamente obtenemos
e~Pei e~ ei - e~Mei (dado que P = 1 - M)

1 - e~ Mei (pues e~ei = 1)
< 1 (ya que M es semidefinida positiva).
Comprobamos así que O :::; (1 - x~(X 1 X)- 1 xi) :::; 1 por lo que la varianza del residuo i-ésimo
infraestimará u 2 .
Por otra parte, a partir de la expresión de varianza del estimador MCO podemos encon-
-rar las varianzas de otros términos relevantes de la regresión. Para ello fácilmente observamos
que var(y 1 X) = var(X,8 +e 1 X) = var(e 1 X) = u 2 In, y que, sabemos por temas anterio-
!"es, JE(y 1 X) = X,8. En otros términos , sucede que la esperanza condicionada de y es una
combinación lineal de las columnas de X, y que la varianza condicionada de y es, lo que
habitualmente suele denominarse, una varianza descrita por una matriz escalar en la que los
elementos de fuera de la diagonal principal son cero, y los de la diagonal principal son igua-
es y constantes al escalar u 2 . A partir de esta matriz escalar hemos obtenido la matriz de
rnrianzas condicionadas de (y - Xb) =e y ahora obtenemos la de Xb:
1
var(Xbj X) var(X(X1x)- 1 X y 1 X) (5 .1.14)
var(Py 1 X ) por definición P
Pvar(y 1 X)P' al ser P dada
2
Pu InP'
u 2P (P = P ', y Pes idempotente)
1
u 2 X(X'X)- 1 X •
Se observa que tanto var(Xbl X ) como var(el X) son, en general, matrices no escalares
y que ambas son proporcionales a las matrices de proyección ya conocidas. Por ejemplo, la
matriz Xb está formada por elementos que están correlacionados toda vez que cada elemento
de la matriz Xb = Py es una combinación lineal de los elementos de y , y por tanto, pese a
estar y formada por elementos no correlacionados, una combinación lineal de los mismos sí lo
estará. Este mismo razonamiento es aplicable a las matrices (y - Xb) y b , justificando, por
tanto, el hecho de que estas matrices sean no escalares.
Hechas estas precisiones a propósito de la relación entre residuos y errores, es natural
pensar que los residuos estimados MCO pueden ser análogos a los errores, y usarlos para
estimar a 2 . En caso de que pudiéramos observar realmente los errores, el estimador natural
de la varianza del término error se formaría a partir del cuadrado de los errores, esto es
e' e = ¿~ 1 Ef. Así, en media, esta suma de cuadrados será, bajo los supuestos del modelo,
JE( e' el X)
i =l
n
Lª2 = na2.
i =l
Dado que el supuesto de exogeneidad permite observar que var(e 1 X) = JE(e'e 1 X), se
tiene que el estimador insesgado de la varianza sería JE(e' e 1 X) / n. Sin embargo, en realidad
no observamos los errores, tan solo podemos usar los residuos. Si reemplazamos el inobservable
e'e por el observable e'e, obtendríamos un estimador de la varianza basado en los residuos
MCO. A partir de (5.1.13) se comprueba que la esperanza en este caso sería necesariamente
diferente. De hecho, recordemos que el vector e se obtiene a partir de b y es el vector de
residuos _mínimo cuadrático, de modo que para cualquier otro valor estimado de e (resultado
de otro /3 -1 b) la suma cuadrática de ese otro estimador será mayor o igual que la conseguida
por MCO. La suma cuadrática será menor que la obtenida para el verdadero /3 , esto es
e'e (y - Xb)' (y - Xb)

argmJn (y - x/3)' (y - x/3)
< (y - X/3)' (y - X/3) = e'e.
Por lo tanto,
lE(e'e 1 X) :S JE(e'el X),
y como resultado , una media simple (similar a la realizada anteriormente) de la esperanza de

los residuos MCO al cuadrado subestimará la varianza de los errores, es decir,
1 1
-JE(e'e 1 X) :S -lE(E1E 1 X)= a 2.
n n
El objetivo por tanto es construir un estimador insesgado, pues el que tenemos por el mo-
mento tiene un sesgo negativo (subestima) como acabamos de comprobar. A tal fin analizamos
Tema5 175
cómo es JE( e' e X)

1
JE( e' e X) = JE(é 1Mé 1 X)
E ( t, ~ E; E; m;; 1 X) (desanollo de la forma cuadráticaE'Me)
n n
L L mijJE (EiEJI X) (al ser M función de X)
i=l j=l
n
L miiJE (EiEil X) (por la Suposición 5.1.9)
i=l
n
a2 L mii = a Traza(M).
2
i=l
De esta manera bastaría dividir JE(e'el X) entre la traza de la matriz de proyección M para
obtener un estimador insesgado de los errores. Afortunadamente, dadas las especiales ca-
racterísticas de la matriz M , es sencillo calcular dicha traza. Recuérdese que, por definición,
M = In- P por tanto, Traza(M) = Traza(In-P) = Traza(In)-Traza(P) = n-Traza(P).
Por definición se tiene que P = X(X'X) - 1 X' y entonces
Traza( P ) Traza(X(X'X)- 1 X')

Traza( (X'X)- 1 X'X)
(una propiedad de la traza es que Traza(AB) = Traza(BA))
Traza(IK) = K. (5.1.15)
(X'Xes una matriz K x K)
Finalmente, podemos hallar el estimador insesgado de los errores
82 =~ SCR (5.1.16)
n-K n-K
Evidentemente este resultado es extensible a la esperanza no condicionada por el Teorema

L JE( s2) = JE(JE( s2 X)) = JE( a2) = ª2.
1
La intuición de este resultado reside en que (como hemos mostrado anterioremente) al

dividir la suma de los cuadrados de los residuos entre n estamos subestimando, y por tanto
será preciso dividir entre un número menor (n - K ). No es casualidad que debamos restar K
unidades de n ya que precisamente K ha sido el número de paramétros que hemos tenido que
timar para obtener e (que es lo que utilizamos para calcular s 2 ). Es decir, la variabilidad
de e se ve limitada porque tiene que satisfacer K ecuaciones (las k + 1 ecuaciones normales
descritas en (2.5 .31)-(2.5.34). Por lo tanto, estamos dividiendo justamente por los grados de
libertad y no por el tamaño muestra!.
La siguiente proposición recoge lo que acabamos de demostrar.
176 ASPECTOS AVANZADOS: INFEREN C IA EN EL MODELO DE REGRESIÓN LINEAL
Teorema 20. Bajo los supuestos recogidos en la Suposiciones 7 y 8,
IE(s 2 ) = IE(s2 1 X))= a 2 . (5.1.17)
Debido a la relevancia de este resultado , destacamos a continuación algunos aspectos

relativos al mismo. En primer lugar, a partir de (5.1.17) es inmediato mostrar que un estimador
insesgado de la matriz de varianzas y covarianzas del estimador MCO var(b 1 X) = a 2 (X'X)- 1
será naturalmente
Vai-(b 1 X) =s 2 (X'x)- 1 .
Particularmente, y a modo de ejemplo , Vai-(bk) = [s 2 (X'X)- 1]kk , donde en este caso [A]kk
indica el elemento de la diagonal principal de cualquier matriz A.
En segundo lugar, y relacionado con la primera observación, destacamos que mientras que
s es un estimador insesgado de a 2 , no sucede lo mismo con s. Es decir, s no es un estimador
2
insesgado de a, toda vez que la raíz cuadrada es una operación no lineal. Habitualmente
nos referiremos a [var(bk)]112 como «error estándar de bk» , es decir, el error estándar del
estimador bk.
En tercer y último lugar, es inmediato comprobar que es posible calcular el error estándar
para todos los parámetros del modelo, lo que es sin duda muy interesante para posteriormente
contrastar hipótesis o construir intervalos de confianza. Las próximas secciones se dedican
precisamente a esta cuestión.
5.1.3. Distribución teórica de los estimadores MCO

El modelo de regresión lineal incorpora los supuestos previstos por la Suposición 6, la Su-
posición 7 y la Suposición 8, y en su versión clásica se completa con el supuesto de normalidad
de los errores
que es una forma compacta de escribir
Ci \xi rv N(O, a 2), i = 1, ... , n .
Este supuesto completa lo que denominamos modelo clásico de regresión lineal (MCRL),
que en el Tema 3 denominamos modelo homocedástico de esperanza condicionada li-
neal con normalidad en el error.
La sección 4.3 usamos el supuesto de normalidad de los errores que completa los supuestos
sobre el primer y el segundo momento de las variables.
Como sabemos por la Ecuación (3.4.13), en realidad el estimador MCO de parámetros, b,
es una combinación lineal de los términos del error más una constante. Lo mismo sucede por
lo tanto con Xb y con e. Resultado que incorporamos en la siguiente proposición
Tema 5 177
Teorema 21. Bajo los supuestos recogidos en las Suposiciones 1 y 8 y la normalidad del
término error (e 1X"'N(O, 0" 2 In))
bjX N((3 , 0" 2 (X'X)- 1 )

XbjX N(X(3, CT 2 P)
el X N(0, 0" 2 M).
Demostración. La primera expresión se obtiene al aplicar el Teorema 10 y la Ecuación (4.2.10).

La segunda es evidente a partir de que JE(Xb l X) = XlE (b l X) = X{3. La expresión de la varianza se
deduce a partir de (5.1.14). Finalmente, ya sabemos por (5.1.11) que e= Me, por lo que es inmediato
que JE( e 1 X) =lE(Me: 1 X)= MJE(e / X)= O. La varianza se obtiene fácilmente a partir de (5.1.12).
o
Una observación interesante de este resultado es que la distribución de los residuos MCO, e,
no depedende de (3. Es decir, los residuos MCO no son informativos sobre los parámetros de
la regresión poblacional. Sin embargo, como ya hemos comentado en la sección anterior, los
residuos MCO son centrales para la estimación de la varianza del error.
Podemos incluso derivar la distribución de 8 2 a partir del supuesto de normalidad de los
errores. Para ello recuérdese que e' e = e'Me. De acuerdo con el supuesto de normalidad de e,
e tiene que e/O" 1 X"' N(O, In)· Consideremos por tanto el producto ~ = ~M;. La matriz
proyección M es, como sabemos , idempotente. Por tanto el último producto representa una
forma cuadrática que está sumando el cuadradado de variables normales independientes, sien-
do la suma ponderada por una matriz idempotente. El apéndice contiene la demostración por
la que una suma ponderada por la matriz M de normales independientes es una distribución
~ 2 con grados de libertad igual al rango de la matriz M. Por otra parte, la teoría de matrices
indica que traza(M) = rango(M) siempre que M sea idempotente. En consecuencia, y dado
5.1.15), se tiene que~"' x2 (n-K), es decir, una chi-cuadrado con n-K grados de libertad.
A partir de aquí y de (5.1.16), la siguiente proposición es evidente.
Teorema 22. Bajo los supuestos recogidos en las Suposiciones 1 y 8 y la

normalidad del término error (e 1 X "'N(O , CT 2 In))
2 1 2 2
8 f'V--CT "'X (n - K).
n-K
Por un lado observamos que los grados de libert ad están en sintonía con el hecho de que
utilicemos los residuos, y no los errores, para estimar la varianza. Si pudiéramos observar los
errores del modelo, y dado el supuesto de normalidad de estos, se tendría que ;"'N(O, In)
,. en consecuencia ~; se distribuiría como una chi-cuadrado con n grados de libertad. Por
otro lado, esta proposición establece que las distribuciones marginal y condicionada de 8 2 son
idénticas dado que la distribución de 8 2 dado X no depende de X. Sin embargo, esto no ocurre
con las distribuciones de b, Xb y e.
5.1.4. Tests de hipótesis bajo el supuesto de normalidad
En la Sección 4.3.1.l presentábamos varios resultados en forma de teoremas. Este apartado

amplía y prueba los resultados entonces presentados bajo los supuestos que caracterizan al
modelo clásico de regresión lineal.
Consideremos inicialmente que estamos interesados en uno de los coeficientes de regresión
poblacional, f3k· Es muy posible que dicho interés esté motivado porque la propia teoría
económica indique la relevancia o el interés de que dicho coeficiente tome un valor en concreto.
Por ejemplo, la teoría podría indicar una restricción de la forma fJk = l. La estimación MCO
de dicho coeficiente será bk. La probabilidad de que bk = 1 es cero, si bien la insesgadez
del estimador nos garantiza que, en media y bajo los supuestos establecidos, será l. Parece
entonces razonable la decisión de no rechazar que la restricción sea cierta por el hecho de
no ser idéntica a la unidad. Para tomar una decisión en ese sentido será necesario establecer
cuándo la discrepacia o error muestral (esto es bK - 1) es «tan grande» como para que no
sea cierta la restricción. Para saber si es «muy grande» o no, bajo ciertas circunstancias, es
posible construir un intervalo de confianza o un test estadístico cuya distribución sea conocida
cuando la restricción (o hipótesis) es cierta. Este test o contraste nos permitirá decidir sobre si
la estimación para nuestra muestra bk está cerca (en términos estadísticos) del valor hipotético
previsto por la teoría, 1. La restricción a ser contrastada se denomina hipótesis nula y se
denota habitualmente por Ha. Bajo la Ha junto con el conjunto de supuestos mantenidos en
lo que denominamos modelo clásico de regresión lineal, es posible obtener un contraste o test
estadístico de distribución conocida. Así, el test estadístico es también una variable aleatoria
que se distribuye según una distribución conocida cuando la hipótesis nula es cierta. Si el valor
empírico que toma el test para una muestra concreta es un valor que aparece frecuentemente
de acuerdo a la distribución bajo la Ha, entonces el test o contraste no da muestras de ir
contra la hipótesis nula, y por tanto no rechazaríamos dicha Ha. Lo contrario sucedería, esto
es rechazaríamos Ha , si el valor que tomara el contraste fuera un valor extremo, es decir un
valor que en raras ocasiones aparece en la distribución prevista bajo la hipótesis nula.
En el caso que nos ocupa del MCRL. para desarrollar la distribución del error de muestreo
observemos inicialmente cuál es su expresión, que por conveniencia reescribimos a continuación
(3.4.13)
de donde observamos que es una función de (X, e) y además es lineal en e. Como ya hemos
indicado en el epígrafe anterior, bajo el supuesto de normalidad sobre el término e, y dado que
la combinación lineal de distribuciones normales 8 es también una normal, el error muestra!
(errores de muestreo) también se distribuirá como una normal. Por tanto
(5.1.18)
que, como vemos, hemos obtenido sin especificar cuál es la distribución conjunta de (X , e).
8
Ver Apéndice técnico (Sección 5.5).
Tema5 179
5.1.4.1. El test o contraste exacto de la t

Es habitual que estemos interesados en contrast ar una hipótesis determinada sobre un
coeficiente, digamos el coeficiente k, como en el ejemplo inicial. En ese caso la hipótesis nula
sería del tipo
Ha : f3k = f32 ,
donde f32 es cualquier valor que deseemos contrastar, por ejemplo f32 = O constituye, en este
caso, la hipótesis nula Ha. Una forma de entender esta hipótesis nula es considerarla como
una restricción lineal sobre el modelo. La hipótesis alternativa es Hi : f3k =f. f32, y se hará a
un nivel de significación a determinado por el investigador.
A partir de la Ecuación (5.1.18) podemos obtener la distribución en caso de imponer la
restricción que queremos contrastar, obteniéndose
y entonces simplemente dividiendo por la desviación estándar se tiene la variable
Zk = (bk - f32 ) ,..., N(O, 1) ,

V 1
a 2 [(X X)- 1 ]k,k
cuya distribución, por la forma en que la hemos construido, es la normal estándar 9 .

Por tanto, Zk podría ser utilizado como test estadístico para contrastar Ha. Es decir, podría
-er utilizado para saber si el error muestra! (bk - f3Z) es demasiado grande: esto sucede si el
rnlor de Zk para la realización que tenemos del modelo resulta incompatible (por ser un
,-alor extraño de acuerdo a la distribución prevista bajo la hipótesis nula) para un nivel de
-ignificación decidido anteriormente.
En cuanto al test conviene observar que su distribución [N(O, 1)] no depende de X , por
~o que la distribución marginal (es decir, la distribución no condicionada) y la distribución
condicionada por X son la misma, pese a que Zk sí dependa de X. Dicho de otro modo, Zk y X
se distribuyen de manera independiente y, con independencia del valor de X, la distribución
de Zk es la misma y coincide por tanto con la no condicionada o marginal. Así, bajo estos
-upuestos y a estos efectos, no tiene ninguna relevancia si las X son o no estocásticas.
Otro hecho a favor del test o contrastes (o ratio) tipo t es que su distribución es conocida.
En la práctica el cálculo del test estadístico depende de un parámetro desconocido a 2 , por
.o que será necesario estimarlo previamente. Parece lógico utilizar a tal efecto el estimador
_.reo 82.
En este último caso deberíamos sustituir 8 2 por a 2 en la expresión de Zt · El denomina-
or será ahora [Vai'(bk) ]112 que ya definimos como «error estándar de bk »· Sin embargo esta
sustitución va a cambiar la distribución del test dado que 8 2 es función de la muestra y por
-anto es una variable aleatoria (a diferencia de a 2 que es constante desconocida, y por tanto
no aleatoria). Afortunadamente la distribución del nuevo contraste, que llamaremos tk, es
~onocida como muestra la siguiente proposición.
9
Ver Apéndice técnico (Sección 5.5).
180 ASPECTOS AVANZADOS: INFERE~C IA EN EL MODELO DE REGRESIÓN LINEAL
Teorema 23. Según el modelo clásico de regresión lineal (MCRL) caracterizado po-
los supuestos recogidos en las Suposiciones 7 y 8 y la normalidad del término erro-
(e 1 X "'N(O, a 2 In)), el estadístico tipo-t siguiente
tk = (bk - !3Z ) (5.1.19

Vs [(X X)-
2 1 1
]k,k
se distribuye como una t - student con (n - K) grados de libertad.
Demostración. Reescribimos tk del siguiente modo
(bk -{32) f;
.¡0"2[(X'X)-1]k,k sz
Zk
V(~) /(n - K)
El cociente entre una variable N(O, 1) y la raíz de una variable chi-cuadrado dividida entre sus corre5-
pondientes grados de libertad tiene, por definición, una distribución t con dichos grados de libertad.
siempre que las variables del numerador y del denominador sean independientes. Respecto del nume-
rador de la última igualdad, zk, hemos mostrado que es una N(0,1). Por otra parte, el denominador
contiene a (~),por lo que a partir del Teorema 22, resulta que ( ~) ,..., x2 (n - K). Solo resta com-
probar que el numerador y el denominador son variables aleatorias independientes, dado X. Para ello
obsérvese que Zk depende de b , mientras que ( ~) dependen de e. by e se distribuyen condicionadili:
en X como una normal conjunta dado que b y e son funciones lineales de e .
Bajo normalidad, dos variables no correlacionadas son independientes (ver Apéndice técnico, Sec-
ción 5.5). En realidad este es el caso, ya que cov(b, e [ X) = O como mostramos a continuación:
cov(b,e[ X )= JE[(b - lE(b [ X))(e-lE(e [ X)') [ X]

1E[((x'x)- 1 X'e) (Me-lE(Me 1X))'1 X ]
1E[((X'X)- 1 X'e) (Mt:)' [ X]( dado JE(Me [ X)= MlE(e [ X)= O)

1E[(X'X)- 1 X'ee'M [ X]= (X'X)- 1 X'MlE[ee' [ X]
OlE[ee' [ X] = O,
(dado que X'M = X'(In - P ) =X' - X'P =X' - X'(X(X'X)- 1 X') = O).
Algo que intuitivamente en el Torema 21 pudimos comprobar: que los residuos MCO no son
informativos sobre los parámetros de regresión /3. Por tanto, dado que Zk es función de b , y ( ~) es
función de e, siendo b y e independientes entre sí, entonces también lo son el numerador y denominador
de tk = z .
J(~)/(n-K)
o
Tema 5 181
Al test o contraste basado en este ratio lo denominaremos test o contraste de la t. En este

caso lo utilizaremos para realizar inferencia con la intención de contrastar una hipótesis nula
(Ho) sobre un coeficiente del modelo de regresión poblacional. Para ello es preciso establecer
el nivel de significación a, que indica la probabilidad de rechazar la hipótesis nula cuando esta
es cierta (es decir, obtener un falso negativo para Ho).
Como vimos en la Figura 4.3.1, la distribución t-student está centrada en O y es simétrica.
La regla de decisión del test de la t consiste, en términos generales, en verificar si el valor
observado del estadístico (5.1.19), para la hipótesis y muestra concreta, está muy alejado de O.
Bajo la H0 la distribución es una t-student con (n-K) grados de libertad, por tanto podemos
localizar en las tablas 10 correspondientes aquellos valores (valores críticos) que delimitan el
área establecida en el nivel de significación a. Estos valores críticos, por ser una distribu-
ción simétrica, serán simétricos y por tanto los podemos denotar sin generar confusión por
±ta¡2(n - K), de modo que a la derecha de ta¡2(n - K) se delimite un área 0.025 (2.5%) y
a la izquierda de -ta¡ 2(n - K) un área simétrica de 0.025 (2.5 %). De esta manera podemos
indicar que si la H0 es verdadera, entonces
Pr(-ta¡2(n - K) < t < ta¡2 (n - K)) = 1 - a.
Esto nos sirve para establecer el significado de «estar alejado de 0» y poder establecer la
regla de decisión del test: no rechazar («aceptar») Ho si ltkl < ta¡ 2(n - K) ya que indica que
el valor obtenido tk para la muestra concreta es compatible con la distribución prevista bajo
H0 . Rechazar la hipótesis nula en caso contrario.
Otra forma alternativa para realizar el contraste de la t es elaborando un intervalo de
confianza para 132. Cuando la Ho se «acepta» (es más correcto decir «no se rechaza») estamos
en la «región de aceptación», es decir, en
lo que es equivalente a
bk - ta¡ 2(n - K) · Jvar(bk) < 132 < bk + ta¡2(n - K)) · Jvar(bk),

que pone de manifiesto que el intervalo será más est recho, cuanto menor sea el error estándar
de bk. El intervalo de confianza, que es aleatorio al ser función de los datos, se construye de
modo que nos dé información sobre el rango de valores de 132 que son consistentes con los
datos observados, es decir aquellos para los cuales el test no rechaza la nula.
Finalmente podemos realizar el contraste de la t utilizando el conocido y ampliamente
utilizado p - valor. Recuérdese que este valor indica precisamente el nivel más pequeño para
el cual el test rechaza la H 0 , es decir, el test rechaza para todos los niveles por encima del
p - valor. Dicho de otra manera, si tk tiene asociado un p - valor determinado y denotado
por p - valor(tk) , entonces estamos soportando una probabilidad de cometer un Error Tipo
1 de p - valor(tk) cuando optamos por rechazar la hipótesis nula. En el caso de tests de dos
colas tendremos
p - valor= 2 · Pr(t > ltkl),
10
Tablas que se encuentran en el apartado correspondiente del documento Apéndices y Tablas.
al ser una distribución simétrica.

Es posible relacionar los tres métodos para contrastar la hipótesis nula. Por ejemplo
utilizando un nivel de significación determinado a, rechazaríamos cuando p - valor(tk) < a
y esto ocurre si y solo si itkl > ta¡ 2 (n - K) , por lo que la equivalencia es evidente. Por otrc
lado se observa que el hecho de indicar el p- valor es más informativo para el usuario ya que
permite intuir la fuerza del rechazo de la hipótesis nula: cuanto más próximo a cero esté e:
p-valor, con mayor claridad se estará rechazando la hipótesis nula.
5.1.4.2. Test o contraste de la F para varias restricciones
En muchas ocasiones, como hemos visto , resulta útil o pude interesar contrastar más
de una restricción lineal. Supongamos que deseamos contrastar r :S K restricciones sobre
los coeficientes de los regresares del modelo (por ejemplo en la página 133 consideramos que
r = q). Estas restricciones, que configurarán la hipótesis nula, Ha , podemos siempre escribirlas
a través de un simple sistema de ecuaciones lineales:
Ho: R¡3 = r, (5.1.20
donde R y r toman valores previamente especificados de acuerdo con la hipótesis nula. Por
ejemplo, si queremos contrastar que dos parámetros son iguales, digamos los dos último
f3K = f3K-1, y que un tercer parámetro (f3K-2) toma valor cero, en tal caso tendríamos que
o .. . o 1 -1 ]
R [ o .. . 1 o o
r
[~ ]'
por lo que. en general, R será una matriz de dimensiones (número de restricciones) x (número
de parámetros del modelo) , que denotamos por (r)x(K). Es evidente que r coincide con el
rango de la matriz R , ya que de lo cont rario habría ecuaciones redundantes.
U na vez que hemos establecido cómo son las restricciones vamos a construir un test esta-
dístico que tenga una distribución exacta bajo la hipótesis nula descrita en (5.1.20).
A partir del Teorema 21 se tiene que bajo Ho: R¡3 = r,
Rb X rvN(R¡3, o- 2 R(X'X) - 1 R')

(Rb - r) X rvN(O, o- 2 R(X'X)- 1R' ) (dado que bajo Ho : R¡3 = r). (5.1.21)
por lo que sería posible, a priori, construir un test si reemplazáramos o- 2 por la varianza
estimada s 2 . La siguiente proposición recoge dicho resultado.
Tema 5 183
Teorema 24. Bajo los supuestos del MCRL (Suposiciones 7, Suposición

8 y normalidad del término error), y bajo la hipótesis nula Ho : R,8 = r , el
cociente siguiente
r)' [R (X'X )~ R'J- (Rb - r)

1 1
F = (Rb - /r' (5.1.22)
s
conocido por test de la F, se distribuye como una F(r,n - K).
Como sucedía en el caso del test de la t, dado que la distribución de la F no depende de

X, la distribución condicionada y no condicionada coinciden, y por lo tanto basta con probar
que la distribución condicionada por X se distribuye como indica la proposición anterior.
Demostración. Dividimos y multiplicamos por 2

CT , y posteriormente usamos que s 2 = n~~, de modo
que escribimos
1
CT 2 (Rb - r)' [CT 2 R(X'X)- R'J- 1 (Rb - r) /r
F
s2
w/r
e'e/(n - K) (~) /(n -K)'
donde por simplificar la notación hacemos que w = (Rb - r)' [CT 2 R(X'X)-
1
R'J- 1 (Rb - r). Por el
Teorema 22 sabemos que ( , ) 1 X,.._, x2 (n - K). Falta por comprobar (a) que w 1 X '""X 2 (r) y (b)
que ( , ) y w se distribuyen independientemente condicionados por X.
Resultado (a): bajo H 0 : R/3 = r , resulta por la expresión (5.1.21) que Rb - r se distribuye como
una normal con media O, y
var(Rb - rl X)= CT 2 R(X'X)- 1 R ',
por lo que podemos reescribir w = (Rb - r)' [var(Rb - r 1 X)J- 1 (Rb - r) que es una expresión que
1
-urna r normales al cuadrado, al ser R (X'X)- R' una matriz cuadrada de orden r. Por tanto w 1
X '""X2(r).
Resultado (b ): ya probamos para la Ecuación (5.1.19) que utilizando el supuesto de normalidad,
b y e se distribuyen condicionados por X de forma independiente. Dado que w es una función de b y
( , ) lo es de e, queda probada la independencia entre los dos.
La definición de una distribución F como cociente de dos variables aleatorias distribuidas como chi-
cuadrado, divididas cada una de ellas por sus respectivos grados de libertad. concluye la demostración.
o
En este caso el test o contraste es de una sola cola. Si la hipótesis nula es verdadera,
entonces Rb - r = R (b - ,8) tenderá a tomar valores pequeños haciendo que el numerador
de (5.1.22) sea también pequeño, y por tanto un valor alto del test F sería indicativo de un
rechazo de la Ho. La regla de decisión es por tanto rechazar la hipótesis nula si el valor que
toma el estadístico F es superior al valor crítico asociado al nivel de significación determinado
de antemano.
El test (5.1.22) puede interpretarse a partir de la distinción entre el concepto de regresión

restringida y regresión no restringida, tal y como veremos seguidamente.
Recordemos que la técnica MCO consistía en minimizar SCR, sujeto a un conjunto de
restricciones lineales expresadas por Ho : R,6 = r. El problema típico de estimación MCO se
transforma en este otro
mjn SCR(/J) sujeto a R/J = r. (5.1.23)
(3
La obtención del f3 que satisface el problema anterior se denomina mínimos cuadrados res-
tringidos o regresión restringida. Denotaremos por /3
al estimador restringido del parámetro
resultado de resolver la Ecuación (5.1.23). A los efectos de solventar este problema formaremos
el Lagrangiano correspondiente a la optimización restringida
L([3, -\) = ~ (Y - xf3)' (Y - xf3) + ,x' ( R/J - r) ,

donde el vector >. de orden (r x 1) está formado por los multiplicadores de Lagrange del
problema. Las condiciones de primer orden se obtienen a partir de desarrollar L([3, ..\) y de
igualar a cero sus derivadas parciales respecto de [3 , >. :
- 1 - 1- - / -
L(,6, ,\) = 2y'y - y'X,6 + 2'{3'X'X,6 + ,\ R,6 - A'r,
derivando e igualando a cero se obtiene que los estimadores restringidos serán los /3 que
satisfagan las ecuaciones
8L({3, ,\) 1
O{::} -X'y + X'X/j + R ,\=O
af3
1
{::} /3 = (X'Xf X'y - (X'X)- 1 R
1
,\ (5.1.24)
8L([3, ,\)
O {::} R/j - r = O
é),\
de modo que premultiplicando la expresión (5.1.24) por R y usando la segunda ecuación (la
restricción en sí) se tiene que
1 1
r R/:J = R (X'Xf X'y - R (X'X )- 1 R ,\
1 1
{::} r = Rb - R(X'X)- R ,\
1
{::} (Rb- r) = R(X'X) - 1 R ,\
1
{::} ,\ = [R(X'X)- 1 R ]-
1 (Rb - r),
lo que nos permite expresar (5.1.24) del siguiente modo:

Tema 5 185
Esta regresión restringida tendrá unos residuos diferentes de la regresión no restringida.

De hecho, la suma del cuadrado de los residuos restringidos, SCRfü será ahora
(Y - x~)' (Y - x~)
[Y - Xb +X (b- ~)]'[Y - Xb +X (b- ~)]
[e+x(b-~)J' [e+x(b-~)J
e'e + (b- ~)' (X'X) (b- ~) (pues e'X =O)
:- por tanto la diferencia entre la suma del cuadrado de los residuos restringidos, SCRR, y la
-urna de cuadrados no restringidos, SCRNR, será (ver por ejemplo 3.4.8)
(b - ~) I X'X ( b - ~)
[(x'x)- 1 R
1
[R(X'X)- R
1
r
1
1
(Rb- r)J' X
1 1
(X'X) [(X'X) - R [R(X'X)- 1 R']- 1 (Rb- r)]
(Rb - r)' [R(X'X)- R r R(X'X)- (X'X) 1 1

1 1
X
(X'X)- R [R(X'X)- R r (Rb - r)

1 1 1 1
1
(Rb - r)' [R(X'X)- R r (Rb - r),

1 1
1
(5.1.25)
1
donde hemos utilizado fundamentalmente el hecho de que las matrices R(X'X)- 1 R y (X'X)- 1
1
son simétricas, junto con la propiedad de la inversa que indica que [A- 1)' = [A'r siendo A
una matriz invertible.
Observamos que a partir de la Ecuación (5. l. 25) y de la definición de s 2 , podemos expresar
5.1.22) del siguiente modo:
F = (SCRR - SCRNR) /r
(5.1.26)
SCRNR / (n - K)
que como ya probamos se distribuye como una F (r,n - K). Luego tanto la expresión (5.1.26)
como la expresión (5.1.22) arrojan el mismo resultado11 .
5.1.4.3. Relación entre R 2 y el test de la F
A menudo estamos interesados en contrastar la significatividad general del modelo , esto es,
si las variables explicativas resultan en su conjunto estadísticamente significativas. Veremos
que es posible mejorar la evaluación estadística de la bondad del ajuste al poder relacionarla
con un contraste estadístico.
11
Utilizar el test de F según (5.1.26) implica realizar dos regresiones (una con las restricciones activas y
otras sin ellas) , guardar los residuos y calcular el ratio descrito por (5.1.26). En cambio , en el caso del contraste
(5.1.22) solo es necesario la regresión no restringida.
Dado que la forma más general de contrastar un conjunto de hipótesis sobre un modelo
es a partir del test de la F presentado ant eriormente, el primer paso será expresar la hipótesis
nula en los términos que venimos usando (R,B = r ). El modelo no restringido será el modelo
con una constante habitual, y = X,B + E
...
1
1
X12
X22 ... X1K
X2K 1 ~l. 1+ [ .
f32 E2
E¡
.. ..
1 Xn2 XnK f3x En
nxl n xK Kxl nxl
mientras que el restringido será exactamente el mismo, esto es y = Xf3 + E, solo que sujeto a
la restricción descrita a continuación:
( O(K-l ) xl l x
(K-l)x(K)
-1 z1
f31
= r = O¡K-l)xl (5.1.27)
Kxl
El estimador MCO no restringido ya es el bien conocido b = (X'X)- 1 X'y. Por otra parte,
el estimador MCO restringido por la condición de la Ecuación (5.1.27) será aquel /3 que cum-
pliendo la restricción (es decir, R/3 = O) minimice la suma cuadrática de los residuos. Cumplir
la restricción implica que ~2 = ~3 = · · · = ~K = O, por lo que quedaría únicamente estimar
por MCO el parámetro (31 que como sabemos es y para un modelo con constante. Así resulta
que f3 =[ y O · · · O ]'y por tanto para esta restricción se tiene que X/3 = [ y y · · · y ]'
y en consecuencia
1
SCRR = (y - x/3) (y - x/3) =(y - y)'(y - y). (5.1.28)
A partir de la Ecuación (3.4.20) y de la Ecuación (5.1.25) podemos utilizar esta última

expresión de la suma cuadrática de los residuos restringidos por la condición (5.1.27) para
mostrar que
(b - /3) (b- /3).

1
(y -y)'(y -y)= SCRR - SCRNR = X'X
Estos resultados específicos de la restricción (5.1.27) junto con la definición de R 2 de

(3.4.21) nos permite expresar el contraste de F en función de la bondad del ajuste. A tal
efecto, reescribimos F = (SCRs1FI::RRNR) (n~K) , de modo que usando los resultados anteriores,
también podemos escribir
(y - y)' (y - y) = _ e'e
1
(y -y)'(y - y ) (y -y)'(y -y)
SCRR - SCRNR = 1 - SCRNR.
(5.1.29)
SCRR SCRR
Tema 5 187
Usando esta nueva expresión del R 2 podemos desarrollar F del siguiente modo
(SCRR - SCRNR) (n - K)
F = (5.1.30)
SCRNR r
(SCRR - SCRNR) / SCRR (n - K)
(5.1.31)
SCRNR/SCRR r
(y-y¿' (y-y¿
(y-y)1 (y-y ) (n - K)
= e'e r
(5.1.32)
(y-y) (y-y)
R2 (n-K)
= 1- R2 r
(5 .1. 33)
que en este caso se ditribuirá como una F(r = K - 1, n - K).

De este modo si el valor numérico del estadístico supera al de la tabla de la F( K - l, n- K)
rechazaríamos H 0 , esto es, rechazaríamos la hipótesis de que «todos los parámetros (excepto
el de la constante) son nulos» , luego el modelo sería globalmente válido. Lógicamente esto
último encaja perfectamente con la formulación del test en términos del R 2 ya que F tomará
valores numéricos altos cuando R 2 sea elevado (para un valor fijo de (n~K) ), es decir, cuando el
modelo no restringido ajuste relativamente bastante bien. No obstante, nótese que numerador
y denominador están ponderados por la relación que exista entre el número de observaciones
y el número de parámetros independientes del modelo en cuestión. En la práctica es posible
que bajos R 2 puedan ser compatibles con un modelo globalmente significativo siempre que el
número de observaciones sea muy elevado en relación con el número de parámetros.
Esta observación pone de manifiesto la relevancia de contar con un test para la significación
global del modelo, ya que este permite no dejarnos guiar exclusivamente por el valor arrojado
por el R 2 , sino completar nuestra valoración del modelo de una forma más sólida utilizando
un test estadístico sobre la validez del modelo completo.
Resulta más cómodo a efectos prácticos contrastar hipótesis utilizando la expresión (5.1.26)
que la (5.1.22), del mismo modo que es más rápido usar (5.1.33) para contrastar la significati-
vidad global del modelo que el estadístico equivalente basado en las sumas cuadráticas residua-
les. Existe una expresión equivalente para el test general de hipótesis lineales (5.1.26) también
en términos de R 2 . Para ello, distinguimos entre el R 2 de la regresión restringida y de la no
restringida, Rk =: [1 - (SCRR)/(y - y)'(y - y)] y RJvR =: [1 - (SCRNR)/(y - y)'(y - y)],
respectivamente. Utilizando estas definiciones expresamos el estadístico F como
(SCRR - SCRNR) (n - K)
F = (5 .1.34)
SCRNR r
(y - y)'(y - y)[(l - Rk) - (1 - RJvR)] (n - K)
(5.1.35)
(y - y)'(y - y)(l - R'JvR) r
R'Jv R - Rk (n - K)
(5.1.36)
1 - RJvR r
que expresa otra forma equivalente de realizar el contraste de la F para cualquier conjunto de
restricciones lineales. De hecho, en el caso de la restricción de significación global (5.1.27) será
un caso particular de este último resultado. Así, bajo la hipótesis nula del modelo restringido se
=
tiene (5.1.28) y por tanto R1 [1 - (SCRR)/(y - y)'(y - y)] =O, por lo que (5.1.36) queda
reducido a (5.1.33).
5.1.4.4. Una revisión conjunta del test t y el test F
Habitualmente cuando se presentan los resultados de una regresión aparece el valor del
parámetro estimado junto con el valor del estadístico t que se usaría para contrastar la nula
de fJk = O. Así cuando el valor del estadístico t es mayor (en valor absoluto) a ta; 2 ( n - K) a
un nivel de significación a, suele igualmente decirse que el parámetro fJk es significativo y por
tanto lo es la variable económica asociada a este. Esto sucede para cada parámetro estimado.
A la hora de interpretar los resultados globales de la regresión, uno puede verse tentado
de realizar comparaciones entre los distintos estadísticos t obtenidos para el conjunto de va-
riables explicativas del modelo planteado. Sin embargo, cualquier inferencia de este tipo es
estadísticamente arriesgada y por tanto posiblemente poco adecuada. Esto es así fundamen-
talmente porque los estadísticos t obtenidos a partir de la regresión se distribuyen de forma
dependiente 12 . Obsérvese que todos los tests t comparten el término s en el denominador, y
de esta manera los tests estadísticos t están dando información relacionada.
Por otra parte, cuando se realiza un contraste de hipótesis mediante un test t solo está
activa una restricción sobre uno de los parámetros, dejando sin restringir el resto de paráme-
tros. En cambio cuando se realiza un contraste de hipótesis sobre dos o más parámetros están
activas dos o más restricciones. De ahí claramente se deduce que no es lo mismo realizar dos
o más contrastes sobre dos o más parámetros mediante dos (o más) tests tipo t que realizar
un contraste de dos (o más) restricciones con un test tipo F.
Esto explica el que con frecuencia nos encontremos con situaciones en las que un parámetro
o variable resulta significativa, es decir, el contraste de la t rechaza la nula de fJk = O, y sin
embargo, dicha variable considerada junto con otra u otras en su conjunto resulten todas no
significativas. Esto último equivale a que cuando utilizamos el contraste de la F, la hipótesis
nula fJk-l = fJk = f3k+1 =O no sea rechazada, por lo que el grupo de variables [Xk-1, Xk , Xk+1]
serían conjuntamente no significativas.
Una vez que sabemos que cuando se contrastan hipótesis de dos o más restricciones los
resultados de realizar dos o más contrastes de la t y los de realizar un contraste de la F no
son equivalentes, es preciso indicar que el test indicado para contrastar varias restricciones
es el test de la F. Hay varias razones que lo justifican. La primera de ellas y más obvia
es, como hemos indicado antes, que solo el test de la F está contrastando significatividad
conjunta, mientras que aplicar varios tests de la t no es exactamente equivalente a contrastar
conjuntamente dichas restricciones. Por otra parte y de un modo muy intuitivo podemos
observar que si realizamos, por ejemplo, un contraste de hipótesis de dos restricciones con dos
tests t a un nivel a cada uno, el contraste de ambas restricciones ya no será a, mientras que
el test de la F nos permite ajustar perfectamente el tamaño del test (nivel a).
No obstante, hay un caso en el que el contraste de la t y de la F son exactamente iguales.
12
Esto se puede ver intuitivamente en la expresión4.3.41
Tema 5 189
Esto sucede cuando hay una única restricción, por ejemplo:
R= [O ··· 1 .. . O] r = [!32] ·
En este caso el test (5. l. 22) será
(bk-!32)' [R(X'x)- 1R']- 1 (bk-!32) /r

F = s2
(bk-!32)' [(X'X)- J;i (bk-!32) /1
1
------~--
s2
' ----- [el vector R actúa como selector]
2
2
=
(bk-!32) ( (bk - !32) )
s2 . [(X'x)-1]k,k - Js2[(X'X)-l]k,k '
es decir, el cuadrado de una t - student(n - K) , que es, por la definición de ambas distribu-
ciones, precisamente una F(l , n - K).
Adicionalmente, podemos comprobar intuitivamente que a medida que el número de res-
tricciones disminuye, marginalmente el valor que toma el test F aumenta, y por tanto tiende
a aumentar la potencia del contraste (esto es. Pr{ F > F(r, n - K) 1 H o es falsa}). Dicho en
otros términos, cuando se trata de una sola restricción el test de la t (equivalente al F) es el
test o contraste más potente de una restricción.
5.2. PROPIEDADES DEL ESTIMADOR MCO PARA EL MODELO DE

PROYECCIÓN LINEAL
Las propiedades de este modelo se introdujeron en la Sección 3.2, junto con las propiedades
de la función esperanza condicionada. La media condicionada es el mejor predictor de Y entre
odas las funciones de x , pero su forma funcional es generalmente desconocida. Recordemos
que el modelo de proyección lineal (MPL) se inspira precisamente en definir aquella apro-
ximación lineal a la función de esperanza condicionada que tenga el menor error cuadrático
medio entre todos los posibles predictores lineales.
Para poder definir el modelo de proyección lineal se necesitan las condiciones de regularidad
indicadas en la Suposición l. Si estas condiciones se satisfacen, entonces las propiedades
desarrolladas en el Teorema 8 se satisfacen automáticamente. Esto constituye uno de los
atractivos o ventajas del modelo de proyección lineal, pero no es el único.
En el apartado anterior hemos derivado la media y la varianza del estimador MCO en el
contexto del MCRL. La distribución muestral de b , el estimador MCO, depende, como hemos
tudiado anteriormente, de la función de distribución conjunta (Yi, xi) y del tamaño muestral
ri. En la práctica totalidad de los casos esta función es extraordinariamente complicada, de
modo que no es posible calcular analít icamente la función exacta de distribución del estimador
~1CO. Una alternativa muy potente consiste en ut ilizar métodos de aproximación. El método
más conocido, pero no el único en la actualidad, es el fundamentado en la teoría asintótica, el
cual aproxima las distribuciones muestrales utilizando para ello el comportamiento límite de
las distribuciones muestrales finitas cuando el tamaño muestral n crece todo lo que deseemos.
Las herramientas fundamentales de la teoría asintótica que necesitamos son las Leyes de
grandes números (LGN), los Teoremas centrales del límite (TCL) y un teorema de preservación
de ciertas propiedades para funciones continuas.
Las condiciones del MCRL bajo las que hemos derivado algunas propiedades del estimador
MCO para muestras finitas son tal vez excesivamente exigentes, claramente si las comparamos
con las condiciones del MPL. De este modo podemos decir que desde el punto de vista práctico
u operativo es más versátil la aproximación lineal planteada en el MLP. Un aspecto relevante
es saber si la teoría desarrollada para el MCRL es válida para el MPL. La respuesta es
evidentemente negativa. No obstante, los resultados asintóticos para el MCRL son igualmente
aplicables en el MPL.
Dado que el MPL es aplicable a casos muy generales, una forma alternativa de entender el
MLP es observar que lo que estimaríamos por MCO en caso de que algunos de los supuestos del
MCRL no se satisficieran (salvo el supuesto de muestra iid), sería precisamente la proyección
(estimación) que mejor combina linealmente las variables que hemos llamado «explicativas»
para «predecir» la variable dependiente. Tal combinación lineal es justamente la que nos
proporciona el estimador MCO. Recordemos en este sentido que el mejor predictor siempre
es la función esperanza condicionada, pero el «mejor predictor lineal» de Y dado x será
P(Y lx) = x' (lE(xx') f 1 lE(xY)
= x'{3 ,
que ya indicamos en el Teorema 8. Este predictor además tiene la ventaja de que solo requiere
conocer los segundos momentos de la distribución conjunta (Y, x). Veremos en esta sección
que el estimador consistente de los coeficientes del MPL coincide con el estimador MCO en
el MCRL, b = (X'X)- 1 X'y.
5.2.1. Consistencia del estimador MCO

La consistencia es una propiedad de los estimadores, de hecho que un estimador sea con-
sistente es una buena propiedad para el estimador. Significa que para cualquier distribución
de datos, existe un tamaño muestral n lo suficientemente grande como para que el estimador
b esté, con una alta probabilidad, tan cercano como deseemos al verdadero valor (3.
El objeto de este apartado es mostrar que el estimador MCO b es consistente para el
vector de parámetros o coeficientes (3. Esto requiere básicamente tres pasos técnicos:
l. Mostrar que el estimador MCO puede escribirse como una función continua de un con-
junto de momentos muestrales.
2. Usar una Ley de grandes números (LGN) que nos permita verificar que los momentos
muestrales convergen a los poblacionales.
3. Utilizar un resultado técnico que nos garantice que las funciones continuas preservan la
convergencia.
Tema 5 191
El primer paso es sencillo y consiste simplemente en reescribir el estimador MCO del modelo
de proyección b (bn) del siguiente modo
bn = t
(~ XiX~)-l (~ Xi Y)
1=1
t
1=1
(5.2.1)
o bien
(~x'x )- (~x'y).
1
bn =
Observemos que cada uno de los términos del producto está calculando promedios. Los
promedios (medias) son el objeto principal de las Leyes de grandes números. En segundo
:ugar, es evidente que es preciso saber qué es una LGN .
5.2.1.1. Leyes de grandes números

Una Ley de grandes números (LGN) establece condiciones para que una media muestra!
converja en probabilidad (o de forma casi segura) a su media poblacional. Una LGN será cali-
5.cada como fuerte si la convergencia es casi segura y como débil si la convergencia estocástica
en probabilidad 13 . Hay varias formas de pensar sobre esto. U na consiste en considerar a la
:nedia muestral como la versión finita (muestra!) de la media poblacional y a la vez considerar
cada aumento en la muestra como una repetición del experimento poblacional. De hecho, una
:orma de conceptualizar una probabilidad (poblacional) es como el límite de una probabilidad
=mpírica (esto es, de una frecuencia) cuando el tamaño muestra! tiende hacia el infinito.
En muchos casos es posible obtener leyes fuertes que necesariamente implicarán que las
_eyes débiles también serán satisfechas. En este caso optamos por exponer aquellas LGN
que más utilidad tengan para el análisis econométrico. Para ello nos fijaremos primero en los
.::upuestos del MPL, que son el Supuesto 6 de muestra aleatoria y las condiciones de regularidad
de la Suposición l.
La versión más apta para este tipo de condiciones es la siguiente LGN (débil).
Proposición l. Sea { zn } una sucesion de variables aleatorias indepen-

dientemente e idénticamente distribuidas (iid), tal que µ = JE(zn) < oo y
0" = var(zn) < oo (es decir, para n = 1, 2, 3, ... , µ y 0"
2 2
existen ambas y
son finitas). Entonces Zn ..!!+. µ cuando n ~ oo. Siendo Zn = (l/n) ¿~ Zn.
Demostración. A partir de la desigualdad de Chebychev, que recordamos ahora, se tiene que

Pr( IX - JE(X) I 2: e)::::; var(X)/c 2 ,
:;íendo X una variable aleatoria para la que existen media y varianza. Aplicando esta desigualdad al
enunciado del teorema, se tiene
, p r (IZn
1im - µ I 2: é
) ::::; l'im var(zn) = 1im
, 21 21 Ln var (Zn ) = , -a-2 = O.
1im
n--+oo n--+oo é2 n--+oo é n ne 2
n--+oo
i=l
13
En el Apéndice técnico (Sección 5.5.2) , damos la definición .
Esta LGN débil requiere que existan el primer y segundo momentos muestrales, pero se puede
hacer otra demostración más extensa (ver Sección 5.5.3) en la que en realidad solo se necesita
la existencia del primer momento.
Teorema 25. Ley Débil de los grandes números (LdGN)

Bajo el Supuesto 6, si JElzl < oo, entonces cuando n---+ oo,
1 n
z= - L Zi ~ JE(zi) ·
n
i=l
En ocasiones, como tendremos ocasión de ver, puede resultar demasiado restrictivo el

supuesto de muestreo aleatorio puro. Para esos casos podría ser útil observar que es posible
obtener un teorema muy similar a este último sin exigir la condición iid. A cambio debemos
requerir (o basta con) que la covarianza entre cualesquiera Zn, Zn+j sea nula (cov(zn, Zn+j) =
O, j > O). Esto es así porque en realidad en la demostración de la proposición el paso clave
reside en que, dado que el supuesto de independencia garantiza que cov(zn, Zn+j) = O, j >O,
entonces la varianza de Zn se obtiene a partir de la suma de varianzas de Zn· Estas varianzas
además son iguales (dado el supuesto de idéntica distribución), por lo que límn--+oo var(zn) =O.
Por tanto, podemos concluir con una proposición menos restrictiva en la que las variables
aleatorias no tienen por qué ser independientes (basta con que estén no correlacionadas),
ni tampoco han de ser necesariamente idénticamente distribuidas en todos sus momentos
(basta con que tengan igual media y varianza). El resultado queda recogido en la siguiente
proposición:
Proposición 2. Sea { zn} una sucesion de variables aleatorias tales que

= =
µ JE(zn) < oo y a 2 var(zn) < oo y cov(zi, Zj ) =O para i =/= j. Entonces
Zn ~ µ cuando n---+ oo. Siendo Zn = (1 /n) L~ Zn·
Las condiciones del MPL contemplan que (Yi, xi) sea una muestra aleatoria, pero ¿cual-
quier función (Yi, xi) será también iid. En particular, ¿lo serán (xix~) y (xi Yi)? Para responder
podemos utilizamos el siguiente resultado.
Proposición 3. Sea g : JRk ---+ IR1 una función continua. (i) Sean Zt y Z 7
tales que se distribuyen idénticamente, entonces g (Zt) y g (Z 7 ) se distri-
buyen idénticamente. (ii) Sean Zt y Z 7 variables independientes, entonces
g (Zt) y g (Z 7 ) son independientes.
Tema 5 193
Demostración. (i) Sea St = g (Zt), ST = g(ZT). Sea A= [z: g (z) ::; a ]. Entonces Ft(a) = Pr(St ::;
a)= Pr(St E A) = Pr (ST E A) = Pr(ST ::; a) = FT(a) para todo a E JR1. Por tanto, g (Zt) y g(ZT) se
distribuyen idénticamente.
(ii) Sea A1 = [z : g (z) ::; a1J,A2 = [z : g(z) ::; az]. Entonces definimos FtT(a1 , a2) = Pr(St ::;
a1, ST::; a 2) = Pr(St E A1, ST E Az) =
= Pr(St E Ai) Pr(ST E Az) = Pr(St::; a1) Pr(ST::; a2) =Ft(a 1)FT(a2) para todo a1, a2 E 1R1. Por
tanto, g (Zt) y g (ZT) son independientes.
o
Por lo tanto, la Proposición 3 nos permite concluir diciendo que (xixD y (xi Yi) serán también
variables iid. Por el Teorema 8, estas dos variables tienen además medias (esperanzas) finitas
existen sus medias poblacionales) , de manera que entonces estamos bajo las condiciones del
Teorema 25 , y sucede que cuando n-+ oo,
(5.2.2)
y
1 n
-L X iYi 1+ lE (xili).
n i=l
En la expresión (5.2.1) del estimador b tenemos una función de estos dos últimos prome-
dios. La pregunta ahora es saber si esta función preserva la convergencia en probabilidad. El
iguiente resultado nos indica que la convergencia en probabilidad se mantiene siempre que
la función sea continua.
Proposición 4. Sea g : JRk -+ JR 1 (k, l E JR) y una sucesión de vectores

aleatorios de orden ( k x 1) { Zn} tal que {Zn} 1+ z (un vector k x 1 de
constantes), si g es continua en z, entonces g (zn) 1+ g (z).
Demostración. Consideremos el caso k = l = l. Por la continuidad de g( ·) se tiene que para un

arbitrario E. > O existe un ó(é) > O tal que lzn - zl ::; ó(é) implica que lg(zn) - g(z)I ::; E., por tanto
Pr(lzn - zl ::; ó(é))::; Pr( lg(zn) - g(z) I ::; é). Por lo que, dado que límn-+oo Pr(lzn - zl ::; c5(é)) = 1, la
proposición se satisface para el caso bajo consideración. La extensión para casos k, l distintos de 1 es
inmediata siguiendo el mismo esquema de razonamiento.
o
El estimador MCO consiste es una función de dos argumentos
~-1 ~
b= :Exx :Exy'
donde :Exx = (~ I::~=l xixD, ~xy = (~ I::~ 1 xili). La función será continua en aquellos
puntos en los que exista la inversa ~xx· Las condiciones de regularidad de la Suposición 1
garantizan la existencia de :Exx , a la que converge en probabilidad, y la existencia de su
inversa (ver Teorema 8). De este modo hemos probado el siguiente resultado
194 ASPECTOS AVANZADOS: INFERENC IA EN EL MODELO DE REGRESIÓN LINEAL
Teorema 26. Consistencia del estimador MCO

Bajo las Suposiciones 6 y 1, se tiene
b -4 {3 ,
o bien
plim( b ) = {3.
o bien
b = {3 + Op(l).
Las tres expresiones son maneras alternativas de indicar formalmente que el estimador ~
consistente. Todas ellas indican lo mismo, que el estimador MCO (b , o de modo equivalente
bn) converge en probabilidad hacia {3 a medida que el tamaño muestral crece, y por lo tant
el estimador MCO es consistente.
5.2.2. Normalidad asintótica

El último teorema nos permite saber que el estimador converge al verdadero vector pará-
metros , pero esto en sí mismo no es suficiente para poder realizar inferencia estadística. E"
decir, necesitamos la distribución del estimador MCO. Este apartado muestra cómo es posi-
ble llegar a la distribución asintótica del estimador MCO, para ello primero es necesaric
introducir el concepto de convergencia en distribución.
Los pasos que seguiremos vienen marcados por verificar si el modelo de proyección linea.
satisface las condiciones de un Teorema central del límite (TCL). En general, cualquier TCL
indica que los momentos muestrales, debidamente estandarizados, se distribuyen como una
normal.
5.2.2.1. Convergencia en distribución

Esta es una sección técnica, por lo que el lector fami liarizado con las convergencias en
distribución puede prescindir de la misma, o bien considerarla como si de un apéndice se
tratara.
U na de las herramientas fundamentales para analizar el comportamiento de estimadore
en muestras grandes es la convergencia en distribución.
Definición 7. Sea {zn} una sucesión de variables aleatorias cuyas funcio-

nes de distribución denotamos por { Fn} . Si Fn converge a la función de
distribución Fa medida que n -too en todos los puntos zen los que F(z)
es continua, entonces diremos que {zn} converge en distribución a z. Esto
se denotará mediante la expresión Zn ~ z.
Tema 5 195
Intuitivamente, la distribución de Zn se aproxima cada vez más a la distribución de la

variable aleatoria z, es decir a F. De este modo puede utilizarse la distribución F como una
buena aproximación de la distribución de Zn·
La convergencia en distribución se refiere solo a la sucesión de funcion es de distribución
{Fn}, que en sí es una sucesión determinista. Esto hace que en muchas ocasiones se diga que
{zn} se distribuye asintóticamente como lo hace z, y también se denote como Zn ~F.
Este concepto se generaliza fácilmente para el caso de vectores aleatorios Zn· Diremos que
Zn ~ z si para cada z en que F(z) es continua sucede
lím Fn(z) = F( z ),
n-too
iendo Fn(z) la función de distribución conjunta del vector aleatorio z . En este caso, y a dife-
rencia de otros tipos de convergencia, la convergencia elemento por elemento del vector Zn no
implica necesariamente que converj a para la sucesión de vectores Zn. Es decir , si cada elemento
de Zn converge en distribución al correspondiente elemento del vector z , no necesariamente
implica que Zn ~ z , que como hemos dicho hace referencia a la distribución conjunta. El
-iguiente ejemplo puede ayudar al lector.
Ejemplo 17. Consideremos una sucesión de vectores aleatorios Zn que se distribuyen
Zn = ( z2: ,. ., N
Z1 ) ( ( Ü )
o '
( 1
(-1r/2
r
( -1 / 2 ) ) .
1
en este caso es evidente que z1n,..,,, N(O, 1) y que z2n,..,,, N(O, 1), en cambio Zn no converge en
distribución.
Sin embargo, existe un resultado que relaciona la convergencia de la distribución conjunta

de un vector con los elementos del vector. A este resultado se le conoce como desarrollo de
Cramér-Wold.
Proposición 5. Sea {zn} una sucesión de (kx 1) vectores aleatorios y >. un

vector real tal que>.'>. =l. En estas condiciones, si el escalar >11z1n+>-2 z2n+
... +AkZkn (= >.zn) converge en distribución a >.z (= >-1 z1 +>.2z2+ ... +>.kzk),
d
entonces el vector Zn ---+ z.
Esta proposición indica que para mostrar convergencia conjunta en distribución es sufi-
ciente que cada combinación lineal de Zn converja.
Por otra parte, la convergencia en probabilidad significa (de un modo vago) que la su-
cesión de variables aleatorias Zn y z acaban siendo prácticamente iguales en valor numérico.
).Iientras que la convergencia en distribución no implica esto, solo implica que las funciones
de distribución de Zn y z son asintóticamente similares.
196 ASPECTOS AVANZADOS: INFERENCIA E 1 EL MODELO DE REGRESIÓN LINEAL
Ejemplo 18. Sea Xn una variable aleatoria tal que Xn ..:!:+ x. A partir de la distribución de x ahora
reemplazamos x por una muestra aleatoria e independiente de la misma que denominamos z. En
este caso resu 1tará que Xn
d x
--+ y que Xn
d z. Ah ora b'1en, s1.
--+ Xn
d x 1mp
-t . 1·1cara que P
Xn ....::.+ x,
entonces Xn ..:!:+ z implicaría asintóticamente que x = z, lo cual no es probable al ser independientes
x y z por construcción.
A partir del ejemplo anterior podemos concluir diciendo que la convergencia en distribución
únicamente implicará convergencia en probabilidad en caso de que la distribución de x sea
degenerada, es decir, Pr(x = e) = 1 para cualquier constante c. En cambio, a partir de las
definiciones de convergencia en probabilidad y en distribución, se puede comprobar que
p d
Z n ....::.+ Z ===} Z n --+ Z.
Con bastante frecuencia en economet ría se trabaja con transformaciones de la distribu-

ción normal. En esos casos es posible obtener la distribución de la transformación de una
forma bastante inmediata, siempre que la transformación sea continua. El siguiente resultado
incorpora este aspecto:
Proposición 6. Si g (z) es una función continua g : JRk -t JRm y Z n ..:!:+ z,

entonces la sucesión de variables aleatorias {g (zn)} converge en distribu-
ción a g (z ), esto es
d
g (zn) --+ g(z).
Ejemplo 19. Supongamos que Zt ..:!:+ N (O, 1) . Entonces, de acuerdo a la propos1c1on anterior,
se tiene que el cuadrado de Zt asintóticamente se comporta como el cuadrado de una variable
N(O, 1): z'f ..:!:+ x2 (1).
5.2.2.2. Órdenes de magnitud estocásticos

Antes de introducir el TCL pensemos en términos de la media muestral. La media mues-
tral Zn es un estimador consistente de la media poblacional, es decir, colapsa asintóticamente
con la media poblacional µ. Sin embargo, este resultado nos ofrece una información incom-
pleta de la distribución de Zn. Para obtener más información, fijémonos en que la variable
aleatoria vn
(zn - µ) tiene media cero (está centrada en el origen) y una varianza dada por
(yn) 2 var(zn) = a 2 . Es decir, la nueva variable aleatoria yn (zn - µ) a diferencia de la varia-
ble aleatoria no centrada Zn, converge a una función de distribución que es no-degenerada (es
decir que no converge a un único punto). En ocasiones nos referiremos a esta situación dicien-
do que una variable aleatoria no-degenerada Xn es aquella que es acotada en probabilidad y
se denota por Xn = Op(l).
Tema 5 197
El término acotada deriva de la notación habitual de orden de magnitud procedente de

:as sucesiones deterministas. Recordemos que una sucesión determinista Xn es «como máximo
de orden n"'» (xn = O(n"')) si para cualquier número real 6. > O, existe un número entero
_V tal que para todo n ~ N, jn-"'xnl < 6.. Es decir, la sucesión {n-"'xn} estará acotada.
L"na sucesión de variables aleatorias Xn es «como máximo de orden n"' en probabilidad»
Xn = Op(n"')), si para cualquier número real E> O, existe un radio 6.e > O y un entero Ne,
~ales que para todo n ~ Ne, Pr(jn-"'xnl > 6.e) < E . Este el motivo por el que decimos que
:a sucesión está acotada en probabilidad. De este modo cualquier variable aleatoria con una
:UUción acumulada de distribución estará acotada en probabilidad, es decir, será Op(l).
De acuerdo con estas definiciones podemos verificar que fo (zn - µ) = Op(l). Obsérvese
que en este caso >. = O. Y de modo equivalente podemos decir que (zn - µ) = Op(l/fo)
donde ahora,\= -1/2. Por otra parte, observemos que el término (zn - µ)se puede expresar
como
Zn-µ
por lo que entonces fo (zn - µ) = Jn 2::~ 1 (zi - µ) = Op(l), y análogamente la suma

~~= 1 (zi - µ) = Op( fo).
Resulta curioso que haya que multiplicar por fo la variable (zn - µ) para obtener una
'-ariable acotada en probabilidad. Veamos qué hubiera pasado si no escaláramos la variable
Zri - µ). En este caso la variable también estaría centrada en el origen al ser su esperanza
:mla; sin embargo, la varianza dependería de n, de hecho sería igual a var(zn) = a 2 /n, de
:::nodo que cuando n-+ oo, var (zn - µ) -+ O, es decir. la variable (zn - µ) sería degenerada al
;mnto cero y por tanto no-acotada en probabilidad.
Análogamente a la notación de orden en probabilidad y en magnitud, podríamos utilizar
el concepto de «orden menor que n"' en probabilidad» (una sucesión Xn es de este tipo si
11-"'xn .!!+O, y se denota por Xn = op(n"'). Así, diremos que la variable (zn - µ) = op(l), es
decir ,\ = O, o alternativamente: plim (zn - µ) = O. Paralelamente podemos comprobar que
.::io multiplicar por fo a (zn - µ)equivale a dividir por n la suma I:~=l (zn - µ) ,suma que es
como máximo de orden fo en probabilidad, y por tanto comprobamos (también por esta vía)
que en caso de dividir por n (y no por fo) dicha suma, obtendríamos una variable degenerada
al origen, de modo que plimn-too~ I:~=l (zi - µ) =O o bien que 2::~ 1 (zi - µ) = op(n).
Hasta ahora tenemos que la sucesión formada por la variable fo (Zn - µ) es acotada
en probabilidad, pero desconocemos cuál es la función de probabilidad a la que converge.
Cualquier Teorema central del límite (TCL) nos dará condiciones bastante generales para que
una sucesión {xn} converja a una distribución Normal. Habitualmente el TCL hará referencia
a sucesiones de medias muestrales (o de sumas) que cuando se estandarizan adecuadamente
nos conducen asintóticamente a distribuciones normales estándar (N(O, 1)).
198 ASPECTOS AVANZADOS : INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL
5.2.2.3. Teorema central del límite

El TCL básico está establecido para variables iid , y se conoce por TCL de Linderberg-Lévy.
Teorema 27. Sea {zn} una sucesión de variables aleatorias independien-

temente e idénticamente distribuidas (iid), tal que µ =
IE(zn) < oo y
0" = var(zn) < oo. Si 0" -=!=O, entonces
2 2
1 N
Vn (zn - µ)/O"= Vn L (zn - µ)/O"-.:!-+ N(O, 1),
n=l
o alternativamente
Demostración. Ver Sección 5.5.6

o
Este resultado lo extendemos al caso vectorial también en el Apéndice técnico de este tema
(ver Sección 5.5.7).
5.2.2.4. Distribución asintótica del estimador MCO

Considerando los resultados establecidos en las secciones técnicas anteriores, ahora es
posible desarrollar la distribución asintótica del estimador MCO , bn. Lo primero es reescribir
el estimador en función de los momentos muestrales, de modo ligeramente distinto de como
los hemos expresado hasta ahora. Para ello retomamos la expresión (3.4.13) que reescribimos
así
o alternativamente como
(5.2 .3)
Esta ecuación directamente muestra que para poder aplicar el TCL expuesto en el Teorema
27, necesitamos escalar la expresión por fo,, con lo que obtenemos
(5.2.4)
Esta expresión muestra que el estimador escalado yin (b n - (3) es una función de la media
muestra!~ ¿~=l (x ix D y del promedio Jn
l::~=l Xiéi, que t iene media cero, por lo que estamos
en condiciones de intentar aplicar el TCL (ver Teorema 27). Para verificar que se satisfacen
Tema 5 199
:as condiciones del TCL, necesitamos, en primer lugar, observar que el Supuesto 6, junto con
_a Proposición 3, nos aseguran que (xixD y (xi Y i ) son variables iid, y dado que Ei es una
combinación lineal de Yi con Xi , también será iid la variable (xiEi)· Estas variables aleato-
rias deben tener (para aplicar el TCL) momentos de primer y segundo orden finitos (deben
existir sus medias y varianzas-covarianzas). La matriz de varianzas-covarianzas var( XiEi) la
denotamos por
(5.2.5)
La existencia de varianza y covarianzas de (xixD y de (xiEi) requiere que contemplemos

a existencia de los momentos de orden cuatro de las variables Xi y Ei .
1 Suposición 9. La IEJi4 < oo y la JE llX[ 11 < oo.
Recordemos que la existencia de estos momentos bajo las condiciones del MPL y el Teo-
:ema 8 garantiza la existencia de IE1:: {. Este supuesto es el que introdujimos en la Suposición
5 y entonces le dábamos una interpretación en t érminos de atípicos.
Bajo las condiciones establecidas en la definición del MPL y añadiendo las condiciones de
los momentos de orden cuatro podemos aplicar el T CL (Teorema 27).
Proposición 7. Bajo las Suposiciones 6, 1, y 9 se tiene
1 n d
fo L x iEi ---+ N (o , n)
i =l
cuando n ---+ oo.
Si ahora utilizamos este resultado y las expresiones (5.2.2) y (5.2.4) ,
cuando n ---+ oo.

Por tanto, hemos demostrado el Teorema siguiente
200 ASPECTOS AVANZADOS: INFERENCIA E EL MODELO DE REGRESIÓN LINEAL
Teorema 28. Bajo las Suposiciones 6, 1 y 9 se tiene
Vn (bn - (3) ~ N(O, V),
donde
V -- ~-ln~-1
L.Jxx~~L.Jxx• (5.2.6)
:Exx=JE (xixD y n está definida en (5.2.5)
O bien, alternativamente,
Este resultado indica que la distribución de fa veces el error muestral (bn - (3) es aproxi-
madamente una distribución normal cuando n es suficientemente grande. A la matriz V se le
suele denominar matriz asintótica de varianzas y covarianzas de b. A la forma de la expresión
:E~ O:E~ se le suele denominar expresión de varianza tipo-sándwich.
Para que este resultado sea operativo es necesario estimar consistentemente V , y así poder
luego hacer inferencia.
5.3. ESTIMADORES CONSISTENTES DE LA COVARIANZA
En esta sección tratamos la estimación consistente de V en condiciones no homocedásticas,

es decir, se trata de una estimación general, que tiene como caso particular la homocedas-
ticidad. Tanto en el caso homocedástico como en el heterocedástico es fundamental estimar
consistentemente la varianza del término error e. El siguiente resultado garantiza que los
e; e;
estimadores habituales como 0' 2 = ~ 2:::7= 1 o s 2 = n~K 2:::7= 1 son consistentes.
Teorema 29. Bajo los supuestos recogidos en las Suposiciones 6, 1 y 9,

resulta que
e'e
s 2 = - - - ..!!-r a 2 donde a 2 = JE (é 2 ) .
n-K i
1-E'Mc
Demostración. s 2 = -n-K =-n- (e'e_e'X(X'X)-lX'e). Por un lado ' la demostración del teo-
n-K n n n n
rema precedente permite establecer que por la Proposición 1 que (X'X) /n = n- 1 I;~ 1 (xixD ~ :Exx
y (X'c) /n = n- 1 I;~ 1 Xifi ~O que, junto con la Proposición 4, resulta en que
c'X X'X X'c ) c'X X'X 1 X'c

plim ( - ( - - ) - 1 - = plim-plim(--)- plim-
n n n n n n
Tema5 201
y por tanto converge a cero. Por otra parte, asintóticamente el término n~K converge a 1, y como
resultado plim s 2 =plim €~€ =plim~ I::~ 1 E:T, es decir , la media de una variable aleatoria. Como tal
es posible aplicar la ley de los grandes números de nuevo, ya que los supuestos garantizan que E:i son
lid y que el momento de segundo orden de cT (esto es, el momento de orden cuarto) también existe,
y por tanto plim ( ~ ¿:7= 1 i::T) (=plim ( s 2 )) = ü 2 .
o
Una forma de estimar consistentemente O(= JE( ETXix~) = var(xiEi)) fue propuesta por Halbert
\Vhite, y la recogemos en el siguiente teorema.
Teorema 30. Bajo los supuestos recogidos en las Suposiciones 6, 1 y 9,

resulta que
~ ~ -1 -1 p -1 -1
= :Exx O:Exx =V
A A
V ...:..+ :Exx O:Exx

donde n ~ ¿~= 1 (eTxixD = X'teeX/n , y txx = (X'X) /n
n- 1¿~=l (xixD.
Demostración. Por lo dicho anteriormente basta con demostrar O -!:+ n. Es decir, mostraremos que
Para ello partimos de
e' e (X'X) /n = e:'Me: (X'X) /n = ( e:~e: - e:~X ( X~X )-l X~ e:) (X'X).
" abemos de la demostración del Teorema 29 que el segundo término del paréntesis converge en pro-
babilidad a cero, plim e;~X ( x~x )- 1 X~é = O. Por tanto plim (e'e (X'X) /n) = plim ( "'~"' (X'X)) =
plim~ ¿:7= 1 (cTXixD. (a) La Suposición 9 garantiza que la variable aleatoria (cTXixD tenga definida
su media lE(i::;xix~) < oo y su varianza. (b) Igualmente, la Suposición 6 y la Proposición 3 aseguran
que la variable aleatoria (i::;xixD es iid. Por (a) y (b) se cumplen las condiciones de la Proposición 1,
y por lo tanto plim~ I::7= 1 (i::;xixD = lE(cTXixD.
o
El estimador de la matriz de covarianzas, V, permit e obtener, para el caso en el que /3 es un
vector , los errores estándar de los parámetros del vector, ee(/3j),j = 1, 2, ... , k : n- 1 / 2 ~
donde el subíndice (j, j) indica el elemento j-ésimo de la diagonal principal de la matriz de
rnrianzas y covarianzas. Cuando los errores estándar son calculados por este procedimiento
es habitual decir que los errores estándar son robustos a la heterocedasticidad, precisamente
porque son asintóticamente válidos para cualquier tipo de heterocedasticidad.
5.3.1. Errores estándar asintóticos: homocedasticidad y heterocedasticidad

Reconsideremos inicialmente la expresión de la varianza asintótica de ..¡n (bn - /3), esto
es en :E;J O:E;J , bajo los supuestos clásicos del MCRL expuestos en la primera parte de
este tema. El supuesto de homocedasticidad quedaba reformulado para muestras aleatorias

simples como JE(cI 1 xi) = 0" 2 >O (i = 1, 2, ... , n) . En ese caso
n JE(cIXiX~)
JE(JE( cIXiX~ 1 xi)) (por el Teorema 1)
JE(JE(cI 1 xi )xixD (por el Teorema 4)
2
0" JE(xixD = 0" ~xx,
2
=
y por tanto bajo estos supuestos tendríamos que la varianza asintótica de fo (bn - /3) sería
V 0 = ~;~n~;~ = 0" 2 ~;~. El estimador más obvio que podemos utilizar para estimar V o
2 1 P2 p Ap
será Vo=8 (X'X / n)- toda vez que 82 -:.+ O" y X'X / n-:.+ ~xx, ya que en ese caso Vo-:.+ Va .
A
La cuestión interesante desde la óptica del modelo de proyección lineal es que este modelo
sugiere que la regresión se interprete como una aproximación a la función de esperanza con-
dicionada, función que goza de las propiedades que indicamos en la Sección 3.1.2. Bajo este
punto de vista del MPL, vamos a ver que la heterocedasticidad surge de forma natural. Si
la función de esperanza condicionada es no lineal y utilizamos el estimador MCO para apro-
ximarla, entonces la calidad del ajuste entre la línea de regresión y la función de esperanza
condicionada variará con Xi. En promedio los residuos serán mayores para aquellos valores de
Xi donde el ajuste sea más pobre. La siguiente expresión nos permite ver el motivo:
JE [(Yi - x~/3) 2 lxi] =
JE { (Yi - JE (Yi lxi) +JE (Yi lxi) - x~f3) lxi}

2
=
(Yi lxi) - (JE (Yi lxi) - x~,B)

2
= var .
El segundo término es distinto de cero al ser JE (Yi lxi) no lineal. Por tanto, incluso si
var (Yi lxi) fuera constante, la varianza de los residuos aumentaría con el cuadrado de la dis-
crepancia entre la recta de regresión y la función de esperanza condicionada. Por este motivo,
la utilidad práctica del MPL nos conduce a optar por usar los errores estándar robustos.
Generalmente se dice robusto porque, en muestras grandes, los errores estándar robustos pro-
porcionan contrastes de hipótesis precisos a partir de mínimos supuestos sobre los datos y el
modelo.
Los estimadores consistentes para el supuesto de homocedasticidad y para el caso robusto
a la heterocedasticidad son, respectivament e,
(~x'x)-
1
2
Va= 8 (5.3.1)
y
A A -1 -1 ( )-l (
V= ~xxn~xx =
A A 1 1
;-X X
1~ 2 /) ( )-l
:;;: ~(eixixi)
1 1
;-X X (5.3.2)
Es necesario aclarar siempre qué tipo de estimador de la varianza se está utilizando, y esto
nos indicará bajo qué supuestos (modelo) se está trabajando. Estos dos tipos de estimadores
Tema5 203
nos conducen a los errores estándar que generalmente son los más utilizados. El primero por
razones históricas en la evolución de la econometría y de la del propio software econométrico.
El segundo porque es el que se ha establecido como estimador robusto, si bien hay otras alter-
nativas que a continuación comentaremos. Antes, sin embargo, queremos llamar la atención
sobre una cuestión práctica en el uso habitual del est imador robusto (5.3.2) a la que aludimos
=n la Ecuación (4.3.15). En (5 .3.2) nos referimos al estimador de la varianza de fo (bn - (3),
e donde podemos deducir la varianza de b ,
1 1
Var (b) = n- 1 x'x)- n, (x'x)-
-- - -
( n n
n
.... a segunda observación es que en (4.3.15) la matriz es ligeramente distinta dado que estamos
aj ustando el potencial sesgo a la baja debido a la estimación de K = k + 1 coeficientes de
:egresión, al dividir entre n - K en lugar de entre n . No obstante, los resultados asintóticos
son equivalentes.
5.3.2. Errores estándar asintóticos: alternativas robustas

Si retomamos la expresión de la varianza teórica del vector de discrepancias entre los pa-
:ámetros estimados y verdaderos, que dimos en la expresión (5.2.6), dicha expresión podemos
:eescribirla de esta manera
V = :E-1n:E-1
XX XX
La matriz de varianzas y covarianzas del error, JE(s[), i = 1, 2, ... n, recoge las varianzas de
~os errores para cada elemento de la muestra, y las potenciales covarianzas entre los distintos
=rrores individuales. Bajo el supuesto de muestreo aleatorio (Suposición 6) estas covarianzas
~ n nulas. Por tanto, la matriz IE(s[) no es más que la matriz diagonal que definimos como
JE( u') = diag( ai , a~, .. ., a;),

ue en el caso especial de errores homocedásticos se reduce a la matriz Ina 2 .
En el caso heterocedástico, la varianza condicionada de fo (bn - (3) es
var ( vln (b - (3) jX) = var (:E~X':EuX:E~; IX) ,

donde :Eu = IE(ee'j X); de manera que entonces la varianza condicionada del estimador MCO,
b. será, utilizando la definición de :Exx = IE(X'X),
var (b jX) = ~ ( (X'X)- 1 (X':EeeX) (X'X) - 1 ) =

1
(~x'x )- (~ (X':Eeex)) (~x'x ) -
1
Un estimador de la varianza condicionada del estimador MCO que fuera robusto a la hete-
rocedasticidad consistiría en localizar estimadores de :Eee = JE( ee'). El estimador consistente
de White del Teorema 30 se basa en utilizar los residuos estimados, es decir, f:u = e'e =
diag(er, e§, .. ., e~) , que define exactamente a n
= * I:?=l (erxixD = X''teeX/n.
Una segunda alternativa es utilizar los residuos MCO , pero estandarizados. Para obtener la
expresión matricial de los residuos estandarizados recurrimos a la expresión del proyector que
presentamos en la Sección 3.4, en particular a la expresión de la matriz M (ver las propiedad~
básicas a partir de la Ecuación (3.4.3)) que recordemos era
M =In - P =In - X(X'X)- 1X',
nxn
cuyos elementos de la diagonal principal los denotamos por (1 - hii) para i = 1, ... , n. L
elemento hii = xi(X'X)- 1 x~ , que es el elemento i-ésimo de la diagonal principal de la matr..::
de proyección P. Llamamos
M* = diag { (1 - hu) - 1 , (1 - hn)- 1 , .. ., (1 - hnn)- 1 }.
Los residuos MCO los podemos expresar (ver (3.4.8))

My=e
M (e+XJ3)=e
Me=e.
Si queremos estandarizar los residuos e a fin de que tengan una varianza condicion::.
constante, entonces primero vemos cómo es la varianza condicionada, y posteriormente :-
escalamos. La varianza es
var (e IX)= var (Me IX)
= Mvar(e IX) ,
por lo que el factor de escala consiste en dividir cada ei por la raíz cuadrada del elerr::
i-ésimo de la diagonal principal de la matriz M. Por tanto el residuo estándar, ej, sería
ei = (1 - hii)- 1l 2 ei,
o matricialmente
e*= M* 112 e.
A partir de los errores estandarizados e* , estimamos :Eee = JE( ee') del siguiente modo
i'-
LJee = e *' e * = d.iag (e *2 *2 *2)
1 , e 2 , .. ., en .
En este caso tendríamos que n= *e*' e* (X'X). Y por tanto, la matriz de varianzas robusta
a la heterocedasticidad sería
(~x'x)- (~ (X'~ux)) (~x'x)-

1 1
var(blX) =
(~x'x r (~ t,(e;'x,x:J) ax'xr

Tema 5 205
Otra tercera alternativa para obtener un estimador robusto a la heterocedasticidad es

utilizar el residuo de la predicción MCO , más conocido como error de predicción. Los errores
de predicción los hemos tratado en la Sección 4.5. Ahora vamos a dar una formulación matricial
que complementa lo tratado en dicha sección.
La estimación de residuos MCO , ei, no son los verdaderos errores que cometeríamos al
hacer una predicción, dado que su construcción está basada en la muestra completa incluyendo,
por tanto, Y;. Este término de la variable a explicar Y; no está disponible cuando haces su
predicción. Una predicción adecuada de Y; debería basarse en las estimaciones utilizando solo
las observaciones distintas de la i-ésima. Esto se puede hacer fácilmente definiendo el estimador
MCO del vector /3 que deja dicha observación fuera del proceso de cálculo, es decir, se obtiene
en realidad a partir de la muestra con n - 1 observaciones, al excluir la observación i-ésima:
jj(-i) = (n ~ t 1
j#i
(xJxj))- l (n ~ tXJYJ)
1
j#i
1
= ( XC-i)X (-i) )- XC-i)Y(-i)·
Una expresión útil alternativa a estas dos últimas es
(5.3.3)
cuya obtención se encuentra en el Apéndice técnico de este tema.

La predicción para Y; con el estimador MCO que excluye (deja una fuera) del vector f3 es
V**
.r i =xi'/3~(-i)'
y el error de predicción o residuo del estimador MCO «excluyente» es la ecuación
A partir de esta expresión del error de predicción, y utilizando (5.3.3) tenemos
ei** = - xi'/3~(-i)
.r i
1:.r
=Y; - x~b + (1 - hii )- 1 x~(X 1 X)- 1 xiei

= ei + (1 - hii)- 1 hiiei
= (1 - hii)- 1 ei.
Esta última expresión nos indica que el cómputo del error de predicción solo requiere un
ajuste lineal en el residuo MCO.
Utilizando este residuo o error de predicción, como decíamos antes, podemos estimar la
matriz Eee = E( éé 1) del siguiente modo:
~ = 2 2 2
4-Jee • 1 ' e2** '
e**'e** = d,;ag(e** · · ·' e**
n )·
206 ASPECTOS AVANZADOS: INFEREN C IA EN EL MODELO DE REGRESIÓN LINEAL
En este caso la matriz tendríamos que ñ = ~e**' e** (X'X). Y por tanto, la matriz de varianzas
robusta a la heterocedasticidad sería
(~x'x)- (~ (x'teeX)) (~x'x )-

1 1
var (b IX)=
= (~x'x r (~ t,(ej''x,x:i) Gx'xr

Estos tres estimadores robustos de la matriz de varianzas y covarianzas difieren entre ellos
por los distintos estimadores utilizados para estimar la matriz n. En la demostración del
Teorema 30 hemos usado un estimador consistente de dicha matriz, es decir fi .Et n. Para
verificar que sus homólogos ñ y ñ también son consistentes basta con comprobar que cuando
n -+ oo sus respectivas diferencias ñ - fi y ñ - fi convergen a cero en probabilidad. La
demostración consiste en demostrar que asintóticamente la influencia de cualquier individuo
de una muestra grande es despreciable, esto es
Los estimadores robustos alternativos que hemos propuesto no aparecen en todos los pa-
quetes informáticos. Cuando lo hacen para localizarlos, habitualmente, tenemos que señalar
la opción de estimadores robustos, y posteriormente optar por los que están disponibles, que
suelen denotarse mediante los acrónimos hcl, hc2, ...
5.4. CONTRASTES DE HIPÓTESIS ASINTÓTICOS
La inferencia estadística en muestras grandes (asintóticamente) se basa en tests o contras-

tes estadísticos cuyas funciones de distribución son conocidas siempre que la hipótesis nula
sea cierta. Cuando decimos que estas distribuciones de probabilidad para grandes muestras
son asintóticas indicamos que son una aproximación de las exactas.
A continuación desarrollaremos algunos contrastes estadísticos asumiendo que existe (y
de hecho hemos visto que existen varios) un estimador consistente, V, de V.
En no pocas ocasiones estamos interesados en alguno(s) de los parámetros de vector ,L3 =
(!h, ... , f3k). Esto sucede por ejemplo cuando nuestro interés se centra en uno de los coeficientes,
/3j, o en el ratio de dos. En estos casos podemos escribir el parámetro de interés como una
función de ,L3 del modo h : JRk -+ IRr. El nuevo parámetro de interés es
() = h(,8)
cuyo estimador denotamos por

8= h(,6).
Un pregunta evidente es cuál es el error estándar de O. Recordemos que el error estándar
(ee) para un estimador (e) es una estimación de la desviación estándar de la distribución
muestra! de O. Para responder a la anterior cuestión podemos aplicar el método delta.
Tema 5 207
5.4.1. El método delta

En términos generales y como acabamos de ver, podemos afirmar que los elementos básicos
para obtener consistencia y normalidad asintótica son las leyes de los grandes números y los
teoremas centrales del límite, que son de aplicación inmediata cuando se trata de estimar
promedios. Para el caso de otros estimadores distintos de los promedios existen también
resultados muy útiles que permiten utilizar la LGN y el TCL aproximando el estimador
como una función de medias muestrales. Para completar este apartado daremos un resultado
conocido como «método delta» para el caso de estimadores que son funciones explícitas de
medias muestrales. En el Apéndice técnico de este tema 14 desarrollamos más estos aspectos .
Proposición 8. (a) Sean Zn y Xn dos sucesiones de vectores aleatorios

(k x 1) tales que Zn ~z y Xn ..!!+ e, entonces Zn + Xn ~ z + x y también
1 d 1
X n Zn ---1 C Z.
(b) Sean Zn y Xn dos sucesiones de vectores aleatorios ( k x 1) tales que
d p d
Zn ---+ z y (zn - X n) ...:..+O, entonces Xn ---+ z.
La utilidad de esta proposición la vemos en este ejemplo teórico:

Consideremos que {Xn} es una sucesión de matrices (m x k) tales que Xn ..!!+ e y que {Zn}
es una sucesión de vectores (k x 1) tales que ~ z, z rvN( µ , O ). Entonces la distribución
Zn
límite o asintótica de X nzn es la misma que la de ez; esto es, X n Z n ~ N(e µ , ene').
Proposición 9. Sea a (-) : JRK ---+ JRr una función diferenciable en /3

con una matriz de derivadas parciales evaluadas en /3 que denotamos
por A (rxK)( /3) = ªaff,),
entonces dada una sucesión de vectores alea-
torios X n, sifo, ( x n - /3) ~ N(O, V) resulta que fo ( a ( x n) - a (/3)) ~
N(O, A (/3)VA (/3)').
Para poder aplicar el método delta es necesario por tanto considerar o asumir que h (/3)
es diferenciable en el verdadero valor /3. En tal caso, dado fo,(bn - /3) ~ N( O, V ), donde
bn = /3,
tendremos que
donde H .B = ..Jbr h (/3) que es una matriz de orden r x k.

Este resultado lo podemos resumir en el siguiente enunciado:
14
Ver Sección 5.5.10.
Teorema 31. Bajo el conjunto de supuestos definidos por la Suposición 6,

Suposición 1, y Suposición 9, y asumiendo que exista H ,a = Jbrh(/3), para
h (/3) una función de JRk ---+ lRr, entonces cuando n ---+ oo
Vn (e - O) _<}_,, N( O, V o),
donde
Ve= H,aVH~ ,
y V está definida en (5.2.6).
Si denotamos por V a un estimador consistente de la matriz de covarianzas de {J, entonces

es intuitivo estimar la varianza de por e
con H- ,a = 8737
a h(,B).
-
Esta formulación es lo suficientement e general como para incorporar los casos más habi-
tuales de funciones h (/3) con restricciones lineales del tipo
h(/3) = R/3
para una matriz R de orden r x K. En tal caso H ,a = R = H ,13, por lo que la varianza estimada
e
de sería
- I
RVR.
Para ilustrar un caso no lineal, tomamos por ejemplo que()= .Bij,e1 para l /= j. En tal caso.
h(/3) : JRk ---+ lR,
h (/3) = () = .Bij,B¡.
Por tanto, H,13 = -Jb; h(/3) es
H,a= (o, ... ,0,1/,81,. .. ,-,Bj/,Bf,o, ... ,o),
de manera que
Vo = V jj/,Bt + Vu ,B]/,Bf- 2Vjz,Bj/,Bf,
donde los elementos V ab son los elementos ab-ésimos de la matriz V. El estimador de H ,e es
simplemente
H,a= (o, ... ,o.1¡b1,. .. ,-bj/b[,O,··· ,o),
y por tanto el de V o es el resultado de usar este último y cualquier estimador consistente de
los anteriormente vistos para la matriz V.
El estimador así formado es consistente bajo los supuestos del Teorema 31 ya que por un
lado usamos un estimador consistente de V . y por otro H,13 _<}_,, H,13 , pues como sabemos b _<}_,, f3
y la función derivada, H,13 = -Jb;h(/3), es continua. Por tanto, hemos comprobado lo siguiente
Tema 5 209
Teorema 32. Bajo el conjunto de supuestos definidos por las Suposiciones

6, 1 y 9, y asumiendo que exista H ¡3 = -ibh(f3), para h (f3) una función de
JRk -7 JRT, entonces cuando n -7 oo
5.4.2. El contraste asintótico de la t

En este caso el parámetro de interés es () = h(/3) : JRK -7 JRr=l (por ejemplo, un elemento
del vector /3), Bes su valor estimado, y dado que la estimación de la varianza asintótica de
:vne] es igual a la varianza asintótica de [fo (e- 8)J que por el Teorema (31) es Ht3VH~,
entonces resulta que la estimación de la varianza asintótica de B= n- 1 H¡3 VH~, y por tanto
el estimador del error estándar, es ee(B) = n- 1 / 2 Jíi¡3 VH~ .

Ahora podemos considerar el estadístico que denominamos t por su relación con el con-
traste de la t indicado en (4.3.1)
{J - ()
t=--,.
ee( 8)
Por tanto, el estadístico t es una función sencilla que depende del parámetro, de la es-
imación del parámetro y del error estándar. Y más importante es que asintóticamente su
distribución es conocida tal y como indica el siguiente teorema:
Teorema 33. Bajo el conjunto de supuestos definidos por las Suposiciones

6, 1 y 9
d
t -7N(O,1).
Demostración. Hemos visto que en este caso ee(B) = n- 1! 2 J íit3 VH~ . Escribimos a partir de
esta expresión particular de ee( B), t = e-(¡) = ;({J~~) . Por el método delta el numerador,
ee H 13 VH ~
construido a partir de la restricción dada por e= h(f3) : JRK -7 JR 1, converge en distribución

- - - N(O fI 13 VH'13 )
a una normal N(O, H ¡3 VH~), y por tanto /- , , es una N(O, 1). D
H 13 VH~
Es decir, la distribución asintótica para el caso en que () = h(/3) = /32 de tk(n) = :~(~~
erá una normal estándar. El error estándar del parámetro bk , ee(bk), se calcula a partir de
V = :E,;~n:E~ del que hemos asumido existe un estimador consistente, V, de modo que
para este parámetro ee(bk) = n- 112 J:H¡3 VH~ = n- 1/ 2 VL Jk,k F y
ya que al ser h(/3) = /32 =
[O, O, ... , 1, .. ., O],B se tiene que :H13 = H 13 =[O, O, ... , 1, ... ,O] y en consecuencia premultiplicar y
postmultiplicar V por H 13 y H~ respectivamente equivale a seleccionar el elemento k-ésimo
de la matriz V.
Existen varias diferencias entre este estadístico y el estadístico t para muestras finitas
(5.1. 19) ,tk. En primer lugar el estadístico para realizar el contraste de la t en muestras finita
es un estadístico con distribución exacta, mientras que t es un estadístico con distribución
asintótica. Esto último implica que el tamaño exacto del test o contraste (la probabilidad del
Error Tipo I dado un tamaño muestral) es aproximadamente igual al tamaño nominal del
test (es decir, el nivel-a deseado de significatividad). Esta aproximación es asintóticamente
nula cuando el tamaño muestral n crece hasta infinito. Igualmente la forma de cómputo es
distinta ya que, por un lado, en el caso exacto se utiliza la distribución de una t - student, y
en el asintótico la de una normal estándar. P or otro lado, los errores estándar se calculan de
forma diferente, y además se calculan bajo supuestos distintos también. En particular, como
ya sabemos, en la obtención de la normalidad asintótica no hemos utilizado el supuesto de
homocedasticidad, es decir, no se requiere para el test asintótico que JE(e:7 1 xi)= a 2 >O (i =
1, 2, ... , n) .
5.4.3. Contrastes asintóticos d e tipo Wald para varias restricciones

Supongamos que 8 = h (¡3) es un vector de orden r x 1, y pretendemos contrastar restric-
ciones de forma conjunta o simultánea, es decir para más de un parámetro. La hipótesis nula
(Ho) y la hipótesis alternativa (H1) son
Podemos estimar B = h (,8), del que podemos estimar a su vez la matriz asintótica de
covarianzas Vo = :H13 VH~ con H,13 = ~ h (/3) . El estadístico de Wald para contrastar Ho
frente a H 1 está basado en la forma cuadrática
w = n (8A- 80)'A1(A
v -¡; 8 - 80) ,
que cuando h es una función lineal de ¡3, h(¡3) = R¡3 , entonces
1 1
W = n ( R/3 - 80) ( RVR ) -l ( R,6 - 80) ,
o lo que es lo mismo, en la estimación que hemos llamado MCO
W = n (Rbn - 80)' ( RVR )-l (Rbn -

1
80).
Por el método delta hemos mostrado anteriormente que fo ({J - 8) = fo ( h (,6) - h (¡3) ) -!!+
Z "' N(O,H 13 VH~) = N(O, V 11 ). Por la Proposición 6, al ser H 13 continua, se tiene que
Tema5 211
- 3~ H 13 y estamos suponiendo que V es un estimador consistente de V (es decir, V~ V),

~ _r tanto Vf) ( = H 13 v:H~) ~ V f) siempre que H13 sea de rango completo. De este modo
o es, se distribuye como una chi-cuadrado con r grados de libertad.

En el caso de tratarse de una restricción lineal del tipo más habitual en la que h (,B) = R,B
- - a Bo = r
W = n (Rbn - r) 1 ( RVR~ ')-l d
(Rbn - r ) -+X (r)2 (5.4.1)
do r el número de restricciones. Por tanto hemos demostrado:
Teorema 34. Bajo la hipótesis nula Ho : R,B = r , siendo R una matriz

r x K de rango completo, suponiendo que se cumplen las condiciones del
Teorema 31, y suponiendo que V es un estimador consistente de V , enton-
ces
~
n (Rbn - r) 1 ( RVR ')-l d
(Rbn - r) -7 2
X (r).
El contraste estadístico es tipo Wald porque está basado en las estimaciones no restringidas
~r
la hipótesis nula (es decir, bajo la hipótesis alternativa). En el documento Apéndices y
~Uilas puede encontrarse una introducción a los contrastes de Wald, y su relación con otros
de contrastes equivalentes.
-· º· APÉNDICE TÉCNICO
- 5.1. Distribuciones de combinaciones lineales y formas cuadráticas de

variables aleatorias normales
La función de densidad de probabilidad de una normal estándar es
1
cf>(x) = ../21iexp (- x2)
2 , -oo < x < oo.
7
'""0es a lo que nos referimos cuando decimos que X "" N(O, 1). La función de distribución
_wción de densidad acumulada) de una normal estándar se denota por (x). La función
-"densidad normal se caracteriza, entre otras cosas, porque todos sus momentos son finitos
::xi ten y están bien definidos). Dado que es simétrica en torno al cero, todos los momentos
_pares serán necesariamente nulos. La técnica de integración conocida por integración por
artes, nos permite comprobar que JE (X 2 ) = l. E n general se puede demostrar que para
.::alquier entero m, JE (x 2m) = (2m - 1)!! = (2m - 1)(2m - 3)(2m - 5) . .,1. Por tanto,
: X 4 ) = 3, JE(X 6 ) = 15, etcétera.
Si Z es una normal estándar y X = µ + <J Z , entonces utilizando la fórmula del cambio de

variable, X tiene densidad
2
f(x) = 1l<Cexp ( - (x - µ) )
, -oo < x < oo,
2
<Jy 27f 2<J
cuya media y varianza caracterizan a la expresión X ,. . ., N(µ, <J 2 ).

Si x E JRk , podemos definir análogamente una función de densidad de probabilidad normal
multivariante:
1 ( (x-µ)':E- 1 (x-µ))
f(x) = (27r)k/ 2det(:E)1/ 2exp - 2 .
El vector de medias y la matriz de covarianzas de la distribución son los únicos parámetros

que caracterizan enteramente a la funci ón multivariante; por tanto también nos referimos a
esta función de modo simplificado con la notación habitual X,....., N(µ, :E).
En el caso de que X E JRk se distribuya como una normal multivariante y los elementos
de X estén mutuamente incorrelacionados, entonces la matriz de covarianzas es una matriz
diagonal, ~ = diag { <JJ}. En tal caso la función de densidad se simplifica fácilmente a
f (x)
= TI~=1
que es el producto de k densidades marginales de normales univariantes. Esta expresión nos

indica que en caso de que el vector X sea normal multivariante con elementos no correlacio-
nados, entonces son mutuamente independientes.
En ocasiones aparecen en econometría combinaciones lineales y formas cuadráticas de nor-
males multivariantes. Para estos casos existen resultados que facilitan su tratamiento analítico,
y son los siguientes:
Proposición 10. Si x,....., N(µ , :E) y si y= a+ Bx, siendo B una matriz

invertible, entonces y ,. . ., N (a+ Bµ, B:EB').
Demostración. La fórmula del cambio de variable nos permite escribir la densidad de y como
sigue
1 ( (y - µy)' :Eyl (y - µy))
f(y) = (27r)k/2 det (:Ey) 1/2 exp - 2 '
donde µy= a+ Bµ , y :Ey = B:EB'. o

Tema 5 213
Proposición 11. Si Z,....., N(O, A), con A> O y de orden q x q, entonces

Z' A- 1 z,....., x~.
:Jemostración. Por ser A semidefinida positiva podemos escribirla como A = CC' siendo la
1 1
:natriz C no singular. En tal caso, A- 1 = (CC')- = (c- 1 ) (c- 1 ), y también
c- 1 z,....., N (O, c- Ac-

1 1
') =N (O, c- cc c-
1 1 1
') = N (Oq, Iq).
Por tanto,
Z' A- 1 z = Z'c- 1' c - 1 z = (c- 1 z) (c- 1 z) ,. . ., X~·
1
Proposición 12. Si Z,....., N(O, M) , con M > O de orden q x q, simétrica

e idempotente, entonces Z'MZ,....., x;, donde r es el rango de M.
Demostración. Dado que Mes idempotente y simétrica, recordemos que por álgebra matricial,
resulta que dicha matriz tendrá r valores propios (autovalores) iguales a 1, y el resto (q - r)
~guales a cero, por lo que el rango de A será r. Por otra parte, en este caso la matriz M =
CC' = (QA) (QA)' = QAQ' = QQ' = Iq , al ser Q la matriz ortonormal cuyas columnas son
.os autovectores de la matriz M, al ser A la matriz diagonal de autovalores (y ser estos runos
y (q - r) ceros). En tal caso también se tiene que C'C =Ir. Por tanto ahora tendríamos que
C'Z rv N(O, C'MC) = N(O, C'CC'C) = N(Or, Ir)·

Por tanto
Z'MZ = Z'CC'Z = (C 1Z) (C'Z) ,.,.,
1
x;.
D
5.5.2. Convergencia en probabilidad

La intuición de este tipo de convergencia la podemos establecer considerando una variable
aleatoria X con media µ = O y varianza a 2 < oo. Un estimador habitual de la media pobla-
cional, a partir de n observaciones independientes de X, es µ = X = (l/n)Xi, es decir, la
media aritmética. Como estimador tendrá así mismo una varianza. En este caso
que como vemos decrece con el tamaño muestra n. Esto implica que la distribución muestral
del estimador P, se concentra a medida que el tamaño muestral crece. Este comportamiento
es lo que esencialmente recoge el concepto de convergencia en probabilidad:
Definición 8. Una variable aleatoria Zn E IR converge en probabilidad

a z cuando n---+ oo, denotado por Zn !!+ z, para todo 5 > O,
lím Pr( lzn - z l :S 5) = l. (5.5.1)

n-too
Esta definición parece bastante abstract a, pero formaliza el concepto de distribución con-
centrada en torno a un punto (como sucede en el caso de la media muestral). El suceso
lzn - z/ :S 5 es el suceso de que Zn está dentro de 5 respecto del punto z . Pr(lzn - zl :S 5)
es la probabilidad de dicho evento. La definición (5.5.1) establece que dicha probabilidad se
aproxima a 1 a medida que el tamaño muestra] aumenta. La definición de convergencia en
probabilidad requiere que sea para cualquier radio 5. Por lo que para intervalos muy pequeños
de z, la distribución de Zn se concentra dentro de ese intervalo para valores altos de n.
Cuando Zn !!+ z, decimos que z es el límite en probabilidad (o plim) de Zn.
5.5.3. Demostración del Teorema 25

Sin pérdida de generalidad para el resultado, consideramos que JE(yi) = O simplemente
centrando Yi en torno a su esperanza.
Queremos mostrar que para todo 5 > O y r¡ > O hay algún N < oo tal que para todo
entero n 2:: N , Pr( lvl > 5) :::; r¡. Fijemos 5 y r¡. Sea E = 5r¡/ 3. Seleccionamos une< 00 lo
suficientemente grande para que
(5.5.2)
donde 1(-) es una función indicador, lo que es posible dado que lEIYi/ < oo. Definimos las
variables aleatorias
tal que
y=w+ z
y
(5.5.3)
Ahora mostramos que la suma de las esperanzas del lado derecho está acotada inferiormente
por 3E.
Primero , por la desigualdad triangular y la desigualdad de la esperanza se tiene
Tema 5 215
:S 2E, (5.5.4)
·. por tanto, por la desigualdad triangular y (5.5.4)
(5 .5.5)
Segundo, un argumento similar
:::; 2C (5.5 .6)
:onde la desigualdad última es (5.5.2). Entonces por la desigualdad de Jensen, el hecho

.:e que wi sean iid y con media nula, y (5.5.6),
(5.5.7)
..a última desigualdad se mantiene paran 2: 4C2 /E 2 = 36C 2 /8 2 r¡ 2 . Las ecuaciones (5.5 .3),(5.5.5)
(5. 5.7) juntas muestran que
(5.5.8)
romo deseábamos.
Por último, por la desigualdad de Markov y (5.5.8),
Pr (IY I > 8) :S -f
JE 1-1 3
:S ; = r¡,
..a igualdad final es, por definición, de E. Hemos mostrado entonces que para cualquier 8 > O
· r¡ > O entonces para todo n 2: 36C 2 / 82 r¡ 2 , Pr(IYI > 8) :::; r¡, que es lo que necesitábamos. •
5.5.4. Convergencia casi segura y leyes fuertes

La convergencia en probabilidad en ocasiones se denomina convergencia débil. Un término
relacionado es el concepto de convergencia casi segura, también conocida como convergencia
fuerte. En teoría de la probabilidad el término «casi seguro» significa «con probabilidad igual
a uno». Un suceso que es aleatorio pero sucede con probabilidad igual a uno se dice que es un
suceso casi seguro.
Definición 9. Una variable aleatoria Zn E R converge casi seguro a z

cuando n---+ oo, y lo denotamos por Zn ~· z, si para cada ó >O
Pr ( lím
n--+oo
lzn-zl '.S ó) = 1 (5.5.9)
La convergencia (5.5.9) es más fuerte que (5.5 .1 ) porque calcula la probabilidad de un

límite en lugar del límite de una probabilidad. La convergencia casi segura es más fuerte que
la convergencia en probabilidad en el sentido de que Zn ~· z implica Zn ~ z .
En el contexto del muestreo aleatorio la media muestral converge de forma casi segura
a la media poblacional. Este tipo de resultados se conoce como Leyes fuertes de los grandes
números.
Teorema 35. Ley fuerte de grandes números
Para una muestra aleatoria, si IEIYI < oo, entonces cuando n---+ oo,
1 n
y= - LYi~' IE(yi)·
n i=l
P ara los propósitos econométricos son suficientes las leyes débiles.
5.5.5. Momentos vectoriales

Consideramos la generalización del caso simple cuando y es un escalar real al caso donde
y E !Rm es un vector. Los elementos del vector y son
Tema 5 217
La media poblacional de y es simplemente el vector de medias marginales
La magnitud de los vectores aleatorios y se mide con la norma euclídea
1 12
llYll = (YI + · ·· +y~) ·
Observemos que
llYll 2 = y'y.
Pues bien, es equivalente describir la existencia finita de los momentos en términos de la
norma euclídea de un vector, o bien de todos sus componentes considerados individualmente.
Teorema 36. Para y E lRm, IEllYll < oo si y solo si IEllYjll < oo para
j = l, ... ,m.
El Teorema 36 implica que los componentes de µ son finitos si y solo si IEI IYI 1 < oo.
La matriz de varianzas m x m y es
1
V= var(y) =JE ((y-µ) (y - µ) ).
V es a menudo la matriz de varianzas y covarianzas. Se puede comprobar que los elementos

de V son finitos si IEI IYI 12 < oo.
Una muestra aleatoria {yi, ... , Yn} se conforma por n observaciones independientes e idén-
ticamente extraídas de la distribución de y (cada extracción forma un m-vector). El vector
de la media muestra!
1 n Y1)
Y2
y=;;, LYi = ( :
i=l .
Ym
es el vector de medias de las variables individuales.
La convergencia en probabilidad de un vector se puede definir como la convergencia en
probabilidad de todos los elementos que forman el vector. Por tanto, y ~ µsi y solo si Yj -+ µj
para j = 1, ... , m. Dado que esto último es cierto si IEIYjl < oo para j = 1, ... , m, o de modo
equivalente IEI IY 11 < oo, podemos establecerlo formalmente como sigue:
Teorema 37. Ley débil de los grandes números para vectores alea-
torios A partir de una muestra aleatoria, si lEIY11 < oo, entonces cuando
n--+ oo,
1 n
y= -
n
LYi -4 lE(yj)·
i=l
5.5.6. Demostración del Teorema 27

Esta demostración la haremos recurriendo a la función característica, la cual tiene tres propie-
dades generales que recordamos en este momento: (a) Sea y = az + b, a, b E IR. Entonces la función
característica de y, fy(>..) = fz(a>..) + ei>.b. (b) Sean z e y dos variables independientes. Entonces si
x = z +y, fx(>..) = fz(>..)fy(>..). Y (c) la convergencia en distribución es equivalente a la convergencia
de funciones características cuando la función característica a la que converge es continua en >.. = O.
Consideremos ahora j(>..) la función característica de (zn - µ) y llamemos fn(>..) a la función
característica de rn
L:=l (zn - µ)/a» A partir de la propiedad (a) la función característica de
)n (zn - µ)/a será j(>../( ylna)) que junto con (b), al tratarse de suma de variables independien-
tes, nos permite llegar a que
o bien
logfn(>..) = nlogf(>../(vna)).
Haciendo ahora el desarrollo de Taylor de j(>..) = JE(ei>.x) en torno a>..= O para una variable aleatoria
genérica x centrada en el origen y con varianza a 2 < oo :
evaluadas en >.. = O se tiene
f(O) = 1, j'(O);... = ilE(x) =O, j"(>..);...;... = i 2 1E(x 2 ) = -a 2
y, por tanto, f(>..) = 1 - u 2 >.. 2 /2 + o(>.. 2 ). Utilizando esta expresión general en la función logaritmo
(neperiano), se tendrá
logfn(>..) =nlog(l->.. 2 /2n+o(>.. 2 /n))
que evaluamos cuando n -t oo : límn-+ oo n log (1 - >.. 2 /2n + o(>.. 2 /n)) . Inicialmente este límite es
indeterminado del tipo oo · O, pero resolvemos la indeterminación transformándolo en uno del tipo
~ y posteriormente aplicamos L'Hopital; el resultado es ->.. 2 /2 . De este modo, si log fn(>..) -t >.. 2 / 2
2
se tiene que fn(>..) -t e->. / 2 asintóticamente (esto es, cuando n -t oo), es decir, la sucesión de
2
funciones características f n(>..) converge a la función característica e-.A / 2 que lo será de una función
de distribución determinada. Concretamente lo es de la función de distribución de una N(O, 1), dado
que es la función característica de una normal. Por otra parte, la propiedad (c) se verifica ya que
e-.A
2
/
2
es continua en >..= O, así resulta que la sucesión de variables aleatorias { )n L:=l (zn - µ) /a }
converge a la función de distribución de la normal estándar. •
Tema 5 219
5.5. 7. Extensión del TCL al caso vectoria l
Teorema 38. Teorema central del límite de Lindeberg-Lévy.
Bajo la Suposición 6, si JEll Yll 2 < oo, entonces cuando n-+ oo
1 n
Vn (Yn - µ) = Vn L (Yi - µ) ~ N(O, V )
i=l
dondeµ= JEy and V= JE ( (y- µ)(y - µ) ' ).
El TCL es uno de los resultados mas intrigantes y potentes de la teoría asintótica. Muestra
que el simple procedimiento de «promediar» induce a la normalidad. La primera versión del
TCL (para el número de caras resultantes del experimento de lanzar una moneda al aire)
fue establecido por el matemático francés Abraham de Moivre en 1733. Este resultado fue
ampliado para cubrir una aproximación de la distribución binomial por Pierre-Simon Laplace
en 1812 . El establecimiento más general del mismo se debe al matemático Aleksandr Lyapunov
1901) y al matemático Jarl Waldemar Lindeberg (1922).
La versión que hemos presentado corresponde a la ofrecida por Lindeberg y el matemático
francés Lévy. Una versión que no requiere que las distribuciones sean iguales fue dada por
Lindeberg (1922) .
Teorema 39. TCL de Lindeberg. Supongamos que Yi son independien-

tes, pero no necesariamente distribuidas idénticamente con medias finitas
µi = JEyi y varianzas 17 2 = JE(yi - µ i) 2 . Sea v~ = L:~=l CJI. Si para todo
E>0
(5 .5.10)
entonces
1 n
- L (Yi - µi) ~ (O, 1).
Vn i=l
La Ecuación (5.5.1 0) se conoce como condición de Linderb erg. Un método estándar para
verificar (5.5.10) es por medio de la condición de Lyapunov: para algún ó >O
n
,
1im 1 """ JE( Yi - µi )2+8 -- O
2 +<5 ~
(5.5.11)
n-+oo Vn i= l
Es fácil verificar que (5.5.11) implica (5.5.10), y (5.5.11) también suele ser de sencilla verifi-
cación. Por ejemplo, si su pi JE(yi - µi) 3 :S "' < oo e ínfi a[ 2:'.: e > O entonces
n
1 ~ 3 n"'
3 L..,¿ JE(yi - µi) ::; 3/2 --+ o
vn i=l (ne)
de modo que (5 .5.11) se satisface.
5.5.8. Desigualdades relevantes

Las siguiente desigualdades han sido utilizadas en este o en otro tema. En primer lugar
las enunciamos y, posteriormente, en el formulario del libro hacemos las demostraciones.
Desigualdad de J ensen. Si g( ·) : IRm --+ IR es convexa, entonces para cualquier vector
aleatorio x para el que JE llxll < oo y JE llg (x)ll < oo,
g (JE (x)) ::; JE (g(x)).
Desigualdad de Jensen condicionada. Si g(-) : IRm --+ IR es convexa, entonces para

cualesquier dos vectores aleatorios x , y para los que JEll Yll < oo y JEllg(y)ll < oo,
g (JE (y lx)) :S JE (g (y ) lx ) .
Desigualdad de la esperanza cond icionada. P ara cualquier r 2:'.: O tal que E IYlr < oo,
entonces
Desigualdad de Markov . P ara cualquier vector x y función no negativa g(x) >O,
Pr (g(x) >a) :S a- 1 JE (g(x)) .
Desigualdad triangular. Para cualesquier dos matrices m x n A y B ,
ll A + Bll :S llAll + ll Bll ·
5.5.9. Demostración de la expresión (5.3.3)

La fórmula matricial de Sherman-Morrison (ver Apéndices y tablas) establece que para
una matriz A no singular y un vector b
Esto implica que en nuestro caso,
(x'x - xixD-
1
= (x'x)- 1 + (1 - hii)- 1 (x'x)- 1 xi x~ (x'x) - 1 .
Tema 5 221
Por tanto, utilizando esta expresión se tiene

1
fi(-i) (X'X - Xix~r (X'y - x¡yt)
1 1
(x'xr x'y - (x'xr xiYi
+ (1 - hii)- 1 (x'x)- 1 xix~ (x'x) - 1 (x'y - xiYi)
/3 - (X'X)- 1 XiYi + (1 - hii )- 1 (x'x) - 1 Xi ( x~/3 - hiiYi)
/3 - 1
(1 - hii)- 1 (X'X)- Xi ( (1 - hii) Yi - x~/3 + hiiYi)
/3 - (1 - hii)- 1 (x'x)- 1 xi (ei) .
•
5.5.10. Ampliación técnica del Método Delta
Primero presentamos una versión ampliada que se conoce como Teorema de Mann-Wald
ue considera convergencia en distribución para cierto tipo de funciones.
Teorema 40. Teorema de Mann- Wald
Si Zn ~ z cuando n -+ oo y g : lRm -+ JRk tiene un conjunto de puntos de

discontinuidad D 9 tal que Pr(z E D 9 ) = O, entonces g(zn) ~ g(z) cuando
n -7 OO.
El Teorema 40 permite que la función g sea discontinua solo si la probabilidad de estar

sobre un punto de discontinuidad es cero. Por ejemplo, la función g(u) = u- 1 es discontinua
::n u= O, pero si Zn ~ z,....., N(O, 1) entonces Pr(z =O) =O de modo que z~ 1 ~ z- 1 .
Un caso especial es el Teorema de Slutsky que se utiliza en las funciones más habituales,
~urna, multiplicación y división.
Teorema 41. Teorema de Slutsky
Si. Zn -+
d d
z y Cn -+ e cuan do n -+ oo, entonces
d
l.zn + Cn -+ z + e
d
2.ZnCn -7 ZC
3. ~Cn
~ ~e si e -=/= O
El estimador /3 = g(P,) , que escribimos como función de P,, sabemos ahora (por el Teorema
~O) que t iene una distribución asintótica; sin embargo no podemos por el momento saber cuál
es, dado que el estimador ~ = g(jl ) es realmente función de la sucesión no estandarizada

fo(fl - µ) . Para poder descubrir la distribución asintótica necesitamos un paso intermedio,
que es el desarrollo de Taylor de primer orden. La estadística teórica le dedica un nombre
especial para identificarlo: el Método D e lta, que hemos expuesto en la Sección 5.4.1.
Demostración del Teorema 9

Demostración. Dado que (x n - {3) = (1/ Jn)Jn (x n - {3), por la Proposición 8 se tiene que
d
(x n - {3) -+ O·N ( O, V ) = O, por lo que al tratarse de una constante tendremos que Xn -'-+ p
{3 . Por la Proposición 6 se tiene /IJri (x n - {3)11 ~ llN(O, V )ll · Por simplicidad notacional
hacemos A= A (/3) y definimos ahora ~ ( h ) = ll a (/3 + h ) - a (/3) - Ahll / ll h ll para h i= O y
~ ( h = O) = O. Por la diferenciabilidad de A (·) en {3, ~ ( h) es continua en O. Sea h = Xn - {3.!!+0
y sea Zn = Jn (a (x n) - a (/3)) - A fo (x n - /3), entonces
ll Znll Vn l/ a (/3 + h ) - a(/3) - Ah ll
= Vn ll fi ll ~(h) = Vn ll x n - f311 ~(h)

~ llN (O, V )ll · O
que por la Proposición 8 es O, y de nuevo al tratarse de una constante, implica que Zn .!!+ O. Los
dos sumandos de Zn los estudiamos a continuación. A partir de la P roposición 8, por un lado
se t iene que A fo (x n - {3) ~ A N( O, V )= N(O, AVA' ), y por otro tenemos precisamente el
término objeto de este resultado , esto es , fo (a (x n) - a ({3)) = Zn + AJn (x n - /3). Usando
los resultados de la Proposición 8 para el caso particular de Zn .!!+ O y A fo (x n - {3) ~
N( O, AVA' ), se tiene fo (a (x n) - a ({3)) ~ O + N(O, AVA' ). O
Tema 6
REGRESIÓ N CON HETEROCEDASTICIDAD

Y AUTOCORRELACIÓN
6.1. MODELOS DE REGRESIÓN CON HETEROCEDASTICIDAD
En los temas anteriores hemos incidido en la relevancia práctica de considerar que, en los
datos de naturaleza económica, la heterocedasticidad es la norma, y no la excepción. Pese a
ello, esto no supone en la actualidad un problema de difícil solución. De hecho, el modelo de
regresión lineal, cuyos supuestos expusimos en detalle en el Tema 3, y que seguidamente reco-
pilamos, nos permite estimar y realizar inferencia estadística sobre los parámetros estimados.
Hay varios motivos para pensar que los errores son heterocedásticos. En los modelos de
aprendizaje, por ejemplo, los agentes aprenden por la experiencia y lo normal es que la varia-
bilidad de los errores se reduzca con el paso del tiempo.
En ocasiones, no pocas variables explicativas (ingresos, beneficios , educación, renta, etc.)
acentúan la probabilidad de la existencia de una mayor variabilidad en el comportamiento de
los agentes económicos (generalmente porque tienen más grados de libertad en su comporta-
miento). En estos casos lo normal es que la variabilidad residual aumente a medida que lo
hacen las variables explicativas.
La mejora en las técnicas de recolección de datos provenientes de los agentes económicos
también podría significar la potencial comisión de menores errores, lo que reduciría la varianza
de los errores.
La presencia en la muestra de datos atípicos severos (en el sentido de ser datos muy
diferentes del resto) propicia la aparicción de heterocedasticidad, especialmente cuando la
muestra es pequeña.
La fuente de heterocedasticidad más preocupante se produce como consecuencia de un
modelo mal especificado (por ejemplo la no inclusión de variables relevantes), o por una
transformación incorrecta de los datos (estimar en niveles cuando lo correcto sería en logarit-
mos o en diferencias). Esta fuente de heterocedasticidad vulnera inicialmente el supuesto de
exogeneidad causando que la esperanza condicionada de los errores ya no sea nula.
Normalmente el problema de heterocedasticidad es más frecuente con información de corte
transversal, donde las observaciones suelen ser más heterogéneas, que con datos de series
223
224 REGRESIÓN CO N HETEROC EDASTICIDAD Y AUTOCORRELACIÓN
temporales.
Conviene recordar que los estimadores MCO en presencia de hetérocedasticidad siguen
siendo insesgados y consistentes, siendo ambas propiedades deseables para un estimador.
MODELO DE REGRESIÓN LINEAL
El proceso generador de (X1i, X2i, ... , X ki, Yi) , i = 1, ... , n es un modelo
Lineal
(6.1.1)
donde éi ,i = 1, ... , n es la sucesión de términos errores de cada una de las observaciones.
En el caso de datos de sección cruzada i es un índice individual para cada unidad de
análisis, mientras que si los datos son temporales el índice es temporal de observación.
Por tanto, n en un caso es el número de individuos o bien el número de observaciones
temporales.
No multicolinealidad perfecta
Exogeneidad
lE( cilX) =O, i=l,2, ... ,n. (6.1.2)
Muestra aleatoria
(X1i , X2i , ... , Xki , Yi) , i = 1, ... , n son iid.
Atípicos
Grandes atípicos son poco probables. Formalmente, X1i, X2i , ... , Xki, e Yi tienen mo-
mentos de cuarto orden distintos de cero y finitos
La cuestión relevante es la forma que presenta el estimador MCO cuando consideramos

la varianza de este estimador. Para ello comprobemos cómo es la varianza del estimador de
coeficiente MCO en el modelo de regresión anterior, que es heterocedástico:
La matriz de varianzas del vector error de regresión e es la matriz n x n siguiente
1
:Eu 1 =JE (ee IX) ,
Tema 6 225
donde el elemento i-ésimo de la diagonal principal es
IE(éf lxi) = o-f,

mientras que los elementos fuera de la diagonal de la matriz :Ee:e:'son
al ser independientes (por el supuesto de muestra aleatoria) las observaciones j e i-ésimas.

La varianza del estimador MCO , (X'X)- 1 X'y = A'y, donde definimos A(X) = X(X'X)- 1
será entonces
var (13 IX) var (A'y IX)

var(A'elX)
A':Ee:e:'A
1
(X'X) - X':Ee:e:1X(X'X)- 1 ,
que no es más que una versión ponderada de la matriz X'X al ser el término
n
X':Ee:e:'X = L XiX~O'¡.
i=l
Observamos pues que lavar (13 IX) o, mejor, su versión convenientemente escalada,
var ( .Jñ (13 - (3) IX) nvar (13 IX)

1
n (X'Xf X':Ee:e:'X(X'X)- 1
(~x'x)- (~x':Ee:e:'X) (~x'x) -

1
1
, (6.1.3)
no es tan fácilmente accesible dado que desconocemos los n elementos de la matriz :Ee:e:',
mientras que en el caso homocedástico esta matriz se reduce a una matriz diagonal en la que
todos los elementos de la misma son iguales a o-f = o-J = o- 2 . Paralelamente, también sabemos
por el teorema de Gauss-Markov que el estimador MCO de los coeficientes del modelo lineal
de regresión homocedástico es el de menor varianza de entre todos los lineales e insesgados,
si bien es cierto que esto solo es correcto en el caso teórico de la homocedasticidad. Por el
contrario, en el modelo de regresión lineal, el estimador lineal e insesgado de menor varianza
es diferente. Para verlo con claridad consideremos que la varianza var(éi lxi) = o-f fuera
conocida.
La cuestión es cómo podemos utilizar esta información para transformar la expresión
(6.1.1) de forma que podamos estimar los parámetros con errores homocedásticos.
Dividiendo la Ecuación (6.1.1) por su desviación típica O'i conocida conseguimos que los
errores sean homoscedásticos,
226 REGRESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
Haciendo un cambio de variable podemos escribir,
(6 .1.4)
Es fácil observar que ahora la varianza de los errores es constante
Por tanto, la expresión (6.1.4) tendría errores homoscedásticos. A estas expresiones se las
conoce con el nombre de estimador de mínimos cuadrados ponderados (MCP) puesto que todas
las variables están ponderadas por 1/ 0"i. Si al ponderar adecuadamente logramos que el modelo
sea homocedástico , entonces estaríamos bajo las condiciones de aplicabilidad del teorema de
Gauss-Markov, y la expresión del estimador MCO ya no será la de menor varianza. Ahora
el estimador lineal insesgado óptimo (de mínima varianza) sería una versión adecuadamente
ponderada por la inversa de la desviación típica del error de cada observación. La expresión
matricial es la siguiente
'
f3McP ( *'
= X X
*)-] X *' y * = (X /:Eee'X)
-1 -1
X / :EeetY·
-1 (6 .1.5)
A la luz de este resultado, podemos observar que la Ecuación (6.1.5), al ser ELIO, nos
indica que el estimador MCO sería ineficiente en un contexto tan general y habitual como
es el heterocedástico. No obstante, para poder utilizar un estimador lineal e insesgado más
eficiente sería preciso salirnos de los supuestos del modelo de regresión que hemos indicado
al comienzo del tema, dado que para poder utilizarlo precisamos suponer que contamos con
cierta información sobre la función de varianza condicionada var(Ei !xi) = O"¡. A continuación
tratamos cómo estimaríamos si dispusiéramos de este t ipo de información.
6 .1.1. Mínimos cuadrados ponderados cuando conocemos la forma funcio-

nal de la heterocedasticidad
Como hemos de realizar al menos un supuesto adicional, consideremos que la varianza
condicionada del error es conocida salvo por un factor de proporcionalidad; es decir
donde h es una función que suponemos conocida y >. es una constante. El estimador MCP,
como hemos visto anteriormente, se obtiene siempre dividiendo la variable dependiente e
independiente por la raíz cuadrada de h y luego haciendo la regresión por MCO de la variable
dependiente transformada y el regresor también transformado.
Como hemos visto anteriormente en este procedimiento, al conocer la forma de la varian-
za del error, nos permite transformar el término error heterocedástico en un término error
transformado de modo que ahora ya es homocedástico. Por tanto, aplicar MCO a dicho mo-
delo nos conduce a estimadores ELIO , toda vez que se cumplen los supuestos del teorema de
Gauss-Markov.
Tema6 227
La cuestión obvia es que en la práctica desconocemos la función h, y por tanto la propuesta

no es factible, al no poder llevarse a cabo. o obstante se suelen indicar algunos supuestos
tentativos sobre el patrón de heterocedasticidad (especialmente útiles en el caso de regresión
simple), a fin de hacer factible el método de los MCP. Veamos algunos casos.
Caso l. La varianza de los errores es proporcional a Xti , es decir que
Entonces estimamos la regresión (6 .1.1) ponderada por X 1i
Yi 1 X2i xki Ei
X li = f3o X
li
+ f31 + f32 X li + ... + f3k X li + X li .
Esta expresión nos conduce a (6.1.4), y por t anto a una situación homocedástica. Es
decir,
2x2
(}
----(}
li 2
- Xti -
Podemos comprobar que este Caso I es fácilmente aplicable a situaciones similares como
pueden ser que consideremos que la varianza condicionada del error sea proporcional a
X i o incluso a una combinación lineal de las variables explicativas, como es el caso de
utilizar una varianza condicionada proporcional al valor medio de la variable }i. En uno
y otro caso tendríamos modelos transformados del tipo siguiente:
Yi 1 X1i X2i xki Ei

ffr = f3o ffr + f3i ffr + f32 ffr + ... + f3k ffr + ffr'
vYi vYi vYi vYi vYi vYi
en ambos casos los modelos ahora serían homocedásticos 1 . En ocasiones puede resultar
útil reducir la heterocedasticidad considerando las variables en logaritmos. De hecho
transformar a logaritmos comprime las escalas en las que las variables (dependiente e
independientes) son medidas, por tanto se produce una reducción en la diferencia entre
valores.
Caso II. En este caso, a diferencia del anterior, consideramos que es necesario estimar la va-
rianza condicionada. En la mayoría de las sit uaciones la forma de la heterocedasticidad
no es conocida de manera que es difícil encontrar la función de las variables independien-
tes h(X) que determina la forma de heterocedasticidad. Pero podemos estimarla h(X),
y su utilización, en vez de la verdadera función h(X), se suele denominar MCP-factibles.
1
En la última ecuación, también podríamos incluir la eventualidad de que la varianza del error fuera
proporcional al cuadrado del valor esperado de Yi, en tal caso, habríamos de ponderar por 1/f'.;.
228 REGRESIÓN CON HETEROCE DASTICIDAD Y AUTOCORRELACIÓN
No obstante, hay distintas formas de modelizar la heterocedasticidad, una posibilidad

es
var ( Eil X) = cr 2 exp (ao + a1X1i + a2X2i + ... + akXki).
Es decir, incluimos el supuesto de que
(6.1.6)
Utilizamos la función exponencial para garantizar que h(X) tenga valor positivo. Ahora
no conocemos los coeficientes de la ecuación anterior (si los conociéramos, entonces
aplicaríamos MCP tal y como en el Caso 1). Por tanto es preciso estimarlos. Bajo el
supuesto de que se cumple (6.1.6) podemos escribir
Suponiendo que Ui tiene media unitaria y que es independiente de las variables explica-
tivas podemos escribir
donde ei tiene media nula y es independiente de las variables explicativas. Estamos aún
en una situación no implementable en la práctica dado que los errores de la expresión
(6.1.1) los desconocemos. No obstante, sí conocemos los errores estimados, Ei en la
regresión inicial MCO, y estos los podemos utilizar para estimar consistentemente los
parámeteros de la ecuación logarítimica, es decir que estimamos
Haciendo 9i =ln (t;), la estimación de h(X) es

h (X) = exp (gi).
Finalmente utilizamos 1/ h 112 (X) como ponderación en la expresión (6.1.1) como hici-
mos en los casos precedentes:
Yi _ (3 1 (3 X ii (3 X2i (3 Xki éi
~- o~+ 1 ~+ 2 ~+ ... + k ~+ ~·
y n ~AJ y h (X) y h(X) y h(X) y h(X) y h(X)
Tanto en un caso como en otro, hemos añadido supuestos que nos permitan transformar el
modelo heterocedástico en un homocedástico, y luego procedemos con la estimación MCO
que en caso de haber modelizado adecuadamente la varianza condicionada de los errores, nos
conduciría asintóticamente a estimadores más eficientes. A partir de la estimación MCO , que
nos permite estimar los valores de los coeficientes, podríamos construir intervalos de confianza
para los coeficientes estimados a partir de errores estándar típicos de los casos teóricos de
homocedasticidad.
Tema 6 229
6.1.2. Cuando NO conocemos la forma funcional de la heterocedasticidad:

estimadores robustos
En realidad, como vimos en los temas anteriores, hay otra alternativa para solucionar el
efecto de la heterocedasticidad: utilizar los estimadores de los errores estándar robustos, que
ya hemos visto en la Sección 4.3.1.2. Es decir, o bien estimamos los coeficientes f3 por mínimos
cuadrados ponderados f3McP, o bien los estimamos por MCO f3Mco, y luego utilizamos los
errores estándar robustos a la heterocedasticidad. P ara decidir qué usar en la práctica veamos
las ventajas y desventajas de uno y de otro método.
La ventaja de MCP es que es más eficiente que el estimador MCO para los coeficientes del
modelo de regresión original, al menos asintóticamente. La desventaja es que necesariamente
requiere conocer la función de la varianza condicionada y estimar, adecuadamente, sus corres-
pondientes parámetros. En la práctica habitual casi nunca se conoce dicha función. De hecho
si hemos especificado incorrectamente la forma funcional de la varianza condicionada, enton-
ces los errores estándar calculados por MCP no son válidos y nos conducirían a conclusiones
erróneas.
La ventaja de usar errores estándar robustos a la heterocedasticidad es que asintóticamente
proporcionan valores válidos para llevar a cabo inferencias incluso si se desconoce la forma de la
función de varianza condicionada. Afortunadamente en la actualidad el software econométrico
incorpora esta opción lo que facilita un uso a bajo coste para el usuario.
Considerando pros y contras, junto con el hecho de que en la práctica raramente conoce-
mos la expresión de la varianza condicionada del error , parece oportuno y más sencillo utilizar
errores estándar robustos sin necesidad de hacer elucubraciones sobre la varianza condiciona-
da.
6.1.3. Contrastes de heterocedasticidad

Por otra parte, en no pocas situaciones es interesante desde un punto de vista econó-
mico saber si la varianza condicionada es una función de los regresares. En estos casos, la
literatura ofrece varios constrastes estadísticos de homocedasticidad (heterocedasticidad). Es
importante considerar este marco para saber para qué y para qué no sirven los contrastes
de heterocedasticidad. Es decir, utilizar un contraste de este tipo para determinar si utilizar
MCO o MCP, o para saber si usar errores estándar habituales o los robustos, constituye un
uso poco adecuado de un contraste de hipótesis sobre heterocedasticidad. Un contraste de he-
terocedasticidad debería utilizarse para contestar a la pregunta científica sobre si la varianza
condicionada es una función de las variables explicativas.
Se han propuesto muchos contrastes de heterocedasticidad y generalmente los programas
especializados los realizan de forma rutinaria. Algunos de ellos son capaces de detectar de
forma directa la heterocedasticidad, pero no contrastan de forma directa el supuesto de que
la varianza de los errores no depende de las variables independientes. Nos limitaremos en esta
sección a indicar el contraste de Breusch-Pagan y el contraste de White.
Partimos del modelo lineal general de la Ecuación (6.1.1), esto es
junto con el resto de supuestos que hemos determinado al comienzo del tema y que configu-
ran el modelo de regresión. Recordemos que este conjunto de supuestos no incorpora el de
homocedasticidad
(6 .1.7)
El objetivo es contrastar si Ei 2 se relaciona, en valor esperado, con una o más variables

explicativas. Una forma simple es suponer una función lineal del tipo siguiente
(6.1.8)
que en el caso de homocedasticidad de la expresión (6.1.7), se cumple (6.1.8) si
Para contrastar la homocedasticidad de los errores de la expresión (6.1.1), podemos utilizar

un estadístico tipo F de significatividad global de las variables explicativas de la expresión
(6.1.8), que tiene una justificación asintótica.
Evidentemente nunca conoceremos los verdaderos errores Ei pero sí su estimación Ei, de
manera que podemos estimar
(6.1.9)
Los estadísticos F dependen del R 2 de la regresión (6. l. 9). El estadístico F en consecuencia

es
R 2 /k
F = -(l___R_2_)¡--'-(n---k-
A--1)'
que se distribuye como una F de Snedecor con k y n - k - 1 grados de libertad (Fk,n-k-1).

El estadístico es de tipo 2 LM, y se calcula:
LM = n · R 2 , (6.1.10)
que se distribuye como una chi cuadrado con k grados de libertad x2k·
A este contraste se le conoce como contraste de heterocedasticidad de Breusch-Pagan (BP).
Si el valor empírico del contraste BP es mayor que el valor crítico para un determinado nivel de
significatividad entonces rechazamos la hipótesis nula de homocedasticidad y en consecuencia
concluimos que los residuos son heterocedásticos.
Halbert White propuso un contraste parecido al de BP en el que de un modo muy intuitivo
añade los cuadrados y productos cruzados de todas las variables independientes (distintas de
la constante) de la expresión (6.1.9). El estadístico de contraste LM es el mismo, ya mostrado
en la expresión (6.1.10).
Los siguientes ejemplos ponen en práctica estos contrastes, así como la técnica de los MCP.
2
En el documento Apéndices y Tablas se describen los tipos de contrastes.
Tema6 231
6.1.4. Ejemplos
Esperanza de vida, nivel educativo y de ingresos
Con datos del informe sobre desarrollo humano mundial de 2010 (ONU), relacionamos la
esperanza de vida el nacer de 169 naciones con los ingresos per cápita en miles de dólares en
paridad de poder adquisitivo y el número de años de estudios. El modelo estimado es
esperanzai = 20, 885 + 4, 649 · ln ( ingresoi) + O, 935

(3, 489) (O, 522) (0,231)
(6.1.11)
[3, 256] [O, 506] [O, 224]
2
n = 169, R = O, 6838.
Indicamos entre corchetes los errores estándar robustos a la heterocedasticidad . Todos los pará-
metros estimados son significativos, tanto si utilizamos los errores estándar válidos bajo homoce-
dasticidad como los robustos de heterocedasticidad al nivel del 5 %. Por tanto, si todo lo demás se
mantiene constante, un incremento del 1 % en los ingresos provoca un incremento de 0,046 años
de esperanza de vida; así mismo , un incremento de un año de estudios determina un incremento
de 0,93 años de esperanza de vida.
El contraste BP se realiza a partir de la regresión de los residuos al cuadrado estimados en la
expresión (6.1.11) con todas las variables independientes, es decir
t? = 47, 026 + 3, 620 · ln (ingresosi) - 6, 017 · estudiosi + ei,

n = 169, R 2 = O, 044.
El valor empírico es 7,436 (n·R 2 = 169·0,044), el va lor crítico es 5,99 (x 2 2:0 ,o5 = 5,99); como
el valor empírico es mayor que el crítico rechazamos la hipótesis nula de homocedasticidad, y en
consecuencia los residuos del modelo muestran signos de heterocedasticidad.
Por otro lado, el contraste de White se realiza a partir de la siguiente expresión:
t? = -286, 121+63 , 616 · ln (ingresosi ) - 2, 862 · [ln (ingresosi)] 2

- 1, 460 · [ln (ingresosi) ·estudios] + 20, 359 · estudiosi
- O, 997 · estudios? + ei
n = 169, R 2 = O, 0985.
Donde además de las variables independientes del modelo (6.1.11), se incluyen sus cuadrados y
sus productos cruzados. El valor empírico del contraste de White de heterocedasticidad es 16,6465
(n·R 2 = 169·0,0985), el valor crítico de contraste es 11,1 (x 2 5 ,0 ,05 = 11,1), de manera que el
valor empírico es mayor que el valor crítico y en consecuencia rechazamos la hipótesis nula de
homocedasticidad, llegando a la misma conclusión que con el contraste BP.
Los estadísticos de BP y White pueden dar conclusiones diferentes. En general el contraste de
White tiene el inconveniente , cuando el número de va ri ables independientes es grande, de que la
realización del contraste requiere demasiadas variables, por lo que se pierden muchos grados de
libertad; sin embargo es un contraste más potente que el BP toda vez que la gama de hipótesis
alternativas es más amplia al admitir relaciones no lineales en la forma funcional de la varianza
condicionada.
232 REGRESIÓ N CON HETERO CEDASTICIDAD Y AUTOCORRELACIÓN
El consumo de las familias madrileñas dedicadas al sector turístico

Con datos de la encuesta española de presupuestos familiares para 2009, podemos estimar la
relación del consumo de las familias madri leñas cuyo ingreso principal procede del sector turístico
con el nivel de dichos ingresos y el número de personas que constituyen la unidad familiar (consumo
e ingresos están en miles de euros) ,
consumoi = 6, 759 + 0,422 · ingresosi + 2, 637

(3,230) (O, 095) (O, 947)
[2, 861] [O, 128] [O, 946]
n = 81, R 2 =O, 3532.
Los estimadores robustos de heterocedast icidad son menores para el término constante y en la
pendiente del tamaño de la unidad familiar . Tanto si consideramos los errores estándar MCO como
los robustos todas las variables independientes son significativas a los niveles usuales, el cociente
entre los parámetros estimados y los errores estándar, sean robustos o no, son en todos los casos
mayores de 2.
El contraste BP de heterocedasticidad lo realizamos a partir de la siguiente regresión
t¡ = -43, 040 + 3, 803 . ingresosi + 18, 815 . tam.i + ei

n = 81 , R 2 =O ' 1002 ,
donde t¡ son los residuos al cuadrado de la regres1on principal , el valor crítico del contraste al
5 % de significatividad es 5,99 (x 2 2:0,0 5 = 5,99), y el valor empírico que toma el estadístico de
contraste es
n · R 2 = 81 ·O, 1002 = 8, 1162.
Como el valor empírico es mayor que el valor crítico rechazamos la hipótesis nula de homocedas-
ticidad.
Si nuestro objetivo fuera , por los motivos que sea, capturar la dependencia en la varianza
condicionada , una posibilidad sería aplicar MCP en lugar de los MCO (es decir, el Caso 1) . Para
ello queremos evaluar si la varianza del error es proporcional a los ingresos familiares :
var (el) = CT 2 • ingresosi .

Para estimar por MCP, ponderamos por la raíz cuadrada de los ingresos familiares, es decir,
estimamos el siguiente modelo poblacion al
consumoi _ /3 1 /3 ingresoi /3 tam.i Ei

. ! '"'
v ingresoi - o ¡ '"'
v ingresoi + 1 /'
v ingresoi + 2 - ¡·
v ingresoi + ¡·
v ingresoi
Realizando los cambios de variables oportunos también se puede escribir como
consumoi* = /3o ·pond .

eracwni + 13· *+/ 3
i · ingresosi 2 ·t am.i* + ci*
Tema 6 233
Donde la variable independiente ponderacióni es ../ingresoi . Estas regresiones no tienen término

constante, por consiguiente es una regresión que pasa por el origen y debemos tener en cuenta
que los coeficientes de determinación de las regresiones que pasan por el origen y las que no lo
hacen (las que tienen término constante) no son comparables.
Su estimación es
~
consumo; = 3, 171 · ponderacioni + O, 524 · ingresos; + 2, 978 · tam.; + Ei

(2,457) (0,102) (0,809)
n = 81, R 2 =O, 1269.

Excepto la estimación del término ponderacioni, el resto de variables independientes son significa-
tivas a los niveles usuales. El coeficiente de determinación es menor pero no es comparable con el
de la ecuación original.
El contraste de heterocedasticidad BP lo estimamos a partir de
(ii) 2 = 9, 65 - 23, l 7ponderacioni - O, 52 · ingresos;+ 3, 52 · tam.; + ei,

2
n = 81, R =O , 0257.
El valor crítico es 7,81 (x 2 3:o,o5 = 7,81) y el valor empírico :
n. R 2 = 81·0,0257 = 2,0817. (6.1.12)
Como el valor empírico es menor que el valor crítico, ahora ya no podemos rechazar la hipótesis
nula de homocedasticidad, lo que indica que la varianza condicionada heterocedástica parece estar
bien caracterizada en función del nivel de ingresos.
Debido a que tenemos pocas observaciones, resulta de utilidad considerar los valores de los
coeficientes MCP toda vez que la heterocedasticidad existente está controlada. Al comparar los
valores de los coeficientes por MCP y por MCO, vemos fundamentalmente que ambas arrojan
conclusiones sobre el efecto marginal de las variables expl icativas bastante similares. Los coeficientes
MCP apuntan a un mayor peso relativo de cada una de las variables indendientes.
Salarios de altos directivos en grandes empresas españolas

Retomemos el ejemplo de los primeros temas sobre la remuneración del factor trabajo de los
cargos de alta dirección de las empresas que cotizan en el IBEX en 2010. Ahora introducimos como
variable explicativa, además de los beneficios, los ingresos de las empresas. Su estimación es
salarioi = 282, 576 +O, 235 · beneficiosi +O, 005 ·ingresos+ Ei,
(79,808) (0,069) (0,010)
n = 31, R 2 =O, 7876.

Ambas variables presentan los signos esperados a pnon, pero la variable ingresos de la empresa
resulta no significativa estadísticamente.
El contraste de heterocedasticidad de BP es
it = -3805, 886 + 107, 923. beneficiosi - 4, 103. ingresos+ ei,
n = 31, R 2 =O, 4565.
El valor crítico es 5,99 (x 2 2:o,o5 = 5,99) , el valor empírico
n · R 2 = 31 ·O, 4565 = 14, 1515.
Como el valor empírico es mayor que el crít ico, rechazamos la hipótesis nula de homocedasticidad,
y por consiguiente el modelo presenta síntomas de heterocedasticidad.
Para estimar la ecuación por MCP real izamos la siguiente regresión auxiliar, siguiendo los pasos
esbozados en lo que hemos denominado Caso 11 :
9i = ln (ir) = 8, 553 +o, 0007. bene ficios i - o, 00003. ingresos+ ei

n = 31, R 2 =O, 3221.
Los pesos para utilizar como ponderación los calculamos de la siguiente forma
Es decir que el modelo estimado mediante MCP es
sa:arioi = 33 2, 179 ,1 +O, 00 9 . benepciosi +O, 021 . in~resos + ,€· ,

v1h;(X) (34,591) y'hi(X) (0, 063) v1h;(X) (0,006 ) Vhi(X) v1h;(X)
n = 31 , R 2 =O, 4305.
Se siguen manteniendo los signos esperados, pero los beneficios ahora no son significativos, mientras
que los ingresos sí lo son , y antes no lo era n. En general las estimaciones MCO y MCP son distintas,
pero cuando las diferencias son sustanci ales, es decir, cuando las estimaciones estadísticamente
significativas difieren en el signo (lo que no es el caso) o cuando la diferencia de magnitud de
las estimaciones es grande (como ocurre aquí, al menos en parte) , deberíamos desconfiar de las
conclusiones que nos indican los modelos.
No obstante, puede ser que estos problemas aparezcan precisamente en el caso de muestras
demasiado pequeñas, tal y como es el caso . También es importante la correlación entre las variables
independientes, r = 0,9239 . Como sabemos correlaciones grandes entre las variables independien-
tes hace que las varianzas de los estimadores sean mayores y las relaciones de causalidad se hacen
imprecisas. Es lo que en econometría denom inamos problema de la multicolinealidad y este puede
ser el problema de fondo de las diferencias entre ambas estimaciones. No olvidemos que tam-
bién es posible, y bastante probable , que el supuesto de exogeneidad no se satisfaga, lo que nos
conducidiría a considerar modelos alternat ivos con otras variables explicativas y mayor número de
observaciones. Ni los MCP ni los errores estándar robustos a la heterocedasticidad nos previenen
de malas especificaciones en el modelo o de la falta de datos.
Es relativamente habitual que los modelos necesiten ser ajustados respecto de los primeros
modelos que estimemos. Para ello deberíamos tener en cuenta aspectos que trataremos pos-
teriormente en el tema dedicado a la especificación de modelos. Antes de llegar a los mismos
vamos a considerar un segundo factor habitual en los datos en forma de serie temporal y que
se denomina autocorrelación.
Tema6 235
6.2. MODELOS DE REGRESIÓN CON AUTOCORRELACIÓN
La autocorrelación o correlación serial de los errores del modelo de regresión afecta esen-
cialmente a las regresiones con datos de series temporales. No obstante también puede existir
en modelos de sección cruzada (datos transversales) ; técnicamente la a u to correlación con da-
tos transversales se conoce como autocorrelación espacial. En todo caso la ordenación de los
datos en el análisis de autocorrelación transversal tiene que tener sentido económico. Cuando
las observaciones con datos transversales se han generado mediante muestreo aleatorio, los
datos utilizados son, por definición, independientes y por consiguiente la ausencia de auto-
correlación espacial está garantizada. Por tanto, el problema de la autocorrelación aparece
cuando el supuesto de muestra aleatoria no se puede mantener. Entre otras cosas , esto im-
plica que ya no estamos dentro del marco de lo que hemos denominado en este tema modelo
de regresión lineal, y que se encuentra detallado en la sección 6.1. Sin embargo sabemos que
podemos reemplazar este supuesto por otro equivalente para el caso de series temporales de
modo que las propiedades de insesgadez, consistencia y distribución asintótica de los estima-
dores MCO se mantengan. Recordemos que la adaptación a la Suposición 3 (ver página 101)
es
Adaptación de la Suposición 3. Las variables aleatorias

(Xit, X2t , ... , Xkt, yt) (i) tienen una distribución de probabilidad
que no cambia a lo largo del tiempo, (ii) (Xit, X2t, ... , Xkt, yt) y
(Xit-j, X2t-j, ... , Xkt-j, tt-j) se convierten en independientes a medida
que j aumenta.
El problema es ahora que en el caso de los modelos de regresión con series temporales es
muy frecuente que el término error esté autocorrelacionado 3 . Cuando trabajamos con series
temporales la ordenación cronológica (en el tiempo) es natural, y la posibilidad de que las
observaciones sucesivas muestren patrones sistemáticos es muy grande, especialmente cuando
los intervalos entre observaciones se acortan. Recordemos el ejemplo de la demanda de café,
que depende, entre otras, del nivel de ingresos. Consideremos que omitimos esta variable de
la especificación lineal del modelo. La variable ingreso medida a través del ingreso agregado
suele estar serialmente correlacionada: el ingreso tiende a caer en las recesiones y aumentar
en la fase de expansión. Si omitimos entonces esta variable, y la incorporamos, por tanto, en
el término error, este estará también serialmente correlacionado.
Al igual que ocurre con la heterocedasticidad, si consideramos que no existe autocorre-
lación serial cuando en realidad sí la hay, entonces los errores estándar de los estimadores
MCO estarán mal calculados. Es decir, los errores estándar serán ineficientes y la inferencia
realizada a partir de ellos se verá afectada muy negativamente. De hecho en presencia de
autocorrelación no se deben utilizar los errores estándar usuales, ni siquiera asintóticamen-
te. Por tanto para mantener los estimadores MCO debe recurrirse a estimadores robustos a
la autocorrelación, o realizar estimaciones alternativas en la línea de los mínimos cuadrados
convenientemente ponderados.
3
Recordemos que por ausencia de autocorrelación se entiende que corr (€t ,€sl X)= O, t # s , como indica-
mos en la expresión (4.2.9).
Algunos de los motivos por los que se producen errores autocorrelacionados son:
• La propia inercia que se aprecia en las series temporales. Las series económicas mues-
tran ciclos económicos, es decir , las observaciones sucesivas están correlacionadas y en
consecuencia no parece raro que las regresiones entre estas variables también muestren
errores con patrones sistemáticos.
• Sesgos de especificación. Tanto si incluimos una variable no relevante como si excluimos

una relevante, lo normal es que aparezcan errores autocorrelacionados. Podemos hablar
entonces de una falsa autocorrelación puesto que estamos vulnerando el supuesto de
esperanza condicionada nula y la única solución es modificar el modelo ya que con mala
especificación los estimadores (sean estos robustos de autocorrelación o estimadores
diferentes de MCO) son sesgados e inconsistentes.
• Variables retardadas. Si la variable ret ardada es explicativa como ocurre en las ecua-
ciones de oferta de industrias donde el periodo de producción es largo (agricultura,
construcción, etc.) , entonces los errores de predicción necesariamente se corregirán en
periodos posteriores y los errores de la regresión estarán también autocorrelacionados.
• La manipulación de los datos como la desestacionalización previa, las interpolaciones

para datos ausentes o la utilización de medias móviles entre otras, pueden también ser
la fuente de errores autocorrelacionados.
6.2.1. Inferencia y eficiencia

La existencia de autocorrelación en el término error del modelo de regresión, tal y como
podemos ver en el enunciado del Teorema 15, hace que el estimador MCO, incluso conside-
rando el caso teórico de errores homocedásticos, no sea eficiente (es decir , deja de ser ELIO).
Paralelamente, los errores estándar y los contrastes estadísticos habituales ya no son válidos
ni siquiera asintóticamente.
La cuestión relevante es la forma que presenta el estimador MCO cuando consideramos
la varianza de este estimador. Recordemos, tal y como hemos visto en la sección dedicada
a la heterocedasticidad, que la varianza del estimador de coeficientes MCO en el modelo de
regresión en general es:
var (13 IX)

La matriz de varianzas del vector error de regresión e es, como hemos dicho, la matriz
n x n siguiente
donde, en el caso de homocedasticidad, el elemento t-ésimo de la diagonal principal es

Tema6 237
mientras que los elementos fuera de la diagonal de la matriz ~u' , cuando hay autocorrelación,
son distintos de cero:
IE(ct=sét=j IX)=/= IE(cs IX)IE(éj IX),
toda vez que el supuesto de muestra aleatoria de las observaciones fechadas en t =j y t = s
no se satisface.
Veamos un caso sencillo de autocorrelación para un modelo de regresión simple
(6.2.1)
Sabemos por (4.2.4) que
• (l/T) L: (Xt - X)ct

(31 = fJi + (l/T) 2:::(Xt -X) 2 '
dado que el estimador X de la media poblacional es tal que a medida que el tamaño muestral
aumenta, la media muestral es prácticamente indistigible de la media poblacional, µx, y
por tanto se puede sustituir uno por el otro, y lo mismo sucede para muestras grandes con
(l/T) L:(Xt - X) 2 ---+ a_l , es decir que converge a la varianza de X , var(X). Tendremos que
aproximadamente
/Ji _ fJi ~ (l/T) L:(~t - µx )et = ~ ,
ªx ªx
donde Vt = (Xt - µx)ct , y v = (l/T) ¿'[= 1 Vt.
La varianza de /31 en la estimación por MCO de (6.2.1) la podemos escribir:
• ) = var ( - v- ) = -
var ( f31 v) ·
var(- (6.2.2)
2 2
ªx (a_l)
Se observa que para obtener la distribución asintótica del coeficiente estimado por MCO se
requiere desarrollar la varianza de v. Tal desarrollo dependerá críticamente de los supuestos
que hagamos sobre los errores. Como primer paso, e independientemente de los supuestos que
hagamos , podemos obtener una relativamente sencilla expresión para tal varianza:
var(v) var[(v1 + v2 + ... + VT)/T]

[var( v1) + cov( vi, v2) + ... + cov( V1, VT)
+cov(v2,v1) +var(v2) + ... +cov(v2,vT)
+... +
+cov( VT, v1) + cov(vr, v2) + ... + var( vr )]/T 2, (6.2.3)
expresión que podemos reescribir de un modo más compacto de la siguiente manera
2 T
[
T-1 T-t
var(v) = 1/T ~ var(vt) + 2 ~ f;
cov(vt, Vt+j)
l .
Supongamos inicialmente qué sucedería con esta expresión en el caso teórico particular
en el que los errores fueran homocedásticos y no estuvieran autocorrelacionados. El segundo
sumando de la última expresión sería nulo, mientras que el primero nos llevaría a una expresión
conocida y presentada en temas anteriores. Para verlo comprobamos4 que, llamando a Xt =
(Xt - µx ), se obtiene
Así pues
A partir de esta expresión de la varianza podemos calcular entonces la varianza del coefi-
ciente estimado particularizando para la ecuación (6.2.2):
A ) var(v) 0" 2 0"1 0" 2 1

var f31
(
= (0"1) 2 = T (0"1) 2 = T (0"1)
que es la expresión equivalente (4.2.10) (ver página 110) cuando sustituimos (1/T) L,(Xt-X) 2
2
por O"x·
A ) ()2 1 ()2
var f3i
(
= T (l/T) L,'{,'= 1(Xt - X) 2 = L,'{,'= 1(Xt - X) 2 ·
Así pues si los errores fueran (iid) - que es un supuesto con el que hemos trabajado en
temas anteriores-, tendríamos que los Vt serían también (iid), y por tanto - como hemos visto--
var(v) = var((l / T) L,'{,'= 1 vt) = var(vt)/T, que nos conduce5 a la expresión equivalente a
(4.2.5).
Esto nos lleva a considerar qué sucede con var(~1) si los errores están autocorrelacionados,
pero son homocedásticos. Ahora en general ocurrirá que var(v) -=f. var(vt)/T, por lo que
será necesario volver a desarrollar tal varianza teniendo en consideración el efecto de las
cov( Vt, Vt-j) pues dejarán de ser necesariamente nulas. En efecto, si partimos nuevamente
de la expresión (6.2.3), considerando del supuesto (i) de la Suposición 4 (ver página 102),
y usando la definición del coeficiente de correlación bajo los supuestos de autocorrelación y
homocedasticidad , se tiene que Pj = cov( Vt, Vt-j) /var( Vt). Esto facilita desarrollar la varianza
de la siguiente manera:
4
Utilizamos en estos cálculos la Ley de las Esperanzas Iteradas.
5 ar (!3' ) = var (vJ = l var(vtJ = l var[(X,-µx )et]
v 1 ("i-) T("i-) T ¡var(x,)J'
Tema6 239
var(v) [Tvar( Vt) + 2(T - 1)cov( Vt, Vt-1) + 2(T - 2)cov(Vt, Vt-2) +
+ ... + 2cov( Vt, Vt-T+i)]/T 2
[Tvar(vt) + 2(T- l)var(vt)P1+2(T- 2)var(vt)P2 + ... + 2var(vt)Pr-1]/T 2
var(vt) (T-l) (T-2) 2
T (l + 2 T PI + 2 T P2 + .. . + TPT-1)
var(vt) f
T T, (6.2.4)
donde ÍT = 1 + 2 I:]~1 [(T - j) /T] PJ.

1
Utilizando las expresiones (6.2.2) y (6.2.4) se obtiene la expresión de la varianza de ~1

cuando Vt = (Xt - µx )Et está autocorrelacionado
1 =
var (/3A) [2_T var(vt)2 l f T· (6.2.5)
(o-~ )
Esta expresión facilita observar la varianza del est imador del coeficiente en cuestión como
el producto de dos factores. El primero (entre corchetes) es la varianza del estimador MCO
de regresión simple en caso de ausencia de autocorrelación, y el segundo es el factor de ajuste
para el caso de autocorrelación. Por tanto , en caso de autocorrelación, necesariamente el error
estándar que estimaríamos a partir de la versión muestra! de (6.2.2) sería incorrecto por un
factor fr. Este factor sería la unidad en caso de que no hubiera autocorrelación.
Este factor cambiará -cambiando por tanto la expresión de la varianza del estimador- si
consideráramos que no solo hay autocorrelación en el error, sino también heterocedasticidad.
En efecto, en tal caso tendríamos que PJ = cov( Vt, Vt-j) / -Jvar( Vt)var(Vt-j) y la varianza de
Vt podría ser distinta para cada t , puesto que admitimos heterocedasticidad. Por tanto la
expresión básica de la varianza será
var(iJ) = [ t
T
var(v,) +2 ~ ~ cov(v,, Vt+j)] l / T 2
[L var(Vt) + 2 (cov( v1, v2) + cov(v1. v3) + ... + cov( v1, vr-1) + cov(v1, vr )) +
t=l
+2 (cov( v2, v3) + cov( v2, v4) + .. . + cov( v2, vr)) +
+... +
+2 (cov( VT-1, VT ))]1/T 2
que podemos escribir del siguiente modo agrupando por covarianzas del mismo orden
T T-1 T-2
varhªc(v) = ~var(vt) + 2 ~ cov(vt,Vt+1) + 2 ~ cov(vt,Vt+2) + ... +
[
T-(T-2) ]
+2 ~ cov(vt,Vt+T-1)+2cov(v1,vr) l/T 2 .
Esta expresión la podemos introducir en (6.2.2) para obtener la expresión var ( ,81) bajo
los supuestos considerados. El siguiente apartado indicará cómo estimar dicha varianza de
manera consistente.
Es interesante observar a qué se reduciría la expresión varhªc(ii) en caso de que no haya
autocorrelación, pero sí heterocedasticidad - como hicimos cuando presentamos la estimación
robusta a la heterocedasticidad. En tal caso, las covarianzas se anularían, y la varianza que-
daría lógicamente de la siguiente forma:
T
varWhite(v) = 1/ T 2 L var(vt),
t=l
que nos facilita obtener una expresión equivalente poblacionalmente a (4.3.14)
var
White (f3' 1) -- varWhite(v) -- 1 ~ var (Vt ) -- (1/ T) (l / T) L,f=1 lE(x¡Ef} .
2 2 2 L_¿ 2
(o}) T (o}) t= l (o})
El hecho de que la varianza denominada varHAC contenga como caso particular a la varWhite
indica que la primera es robusta a la heterocedasticidad y a la autocorrelación, y por tanto
es la que se usará para corregir ambas, es decir, la heterocedasticidad y la autocorrelación.
6.2.2. Errores estándar robustos a la heterocedasticidad y la autocorrela-

ción
Si solo hubiera heterocedasticad en el error, la propuesta de White para estimar la varianza
consiste en sustituir los errores por los residuos para estimar el numerador de la última
expresión (1 / T) L,'{'= 1 x;t¡
T - 2 ·2
Ya'rWhite (,B1) ~) Et,
= (l / T) (l / T) L,t=l (Xt -
2
((l / T) L,(Xt - X)2)
expresión muestralmente equivalente a (4.3.14) para T suficientemente grande.

Para considerar la autocorrelación (además de la heterocedasticidad, y así estimar de
forma robusta) será preciso introducir una corrección similar a la del factor Jr, definido en
la Ecuación (6.2.5) . Observe el lector que si este fuera conocido, entonces la varianza de /31
podría estimarse simplemente realizando el producto de ambos factores. Sin embargo, el factor
fr depende de las autocorrelaciones del término Vt , que son desconocidas y por tanto han de
estimarse.
Precisamente el estimador de la varianza de /31 que incorpora este ajuste es consistente
tanto si existe o no heterocedasticidad como si Vt está o no autocorrelacionado. Esta consis-
tencia o robustez ha propiciado que este estimador sea conocido como estimador HAC de la
varianza de /31, por sus siglas del inglés H eteroskedasticity and A utocorrelated- Consistent
Tema 6 241
donde 0-~ es el estimador de la varianza del parámetro en ausencia de autocorrelación (4.3.14)

1
y ir es un estimador del factor h dado en (6.2.5).
Por tanto, la cuestión es calcular ¡;, de manera que sea consistente con fr = 1 +
2 L:,f:
1
1 [(T - j) / T] Pj. Para ello deberíamos entonces calcular Pj, j = 1,. . ., T - 1 que son
estimadores de función de autocorrelación,
- T
• cov(vt,Vt-j) (1/T) L:t=j+l(Vt - V(j+l,T))(vt-j - 'Ü(1,r-j))
Pj= - = -
var( Vt) var( Vt)
donde la notación
a, a+ 1, .. ., B
ii(a,B)
-
indica que la media muestra! se calcula a partir de las observaciones
- 1, B, y var(vt) es simplemente la varianza muestra!.
Sin embargo, esta estimación presenta algunos problemas. Para entender cuáles son y
ver las soluciones a los mismos, consideremos que calculamos todas las autocorrelaciones
muestrales Pj, donde cada una de ellas se estima con un error de estimación, y por tanto
el estimador de ir
tendría un error de estimación que incorporaría todos los errores de las
autocorrelaciones. Dicho error seguiría, por construcción, siendo elevado aun incrementando
la muestra infinitamente, y por tanto la estimación de sería inconsistente.ir
Una solución es estimar menos funciones de autocorrelación. Supongamos que ignoramos
las autocorrelaciones de orden superior, y nos quedamos solo con la de orden 1 (j = 1) . En esta
situación ya no tendríamos el problema de estimar un número creciente de autocorrelaciones,
pero tendríamos el problema de que hemos obviado autocorrelaciones de orden superior, lo
que causaría de nuevo inconsistencia en la estimación.
Una solución intermedia consiste en buscar un equilibrio entre ambas situaciones: Ha-
cer que el número de autocorrelaciones incluidas en la estimación dependa directamente del
número de observaciones temporales disponibles, T . El número de órdenes de autocorrela-
ción incluidos lo denotamos por m - 1. En particular el estimador propuesto en la literatura
especializada es:
m-1
ir= 1 + 2 L [(m - j)/m] Pj,

j=l
T
donde Pj = L:t=it 1v~~t-i, con Vt = (Xt - X)it. Al parámetro m se le denomina parámetro de

L:i=1vt
truncamiento y nos facilita incluir solo m - 1 estimaciones de las autocorrelaciones, en lugar
de T - 1. La lógica económica de alguna manera avala esta idea en la medida en que en los
procesos económicos habituales las autocorrelaciones se aproximan a cero a medida que nos
alejamos en el tiempo, y por tanto habrá un momento ( m) en el que pueden considerarse
despreciables.
Para que este estimador sea consistente, m debe ser de tal manera que, aun siendo elevado,
aún sea mucho menor que T. Una norma que parece útil en la práctica es la que arbitra la
siguiente ecuación
m =O 75T 113
' '
redondeado al número entero más próximo.
Debido al grado de incertidumbre sobre la selección del parámetro de truncamiento , se

entiende que es una buena práctica probar con dos o tres alternativas de m a fin de asegurar
que no hay sensibilidad al parámetro.
Existen otras opciones respecto a las ponderaciones (m/m - j) y respecto a la regla
de decisión del parámetro de truncamiento . Igualmente existe una ampliación para el caso
multivariante cuya compleja derivación excede el nivel de este texto; no obstante mostramos
a continuación el resultado final,
;,;-;¡¡) = t(o) + ~ ( 1- m: 1
) (t(j) + t'(-j)) , (6.2.6)
donde "Í'(j ) es una matriz de autocovarianzas muestrales de orden j para j #O, y para j =O
se trata de la matriz de varianzas muestrales
T
r
A (
J = T1 """
")
~ EtEt-jXtXt-j·
A A /
t=j+l
6.2.3. Contrastes de autocorrelación

La gran mayoría de contrastes de autocorrelación se fundamentan en el principio de que
si los errores verdaderos están autocorrelacionados, entonces este hecho debería detectarse en
las autocorrelaciones de los residuos mínimo cuadráticos. Por este motivo el contraste más
intuitivo y básico consiste simplemente en regresar los residuos estimados por MCO respecto
de esos mismos residuos retardados un periodo
Et = PEt-1 +et.
Podemos, como primera aproximación, utilizar el estadístico usual de la t para contrastar la

hipótesis nula de no autocorrelación (Ho: p= O) de la forma habitual. Si el valor empírico
es mayor en términos absolutos que el valor crítico entonces rechazamos la hipótesis nula de
no autocorrelación. Es necesario advertir que este contraste sería válido en la medida en que
los regresares no estén correlacionados con los errores en ningún momento del tiempo, y por
tanto no sería correcto utilizarlo en caso de que el vector de variables explicativas contenga
variables endógenas retardadas.
Contraste de Durbin- Watson (DW)

Este es el estadístico más popular y generalmente lo proporcionan de forma rutinaria los
programas especializados. Estrictamente hablando solo es válido si se cumplen los supuestos
del modelo lineal clásico con inclusión del supuesto de normalidad de los errores, y necesaria-
mente para modelos con término constante.
El estadístico utilizado es
Tema 6 243
donde volvemos a utilizar el estimador de la autocorrelación de primer orden, p. Cuando la

muestra es suficientemente grande, el último término es despreciable, de modo que
DW ~ 2 (1- p).
El contraste DW y el de la t basado en p son conceptualmente iguales. Si p es nulo (no
autocorrelación) entonces el DW vale 2. Si hay autocorrelación positiva p> O, el DW será
significativamente menor que 2, y viceversa.
Los valores críticos6 del estadístico DW dependen del nivel de significatividad elegido, del
número de observaciones y del número de parámetros estimados en la regresión excluido el
término independiente, k.
Si el valor es inferior a 2 (DW < 2), podemos contrastar si hay autocorrelación positiva,
es decir contrastar la hipótesis nula de no autocorrelación (Ho: p= O) frente a la hipótesis
alternativa de correlación positiva (H1: p> O). Las tablas indican dos valores críticos, d 8 o valor
superior y di o valor inferior. Rechazamos la hipótesis nula de ausencia de autocorrelación
si el DW es menor que el valor inferior di (DW <di) concluyendo que los residuos están
autocorrelacionados de forma positiva. El contraste no es concluyente si el DW se encuentra
entre el valor superior d8 e inferior di (ds>DW>di)· Finalmente no podemos rechazar la
hipótesis nula de no autocorrelación positiva cuando el DW está entre el valor crítico superior
ds Y 2( d8 < DW < 2).
Por otro lado, para el caso de la autocorrelación serial negativa, no se puede rechazar la
hipótesis nula si el estadístico está en el intervalo (2 < DW < 4 - d5 ), se rechaza si (4-di <
DW < 4), y si DW está en (4-d8 , 4-di), hay indeterminación. Por tanto en general, la hipótesis
no se puede rechazar si (ds < DW < 4-d5 ).
Pese a la popularidad del contraste, presenta algunas limitaciones. Por un lado el rango
de modelos al que es aplicable es relativamente pequeño al requerir supuestos demasiado
alejados de la realidad de los datos económicos. P or ejemplo , requiere que el vector de variables
explicativas sea no-estocástico. Por otro, la región de indecisión que deja hace que no sea un
contraste muy práctico.
Por estos motivos han acabado imponiéndose otros contrastes alternativos.
Contrastes de autocorrelación de tipo LM

El contraste de Breusch y Godfrey es un test para la Ho : no autocorrelación frente a
hipótesis alternativas de autodependencia lineal en los errores que van más allá de la auto-
correlación de primer orden. Este contraste estadíst ico puede ser utilizado cuando el vector
de regresores X incorpora valores retardados de la variable endógena Y, lo cual es bastante
habitual, como veremos en la Parte III del libro dedicada a análisis de series temporales.
El contraste consiste en hacer la regresión de los residuos siguiente:
Et= So+ S1 Xlt + S2X2t + ... + S1Xkt + P1 Et-l + P2Et-2 + ... + Pq Et- q +et
que contrasta si hay autocorrelación de orden q con el estadístico
BGLM = (n - q) R~,
6
La tabla de estos valores se encuentra en el documento Apéndices y Tablas.
donde R~ es el coeficiente de determinación de la regresión y es equivalente a regresar los

residuos sobre la parte de los residuos retardados que no es explicada por el vector de variables
explicativas X.
Esto nos permite ver la interesante lógica del contraste: si se encuentra algún ajuste
(descontando el efecto de X) , entonces es debido a la correlación entre el valor actual y los
valores retardados de los residuos.
El contraste tiene asintóticamente una distribución chi cuadrado con q grados de libertad
2
(x q). Si el valor empírico del estadístico BG LM es superior al crítico rechazamos la hipótesis
nula de no autocorrelación (Ho: p1 = p2 = ... pq = O) y los residuos de la ecuación MCO
están autocorrelacionados.
Existe un contraste refinado para el caso de que el vector de X no contenga valores
retardados de la variable a explicar Y. Tal refinamiento es conocido por contraste de Box-
Pierce y de Ljung.
q
Q = Box - P ierceu,,1 = TLiJJ,
j=l
y
q
Q' = Ljung - BoX LM = T(T + 2) L PJ/T- j.
j=l
Los tres contrastes son de tipo 7 LM. La principal diferencia es el uso de autocorrelaciones
parciales, Pí distintas de las otras ya que en el caso de BG controlan los efectos de las variables
contenidas del vector X , mientras que esto no ocurre en los refinamientos tipo-Q. Esto hace
que el test BG sea menos potente cuando la hipótesis nula es falsa.
6.2.4. Mínimos cuadrados generalizados

Al igual que en el caso de los modelos de regresión con heterocedasticidad, hemos visto que
la solución más operativa es disponer de estimadores robustos como son los HAC. Sería posible
obtener estimadores más eficientes que los proporcionados por MCO, tal y como existían en
el caso heterocedástico y que denominábamos MCP.
En el caso de las regresiones con autocorrelación también existe esta posibilidad. Como no
puede ser de otra manera se fundamentan en el uso de la expresión (6.1.3) , ecuación que sería
ideal si pudiéramos conocer :Eu'. Los estimadores que lograríamos en tal caso ideal serían
más generales que los obtenidos por MCO, puesto que incorporan una potencial estructura de
varianzas y covarianzas. Dichos estimadores se denominan estimadores de mínimos cuadrados
generalizados, de los que los MCP son un caso particular.
Supongamos que las variables son estrictamente exógenas y que se cumplen los supues-
tos de esperanza condicionada nula y homocedasticidad, pero permitimos la existencia de
autocorrelación de primer orden.
El modelo lineal con k + 1 variables es
(6.2.7)
7
La tipología de contrastes se encuentra detallada de forma general en la Apéndices y Tablas.
Tema 6 245
Retardando en un periodo (6.2.7) , y multiplicando por p tenemos
Restando ambas expresiones obtenemos
(yt - Plt-1) = (/30 - pf3o) + /31 (Xit - pXit- 1) + /32 (X2t - pX2t-1) + ...
(6.2.8)
+ f3k (Xkt - pXkt-1) + (Et - PEt-i) .
donde las variables están en cuasidiferencias 8 .
Realizando los cambios de variables siguientes: yt*= Yt - pYt-1 y XJt= Xjt - pXjt-1 y
teniendo en cuenta que Et = Et - PEt-1 , podemos reescribir la expresión (6.2 .8) como
(6.2.9)
Se denomina transformación de Cochrane-Orcutt 9 (CO). Al estar las variables en cuasidife-

rencias, se pierde la primera observación.
Prais y Winsten (1954) sugieren utilizar para la primera observación los siguientes valores:
Tanto si incluimos la transformación de Cochrane-Orcutt como si también incluimos la primera

observación por el método de Prais-Winsten (PW) ambos son ejemplos de estimación por
MCG para errores autocorrelacionados de primer orden. Estos estimadores diferirán de los
MCO y puesto que con MCG no se presenta autocorrelación de los residuos, los estimadores
MCG serán estimadores ELI0 10 y los estadísticos t y F serán válidos asintóticamente, y se
distribuirán de forma exacta (incluso para muestras pequeñas) si los errores Et se distribuyen
normalmente.
El problema de la estimación MCG es que generalmente no conocemos p y tenemos que
recurrir a estimarlo p. Cuando utilizamos el valor estimado en lugar del verdadero hacemos
que sea factible o realizable la estimación MCG , y por ello se la conoce como MCGF (mínimos
cuadrados generalizados factibles). Las consecuencias de utilizar MCGF son que los estima-
dores ya no son insesgados pero sí consistentes y más eficientes que la estimación MCO.
Ejemplo 20. La curva de Phillips para la economía española
Con datos anuales de inflación (calculada a partir del deflactor del PIB) y tasa de paro, en tasas
de variación entre 1955 y 2010 contrastamos si en España existe dilema ( tradeoff) entre paro e
inflación . Para ello regresamos la tasa de inflación respecto de la tasa de paro bajo el supuesto de
que existe una relación inversa entre ambas variables. Por tanto contrastamos si la tasa de paro
8
Si p tuviera valor unitario , las variables estarían en d iferencias (6Xt = Xt - Xt- 1 ) pero como p tiene un
valor inferior a la unidad entonces resulta que (Xt - pXt- 1) está en cuasidiferencias.
9
Cochrane y Orcutt (1949).
1
ºRealmente si utilizamos solo la transformación de Cochrane-Orcutt, los estimadores no serían ELIO para
muestras pequeñas o exactas pero sí asintóticamente.
246 R EG RESIÓN CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
es significativamente negativa (H1: /31 < O) , mediante un contraste de una sola cola . Obtenemos
los siguientes resultados
inf laciont = 8, 724 - O, 163 · parot ,

(0,985) (0,0866)
n = 56, R 2 = O, 0619 .
El valor empírico del contraste tipo t es - 1,88 (-0,163/0,866 = -1 ,882). El valor crítico de una
sola cola es -1 ,67 (t 5 4,o,o 5 ~ -1,67). Como el valor empírico es menor o más negativo que el valor
crítico, rechazamos la hipótesis nula y la variable paro es significativamente negativa al 5 % de
significatividad . En definitiva parece que se confirma la disyuntiva entre paro e inflación en España.
Un incremento del paro del 1 % provoca una disminución de la tasa de inflación del O, 163 %.
Dado que estamos realizando un análisis de regresión con series temporales, consideramos
necesario contrastar la autocorrelación de primer orden de los residuos. A partir de los residuos
estimados en la regresión anterior,
it =o. 896tt-1 +et.

(0,062)
El valor empírico es 14,45 (0,896/0,062 = 14,4516). Por tanto rechazamos la hipótesis nula de no
autocorrelación (Ho: p =O) de los residuos. Los síntomas de autocorrelación nos hacen desconfiar
de la calidad de las conclusiones. La posibi lidad que estamos analizando en este apartado nos
permite dar una solución que consiste en estimar el modelo por CO de la siguiente manera
(inflaciont - O, 896 · inflaciont-1) = 1, 118 - O, 351 · (parot - O, 896 · parot-1) +et,

(0,341) (0,162)
n = 55, R 2 =O, 0812, DW = 1, 63.

Todas las variables son significativas a los niveles usuales, de manera que parece confirmarse
empíricamente el conflicto entre los objetivos de estabilidad de precios y reducción de la tasa de
paro. El modelo plantea una relación cuantitativa mayor, un incremento del 1 % del paro tiene como
consecuencia un decremento del 0,35 % de la inflación. El DW ha mejorado considerablemente,
los valores críticos al 5 % de significatividad de 55 observaciones y dos parámetros son 1,49 y
1,64. Como el valor empírico está entre los valores críticos superior e inferior, el contraste no es
concluyente . Podemos recurrir alternativamente al contraste de la t, cuya estimación es
et = o, 181 · et-1 + E:t,

(0,135)
n = 54, R 2 = O, 033.
El valor crítico es 2 (t53;0,025 = 2) y el empírico 1,34 (0,181/0,135 = 1,34074). Como el valor
empírico es menor que el crítico, no podemos rechazar la hipótesis de no autocorrelación.
Alternativamente, podríamos pensar en una versión más elaborada de la curva de Phillips que
incluya expectativas racionales y la tasa natural de paro. Esta versión se denomina curva de Phillips
aumentada con expectativas, y se puede escribir teóricamente de la siguiente forma
inf laciont - inf lacion~ = /31 · (parot - tasanaturalt) .

Tema 6 247
En este modelo la inflación no esperada hace que el paro dism inuya por debajo de su tasa natural
(tasa de paro coherente con la producción potencia l o t asa de paro estructural). Suponiendo ex-
pectativas racionales , podemos sustituir la inflación esperada por la realmente sucedida un periodo
anterior además, operando en la parte derecha de la expresión anterior tenemos que
(inflaciont - inflaciont-1) = b..inflaciont = /30 + /31 · parot.

El término constante es /30= /31 ·tasanaturalt. lo que permite calcular t ambién la tasa natural de
paro . La estimación para la econom ía española entre 1955 y 2010 es
--
6.inf laciont = O, 561 - O, 071 · parot
(0,471 ) (0, 041)
n = 55, R 2 =O, 0532, DW = 1, 82.

El término constante no es significativo, sí lo es la variable paro cuando hacemos un contraste de
una sola cola . Los valores críticos del DW son aproximadamente de 1,52 y 1,60. Como el valor
empírico es superior no podemos rechaza r la hipótesis de no aut ocorrelación . La inferencia también
nos sugiere que revisemos la estructu ra de los res iduos.
Primeras diferencias
La transformación del modelo en primeras diferencias, para eliminar la autocorrelación,
puede ser adecuada cuando pes muy alto (el DW muy bajo).
P art imos del modelo de regresión múltiple
Si retardamos un periodo tenemos
Y restando ambas expresiones obtenemos la ecuación en diferencias
Expresión que también podemos escribir como
Una propiedad importante del modelo en primeras diferencias es que carece de término cons-
tante.
La ut ilización de primeras diferencias en modelos de series temporales es muy usual. Ade-
más de eliminar o al menos atenuar la autocorrelación de primer orden elevada, se utiliza
también (lo que puede ser aún más importante) para conseguir que las series temporales sean
estacionarias, si bien este aspecto lo dejaremos para más adelante.
Ejemplo 21. Efecto de la producción y el déficit sobre la inversión privada

248 R EGRESIÓ N CON HETEROCEDASTICIDAD Y AUTOCORRELACIÓN
El efecto expulsión o desplazamiento tiene lugar cuando el déficit presupuestario reduce la can-
tidad de inversión privada. Para contrastarlo relacionamos la inversión privada (formación bruta de
capital fijo español en términos reales , miles de millones de euros de 2000) , el déficit presupuestario
como porcentaje del PIB , y el propio PIB, también en miles de millones de euros del año 2000.
Las variables tienen periodicidad trimestral ent re el primer trimestre de 1980 y el último de 2010.
El modelo estimado es
--
inversiOnt = -9021 , 891+O,327 · PIBt - 782, 843 · deficitt
(597,733) (0,004) (0,092)
n = 124, R 2 =O, 9878, DW =O , 1906.
Todas las variables son significativas a los niveles usuales. Un incremento del déficit público en un
1 % en relación con el PIB provoca una disminución de 782.843 millones de euros en la inversión
privada. Un incremento de 1.000 millones de euros en el PIB tiene el efecto de aumentar la inversión
privada en 327 millones de euros.
El estadístico DW es O, 1906, muy alej ado de 2. Los valores críticos para 124 observaciones
y 3 parámetros al 5 % de confianza son aproximadamente 1,65 y 1,75 . Como el valor empírico
es menor que el valor crítico inferior, rechazamos la hipótesis nula de no autocorrelación y, en
consecuencia, los residuos están aparentemente autocorrelacionados.
La estimación aproximada de p a partir del DW es 0,9047 (p~ 1 - DW /2 = 1 - 0,1906/2 =
0,9047).
Podemos realizar el contraste general de autocorrelación de Breusch-Godfrey de cuarto orden
a partir de la siguiente ecuación
ft = 427, 2401 - O, 002 ·PI B t - 43, 649 · deficitt

+O, 999 · ft-1 +O, 182 · f t-2 - O, 145 · ft-3 - O, 141 · ft-4 +et,
(0,091) (0,130) (0,130) (0,098)
n=124,R 2 = O, 8463, DW = 2, 003.
El estadístico t del estimador autorregresivo de primer orden es 10,98 (0 ,999/0,091 = 10,97802)

y por consiguiente los residuos presentan síntomas de autocorrelación de primer orden. El resto de
términos autorregresivos no son estadísticamente significativos a los niveles usuales utilizando el
contraste de la t.
El contraste de Breusch-Godfrey, cuyo estadístico es
LM = (n - q)R 2 = (124 - 4) ·O, 8463 = 101, 56.
El valor crítico al 5 % es 9,49 (x 2 4:o,o5 = 9,49) como el valor crítico es menor que el emp1nco
rechazamos la hipótesis nula de no autocorrelación . Como solo es significativo individualmente
el primer retardo llegamos a la conclusión de que los residuos presentan solo autocorrelación de
primer orden. Es habitual contrastar 4 reta rdos cuando los datos son trimestrales (12 cuando son
mensuales, etc) . Puesto que el valor del coeficiente de autocorrelación de primer orden es muy
cercano a la unidad , estimamos el modelo en primeras diferencias,
b..in~ont = O, 382 · b..P I Bt - 436, 657 · b..deficitt,

(0,043) (97,867)
n = 123, R 2 =O, 5270, DW = 1, 83.
Tema 6 249
Los valores críticos del OW para 123 datos y 2 de parámetros son 1,674 y 1,74. Como el valor
empírico es mayor que el valor crítico superior, no podemos rechazar la hipótesis nula de no
autocorrelación; por consiguiente podemos considerar que no hay evidencias de autocorrelación en
los residuos de la regresión en diferencias.
Las consecuencias fundamentales de la estimación en ambos modelos se mantienen: el efecto
expulsión parece claro en ambos modelos. En el modelo en diferencias ahora la influencia del déficit
público sobre la inversión es menor ( 436.657 millones de euros menos de inversión privada por cada
punto porcentual más de déficit público) .
Otras cuestiones relativas a la presencia de autocorrelación y MCG

Es posible dar un tratamiento más amplio que el presentado hasta ahora cuando la auto-
correlación afecta órdenes superiores al primero. Una posibilidad es considerar modelizaciones
de los residuos, que se denominan procesos autorregresivos de orden superior, y de esta mane-
ra ampliar el horizonte de autocorrelación hasta el orden deseado. A partir de ahí, podríamos
utilizar una técnica similar a la aplicada en la Ecuación (6.2.8), y estimar luego las autoco-
rrelaciones de los órdenes considerados.
En el caso de considerar, por ejemplo , un modelo autorregresivo de orden 2 tendríamos la
siguiente expresión:
(Yt - P1Yt-1 - P2Yt-2) = f3o (1 - P1 - P2) + f31 (Xit - p1Xit-1 - p2Xit-2)

+ f32 (X2t - p1X2t-1 - p2X2t-2) + ... +
+ f3k (Xkt - p1Xkt-1 - p2Xkt-2) +(et - P1ft-1 - P2ft-2),
donde hemos considerado que el error sigue un proceso autorregresivo de orden 2: ft = p1Et-1 +
p2ft-2 +et. Realizando la transformación de variables habitual , Y*t = Yt - p1Yt-1 - p2Yt-2,
X*jt = Xjt - p1Xjt-1 - p2Xjt-2 y et= Et - P1ft-1 - P2ft-2 , se tiene que
(6.2.10)
lo que nos llevaría a estimar los coeficientes de autocorrelación del modo habitual.
Por otra parte, es posible que coexistan la heterocedasticidad y la autocorrelación. En tal
caso, ya sabemos que la solución más directa es usar HAC. Sin embargo es posible que sea
de interés económico modelizar el componente de la varianza. En tal caso podríamos utilizar
MCG para la heterocedasticidad y MCG para la autocorrelación.
Partimos del modelo lineal usual
Regresamos los residuos estimados por MCO respect o de las variables independientes
calculamos ht(X)
ht (X) = exp (9t).
Estimamos la ecuación del modelo inicial con las ponderaciones aptas para la heterocedasti-
cidad, es decir
yt _ f3 1 f3 X11 f3 X2t f3 Xkt Et

~ - o ~ + 1 ~ + 2 ~ + ... + k ~ + ~·
y n IJ\.) y h (X) y h (X) y h (X) y h (X) y h(X )
Estimamos p a partir de
Et = PEt-1 + Ut.
Y finalmente aplicamos CO al modelo ponderado, es decir
Afortunadamente los programas especializados modernos permiten realizar todos los cálculos
de forma bastante sencilla.
Finalmente, cabe señalar que la solución prevista para la autocorrelación se limita a casos
en los que la estructura de los errores es autorregresiva lineal. Nada nos hace pensar que
la estructura haya de ser necesariamente lineal para los errores. Por este motivo sería más
correcto analizar residuos con contrastes de dependencia robustos a la no linealidad, pero
existen pocos y normalmente no están todavía implementados en los programas informáticos
especializados. La ausencia de los mismos es un motivo más para utilizar los estimadores
HAC.
Cabe añadir, por último, que el estimador MCO es consistente no solo en el modelo
de regresión lineal, sino también en el modelo de proyección lineal (MPL). Los estimadores
MCGF, por su parte, requieren el supuesto de media condicionada correctamente especificada.
Si la ecuación de interés es una proyección lineal y no es la media condicionada, entonces los
estimadores MCO y MCGF convergerán en probabilidad a límites diferentes. El límite en
probabilidad de MCGF dependerá de la función particular seleccionada para la regresión
heterocedástica. La cuestión es que la ganancia de eficiencia de MCGF se construye en el
severo supuesto de media condicionada correcta, y el coste que supone es la pérdida de robustez
respecto a la incorrecta especificación.
6. 2.5 . Otras fuentes de correlación en los errores

Los procesos de a u to correlación (correlación entre los errores poblacionales) no son solo
exclusivos de las series temporales. En este apartado tratamos brevemente cómo es posible
encontrar autocorrelación cuando los datos son de sección cruzada.
La cuestión clave para que aparezcan situaciones de autocorrelación es que el muestreo no
garantice la independencia de las unidades observadas y que son las que configuran nuestra
sección de muestra.
Tema 6 251
Estas situaciones aparecen de forma natural cuando las unidades de la sección son grandes
en relación a la población que representan. Por ejemplo, cuando los datos sobre las unidades
de análisis se toman a nivel de país , de comunidad autónoma, o de provincia, es bastante
probable que los resultados de unidades cercanas estén correlacionados. Cuando esto sucede
es porque hay algún motivo que nos hace considerar que unidades próximamente localizadas
reviertan algún efecto entre ellas. Esto crearía una especie de correlación a lo largo del espacio,
en lugar de a lo largo del tiempo, que es lo que hemos considerado hasta el momento.
Es fácil que estas situaciones se den en estudios econométricos de sección cruzada que
analicen regiones económicas, como suele ser el caso de estudios relacionados con la geografía
económica, la economía urbana y agraria. Recientemente su uso se ha extendido al estudio de
procesos de contagio relativos a la actuación de bancos en el marco de las finanzas interna-
cionales, a varias categorías de gastos públicos locales, a técnicas de búsqueda de votantes, y
a crecimiento del empleo y la población, entre otros .
Desde el punto de vista de la estimación el problema fundamental es cuando la correlación
espacial entre unidades procede de los términos no observados en el modelo y recogidos en
los errores, es decir, cuando los errores están correlacionados en las unidades cercanas de
acuerdo a alguna métrica, por ejemplo, la geográfica (aunque no tiene por qué ser la única).
En este caso, las estimaciones de las varianzas son más complejas, no obstante el campo
de la econometría espacial ha contribuido significativamente a dar un tratamiento bastante
unificado y que apunta a seguir produciendo nuevos logros.
EJERCICIOS
Teóricos
l. Sea el modelo Yi = Óxi + Ei y suponga que sabe que var(Ei) crx;. Encuentre la
expresión de la varianza del estimador de 8.
2. Suponga que tras estimar una ecuación de regresión tiene fundadas sospechas de hete-
rocedasticidad. Elija qué solución es preferible. utilizar un estimador robusto o emplear
MCG, si, a) se conoce la forma funcional de la varianza, b) no se conoce pero se puede
estimar con bastante fiabilidad.
3. Sea el modelo Y = X/3 + e que sabemos heterocedástico y conocemos la matriz n.

La estimación MCO proporciona f3Mco mientras que MCG conduce a un estimador
diferente, f3McG . Obtenga la matriz de covarianzas entre ambos estimadores.
4. Un investigador dispone de una muestra de 100 observaciones para estimar la ecuación de

regresión simple Yi = /30 + /31Xi + Ei· Sabe además que para las primeras 50 observaciones
la varianza de Ei vale 2 mientras que para las 50 restantes, la varianza vale 8.
a) Dibuje el diagrama de dispersión de los 100 pares (X, Y).

b) En una situación de este tipo, ¿qué procedimiento utilizaría para corregir el pro-
blema de heterocedasticidad?
e) Suponga que decide emplear MCP para solucionar el problema. ¿Qué observaciones
deben recibir mayor importancia? ¿Por qué?
5. La media poblacional de una variable aleatoria X es µ. Suponga que dispone de dos

estimaciones insegadas e independientes para la media de dicha variable , u1 y u2 cuyas
varianzas se relacionan según var (u2) = 3var(u 1). Con esta información, ¿cuál sería la
mejor estimación posible paraµ?
6. Sea el modelo yt =a+ f3 Xt +Et donde los errores siguen un proceso AR(l).
a) Calcule la expresión de var(Et) y cov(Et, Et-h)

b) Analice el efecto sobre los residuos de estimar el modelo en primeras diferencias.
7. Utilice la expresión del estadístico de Durbin y Watson para obtener una estimación de
p en el supuesto de que los residuos sean AR(l) . Demuestre que el estimador propuesto
- por The1·1 y INagar, d a d o por p' = N2(l-DW/2)+k2
para mues t ras pequenas N 2-k2 . t't•
, es asm o i-
camente equivalente (N es el número de observaciones, DW el estadístico de Durbin y
Watson y k el número de parámetros a estimar).
8. Sea el modelo general Y = X/3 +e. Cuando se cumplen las hipótesis básicas del mo-
delo , la matriz de varianzas y covarianzas de los residuos es O"¡Inn donde I es la matriz
identidad. Encuentre la expresión general de esta matriz cuando los residuos son homoce-
dásticos pero presentan autocorrelación de primer orden. Proponga una transformación
adecuada para estimar el modelo.
Prácticos
9. Los datos de la tabla ET6_1 se refieren a la Comunidad Autónoma de Madrid y
contienen datos de Gastos Totales del Hogar (Y), Renta (X 1 ) y Tamaño del Hogar
(X2) obtenidos de la Encuesta de presupuestos familiares (EPF) referida al año 1998.
a) Estime la ecuación de regresión Yi = f3o + f31 X1i + f32X2i + Ei y diga si los signos
de los coeficientes son acordes con lo esperado.
b) Calcule el valor de los contrastes de Breusch-Godfrey y White. ¿Qué puede decir
del supuesto de homocedasticidad?
e) Suponga que decide corregir la heterocedasticidad empleando el método de MCP.
Haga un supuesto razonable sobre la forma funcional de la varianza de los residuos
y utilícelo para corregir el problema.
d) Estime la ecuación original empleando un estimador robusto a la heterocedastici-
dad. Compare las tres estimaciones obtenidas.
10. Históricamente uno de los primeros contrastes de heterocedasticidad utilizado fue el de

Goldfeld y Quandt. Se basa en el supuesto de que la varianza de las perturbaciones
está relacionada con una de las variables explicativas, Zi. En este caso, se ordenan las
Tema 6 253
observaciones en función de los valores de Z y, tras dividir la muestra en dos grupos se

calculan regresiones separadas para ambos. Si SCRl y SCR2 son las sumas cuadráticas
residuales de ambas regresiones, entonces el estadístico (SCR2:gl) / (SCRl:gl) se distri-
buirá como una F de Snedecor con los grados de libertad correspondientes. Los datos
de la tabla ET6 _ 2 contienen el gasto en consumo de 81 familias de la Comunidad
Autónoma de Madrid, su renta y el tamaño familiar.
a) Replique los resultados presentados en sobre este modelo en el desarrollo del tema,
donde se han utilizado estos mismos dat os. Represente gráficamente el diagrama
de dispersión residuos-renta y diga si hay sospechas de heterocedasticidad.
b) ¿Es razonable suponer que la varianza residual depende de los ingresos? Justifique
su respuesta.
e) Utilice el contraste de Goldfeld y Quandt arriba descrito, calcule adecuadamente
los grados de libertad y obtenga el valor del estadístico de contraste. ¿Cuál es la
conclusión en relación con la hipótesis de varianza constante?
d) Habitualmente para aumentar la potencia del contraste, la muestra era dividida en
tres grupos, siendo SCRl y SCR2 las sumas cuadráticas residuales de las regresiones
correspondientes al primer y al tercer grupo (es decir eliminando el grupo central).
Repita los cálculos y obtenga de nuevo el estadístico eliminando las 11 observaciones
centrales (tenga presente que ahora habrán cambiado los grados de libertad del
estadístico)
e) Calcule la regresión por MCP.
!) Transforme los datos en logaritmos. Vuelva a dibujar el diagrama de dispersión
residuos-renta y verificar con los contrastes de Breusch Pagan y White la hipótesis
de homocedasticidad.
11. En la tabla ET6 3 hay datos de mil familias españolas con información sobre el régimen
de propiedad de su vivienda, la renta y el nivel de estudios. A partir de estos datos,
a) Especifique y estime un modelo lineal de probabilidad 11 con el que pronosticar la

probabilidad de que una familia compre vivienda.
b) Represente el diagrama de dispersión de los residuos y diga si puede mantenerse la
hipótesis de varianza constante. Contraste asimismo la hipótesis de homocedasti-
cidad con los tests que se recogen en este tema.
e) Estime la ecuación por mínimos cuadrados ponderados. ¿Se ha corregido el proble-
ma?
d) Estime la ecuación empleando un estimador robusto a la heterocedasticidad. Com-
pare los errores estándar de los estimadores con los obtenidos por MCO.
11
El modelo lineal de probabilidad no es más que un modelo de regresión en el que la variable dependiente
es binaria.
12. Sea la curva de Phillips a corto plazo aumentada con expectativas dada por
(6.2.11)
donde y es la inflación en el periodo t y Et-i(y) es el valor esperado en t-1 para

la inflación en t, u es la tasa de paro observada en t y u* la tasa natural de paro.
Suponemos que la esperanza de inflación en t-1 es precisamente la inflación observada
en t-1 , de manera que
(6.2.12)
a) Diga si (6 .2.12) está anidado en (6.2.11), si (6.2.11) está anidado en (6.2.12), o si

no son modelos anidados. Justifique su respuesta.
b) Con los datos de la tabla ET6 _ 4, referidos a la economía norteamericana entre el
primer trimestre de 1975 y el último de 1990, estime la ecuación anterior y obtenga
la tasa natural estimada.
e) Utilice el método delta para obtener la varianza de la estimación anterior y cons-
truya un intervalo de confianza del 95 3 para dicha estimación.
d) Greene (2012), con datos para el periodo 1950 - 2000, obtiene una estimación de
la tasa natural de 5.46 %. Contraste si la obtenida en este ejemplo es significativa-
mente diferente y, en su caso, trate de explicar la diferencia.
e) Represente gráficamente los residuos del modelo y utilice un test LM para contras-
tar si presentan autocorrelación serial.
!) Estime de nuevo el modelo por MCG suponiendo que los residuos siguen un proceso
AR(l) . ¿Resuelve esto el problema?
g) Trate de modelizar adecuadamente los residuos y presentar un modelo.
13. Una versión sencilla del denominado lambda model de Campbell y Mankiw 12 es,
siendo e el consumo e y la renta disponible, ambos en logaritmos; 6 es el operador de

diferencias. El parámetro>. se interpreta como la fracción de consumidores que, en lugar
de consumir su renta permanente, consumen su renta corriente.
a) Utilice los datos de la tabla ET6 5 para estimar el modelo anterior y salve los
residuos.
b) Represente gráficamente y contraste si existe autocorrelación serial. Contraste asi-
mismo el supuesto de homocedasticidad.
e) En función de los resultados del apartado anterior, estime el modelo que considere
más apropiado para estimar la fracción de consumidores que no siguen la regla de
la renta permanente.
12
Consumption, Income and Interest Rates: Reinterpreting the Time Series Evidence. NBER Macroecono-
metric Annual, 1989; vol 4.
Tema6 255
Canadá Francia Alemania Italia Japón RU EEUU

1963-86 1970-86 1962-86 1973-86 1959-83 1957-86 1953-86
0.616 1.095 0.646 0.400 0.553 0.221 0.478
(0.215) (0.341) (0.182) (0.094) (0.096) (0.143) (0.158)
d) Las estimaciones de los autores para un conjunto de países de la OCDE en el

periodo fueron (errores estándar entre paréntesis):
Comente someramente estos resultados y compare el parámetro >. con el obtenido en

España 13 . Haga una nueva estimación para el periodo 1980 - 1990 y diga si observa
cambios importantes. ¿Qué porcentaje seguiría ahora una conducta acorde con la teoría
de la renta permanente?
13
En realidad las estimaciones no son directamente comparables al haberse empleado técnicas de estimación
diferente. Además, el periodo muestra! es muy distinto.
Tema 7
VARIABLES EXPLICATIVAS DICOTÓMICAS
En numerosas ocasiones nos encontraremos con que algunos de los factores que afectan a la
variable dependiente tienen carácter cualitativo, es decir, son variables que solo admiten escala
nominal, como por ejemplo género , raza, religión, nacionalidad, región geográfica, acciones de
política económica o empresarial, etcétera. En general , se trata de acontecimientos que solo
admiten una valoración cualitativa. En estos casos se suelen utilizar variables dicotómicas
para incluir su influencia en el modelo de regresión.
Cuestiones relativas a cómo contrastar si hay o no discriminación salarial por ciertas
características de los trabajadores podrán ser tratadas ahora dentro del modelo de regre-
sión múltiple. En muchos casos , las variables binarias pueden reflejar decisiones (y no solo
características) de los individuos o unidades consideradas. En particular estas variables pue-
den representar decisiones políticas o el establecimiento o desarrollo de programas específicos
orientados a un grupo de la población. La evaluación del efecto de estos programas es
posible si podemos incluir estos acontecimientos en términos de variables binarias 1 . En este
caso la cuestión de las relaciones «causa-efecto» es también perfectamente plausible.
En los temas precedentes hemos expuesto fundamentalmente el modelo de regresión lineal,
y en este vamos a utilizar los desarrollos y consideraciones formales obtenidos en el marco del
modelo de regresión lineal para ahora incorporar variables explicativas de naturaleza binaria
que ayuden a mejorar el modelo y, por tanto, la capacidad explicativa y predictiva del mismo.
Desde este punto vista, por lo tanto, no será necesario añadir más supuestos adicionales a los
que ya incorpora la definición del modelo de regresión lineal, supuestos que se encuentran en
la Sección 6.1 para el caso de datos de sección cruzada. Igualmente podremos utilizar variables
binarias en caso de que los datos que configuren el modelo tengan estructura de serie temporal.
En ese caso, recordemos que los supuestos del modelo serán básicamente los mismos con la
correspondiente adaptación de la Suposición 3 prevista en la Suposición 4.
Hechas estas consideraciones, cuando el modelo incorpore variables binarias podremos rea-
lizar entonces interpretaciones similares de los coeficientes estimados, interpretaciones relacio-
nadas con el efecto parcial o marginal de la variable en cuestión sobre la variable dependiente.
Será posible hacer interactuar la variable binaria con otra variable no binaria del modelo, y
1
El Tema 12 desarrolla en mayor profundidad aspectos y técnicas relativos a la evaluación de programas , con
especial atención a la posiblidad de establecer relaciones causales del programa sobre la variable dependiente.
257
258 VARIABLES EXPLICATIVAS DICOTÓMICAS
dotar así al modelo de regresión múltiple de nuevas capacidades explicativas sobre la variable
de interés y su relación con las variables explicativas. Es en este sentido que podemos consi-
derar este tema como continuación o ampliación de la especificación de la forma funcional en
la que se relacionan las variables explicat ivas con la dependiente, y por tanto es una extensión
de aspectos tratados en la Sección 2.3.3. la Sección 2.3.4 y la Sección 2.3.5.
Podremos igualmente llevar a cabo contrastes de hipótesis con técnicas robustas a la hete-
rocedasticidad y/ o a u to correlación sobre los coeficientes del modelo poblacional, de acuerdo
a lo presentado en el tema anterior. Igualmente podremos realizar predicciones de la variable
dependiente para distintos escenarios configurados por determinados valores de las variables
explicativas.
Las variables binarias, dicotómicas o dummies, se definen simplemente con valor unita-
rio cuando un determinado acontecimiento o característica se produce y valor nulo en caso
contrario, es decir, cuando la característica no sucede. La razón de utilizar generalmente solo
los valores unitario y nulo obedece a que la interpretación del modelo de regresión con estos
valores es más intuitiva.
Las variables binarias se pueden utilizar en los modelos de igual forma que las variables
cuantitativas. Los modelos que solo tienen, como variables explicativas, variables dummies se
denominan modelos de análisis de varianza (ANOVA) , mientras que los modelos que presentan
tanto variables cuantitativas como dicotómicas se denominan modelos de análisis de covarianza
(ANCOVA).
7.1. MODELOS ANOVA

El modelo más sencillo es
(7.1.1)
Si el término de error cumple los supuestos usuales, entonces
lE (Yil D1i = 1) = f3o + a1. (7.1.2)
Es decir que el valor medio de la variable endógena Y i cuando el acontecimiento al que

se refiere la variable dicotómica se produce, Dli = 1, es la suma de los parámetros estimados
.Bo + a 1. Y cuando el acontecimiento no se cumple, D1i = O, entonces el valor medio o esperado
es el término constante f3o, es decir que
lE(Yil D1i =O)= f3o. (7.1.3)
Nada impide que haya más de una variable dicotómica. El modelo ANOVA general tiene
la forma siguiente
(7.1.4)
Hay, por tanto , m variables dummies. La interpretación es la misma que en el caso más
simple si las variables dicotómicas son excluyentes, es decir si se trata del análisis de la misma
característica que tiene m + 1 categorías, en este caso el modelo se denomina de categorías
múltiples. Vemos un ejemplo.
Tema 7 259
Ejemplo 22. Relación entre el salario y el nivel de estudios en el sector turístico español
Con los datos utilizados en el Ejemplo 3 podemos estimar un modelo que relacione el salario
en el sector turístico con el nivel de estudios terminados utilizando un modelo ANOVA . La variable
estudios tiene los siguientes valores (sin estudios =
1, estudios primarios 2, secundaria 1 = 3, =
secundaria 11 = 4, F.P. Media =5, F.P. Superior =
6, diplomado 7 y licenciado= =
8). Se
trata de una variable que puede tomar 8 valores y por consiguiente podemos elaborar 8 variables
dicotómicas denominadas D ei que tengan valor unitario si el trabajador i tiene el nivel de estudios
terminados e y valor nulo en caso contrario. El modelo poblacional es
(7.1.5)
La variable estudios terminados tiene 8 categorías pero el modelo solo utiliza 7 dummies. Ello
es así porque la categoría base o de control es el trabaj ador sin estudios, dicho de otra forma, si el
trabajador no tiene estudios entonces el salario esperado es el término constante f3o mientras que
si tiene otro nivel de estudios e entonces su salario esperado es f3o + ªe· En términos más precisos
JE (salari al D 2 = D3 = ... = D 3 = O) = f3o, (7.1.6)
y
JE (salarial D e = 1, Dj = O para todo e =/= j) = f3o +ªe· (7.1.7)
Si incluyéramos en el modelo (7.1.5) también la dummy del trabajador sin estudios, a1 D1 ,

entonces estaríamos ante un caso de colinealidad perfecta, lo que haría que el modelo no fuera
estimable, y habríamos caído en lo que habitualmente se denomina trampa de la variable dummy .
No obstante podemos incluir todas las variables binarias si eliminamos de (7.1.5) el término
constante, es decir , podemos plantear el modelo siguiente:
(7.1.8)
La estimación del modelo (7.1.5) es
--
salarioi = 10, O + O, 62 · D2i
(0,248)
+ O, 65 · D 3i
(0,299)
+ 2, 59 · D4i
(0,292)
(7.1.9)
+ 2, 54 · D 5i + 3, 26 · D6i + 6, 51 · D 7i + 9, 48 · D 8i·
(0,486) (0,449) (0,431) (0,494)
n = 5286, R 2 = O, 1151.
Podemos comprobar que todas las variables son significativas al 5 % (utilizando 1, 96 como
valor crítico) sin más que dividir el valor de la estim ación de cada parámetro por su desviación
típica, entre paréntesis, y verificar que todas son superiores al valor crítico . La diferencia entre los
parámetros correspondientes a las variables binarias con subíndice 2 y 3 son muy similares (0,62
y 0,65 respectivamente) y lo mismo pasa con las referidas a los subíndices 4 y 5 (2,59 y 2,54).
Podemos real izar un contraste de igualdad de parámetros en ambas situaciones para determinar si
260 V ARIABLES EXP LICATIVAS DIC OTÓ MICAS
son significativamente distintos entre sí. La matriz de varianzas y covarianzas de los parámetros
estimados se recoge en la tabla 7.1. En la primera fila y columna se muestran los parámetros y en
la intersección entre ellas se consignan los respectivos valores correspondientes a las varianzas o
covarianzas así, en la diagonal principal se indican las varianzas, y en el resto , las covarianzas .
Tabla 7.1: Relación entre el sa lario y el nivel de estudios en el sector turístico

/Jo a2 a3 a4 a5 a5 a7 as
/Jo 0.0616 -0 .0616 -0 .0616 -0 .0616 -0.0616 -0 .0616 -0 .0616 -0.0616
a2 -0 .0616 0.0897 0.0616 0.0616 0.0616 0.0616 0.0616 0.0616
a3 -0.0616 0.0616 0.0852 0.0616 0.0616 0.0616 0.0616 0.0616
a4 -0.0616 0.0616 0.0616 0.1285 0.0616 0.0616 0.0616 0.0616
a5 -0 .0616 0.0616 0.0616 0.0616 0.2363 0.0616 0.0616 0.0616
a5 -0 .0616 0.0616 0.0616 0.0616 0.0616 0.2018 0.0616 0.0616
a7 -0 .0616 0.0616 0.0616 0.0616 0.0616 0.0616 0.1857 0.0616
as -0.0616 0.0616 0.0616 0.0616 0.0616 0.0616 0.0616 0.2445
La hipótesis nula a contrastar esH0 : a 2 - a3 = O; se rechaza Ho si
1
ee
&2
, - - Q3a3
(a2 , )1 > t n-k-1 ,!!
2
= 1, 96 .
El denominador se calcula de la siguiente manera
El valor empírico en términos absolutos es 2 O,145, claramente inferior al valor crítico. En consecuen-
cia no podemos rechazar la hipótesis nu la y los parámetros estimados no son significativamente
distintos. El mismo procedimiento seguimos para a4 y a5, cuya t empírica en términos absolutos
es 0,110 [(2,595 - 2,541)/(0 ,1285 + 0,2382 - 2·0 ,0616) 112 ] de manera que tampoco podemos
rechazar la hipótesis nula y los parámetros estimados a4 y a 5 tampoco son significativamente
distintos entre sí.
Teniendo en cuenta los resultados ant eriores estimamos el modelo siguiente:
--
salarioi = 10, O + O, 63 · (D 2i
(0,24S) (0,273)
+ D3i ) + 2, 58 · (D 4i
(0,332)
+ D5i)
+ 3, 26 · D6i + 6,51 · D7i + 9, 48 · Dsi, (7.1.10)

(0,449) (0,431) (0,494)
n = 5286 , R 2 = O, 11 51.
2
[(0,616-0 ,649)/(0 ,0897+0 ,0852 - 2·0,0616 ) 112 ]
Tema 7 261
La variable D 2i + D 3i no es más que una va ri able dicotómica con valor unitario si el trabajador
i tiene el nivel de estudios de primarios o secundaria 1. Igualmente la variable D4i + D si tiene valor
unitario si el trabajador tiene secundaria 11 o FP de grado medio .
La interpretación de (7.1.10) es clara : el valor esperado del salario hora para el trabajador sin
estudios es de 10 euros, con estudios primarios o secundaria 1, 10 ,64 euros (10,004 + 0,634 =
10,638) ; con secundaria 11 o FP de grado medio, 12 ,58 euros (10 ,004 + 2,580 =
12 ,584) ; con
FP de grado superior es de 13 ,26 euros (10,004 + 3,259 = 13,263) ; los diplomados universitarios
esperarían obtener 16,52 euros (10,004 + 6,514 = 16 ,518) ; y los licenciados, 19,48 euros (10 ,004
+ 9,476 = 19,480).
Al mismo resultado se llega si sustituimos el térm ino constante por cq D ii ·
--
salarioi = 10, O · D 1i
(0,248)
+ 10, 638 · ( D 2i + D 3i) + 12, 583 · (D 4i + D si)
(0,113) 0,220
+ 13, 262 · D 6i + 16, 518 · D1i + 19, 480 · D 8i, (7.1. 11 )

(0,374) (0,352) (0, 428)
n = 5286, R 2 = O, 1151.
Ahora las desviaciones t ípicas de los parámetros han cambiado y los valores son directamente
la predicción del salario por hora trabajada para los distintos niveles de estudios. Entonces cabe
preguntarse por qué no hemos utilizado directame nte el último modelo . En general , consideramos
que la estimación (7.1. 10) es preferible puesto que en ella se discrimina si el resto de categorías son
estadísticamente significativas respecto del grupo base o de control (en nuestro caso respecto de
los trabajadores sin estudios) , mientras que en la ex presión (7.1.11) habría que realizar contrastes
de igualdad de parámetros tamb ién respect o de ese grupo base .
7.2. MODELOS ANCOVA

Las variables dicotómicas se pueden utilizar, lógicamente, si la estructura de los datos es
una serie temporal. La variable binaria tomaría valores 1 o O en el tiempo en función de si
para ese momento temporal se da o no un hecho determinado y de interés para el modelo. La
interpretarción básicamente es la misma.
Supongamos el modelo más sencillo en el que tenemos una regresión simple a la que
añadimos una variable binaria
(7.2.1)
A la variable explicada solo le afectan dos factores, la variable cuantitativa X lt y la variable

dicotómica o binaria D lt· La interpretación del modelo (7.2.1) es la siguiente: cuando se cumple
la característica o acontecimiento al que hace referencia la variable binaria, entonces el término
constante se descompone en la suma del término f3o y el parámetro de la variable dummy
a1 D it, mientras que cuando no se cumple, el término constante es solo f3o. Gráficamente lo
podemos visualizar en la Figura 7. 2.1.
La pendiente no se ve afectada, puesto que está determinada por el parámetro de la

variable cuantitativa f31. Cuando la característica o el acontecimiento se cumple, D 1t = 1, el
término constante aumenta. P ara el mismo valor de la variable independiente X lt la variable
explicada Y t aumenta en la cantidad a 1. Veamos un ejemplo sencillo.
7.2.1. Ejemplos
Discriminación salarial por género e n el sector turístico español
Utilizando los mismos datos de los determinant es del salario medio en el sector turístico ,
añadimos una var iable dicotómica denom in ada mujeri con valor un itario si el trabaj ador i es mujer
y nulo si es hombre. El modelo poblacion al es
(7.2.2)
Su estimación es
--
salarÍOi = 9, 36
(0,192)
+ 1, 12 · estudiosi - 2, 81 · mujeri.
(0,046) (0,169)
(7.2.3)
n = 5286, R 2 = O, 1432.
Utilizando un valor crít ico de 1,96 , con cl ui mos que todos los parámetros son significativamente
distintos de cero .
El grupo de referencia o grupo base son los hombres, es decir, cuando la variable ficticia es
nula. Así el modelo predice un salario por hora trabajada de un hombre sin estudios en el sector
turístico de 10,47 euros (9 ,36 + 1, 12 = 10,48), ya que cuando el t rabajador no tiene estudios la
Tema 7 263
variable estudiosi vale 1 y por cada nivel de estudios terminados su retribución crece en 1,12 euros.
Las mujeres sin estudios, por el contrario, tienen un sa lario hora esperado de 7,67 euros por hora
trabajada (9,36 + 1,12 - 2,80 = 7,68), cantidad que aumenta en 1,12 euros por nivel de estudios
terminados. En la Figura 7.2.2 se muestra la predicción del salario hora para los distintos niveles
de estudios terminados para hombres (en trazo cont inuo) y mujeres .
Figura 7.2 .2: Salarios por hora en el sector turístico

20 ~-~-~-~-~-~-~-~-~
_g"' 14 +---+--+--+-.,.,,"1---+--~-=--t---l
-~
lo
;}ii 12 +---t--...~--+---h,_--+--+--+---1
En caso de que la variable dependiente esté en escala logarítmica, la interpretación de los

coeficientes de las variables binarias se haría del modo habitual (ver Tabla 2.3) . Rehacemos ahora
el ejemplo con los salarios en logaritmos. En tal caso el modelo estimado es
--
ln (salarioi) = 2, 24 + O, 066 · estudiosi - O, 192 · mujeri,
(0,011) (0,003) (0,010) (7.2.4)
2
n = 5286, R = O, 1603 .
De nuevo todos los coeficientes son significativos. El coeficiente de la variable mujer indica
que para el mismo nivel de estud ios, las mujeren gana n un 19,2 % menos que los hombres. Esta
aprox imación fundamentada en lo explicado para formu lar la Tabla 2.3 puede ser mejorada ( calcu-
lando la diferencia porcentual exacta) cuando la relación de las variables analizadas es de la forma
log-nivel. La lógica del razonamiento algebraico es la siguiente. Observamos que
. . ( (salario )mujer )
ln(salario)mujer - ln(salariohombre = ln ( l . ) = (33
sa ario hombre
tomando la ex ponencial a ambos lados, se tiene
(salari o )mujer ) = ef33

( (salario) hombre
264 V ARIABL ES EX P LICATIVAS DIC OT Ó MICAS
y si sustraemos la unidad a los dos lados de la expresión anterior, resulta
(salario)mujer _ (salario)hombre) (salario)mujer - (s alario)hombre = e,83 _ l

( (salario)hombre (salario)hombre (salario)hombre
1
por lo que la diferencia porcentual exa cta entre los salarios de hombres y mujeres es 100 x
(e.83 - 1) %. Dado que ~3 = -0, 192, tomando exponenciales, restando una unidad y multi-
plicando por 100 obtenemos la interpretación exacta en porcentaje, -17 ,46% [exp(-0 ,192) - 1 = -
0,1746]. Por consiguiente las mujeres tienen en media un salario un 17,46 % menor que los hom-
bres en este sector. Sin embargo, la aproximación logarítmica es muy conveniente porque aproxima
la variación independientemente del grupo de referencia que utilicemos (en este caso hombres o
mujeres) . Si a partir del modelo estimamos con precisión el diferencial porcentual en salarios de
hombres sobre los de mujeres, tendremos algo distinto de lo que hemos estimado anteriormente
(diferencial del salario de mujeres sobre hombres). En particular, tendríamos que [exp(0,192) - 1
= 0,2117] y por tanto un hombre por t érmino medio gana un 21 ,17 % más que una mujer con
igual nivel formativo . Puede resultar confuso e incómodo tener que indicar el grupo de referen-
cia, mientras que la aproximación logarítmica nos sugiere que la diferencia o brecha salarial entre
hombres y mujeres, independientemente del grupo de referencia o base , es de un 19,2 % , valor que
está precisamente entre el 17,46 y 21 ,17%.
La influencia de las crisis económicas en el consumo de EE.UU.

Otro ejemplo de la utilidad y versatil idad de las variables binarias es cuando se quiere evaluar
el efecto de un acontecimiento . Por ejemplo, nos podemos plantear la cuestión económica de si
se mantienen los hábitos de consumo durante las crisis económicas. Para dar una respuesta a esta
cuestión, comenzamos a partir del modelo keynesiano del consumo , relacionando las variaciones del
consumo , consumot. con las variaciones de la renta disponible , YDt. Ambas variables están medidas
en términos agregados en miles de millones (millardos) de dólares constantes de 2005 (series
desestacionalizadas) entre el primer trimest re de 1947 y el último de 2009. Para determinar los
periodos de crisis recurrimos al NBER que dat a las crisis de EEUU en los periodos que reproducimos ,
sombreados, en la figura 7.2 .3.
Añadimos a la función de consumo keynesiana la variable dicotómica crisist con valor unitario
para los periodos sombreados del gráfico y valor nulo en caso contrario. El modelo poblacional
planteado 3 es
consumot = /30 + /31 · Y Dt + 0: 1 · crisist + Et· (7.2.5)
Bajo los supuestos recopilados en el tema anterior del modelo de regresión lineal (ver los supuestos
en la Sección 6.1 y la adaptación a series temporales), el modelo estimado y los errores estándar 4
3
Planteamos este modelo a efectos meramente ilustrativos. En general , cuando trabajemos con series temporales
será importante analizar algunas características de cada una de las series antes de poder ser incorporadas en la
regres ión. De especial relevancia será , como veremos en la Parte 111 del libro , la característica de la estacionaridad .
En este caso considere el lector que no hay ningún t ipo de inconveniente en incorporar las variables que utilizamos.
4
Ver sección 6.2.2.
Tema 7 265
Figura 7.2 .3: Variación interanual PIB en EE .UU. y las crisis económicas
12 Tasa de variación PIB. EEUU.
Y sus crisis económicas según el NBER.
-4
50 55 60 65 70 75 80 85 90 95 00 05 10
HAC son
coñSUiñot = -113 , 675 +O, 933 ·Y Dt - 41 , 71 6 · crisist,
(13,211) (0,002) (17,579)
(7.2.6)
n = 252, R 2 =O, 9983.
Estos parámetros resultan significativos a los niveles usuales. Cuando la economía estadounidense
se encuentra en la senda de expansión, entonces el consumo esperado es de 41.716 millones de
$ más que cuando se encuentra en crisis para cada nivel de renta disponible. Para una renta
disponible trimestral de 10 billones de $, por ejem plo, la predicción del consumo agregado es de
9.216 billones de$ (0 ,933 ·10.000 - 113,675 = 9.216,325); en periodo de crisis, sin embargo, ese
mismo nivel de rent a provoca un consumo de 9.174 billones de$ (0 ,933 ·10.000 - 113,675 - 41 ,716 =
9.174,609) . La expresión del modelo estimado sugi ere que el comportamiento de los consumidores
estadounidenses se modifica en tiempo de crisis. Cu ando hay crisis además de disminuir el consumo
por la disminución de la renta disponible , el consu mo baja un escalón más como consecuencia de
la disminución del término constante.
También podemos analizar varias variables binarias independientes (tengan categorías

múlt iples o no) en la misma regresión . Vemos un ejemplo.
Salarios, niveles de estudios y variables de género
En los ejemplos precedentes hemos visto que se puede incluir el nivel de estudios mediante
una variable dicotómica con categorías múltiples, ta mbién hemos visto que es posible extender
el modelo de modo que incluya una variable dicotómica junto con otra cuantitativa , como en el
ejemplo de la discriminación por genéro. Por ejemplos considerados en otros temas sobre esta
cuestión, sabemos que hay otras variab les que influyen en el salario hora ; de hecho, en el Ejemplo
14 estimamos el sigu iente modelo
266 VARIABLES EXPLICATIVAS DICOTÓM ICAS
--
ln(salarioi) = 1, 69 + O, 07 estudiosi + O, 01 ant .i + O, 04 edadi + O, 09 tamañoi .
(0,023 ) (0,003) (0, 0006 ) (0. 00 5) (0,006)
Estimaremos ahora un modelo similar, pero especificando la variable estudiosi con variables
binarias , es decir una variable ficticia con múltiples categorías. El tamaño de la empresa tendrá
ahora tres categorías: pequeña, mediana y grande. Utilizaremos una variable dummy con múltiples
categorías también para este caso (mediana y grande) . Además añadiremos la variable mujeri para
analizar la discrim inación de género en el sect or turístico. El modelo estimado ahora es:
--
ln( salarioi) 1, 98 + O, 05 (D 2i + D3i) + O, 185(D 4i + D5i) + O, 257D6i
(0,021) (0,014) (0,017) (0,023)
+ o, 418D 1i +O, 538D si - O, l 48mujeri + O, l22medianai (7.2 .7)
(0, 022) (0,025) (0, 009) (0,010)
+o , l 72grandei + O, 045edadi + O, Ol2ant .i,
(0,011) (0,005) (0,001)
n = 5286, R 2 = O, 35.
Todos los coeficientes tienen estadísticos tipo t mayores de 2 en valor absoluto con errores
estándar calculados robustamente de acuerdo a lo previsto en el tema anterior.
El modelo estimado presenta tres varia bles independientes especificadas mediante la utilización
de variables dicotómicas. Dos de ellas con categorías múltiples, las referidas al nivel de estudios
terminados y el tamaño de la empresa , y ot ra con categoría simple , discriminación salarial por
genéro . El salario de referencia (grupo base) es el hombre sin estudios que trabaja en una empresa
pequeña .
Así, la predicción o valor esperado del t rabajador varón sin estudios que trabaja en una empresa
de menos de 50 t rabajadores es
JE (ln (salario) [sin estudios, varón , empresa pequeña )

1, 980 + O, 045 edad+ O, 012 ant .
En el caso de que el trabajador tenga estudios primarios o secundaria 1, el salario se incrementa

en aproximadamente 5 % (0 ,050·100) pa ra t rabajadores con la misma edad y antigüedad en la
empresa y supon ie ndo el resto de factores iguales. La predicción del modelo para un licenciado
(respecto de un t rabajador sin estudios y considerando el resto de factores iguales) es de un
incremento aproxi mado del 53,80 % (0 ,538· 100) utilizando el estimador más preciso el incremento
esperado es del 71,26 % {lOO·[exp(0,538) - 1]}.
Ser mujer tiene una penalización salarial aproximada del 14,8 % (0 ,148·100), en términos más
exactos, del 13,75 % {lOO·[exp(-0 ,148) - 1]} suponiendo el resto de factores iguales, es decir,
considerando solo el efecto del género.
El tamaño de la empresa tiene una infl uencia clara en el salario percibido. Así en las empresas
de tamaño medi ano , entre 50 y 199 trabajadores, el salario esperado es aproximadamente de un
12,2 % (0 ,122·100) mayor que en las empresas pequeñas (controlando los efectos del resto de
Tema 7 267
factores). Las empresas grandes tienen un salario de aproximadamente un 17 ,2 % superior que las
empresas pequeñas.
7.3. INTERACCIONES CON VARIABLES DICOTÓMICAS
Al igual que presentamos en la Sección 2.3.4 la posibilidad de hacer interactuar a las va-
riables cuantitativas, los modelos con variables cualitativas binarias también pueden plantear
interacciones. Por ejemplo, podemos profundizar más en el análisis de la discriminación de
género si en la expresión (7.2.7) además de la variable mujeri, incluimos términos que interac-
túen entre la diferencia de género y el nivel educativo; es decir, podemos estimar el siguiente
modelo:
--
ln(salarioi) 1, 98
(0, 021 )
+O, 049(D2i + D3i) +O, 186(D4i + Dsi) +O, 257D6i
(0,014) (0,017) (0,023)
+o, 493D1i +O, 609Dsi - O, 133mujeri +O, l2lmedianai
(0,026) (0,029) (0,009) (0,010)
+o, l 7lgrandei +O, 044edadi +O, Ol3ant.i (7.3.1)
(0,011) (0,005) (0,001)
-0, l56(D1i + Dsi)mujeri,
(0,037)
n = 5286, R 2 = O, 3532.
Hemos incluido un término de interacción. (D1i + Dsi) ·mujeri con valor unitario cuando
el trabajador es mujer y diplomada o licenciada universitaria. El grupo base es, al igual que
antes, el varón sin estudios que trabaja en una empresa pequeña del sector turístico.
La interpretación es clara: descontando el efecto del tamaño de la empresa, la antigüedad,
la edad y el nivel educativo, el modelo predice para las mujeres un salario de aproximadamente
un 13,3 % inferior a los hombres (-0,133·100). No obstante si la mujer es diplomada o licenciada
la discriminación aumenta, pasando a ser de aproximadamente un 28 ,9 % inferior [(-0,133-
0,156)·100].
Pero las variables binarias, además de interactuar entre sí, también pueden interactuar
con variables cuantitativas, y cuando lo hacen obtenemos modelos con distintas pendientes.
El caso más sencillo es considerar una regresión simple en la que incluimos una variable
dicotómica que modifica el término constante y que también interactúa con la variable no
binaria o cuantitativa. Consideremos el siguiente modelo:
Y¡ f3o + aoD1i + f31X1i + a1D1iX1i + Ei

(f3o + aoD1i) + (f31 + a1D1i) X1i + Ei
El primer paréntesis determina el término constante: cuando la dummy tiene valor unitario,
el término constante es f3o + ao, y cuando tiene valor nulo f3o, en términos geométricos,
la predicción se desplaza paralelamente manteniendo la pendiente constante tal y como se
muestra en la Figura 7.2.2.
El segundo paréntesis modifica la pendiente. Cuando la variable binaria tiene valor unita-
rio, la pendiente es /3i + o: 1 ; en caso cont rario, la pendiente es (3 1 . Las distintas posibilidades
las podemos visualizar también en la Figura 7.3.1 , de manera que en función de los valores que
tomen los parámetros de la variable dicotómica o:o + o: 1 las estimaciones pueden converger,
divergir o cruzarse.
Figura 7.3.1: Modelos con cambio de pendiente

Yt a) ao>Oyai>O Yt b) a 0 >0ya1 <0
--- ---
Xit
Ye e) ao =O y a1 >O
Ye d) ao =Oy a1 < O
E (Y,I D, , = 1)= {30 + (J,X, , - a,D,,X,,
-- -- -.....
E(Y,ID,, =o)= 4:-~ ...-
E (>~I D,, =o)- {3 0 + /3,X,,
Xit
En el modelo estimado en la expresión (7.2.4), si incorporamos una interacción con el nivel

de estudios, obtenemos la siguiente estimación:
-
ln (salarioi) = 2, 200 - O, 102 · mujeri + O, 079 · estudiosi - O, 027 · mujeri · estudiosi
(0,011) (0,020) (0,004) (0,005)
n = 5286, R 2 = O, 1646.
Todos los estadísticos tipo t son, en términos absolutos, superiores a 1,96, y por tanto los
Tema 7 269
coeficientes de las variables explicativas son estadísticamente significativos. El salario esperado

es aproximadamente un 10,2 % inferior en la mujer (0,102 ·100). Además por cada nivel de
estudios terminados, la mujer es penalizada salarialmente con un 2,7 % (0,027· 100) adicional.
Este último modelo predice que en término medio la retribución laboral de la mujer es inferior,
y además la diferencia se acentúa con el nivel de estudios. La Figura 7.3.2 permite visualizar
la retribución esperada de hombres y mujeres.
Figura 7.3.2: Diferencia salarial entre mujeres y hombres

2,9
2,8 l
.
_2,7
_g"' 2,6
1
¡-
¡¡
o
·¡¡¡
!:!?. 2,4
e
_, 2,3
2,5
t--
1
.... ....
2,2
.... ....
2,1 _L__,__
A veces el estudio o análisis que estamos realizando nos demanda modelizar de tal manera
que solo la pendiente varíe, manteniendo igual el término constante. Para ilustrarlo regresemos
al ejemplo del consumo en Estados Unidos. Utilizando la variables consumo y renta disponible
en tasa de variación interanual podemos estimar el siguiente modelo:
-----
6..consumo 3t =O, 010 +O, 718 · D..Y D % - O, 449 · crisist · D..Y D %,
(0,002) (0, 043) (0,103)
n = 248, R 2 = O, 5439.
Todos los parámetros son significativos a los niveles usuales. Cuando la economía se encuentra
en la senda del crecimiento económico, entonces un incremento del 1 % de la renta disponible,
en términos interanuales, provoca un incremento del consumo del 0,72 %; sin embargo, en
tiempo de crisis la tasa de variación interanual aumenta solo 0,27 % (O, 718 - 0,449 = 0,269),
es decir, se produce un comportamiento asimétrico del consumidor cuando la situación es de
crisis respecto de situaciones de bonanza económica. La Figura 7.3.3 muestra la predicción
del modelo.
Durante las crisis económicas lo normal es que la renta disponible disminuya. El tramo
Figura 7.3 .3: Patrón de consumo en EE.UU. en escenarios de bonanza y recesión

5
o 4
E
::J
111
3
5
u
Qj 2
,
, ,
"'CI
¡¡¡
1
.....!: o
::J
lii Crisis
Cll
,
.5 -1
·g , , ,
-~ -2
>
Cll
~ -3
lQ
1- -4
-5
-6 -5 -4 -3 -2 -1 o 1 2 3 4 5 6
Tasa de variaci6n interanual de la Renta Disponible
relevante de la función del consumo en el cuadrante negativo (en crisis) presenta una pen-
diente suavizada (0,27, tramo discontinuo), y en consecuencia disminuciones mayores de la
renta disponible provocan disminuciones menores del consumo respecto al comportamiento
en tiempos de expansión económica.
Por el contrario, durante la fase de crecimiento económico normalmente la renta disponible
aumenta, por lo que en el cuadrante positivo el tramo relevante tiene una pendiente más severa
(0,72, tramo continuo en el gráfico), de modo que prevé que crecimientos de la renta generen
incrementos del consumo mayores.
Todo esto tiene consecuencias importantes de política económica. Por ejemplo, cuando se
está ralentizando el crecimiento, las disminuciones de impuestos, que afectan, por definición,
a la renta disponible de los hogares, provocan incrementos de consumo mayores que cuando
la economía se encuentra en recesión.
7.4. ESTACIONALIDAD
La estacionalidad es un fenómeno que únicamente puede suceder cuando estamos ana-

lizando series temporales. Cuando las series temporales tienen periodicidad inferior al año
(diaria, semanal, mensual, trimestral, semestral, etc.) frecuentemente las series presentan es-
tacionalidad: La estacionalidad es un importante movimiento oscilante regular y repetitivo
anual que se produce por las variaciones estacionales o por factores culturales o tradiciona-
les. Desde luego no todas las variables económicas con periodicidad inferior al año presentan
estacionalidad; así, los tipos de interés o la tasa de inflación parecen tener un componente
estacional muy reducido.
Tema 7 271
El movimiento estacional puede perturbar las relaciones entre los fenómenos económicos de
interés y por ello frecuentemente las series son desestacionalizadas antes de hacerlas públicas.
Una serie desestacionalizada es aquella a la que se le han eliminado los factores estacionales.
La desestacionalización se puede hacer de muchas maneras 5 pero generalmente los programas
especializados tienen la opción de eliminar los fac tores estacionales (Census X12, Xll ARIMA,
métodos basados en medias móviles, Tramo/ Seats u otros).
La desestacionalización es tan usual actualmente que en ocasiones no es posible encontrar
los datos originales o sin desestacionalizar, sobre todo cuando debemos utilizar series ma-
cro económicas, y no dispondremos a veces de oportunidades para realizar nuestros propios
ajustes estacionales. Esto puede ser un problema cuando queremos relacionar variables con
estacionalidad con otras previamente desestacionalizadas.
Cuando el objetivo es predictivo puede resultar muy conveniente utilizar los datos brutos,
es decir, datos afectados de estacionalidad. Además resulta sencillo tratar la estacionalidad
mediante el uso de variables binarias 6 como veremos a continuación.
Un modelo general que capta el comportamiento estacional (para datos trimestrales por
ejemplo) es
(7.4.1)
Se trata de un modelo ANOVA cuyas variables dicotómicas Dit tienen valor unitario cuando
la observación de la serie temporal se refiere al trimestre i y valor nulo en caso contrario. Por
lo tanto, el grupo base es el factor estacional del primer trimestre, es decir que
E (YI Djt =O)= /30.

El factor estacional de los otros tres es
Los factores estacionales también se pueden estimar sustituyendo en la expresión (7.4.1) el

término constante por a1Dit, es decir
(7.4.2)
En este modelo &j es directamente el factor estacional del trimestre j. Así, ft está formado por
la suma de los factores estacionales de Yt, de manera que la diferencia entre la serie original
y con estacionalidad Y t y los factores estacionales ft forma la serie desestacionalizada.
En las expresiones (7.4.1) y (7.4.2) se supone que los factores estacionales se relacionan
entre sí de forma aditiva, pero no necesariamente ha de ser así, de hecho suele ser más frecuente
que los factores estacionales se relacionen de forma multiplicativa. Su estimación es idéntica a
la forma aditiva, salvo en que modifica la variable dependiente por su logaritmo. Esta cuestión
y otras relacionadas con el uso de variables dummy (equivalentemente, ficticias , binarias o
5
Un estudio minucioso de esta cuestión rebasa el alcance de este trabajo. Véase por ejemplo Diebold (2007,
Tema 7) para un tratamiento más detallado.
6
El uso de variables dicotómicas para la eliminación de la estacionalidad parte del supuesto de que es-
te componente es no estocástico o determinista. Analizaremos el componente aleatorio del comportamiento
estacional en la Parte III de este libro , en particular en la Sección 13.8.
dicotómicas) estacionales las vamos a tratar en esta sección a través de un ejemplo basado en
las pernoctaciones hoteleras y variables relacionadas.
Si algún sector económico se caracteriza por su fuerte estacionalidad ese es , sin duda, el
sector turístico español. U no de los indicadores más utilizados del sector son las pernoctaciones
en hoteles. La figura 7.4.1 muestra una serie en niveles (millones) y otra en logaritmos con
periodicidad mensual.
Figura 7.4.1: Pernoctaciones hoteleras. Abril 1965 - noviembre 2011

70 4.0
60 1 1 i 1
'¡ : ¡ ¡ nl ~d l.
1 1
I ¡I 1: 11 3.5
fi ~ 11 ~ fl 11 11 1\ qIL j1 /1 /
50 1 1~
i ft/11:•11111:11111•:11/1:1/
j' ,
j :¡/:l!;!J!l\!!!I!:¡¡:\:!:
3.0
¡ ¡ ¡ ¡ ¡ 1!¡ ! ¡¡ ¡¡ ¡ ¡ ~r:1¡l:1!1:¡¡i:ii1!1!1!.l!!:i:¡¡:¡:¡:
1
4º 1¡ ! ! ¡1: ~ l\ ~ ¡¡ !\ i! 1 il !\ !\i\ li 1! !i ij i\ l !\ !\!\ !\!li ~ ~ ~ \! ~ ~ y ~ ¡ ~ ~ ~

1: 2.5
3º 11 11: i:: ll!:~11!\i\!\l\!\f!!\i\!\!!i!!i

di:n1 :: :: :: 1 ull :1 :¡ :,
1
/~\i\U\J\f\i!!\!~~~~~
~ t u\'~? ~ ~ ~ ~
1
• 2.0
1 ,
1¡ t' 11 1111:1: 11 11 11 ~ 11 1V 1/ ti 1J f' f f 1
1 f
20 '¡JJ!::\/l:!::;v~ t" vv· - 15

1/11•'111•11S
l•\1:::::: 11
l
:; :r :: :1 V r
10 :¡::
1, 111
ll ~ 1.0
O M
1970 1975 1980 1985 1990 1995 2000 2005 2010
En ambas series se aprecia el movimiento estacional, pero mientras que en logaritmos la

amplitud del componente estacional parece aproximadamente constante, en niveles la ampli-
tud va creciendo con el tiempo. Por consiguiente los factores estacionales parecen más regulares
con la serie en logaritmos (en niveles, la serie observa un comportamiento estacional crecien-
te). Dada esta regularidad, podemos estimar los factores estacionales más acertadamente a
partir de
--
ln (pernoctacionest) 1, 826 +O. 059 · D2t +O, 275 · D3t +O, 437 · D4t
(0,074) (0, 104) (0,104) (0,104)
+O, 650 · Dst +O, 797 · D6t + 1, 032 · D7t + 1, 161 · D 8 t

(0,104) (0,104) (0,104) (0,104)
(7.4.3)
+O, 928 · Dgt +O, 601 · D10t +O, 071 · Drn - O, 047 · D12t,
(0,104) (0,104) (0,104) (0,104)
n = 560, R 2 = O, 4052.
El subíndice de las variables binarias indica el número de mes al que se refiere. En total hemos
utilizado 11 dummies, todas excepto el primer mes (enero), que hace de grupo de referencia.
El mayor valor se obtiene en agosto, tal y como esperábamos, y el menor en diciembre. No son
Tema 7 273
significativas las correspondientes a febrero, noviembre y diciembre. Los factores estacionales

explican el 40,52 % de la variación de la serie.
Al mismo resultado se llega sustituyendo el término constante por la dummy de enero
--
ln (pernoctacionest) = 1, 826 · Dit + 1, 885 · D2t
(0,074) (0,074)
+ 2, 101 · D3t + 2, 263 · D4t
(0,074) (0,074)
+ 2, 476 · Dst + 2, 623 · D 6t + 2, 858 · D1t + 2, 987 · Dst
(0,073) (0,073) (0,073) (0,073)
+ 2, 754 · Dgt + 2, 427 · D 1ot + 1, 897 · Dllt + 1, 779 · D12t
(0,073) (0,073) (0,073) (0,074)
n = 560, R 2 = 4052.
Ahora los parámetros son directamente los factores estacionales de cada mes. Todos los pará-
metros son significativos pero algunos son muy similares de manera que habría que contrastar
si son diferentes entre sí. Ya sabemos por el modelo de la expresión (7.4.3) que los meses de
noviembre, diciembre, enero y febrero no tienen componentes estacionales significativamente
distintos entre sí. El comportamiento estacional es claro: el mínimo se produce en diciembre
y continúa creciendo hasta el máximo de agosto, momento en que las pernoctaciones van
cayendo de nuevo hasta el nuevo mínimo de diciembre y así sucesivamente. La Figura 7.4.2
muestra el componente estacional.
Figura 7.4.2: Pernoctaciones hoteleras. Componente estacional
l
2,9
2,7
2,5
2,3
2,1
1,9
1,7
j
e o 2 .... ooooaJ~
.... .... .o ~ ·¡: '§ tí ..Q .o
~ ro ro E :J ·~ o E :J
Q)
e .o
Q) E ·~ ~ Q) t;
.!!:!
·aº
Q)
VI
En definitiva, la serie estimada por la regresión ln (pernoctacionest) es el componente esta-

cional; y las discrepancias la serie desestacionalizada [ln (pernoctacionest) - ln (pernoctacionest).
Podemos comparar las series estacional y desestacionalizada siempre que igualemos las medias
--
previamente, como hacemos en la Figura 7.4.3.
Vimos anteriormente, expresión (7.4.3), que hay dummies no significativas, y también
vimos la necesidad de contrastar si los parámetros eran significativamente distintos entre sí.
Figura 7.4.3: Pernoctaciones hoteleras en logaritmos. Serie estacional y desestacionalizada.

Abril de 1965 - noviembre de 2011.
4 . 0~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3.5
30
2.5
2.0
1.5
1.0 - Serie desestacionalizada

---- LOG(PERNOCTACIONES)
1970 1975 1980 1985 1990 1995 2000 2005 2010
Una estimación que tiene en cuenta estas cuestiones es la siguiente

--
In (pernoctacionest) = 1, 847 +O, 336 · (D3t + D4t) +O, 702 · (Dst + D6t)
(0,037) (0,064) (0,064)
+ 1, 019 · (D7t + Dst + Dgt) +O, 580 · D1ot (7.4.4)

(0,056) (0,082)
n = 560 , R 2 = O, 3929 ,
con solo 4 variables ficticias. El periodo base incluye los meses que van de noviembre a febrero.
No obstante los resultados son esencialmente los mismos. Las pernoctaciones crecen desde el
mínimo, en los meses del periodo base, hasta el máximo de verano (julio, agosto y septiembre),
para luego descender hasta llegar de nuevo al mínimo del periodo base.
Generalmente el objetivo de nuestro análisis no será solo analizar los factores estaciona-
les sino que también estaremos interesados en determinar la influencia de otras variables,
cuantitativas o no. Se pueden añadir, junto a las variables estacionales, variables explicativas
independientes. Así podemos establecer el modelo general de la siguiente forma:
(7.4.5)
Modelo en el que además de incluir los factores estacionales incluimos k variables indepen-
dientes. Este modelo es equivalente al que resulta de regresar las variables cuantitativas pre-
viamente desestacionalizadas por el método que hemos expuesto:
(7.4.6)
ecuación similar a la expresión (7.4 .5), salvo que ahora las variables son series previamente
desestacionalizadas por el método que hemos indicado. Vamos a ilustrarlo con el ejemplo que
estamos desarrollando en esta sección.
Tema 7 275
En la Figura 7.4.4 se reproducen las pernoctaciones y el empleo en logaritmos de los

hoteles españoles entre enero de 1999 y noviembre de 2011. Ambas variables presentan un
fuerte componente estacional.
Figura 7.4.4: Pernoctaciones y empleo en hoteles (logaritmos). Nov-1999 - Nov-2011

~~~~~~~~~~~~~~~~~~~~40
3.6
3.2
5.6
2.8
5.4
2.4
5.2 f\ ,.,
/ I 11
(\ l\ 2.0
5.0 1 : : 1
: :! :
4.8 ¡ l¡
/ l'y,'
99 00 01 02 03 04 05 06 07 08 09 10 11
Queremos analizar la influencia de la actividad (pernoctaciones) hotelera sobre su nivel

de empleo, para lo que estimamos el siguiente modelo7
----
ln (empleo) = 2, 009 + 1, 189 · ln (pernoctaciones) - O, 098 · D2t - O, 307 · D3t
(0,132) (0,054) (0,025) (0,031)
- O, 388 · D4t - O, 463 · D 5 t - O, 568 · D 6 t - O, 740 · D7t - O, 862 · Dst

(0,037) (0, 045) (0, 052) (0,062) (0,068)
(7.4.7)
- O, 627 · Dgt - O, 457 · Dwt - O, 124 · Dllt - O, 008 · D12t
(0,056) (0,044) (0,025) (0,024)
n = 155 R 2 =O 9366
' ' '
que incluye el empleo y las pernoctaciones en logaritmos y sus correspondientes dummies es-
tacionales. Algunas de las variables binarias no son significativas y habría que incluirlas en el
grupo base. De igual forma habría también que comprobar que el resto son significativamente
distintas entre sí, pero ya vimos en el anterior ejercicio que estas modificaciones no alteran
sustancialmente el modelo y, por otro lado, es claro que los factores estacionales conjunta-
mente considerados son significativos, de manera que podríamos inicialmente mantener todas
las variables tal y como hacemos en la expresión (7.4. 7). Suponiendo el resto de factores cons-
7
Tal y como especificamos el modelo conviene advertir al lector que las serie de empleo y de pernoctaciones
presentan ambas una tendencia creciente. En tales casos la regresión planteada y estimada puede llevarnos
a confundir el rigor y fiabilidad de los resultados al compartir ambas un componente de tendencia común.
Este tema lo trataremos en mayor profundidad en la Parte III del libro, en particular en el Tema 17 cuando
presentamos la cuestión de las «regresiones espurias».
tantes, y descontados los efectos estacionales, un incremento de un 1 % en las pernoctaciones

incrementa un 1,19 % el nivel de empleo.
Al mismo resultado se llega regresando ambas variables respecto de las variables binarias
estacionales para posteriormente regresar los residuos (o series desestacionalizadas) entre sí:
veamos como se hace paso a paso:
Primero regresamos el empleo en logaritmos respecto de las variables estacionales:
---
ln (empleo) = 4, 861+O,057 · D2t +O, 131 · D3t +O, 246 · D4t
(0,036) (0,049) (0,049) (0,049)
+ O, 384 · Dst + O, 444 · D 6 t + O, 508 · D7t + O, 529 · D 8 t
(0,049) (0,049) (0,049) (0,049)
(7.4.8)
+ O, 483 · D9t + O, 355 · D1ot + O, 075 · D11t + O, 034 · D12t
(0,049) (0,049) (0,049) (0,049)
n = 155 R 2 = O' 7233
)
Los residuos de (7.4.8) los denominaremos rlempleot.

En segundo lugar, hacemos lo mismo con el logaritmo de las pernoctaciones
---
ln (pernoctaciones) = 2, 398 +O, 130 · D2t +O, 369 · D3t +O, 533 · D4t
(0,026) (0,036) (0,036) (0,036)
+O, 711 · D 5t +O, 851·D6t+1, 049 · D7t + 1, 169 · Dst
(0,036) (0,036) (0,036) (0,036) (7.4.9)
+O, 934 · D9t +O, 682 · D1ot +O, 167 · D11t +O, 035 · D12t
(0,036) (0,036) (0,036) (0,037)
n = 155, R 2 = O, 9513
Y denominamos a los residuos (o serie desestacionalizada) rlpernoctacionest.

Finalmente regresamos ambas series desestacionalizadas:
---
rlempleOt = 1, 189 · rlpernoctaciones
(0,052)
(7.4.10)
n = 155 ' R 2 =O ' 7708 )
con pendiente idéntica a la expresión (7.4.7) y misma interpretación. Debemos también notar
que el modelo no tiene término constante, la razón se encuentra en que ambas variables son
los residuos de las expresiones (7.4.8) y (7.4.9), y por consiguiente ambas tienen media cero
y su regresión tiene necesariamente también un término constante nulo.
7.5. REGRESIÓN POR TRAMOS
Cuando analizamos las interacciones con variables binarias, consideramos el modelo
(7.5.1)
Resulta también fácil ver que la expresión (7.5.1) equivale a calcular dos regresiones separadas.
Tema 7 277
Cuando la variable binaria tiene valor nulo, entonces el modelo es
(7 .5.2)
y cuando la dummy tiene valor unitario su expresión es
(7.5.3)
Supongamos ahora que la variable ficticia D 1i lo que hace es dividir la variable independiente
X li en dos tramos diferentes, es decir que D1i tiene valor nulo si X li tiene un valor menor
que un valor determinado j* y unitario si es mayor o igual que ese valor (D1i = O si X 1i<j*
y D1i = 1siX1i'2j*). El valor umbral j* se conoce como nudo y para transformar la función
en continua para todo el recorrido (que es en lo que consiste la estimación de un modelo de
regresión por tramos) tenemos que garantizar que en ese punto ambos tramos coincidan en
j*, es decir, se tiene que cumplir que para X li = j*, las expresiones (7.5.2) y (7.5.3) coinciden
/30 + f3Ü* = /30 + ao + (61 + ai) J*;

o=ªº+ ªÜ*; (7.5.4)
ªº = -0'.Ü*
de manera que la regresión por tramos consiste en estimar (7.5.1) por mínimos cuadrados res-
tringidos imponiendo la restricción (7.5.4). Sustituyendo (7.5.4) en (7.5.1) y operando tenemos
que
Yi /30 + aoD1i + /31X1i + a1D1iX1i + E:i

/30 - al]* D1i + /31X1i + a1D1iX1i + E:i
/30 + /31X1i + a1D1i (Xli - J*) + Ei ,
que es el denominado modelo de regresión por tramos.
7.5.1. Efectos umbrales

En la mayoría de las aplicaciones utilizamos variables ficticias para contrastar factores
cualitativos puros, o para representar un periodo particular del tiempo. Pero hay casos en los
que la variable (o variables) ficticia representa niveles de algún factor subyacente [como los
casos del nivel de estudios o el tamaño de la empresa de la Tabla 7.1 o la expresión (7.3.1)].
En estos casos ya hemos visto que podemos estimar la influencia del nivel de estudios sobre
el salario de distintas maneras:
• Utilizando el nivel de estudios como si fuera una variable cuantitativa,
salarioi = /30 + /31 · estudiosi + E:i. (7.5.5)
Presenta el problema de considerar que el incremento del salario es igual para cada nivel
de estudios.
• Utilizando variables dummies para cada nivel de estudios como hicimos en la Tabla 7.1.
salarioi = fJo + c:t1 (Dprimaria + Dsecundaria.I) + c:t2 (Dsecundaria.II + DF.P.medio)

+ Q3 · DF.P.superior + Q4 · Ddiplomado + Q5 · Dlicenciado + Ei ·
(7.5.6)
Donde la correspondencia entre el nivel de estudios y el salario es
• Sin estudios: salarioi = fJo

• Primaria o secundaria I: salarioi = fJo + a1
• Secundaria II o FP Grado medio: salarioi = fJo + a2
• FP Grado superior: salarioi = fJo + a3
• Diplomado : salarioi = fJo + a4
• Licenciado: salarioi = fJo + a5
Las diferencias entre los distintos parámetros (a1, a2 , ... , a5) son de interés y por ello tuvimos
que contrastar si la diferencias entre sí eran significativas. Una forma alternativa para obtener
directamente estas diferencias es utilizar variables binarias por umbrales, que se definen de
forma diferente a como lo hicimos en la expresión (7.5.6):
• Modelos con variables binarias por umbrales. En este caso las variables dummies se
definen de forma incremental. Así el trabajador licenciado tendría valor unitario solo si
es licenciado ; el diplomado tiene valor unitario si tiene al menos ese nivel de estudios, y
así sucesivamente. De esta manera el modelo tiene la misma apariencia
salarioi = !30 +
a1 (Dprimaria + Dsecundaria.I) + a2 (Dsecundaria.II + DF.P.medio)
+ Q3 · DF.P.superior + U4 · Ddiplomado + Q5 · Dlicenciado + Ei,
(7.5.7)
pero la variable Dprimaria + D secundaria.! tiene valor unitario para todos los niveles de es-
tudios excepto para la categoría de sin estudios, con valor nulo. La variable Dsecundaria.II
+ D F.P.medio tiene valor unitario si el nivel de estudios es secundaria II o FP de grado
medio o un nivel superior y valor nulo en caso contrario (si tiene el nivel sin estudios
o primaria o secundaria I), y así sucesivamente. Definidas de esta manera las variables
dicotómicas, la regresión tiene la siguiente interpretación:
• Sin estudios: salarioi = fJo

• Primaria o secundaria I: salarioi = f3o + a1
• Secundaria II o FP Grado medio: salarioi = fJo + a1 + a2
• FP Grado superior: salarioi = f3o + a1 + a2 + a3
• Diplomado: salarioi = fJo + a1 + a2 + a3 + a4
• Licenciado: salarioi = fJo + a1 + a2 + a3 + a4 + a5
Tema 7 279
Por consiguiente a5 es el valor marginal del licenciado (lo que aumenta las retribuciones por
pasar de diplomado a licenciado), y no la diferencia entre el licenciado y el grupo de referencia
(los trabajadores sin estudios) como ocurría en la expresión (7.5. 7).
Para el caso que nos ocupa (Tabla 7.1) la estimación mediante variables por umbrales es
--
salarioi = 10, 004 · D 1i +O, 634 · ( D 2i + D3i) + 1, 946 · ( D 4i + D 5i)
(0,248) (0,273) (0,247)
+ O, 679 · D 6i + 3, 255 · D1i + 2, 962 · Dsi (7.5.8)

(0,434) (0,514) (0,554)
n = 5286, R 2 = O, 1151.
El modelo tiene la ventaja de contrastar la significatividad marginal de cada nivel de estu-

dios. Todos los parámetros son significativos a los niveles usuales excepto para el incremento
marginal del nivel FP Grado superior; si realizamos el contraste de una sola cola (H 1 : a3>
O) , la significación exacta o p-valor es del 0,059.
El modelo de regresión por tramos requiere que las variables binarias sean definidas por
el método de los umbrales. Vemos un ejemplo de modelo de regresión por tramos.
Ejemplo 23 . Consumo y renta de los hogares españoles

Con datos de la encuesta española de presupuestos familiares para 2009, hemos estimado la
función del consumo familiar a partir de las variables gasto de consumo e ingresos anuales en miles
de euros
coñSUiñoi = 9, 954 +O, 593 · ingresoi
(0,164) (0,006) (7.5.9)
n = 22,271 , R 2 =O, 3432.
El consumo autónomo es de 9.954 euros anuales y la propensión marginal al consumo 0,593. No

obstante la expresión anterior parte del supuesto de que las familias con rentas altas y bajas tienen
la misma propensión al consumo . Resulta más adecuado considerar que las rentas más altas tienen
menor propensión marginal al consumo , y por tal mot ivo vamos a estimar una regresión por tramos.
Los ingresos de la muestra tienen una mediana de 21,048 miles de euros y el tercer cuartil se
sitúa en los 32,244 miles de euros. Podemos estimar una función de consumo con tres tramos:
el primero para rentas familiares anuales inferiores a los 21,048 miles de euros; la segunda para
rentas entre 21,048 y 32 ,244 miles de euros; y la tercera para rentas mayores a los 32,244 miles
de euros. Es decir, construimos dos variables ficticias por el método de umbrales :
D 1i = 1 si ingresosi"?. 21 ,048 y D 1i = O en caso contrario.
D 2i = 1 si ingresosi"?. 32 ,244 y D2i = O en caso contrario.
El modelo sin restricciones, es decir, el que permit e cambios en el término constante y pen-
diente, es el siguiente:
consumoi /30 + /31 · + a 1 · D1i + <51 · ingresosi

ingresoi · D1i (7.5.10)
+ a2 · D2i + Ó2 · ingresosi · D2i + Ei . (7.5.11)
Su estimación es
consumoi = 4, 174 +O, 925 ·ingresos+ 4, 903 · D1i - O, 239 ·ingresos· D1i
(0,374) (0,026) (1,607) (0,064)
+ 12, 642 · D2i - O,322 · ingresos · D2i (7.5.12)

(1,641) (0, 060)
n = 22 ,271 , R 2 =O, 3688.
Todos los parámetros son significativos a los niveles usuales (5 %). El grupo de control son las
familias con ingresos inferiores a los 21.048 euros al año. La interpretación del modelo es la
siguiente, para rentas inferiores a la mediana (21.048 euros al año), es decir, para el 50 % de la
muestra tenemos que:
JE ( consumoil ingresoi < 21 , 048) /Jo + /31· ingresosi (7.5.13)

4, 174 +O, 925 ·ingresos
Entre los 21.048 y los 32.244 euros al año, es decir, para el tercer cuartil
JE ( consumoil 21 , 048::; ingresoi < 32, 244) (/Jo + &1) + (/31 + 81) · ingre~o~.14)
9, 077 +O, 686 · ingresos.
Y para rentas mayores de 32 .244, pertenecientes al último cuartil
JE ( consumoil ingresoi ~ 32, 244) (/Jo + &1 + &2) + (/31+ 81 + 82) · ingres{lB.;.5.15)
21, 719 +O, 364 ·ingresos (7.5.16)
De manera que la propensión marginal al consumo disminuye cuando cambiamos de tramo como
esperábamos, pero el modelo también muestra consumos autónomos mayores en cada tramo.
La Figura 7.5.1 muestra esta estima ción en trazo discontinuo y el modelo de regresión por
tramos que estimaremos más adelante.
Para estimar un modelo de regresión por tramos tenemos que estimar la expresión (7.5.12)
por mínimos cuadrados restringidos, imponiendo la condición de que los nudos de los tramos sean
iguales.
La igualdad del nudo entre los tramos primero y segundo se consigue igualando las expresiones
(7.5.13) y (7.5.14) para ingresos de 21,048, es decir
/Jo + /31· 21 , 048 = (/Jo+ &1) + (/31+ 81) · 21 , 048 ;

o= &1 + 81. 21 , 048 (7.5.17)
&1 = -81 . 21 , 048
Tema 7 281
Figura 7.5.1: Modelo de regresión por tramos y modelo con variables binarias por umbrales
8
o
E
rl
·--- --
-- -- --
L-----~--
21,048 32,244
Renta
La segunda restricción se consigue igualando el segundo tramo (7.5.14) con el tercero (7.5.15)
para ingresos de 32,244, es decir
(oo + &1) + (01 + 81) . 32, 244 = (oo + &1 + &2) + (01 + 81 + 82) . 32, 244;
o = &2 + 82 . 32, 244; (7.5.18)
&2 = -82 . 32, 244
Sustituyendo (7.5.18) y (7.5.17) en (7.5.10) y operando, obtenemos el modelo de regresión por
tramos
consumoi = f3o + f31 · ingreso+ 81 · (ingresosi - 21, 048) · Dli

(7.5.19)
+ 82 · (ingresosi - 32, 244) · D2i + éi
Y su estimación es
coñSUiñoi = 4, 469 + O, 901 ·ingreso - O, 206 · (ingresosi - 21, 048) · Dli

(0,245) (0,012) (0,037)
- O, 541 · (ingresosi - 32, 244) · D2i
(0,018)
n = 22,271 , R 2 =O, 3687.
La Figura 7.5.1 presenta la curva en trazo continuo. Los variables explicativas son estadísticamente
significativas. Las propensiones marginales al consumo van disminuyendo por tramos: 0,90 para
50 % de las rentas más bajas ; 0,695 para las rentas situadas en el tercer cuartil ; y 0,154 en el
último cuartil.
EJERCICIOS
Teóricos
1. Un investigador pretende estudiar las diferencias entre el salario medio de hombres y
mujeres empleando el modelo Yi = a+ f3Di + Ei donde Yi es el salario y Di una dummy
para el sexo del trabajador. Suponga que Di = 1 si se trata de un hombre y que
obtiene /3 por MCO. Pruebe que el estimador de -y en la regresión Yi = a* +-y Di+ E¡
donde la categoría base es ahora mujer (Di = 1 si se trata de una trabajadora), será
necesariamente ;y = - /3.
2. Con los mismos supuestos que en el ejerc1c10 anterior, pruebe que el coeficiente de
determinación de ambos modelos ha de ser igual.
3. Suponga que se produce un cambio estructural, que podemos entenderlo intuitivamente

como algo semejante a lo recogido en la Figura 7.5.2. Especifique un modelo modelo
apropiado para esta situación y explique cómo debe interpretarse.
Figura 7. 5. 2: Cambio estructural

300
y
250
200
150
100 V: !
/
V
50/ ¡
0+-~-i---'--+-~~~~~~~
o 20 40 60 80 100 120
Prácticos
4. Los datos de la tabla ET7 1 reproducen los de la tabla E23 pero añadiendo una dummy
que recoge si el individuo pertenece a un hogar roto. Contraste si esta circunstancia tiene
alguna influencia sobre el salario del individuo.
5. La tabla ET7 _ 2 contiene datos referidos a los gastos en transporte aéreo y marítimo
desde el primer trimestre de 1998 hasta el cuarto de 2005, obtenidos de la Encuesta
Continua de Presupuestos Familiares (ECPF). Calcule el movimiento estacional en am-
bas series y represente gráficamente para cada una de ellas, la serie de datos originales
junto con la desestacionalizada. Calcule la regresión entre ambas series con y sin va-
riables binarias estacionales y comente los resultados. ¿Por qué cree que las variables
estacionales no son ahora significativas?
Tema 7 283
6. Una de las aplicaciones de la regresión por tramos es el denominado contraste de cambio

estructural (o test de Chow). Se trata de ver si la función de regresión se mantiene
estable o cambia a partir de un momento del tiempo. Este contraste puede llevarse
a cabo fácilmente empleando variables binarias. Definiendo una variable dummy para
distinguir el periodo, podemos contrastar si hay o no cambio estructural y si este se
concreta en un término independiente diferente, en una pendiente diferente o en ambos.
Emplee los datos de la tabla ET7 3 del tema anterior, para llevar a cabo el contraste
en los años 1976 y 1980.
7. Suponga que le han encargado un estudio sobre si el hecho de que una ciudad disponga
de universidad influye en el precio de los alquileres. Analice empíricamente esta cuestión
con los datos de la tabla ET7 4.
Tema 8
ANÁLISIS DE ESPECIFICACIÓN Y
PROBLEMAS CON LOS DATOS
Las técnicas de regresión múltiple presentadas en los temas previos se fundamentan en los
supuestos que configuran el modelo teórico de referencia que estemos utilizando. Estos supues-
tos los hemos presentado y estudiado en los temas anteriores. Hemos visto que estas técnicas
tienen un sólido fundamento teórico y estadístico, y nos permiten, en ciertas circunstancias,
hacer realizable uno de los objetivos cruciales en la econometría: realizar estudios estadísticos
que nos permitan estimar el efecto causal que tiene sobre la variable dependiente un cambio
en alguna variable independiente. El objetivo ahora es precisamente analizar qué problemas
existen en la práctica a la hora de usar la regresión múltiple para estimar un efecto causal y,
en la medida de lo posible, cómo se pueden solucionar dichos problemas.
En la Sección 1.3 1 nos referimos intuitivamente a una situación idealizada que nos conduce
a poder obtener conclusiones causales (en promedio) dentro de un modelo. Posteriormente en
la Sección 3.1.5 mostramos la conveniencia de utilizar la esperanza condicionada dado que
para supuestos relativamente generales, la función esperanza condicionada tiene un significado
causal completo sobre el promedio de la población.
La suposición fundamental que hacemos en el modelo de regresión lineal (Sección 6.1), es
que el modelo está caracterizado por la exogeneidad (Ecuación (6.1.2)) y por una forma de
la esperanza condicionada, JE(y lx), lineal. En general, cuando se satisfacen los supuestos del
modelo decimos que el modelo está correctamente especificado. En este tema vemos qué efectos
tiene una mala especificación sobre las conclusiones que obtenemos con la regresión múltiple,
es decir, queremos saber qué factores nos pueden alejar del objetivo de que las estimaciones
de los coeficientes del modelo tengan una interpretación causal. Estamos interesados también
en cómo detectar la mala especificación y ver qué soluciones hay disponibles. Los temas
posteriores a este abundan sobre estas cuestiones y se centran en dar soluciones a este tipo
de errores de especificación. Para ello se necesitan, no obstante, otras herramientas o técnicas
distintas de la regresión MCO, que es la herramienta central de la Parte I del libro. La Parte
II presentará importantes ampliaciones al modelo de regresión, y con ellas trataremos parte
1
Recomendamos ahora su relectura.
285
286 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS
de los problemas derivados de la mala especificación.

Lo primero que tenemos que hacer es considerar cuándo un análisis de regresión puede ser
considerado «apto» o «válido». En este sentido, parece lógico requerir que el estimador del
efecto causal sea insesgado y consistente respecto del verdadero efecto causal poblacional de
una variable explicativa sobre la variable a explicar. Adicionalmente, debemos exigir que los
contrastes de hipótesis que deseemos realizar tengan el nivel de significación deseado, es decir.
la tasa de rechazo del contraste bajo la hipótesis nula debe ser igual al nivel de significación
previsto por el investigador. Si se cumplen estos requisitos diremos que el análisis es apto para
sacar conclusiones de tipo causal; equivalentemente, diremos que el modelo está correctamente
especificado.
La técnica de regresión presentada en los temas anteriores es la estimación por mínimos
cuadrados ordinarios (MCO), y sabemos entonces que el análisis será apto en la medida en
que los estimadores MCO sean insesgados, consistentes, y los errores estándar de los mismos
se calculen apropiadamente. Dada esta técnica de estimación (MCO), en este tema vamos a
contestar a la pregunta ¿qué factores nos alejan del cumplimiento de estos requisitos? y vamos
a anticipar algunas posibles soluciones. O dicho en otros términos, ¿qué conscuencias tiene el
emplear el modelo de regresión lineal cuando este no es realmente adecuado, y qué sucede con
las propiedades del estimador MCO en tal caso?
8.1. SELECCIÓN DE VARIABLES
Supongamos que partimos de la siguiente especificación general, que consideramos corree-

ta,
(8.1.1)
Existen numerosos tipos de errores que pueden cometerse en la especificación del modelo,
quizá los más comunes sean la omisión de variables relevantes y la inclusión de variables
superfluas.
8.1.1. Inclusión de variables irrelevantes

Supongamos que comenzamos con algún tipo de especificación, por ejemplo la prevista
en la Ecuación (8.1.1), y nuestra estrategia (mecánicamente) consiste en completar el modelo
añadiendo progresivamente más variables (lo que hace que el modelo esté anidado). Ya
sabemos que con las nuevas variables, el coeficiente de determinación «R 2 » aumentará, y por
tanto será conveniente utilizar el coeficiente de determinación corregido «Rh> que penaliza el
número de regresores utilizados. Puede demostrarse que utilizar como estrategia maximizar el
coeficiente de determinación corregido es equivalente a minimizar el estimador de la varianza
estimada de los errores «0- 2 = I:?=i tl/
(n - k - 1)». Algunos autores 2 han sugerido que
el coeficiente de determinación corregido «Rh> no penaliza suficientemente la pérdida de
2
Véase, por ejemplo, Amemiya (1985, pp. 50-51).
Tema8 287
grados de libertad producida al introducir nuevas variables explicativas y por ello han surgido
alternativas como el criterio de información de Akaike:
Ak ai'k e= 1n (2=~=1
n
ti) + 2 (k + 1) ,
n
(8.1.2)
donde el factor de penalización «2(k+ 1) / n» es mayor que el coeficiente de determinación corre-

gido «Rh>. Elegimos, según este criterio, el modelo que presenta menor valor. Los programas
especializados muestran de forma rutinaria este criterio.
Con un razonamiento similar, se utiliza también el criterio de Schwarz:
k+1
Schwarz = -n-ln(n) + ln (2=~-
i~l €t
2) , (8.1.3)
que penaliza la introducción de nuevos regresares incluso más que el criterio de Akaike.
Este proceso nos puede conducir, no obstante, a estimar un modelo como el siguiente:
(8.1.4)
donde hemos cometido el error de incluir «m» variables irrelevantes o innecesarias.

Las consecuencias de cometer un error de sobrespecificación del modelo no modifican
la mayoría de las propiedades deseables de los estimadores, en el sentido de que siguen siendo
insesgados y consistentes. Si la variable es irrelevante el coeficiente poblacional será nulo, por
lo que estimar un modelo que incorrectamente incluye este tipo de variables (irrelevante),
los estimadores de los coeficientes de las restantes variables explicativas se ven afectados. Sin
embargo, los errores estándar de los estimadores, por lo general, dejarán de ser eficientes, y
por tanto se producirá una pérdida de eficiencia. Dicho de otra forma , la no utilización de la
información correcta es siempre costosa y los errores estándar de los regresares serán general-
mente mayores a los que se obtendrían utilizando la especificación correcta [expresión (8.1.1)].
Técnicamente lo que sucede es que si la variable irrelevante está correlacionada con las varia-
bles relevantes, las varianzas de los estimadores de los coeficientes de las variables relevantes
aumentarán3 . Intuitivamente lo que sucede es que cuando, por ejemplo, dos regresares X 1 ,X2
son altamente dependientes, es estadísticamente difícil disociar el impacto de X 1 del de X 2
sobre la variable objetivo.
En todo caso la utilización de los contrastes individuales tipo t y los contrastes de restric-
ciones múltiples de tipo «F » generalmente evitará la sobrespecificación de los modelos.
Ya vimos ejemplos sobre esta cuestión cuando analizamos la demanda de cerveza (Ejemplo
15). Incluimos además del precio y la renta, la cantidad de vino de mesa y cantidad de vino de
calidad. Mediante el análisis de restricciones de exclusión de la «F », concluimos que el vino
de mesa y de calidad eran variables irrelevantes y las excluimos del modelo. Otro ejemplo lo
encontramos en el estudio sobre la demanda de café (Sección 4.4) donde finalmente excluimos
la variable del precio del té por no ser significativa, y la variable renta disponible por ser
3
Efecto que ya comentamos cuando presentamos en (4.2.11) la idea de la multicolinealidad perfecta o
imperfecta.
irrelevante desde el punto de vista económico. La exclusión de alguna de estas variables puede
llevarnos no obstante a problemas de validez del modelo si lo que estamos es incurriendo en
el problema contrario: omitir una variable relevante en el sentido que seguidamente vamos
a explicar. Como veremos, cuando omitimos del modelo una o más variables relevantes, el
problema entonces es mucho más severo, aparte de ser un problema mucho más habitual.
8.1.2. Omisión de variables relevantes: sesgo de variable omitida

En los términos en los que anteriormente hemos presentado el problema de la inclusión
de variables irrelevantes, el problema de la omisión de variables parece simétrico, pero no
lo es: supongamos que el modelo correcto ahora es el de la expresión (8.1.4), y sin embargo
estimamos el modelo (8.1.1). Hemos omitido «m» variables relevantes, es decir, cometemos un
error de subespecificación. Sin embargo, las consecuencias de no incluir variables relevantes
son, en el caso de la omisión, mucho más perjudiciales. El principal inconveniente que puede
aparecer al omitir una variable relevante es el de la ruptura de la propiedad de insesgadez del
estimador MCO. Por este motivo a este problema se le denomina sesgo de variable omitida.
Para que el problema sea tal no solo consiste en omitir una variable determinante de la variable
dependiente, sino que es necesario que la variable omitida cumpla otra condición en relación
al resto de variables especificadas en el modelo. En concreto, el sesgo de variable omitida se
produce cuando se satisfacen dos condiciones:
l. La variable omitida está correlacionada con los regresores incluidos en la regresión, X k.
2. La variable omitida es un factor determinante de la variable dependiente, Y.
Para que se produzca el sesgo en la estimación es imprescindible que se cumplan ambas

condiciones. En el ejemplo de la demanda de cerveza podemos considerar que hemos omitido
alguna variable relevante en la explicación de dicha demanda. De hecho es posible que la
demanda de cerveza, como bebida refrescante, dependa relativamente del calor (posiblemente
medido por temperaturas máximas previstas o registradas) , de modo que la demanda sea
mayor cuanto más alta sea la temperatura máxima. En tal caso, en el ejemplo habríamo
omitido la variable explicativa de temperatura máxima que cumple el segundo requisito ; sin
embargo no cumple el primero. Difícilmente la temperatura máxima está relacionada con la
variable renta, o con el precio de la cerveza. Por eso, omitir esta variable no generaría sesgo
por variable omitida, pese a ser un determinante de la demanda de cerveza.
Veamos ahora por qué se produce, bajo estas condiciones, un sesgo en la estimación del
coeficiente del modelo mal especificado por omisión de variables. El primer paso consiste
en ver que el sesgo de variable omitida significa que el supuesto de exogeneidad (Ecuación
(4.1.3)) no se cumple, es decir, lE(Ei IXi) #-O. Para comprobarlo consideremos el modelo de
regresión simple, en el que el término error Ei representa todos los factores, distintos de X i,
que son determinantes de y¡. Si uno de esos factores está correlacionado con Xi , esto significa
necesariamente que el término error (que contiene este factor) está correlacionado con X i.
Debido a que entonces Xi y Ei están correlacionados, la media condicionada de Ei dado Xi es
distinta de cero, y por lo tanto el supuesto central de exogeneidad (Ecuación (4.1.3)) no se
satisface.
Tema8 289
El siguiente paso es saber cuál es la consecuencia de que el supuesto de exogeneidad no se

cumpla. Para ello consideremos formalmente el estimador MCO del coeficiente de la variable
explicativa que, recordamos por (4.2.4), es
• _
(31
f3 (l/n) I:(Xi - X)t:i
- 1 + (1/n) 2::: (Xi - X) 2 .
Bajo el supuesto de muestra aleatoria (Suposición 3) y el supuesto sobre atípicos (Suposi-

ción 5 o Ecuación (4.2.3)), el numerador y el denominador del segundo sumando de la expresión
anterior pueden reemplazarse por sus contrapartidas poblacionales, cov(Ei, Xi) = Pxerhax y
a~, respectivamente, donde el término Pxe = corr(X, e). Si sustituimos estas expresiones
obtendremos
(8.1.5)
El sesgo precisamente se produce porque al estar correlacionado el error con la variable

explicativa entonces el término px 0 es distinto de cero, lo que hace que el estimador /31 no
converja en probabilidad4 al verdadero valor (31, incluso si el tamaño muestra! es grande, por
lo que también tendremos que el estimador no será consistente. El sesgo será grande o pequeño
en función de la correlación Pxe: cuanto mayor sea en términos absolutos, mayor será el sesgo.
La dirección del sesgo depende de si X y e están positiva o negativamente correlacionadas. El
estimador /31 en un modelo que omite una variable relevante, X 2 , no recoge el efecto parcial
sobre Y de un cambio en X1, pues al correlacionar con X2 cuando varía X1 también lo hace
X2. De hecho lo que captura es el efecto directo sobre Y de un cambio en X1, más el efecto
indirecto de X 1 so breX2, que termina afectando a Y.
La cuestión relevante ahora es cómo solucionar el problema de este tipo de sesgo e in-
consistencia. Cabe decir que por «solucionar» nos referimos a minimizar el sesgo de variable
omitida. La solución dependerá de si existen (están disponibles) o no variables que permitan
tener en cuenta (controlar) los efectos de la(s) variable(s) omitida(s) potencial(es).
Es evidente que el problema se solucionaría en su totalidad si, estando disponibles datos
sobre la variable omitida, la incluimos en la regresión. Pero además tenemos que considerar
que en ocasiones es interesante introducir en la regresión variables de control que eliminen
el posible sesgo en el coeficiente de la variable de interés, y por tanto, en caso de no disponer
de los datos de la variable omitida, la incorporación de estas variables de control solucionaría
el problema del sesgo.
El considerar este tipo de variables hace necesario distinguir entre regresares que hacen
el papel propiamente de variable explicativa, en el sentido de que su coeficiente lo deseamos
estimar para conocer el efecto causal del mismo, y regresares que juegan un papel de control.
Una variable de control no es propiamente una variable objeto de estudio, sino que es un
regresar incluido para mantener constantes (controlar el efecto de) los factores que podrían
precisamente hacernos incurrir en sesgos de variables omitidas. Podemos establecer mate-
máticamente la distinción entre variables de interés y variables de control, considerando el
4
El concepto de convergencia en probabilidad se ha tratado en la Sección 5.5.2
290 ANÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DAT OS
supuesto o hipótesis de independencia en media condicionada, que introdujimos en la Defini-

ción5 3, y que ahora repasamos. Consideremos una regresión con dos variables, en la cual X1
es la variable de interés y X2 es la variable de control. La independencia en media condicio-
nada requiere que la esperanza condicionada de éi dados X1 i y X2i no dependa de (es decir.
sea independiente de) X1 i, aunque pueda depender de X2 (
(8. 1.6)
La idea de la independencia en media condicionada es que una vez que se controla X2i,
entonces la media condicionada del término error ya no depende de X1i , es decir es como si.
controlado X 2 , entonces X 1 estuviera asignada al azar. La inclusión del regresar X2i hace que
X 1i no esté correlacionada con el término error , por lo que MCO puede entonces estimar el
efecto causal sobre Y de un cambio en X 1 . Sin embargo la variable de control está sujeta al
sesgo de variable omit ida y no tiene una interpretación causal.
Ejemplo 24. Consumo de las familias del sector servicios en Cataluña
En el Ejemplo 9 estimamos, con datos de la encuesta de presupuestos familiares de 2009 , dos
modelos del consumo de las familias cata lanas cuyo sustentador principal trabajaba en el sector
---
turístico. En el primero estimábamos el consumo familiar en función de sus ingresos. El modelo
---
estimado fue «I n (consumoi) = 3, 89 +O, 615· 1n (ingres oi) ». En el segundo añadimos la variable
tamaño (número de miembros de la unidad familiar) , el resultado fue « In (consumoi) = 5, 15 +
O, 443·1n (ingresoi) +O, l42·tamañoi»· Se utilizó este ejemplo para mostrar que la introducción
de nuevas variables afectaba , entre otros, a todos los parámetros estimados por la regresión .
Consideremos que el segundo modelo está bien especificado. Por tanto el estimador del ingreso
del primer modelo es sesgado e inconsistente dado que la variable « número de miembros de la
familia» está correlacionada con los «i ngresos ». Si ampliamos la muestra incluyendo, además del
turismo, la administración pública y otros servicios, los resultados del primer modelo son:
---
In (consumoi) = 3, 922 +O, 610· ln (ingresoi)
(0,637) (0,063)
[0,724] [0,072] (8.1. 7)
n = 207 ? R 2 =O ' 3109 ' R =O ' 3075
2
Akaike = 1, 394, Schwarz = 1, 426 .
Ya vimos en el tema referido a la heterocedasticidad que es una buena idea utilizar los errores
estándar robustos a la heterocedasticidad (entre corchetes). Es por ello que en ocasiones mostramos
ambos errores estándar.
Si incluimos el número de miembros del hogar tenemos
---
In (consumoi) = 4, 729 +O, 496·1 n (ingresoi) +O, l2l·tamañoi
(0,638) (0,066) (0,027)
[O, 700] [0,072] [0,026] (8.1.8)
n = 207, R 2 = O, 3704, R2 = O, 3642
Akaike = 1, 313, Schwar z = 1, 361.
5
E I lector interesado en un tratamiento más formal de este supuesto puede encontrarlo también es la sección
en la que se encuentra dicha definición.
Tema8 291
La muestra ha aumentado de 95 a 207 observaciones. Todos los regresores son significativos

a los niveles usuales. La preferencia del segundo modelo (8.1.8) respecto del primero es clara: la
variable explicativa «tamaño» es significativa, el coeficiente de determinación corregido es mayor
(0,3642 > 0,3075) y los valores de los criterios Akaike y Schwarz son menores (1,313 < 1,394 y
1,361 < 1.426 respectivamente).
Si comparamos antes y después de aumentar la muestra, vemos que el sesgo se mantiene.
El signo y el tamaño del sesgo de la expresión (8.1. 7) dependen de los signos y magnitudes del
parámetro excluido y de la correlación entre las variables «tamaño» e «ingreso». En este caso
el parámetro excluido y la correlación entre el ingreso y el tamaño familiar son positivos, y por
tanto el sesgo de estimación también lo es. Dicho de otra forma, el regresor de la expresión (8.1.7)
sobrestima la elasticidad ingreso-consumo de las familias.
Obviamente, como hemos visto en la sección anterior, el incluir una variable adicional a la
regresión tiene también costes: los derivados de la falta de precisión en las estimaciones de los
restantes coeficientes en el caso de que su coeficiente en el modelo po blacional sea nulo (esto
es cuando sea irrelevante). Por tanto parece razonable buscar un equilibrio entre la búsqueda
de la insesgadez y la varianza (desviación estándar) del coeficiente de interés. Las siguientes
pautas pueden ser una guía para saber si incluir o no una variable adicional:
El primer paso es tener claro cuáles son los coeficientes de interés en la regresión, los
cuales configurarán la especificación base. Esto dependerá directamente de la(s) pregunta(s)
a la(s) que pretenda responder el estudio econométrico. En el caso del ejemplo anterior, el
objetivo es saber el efecto que tiene el ingreso familiar en la pauta de consumo. El segundo
paso consiste en formar una lista de variables cuestionables que sean potenciales fuentes de
sesgos importantes, y que por tanto podrían ayudar a mitigar los sesgos de variables omitidas.
Para conformar la lista de variables cuestionables tendremos que utilizar fundamentalmente
razonamientos informados de tipo económico y que por tanto, generalmente, requieren del uso
de la teoría económica o de estudios analíticos previos.
El tercer paso consiste en aumentar la especificación base con las variables de control
adicionales que hemos identificado en el segundo paso. En caso de que los coeficientes de
las variables de control adicionales sean estadísticamente significativos o si los coeficientes de
interés cambian claramente con la inclusión de dichas variables de control, entonces deberían
incorporarse en la especificación del modelo. En caso contrario, tales variables adicionales son
perfectamente prescindibles.
Por tanto, si hay disponibilidad de variables de control adecuadas es posible mitigar el
problema del sesgo de variable omitida. Pero ¿qué alternativas existen cuando no se dispone
de variables control? En tal caso las soluciones que ha desarrollado la econometría pasan por
la utilización de diferentes tipos de datos.
Una solución consiste en usar datos en los que se observa la misma unidad en diferentes
momentos del tiempo (datos de panel). Como se explica más adelante en el tema dedicado a
este tipo de datos, los datos de panel permiten que sea posible tener en cuenta las variables
omitidas, siempre y cuando estas variables omitidas no cambien con el tiempo.
Otras soluciones son: (i) utilizar la técnica de regresión de variables instrumentales, técnica
que también estudiamos posteriormente con detenimiento; o bien, (ii) diseñar un estudio en
el que el efecto de interés se analice mediante un experimento aleatorizado controlado (ver la
sección 1.3). Las soluciones de datos de panel y las soluciones (i) y (ii) serán tratadas en la
Parte II del libro.
8.2. MALA ESPECIFICACIÓN FUNCIONAL
La mala especificación funcional se produce cuando proponemos una relación entre la

variable dependiente y las variables explicativas que difiere de la forma funcional de la función
de regresión poblacional (FRP). En este caso la elección de las variables es correcta, pero no
lo es la forma en que establecemos su influencia.
En el Ejemplo 10 planteábamos una influencia cuadrática del nivel de estudios terminado
y la antigüedad en la empresa sobre el salario hora
salarioi = (Jo + f31 ·estudiosi + f32·estudios;

(8.2.1)
+f33·antigüedadi + f33·antigüedad; + Ei ·
Consideremos que (8.2.1) está funcionalmente bien especificada. La estimación de un mo-
delo donde excluimos la variable «estudios 2» o «antigüedad 2» implica cometer error de mala
especificación funcional. En realidad se trata de un caso de sesgo de omisión de variables rele-
vantes: las variables omitidas en este caso son los términos que reflejan los aspectos cuadráticos
que faltan en el modelo especificado.
El error de especificación funcional se da, por ejemplo, si el modelo de la expresión (8.2.1 )
fuera el «verdadero modelo», pero nosotros estimáramos un modelo en el que algunas de
las variables estuvieran en logaritmos entonces también estaríamos cometiendo un error de
especificación funcional.
Cuando tratamos una variable ordinal con valores múltiples como si fuera una variable
cuantitativa, como hacemos en la expresión (8.2.1) con el nivel de estudios terminados, estamos
suponiendo que los estudios tienen forma continua y cuadrática, hipótesis que no es cierta en
este caso concreto, como vimos al desagregar la variable «estudios» en variables dicotómicas
de características múltiples. De manera que en este caso, expresión (8.2.1), también estamos
incurriendo en una especificación funcional errónea.
Resulta imposible realizar una lista completa de los posibles errores de especificación
funcional y en ocasiones es difícil identificar la razón exacta por la que la forma funcional
especificada es incorrecta.
8.2.1. El contraste general de mala especificación funcional

El contraste de error de especificación RESET de Ramsey (1969) resulta muy útil a estos
efectos. Si el modelo original (8.1.1) cumple con el supuesto de esperanza condicionada del
término error nula, ninguna función lineal añadida a la expresión (8.1.1) será significativa.
Para detectar formas generales de mala especificación funcional, RESET añade un polinomio
de los valores ajustados por MCO de esa misma Ecuación (8.1.1), por consiguiente, para
aplicarlo, debemos decidir primero cuántas funciones de los valores ajustados de la regresión
Tema 8 293
original, Ecuación (8.1.1), incluimos en la regresión ampliada del contraste RESET. En la

mayoría de los casos es suficiente con incluir los t érminos al cuadrado y al cubo. Por tanto la
ecuación ampliada para realizar el contraste RESET es
(8.2.2)
donde aparecen como variables explicativas los valores ajustados de la Ecuación (8 .1.1) eleva-
dos al cuadrado «Y 2» y al cubo «Y 3 », es decir, incluimos funciones no lineales de las variables
explicativas de la Ecuación (8.1.1).
La hipótesis nula «Ho : 81 = 82 = 0» contrast a que la expresión (8.1.1) está correctamente
especificada. Podemos utilizar un contraste tipo «F» o también la versión LM del contraste,
en cuyo caso la distribución utilizada será una «x§». Veamos un ejemplo.
Ejemplo 25. La demanda de chocolate en tabletas

Para estimar la demanda de tabletas de chocolate per cápita, especificamos dos modelos
alternativos. En ambos hemos incluido como variables la cantidad de tabletas consumidas per
cápita, el precio medio por tableta (en euros del año 2000), la renta disponible per cápita (en miles
de euros del año 2000) y variables dicotómicas para el iminar la fuerte estacionalidad del consumo
de chocolate. Los datos se han obtenido a partir de la encuesta continua de presupuestos familiares
entre el primer trimestre de 1998 y el último de 2005 y de la contabilidad nacional española. El
primer modelo estimado tiene todas las variables en niveles
ch-;;;;¡;;tet = O, 600 - O, 097·preciot + O, 094·ydt

(0,151) (0,011) (0,035)
[0,178] [0,020] [0,034]
-0, 052·Q2 - o, ll6·Q3 +o, 185·Q4 (8.2.3)
(0,027) (0,026) (0,032)
[0,032] [0,021] [0,022]
n = 32, R 2 =O, 8666, R2 =O, 8410, SCR =O, 069.
El segundo usa logaritmos de todas las variables excepto para las binarias estacionales
----
In (chocolatet) = -1, 562 -
(0,339)
1, 147·1n (preciot) + 1, 780·1n (ydt)
(0,082) (0,249)
[0,346] [0,083] [0,304]
-0 , 121·Q2 - o, 293·Q3 +o, 360·Q4 (8.2.4)
(0,040) (0,040) (0,045)
[0,047] [0,041] [0,052]
n = 32, R 2 =O, 9490, R2 =O, 9391, SCR =O, 153.
Nos preguntamos si alguno de los dos modelos está bien especificado. Para ello estimamos las
ecuaciones ampliadas de ambos modelos incluyendo las variables estimadas por MCO de los mo-
delos (8.2.3) y (8.2.4) elevadas al cuadrado y al cubo. La ecuación ampliada del contraste RESET
del primer modelo (8.2.3) es
--
chocolaiet = 1, 361 - O, 293-preciot +O, 370·ydt
(0,646) (0,138) (0,146)
-0 , 173·Q2 - o, 401·Q3 +o, 593·Q4
(0.074)
- 8, 207· ( ch--;;;;;:-aiet
(3,709)
r
(0,167) (0,274)
+ 8, 121 · ( ch--;;;;;:-aiet
(2,945)
)3
(8.2 .5)
n = 32, R 2 =O, 9465 , R2 =O, 9309, SCR =O, 028 .
El valor del contraste de la «F» es 17,92 [ <º(~~~.~~~~~;:~/

2
J.
Este es el valor empírico de una «F2,24»
con un p-valor asociado prácticamente nu lo, por lo que la evidencia para rechazar la hipótesis nula
de especificación correcta es muy fuerte cualquiera que sea el nivel de significación elegido, en
consecuencia podemos afirmar que el modelo (8.2.3) está mal especificado. La ecuación ampliada
del contraste RESET para el modelo (8.2.4) es
--
In (chocolaiet) = -2, 674 - 1, 820·1n (preciot)
(1,979) (1 ,395)
+ 3, 066·1n (ydt)
(2,385)
-0, 210·Q2 - o, 521·Q3 +o, 565·Q4
(0,166)
+o, 495.
(1 ,397)
[in
(0,386)
r (0,462)
(c~aiet) +o, 097· [in (c~aiet)

(0,475)
r (8.2.6)
n = 32, R 2 =O, 9514. R2 =O, 9372 , SCR =O, 146.
El va 1or de 1 contraste de 1a « F » es O,593 [ (0 (l-o,

,9514-0 ,9490)/2]
95141¡24
1 . d
, cuyo p-va or asocia o es
o,5600 . por
tanto la evidencia para rechazar la hipótesis nula de especificación correcta es muy débil , desde
luego no podemos rechazarla a los niveles usuales del 5 % ni del 10 %; en consecuencia el modelo
en logaritmos (8.2.4) es claramente preferible al estimado en niveles (8.2.3) y el contraste RESET
sugiere que el modelo elegido goza de especificación funcional correcta.
En el ejemplo anterior hemos visto cómo rechazamos el modelo en niveles mientras que lo
aceptamos en logaritmos . Quizás el mayor inconveniente del contraste RESET sea que no nos
informa de cómo proceder cuando rechazamos un modelo. Sin embargo, nos da información
lo suficientemente relevante como para justificar su utilización, como un paso importante en
la especificación de un modelo econométrico.
8.2.2. Contrastes con modelos no anidados

Cuando un modelo incluye a otro se dice que este está anidado en aquel. El modelo (8.1.1)
está anidado en (8.1.4). P ero cuando las variables independientes son diferentes entonces se
denominan modelos no anidados.
(8.2 .7)
Así los modelos (8.1. 1) y (8. 2.7) son modelos no anidados puesto que las variables indepen-
dientes de ambos modelos son diferentes (no es necesario que todas las variables independientes
Tema8 295
sean distintas, basta con que alguna de las variables en ambos modelos sean distintas para
que el modelo sea no anidado )6 .
Cuando los modelos son no anidados, no podemos utilizar los contrastes tipo-F.
Una solución propuesta por Mizon y Richard (1986) es estimar un modelo general que
contenga las variables explicativas de ambos modelos, es decir, estimar
Y cont rastar mediante la «F» habitual, la hipótesis nula de que el modelo correcto es
(8.1.1) «Ro : Ók+i = Ók+2 = ... = Ó2k = Ü», y posteriormente contrastar la hipótesis nula de
que el otro modelo (8.2.7) es correcto «Ro : ói = Ó2 = ... = ók = Ü».
Alternativamente podemos utilizar la prueba «J» propuesta por Davidson y MacKinnon
(1981), basado en el estadístico «t» usual, en la siguiente expresión:
(8 .2.9)
donde la variable «Y/» es la estimación MCO del modelo (8.2.7). Si <«Pi» es significativo,
rechazamos el modelo (8.1.1).
Lo mismo hacemos a partir de la expresión (8.2. 7), estimando el modelo ampliado siguiente:
(8.2 .10)
donde la variable «Y/» es la estimación mínimo cuadrática del modelo (8.1.1). Si <«h» es
significativo, rechazamos el modelo (8.2. 7).
Los contrastes de modelos no anidados pueden llevarnos a soluciones en las que no prevalece
un modelo sobre otro, es decir al rechazo o «aceptación» de ambos modelos. En el caso de
«aceptación» de ambos modelos (<Pi y </J2 no significativos) podemos utilizar el coeficiente de
determinación, corregido o sin corregir, o los criterios de Akaike o Schwarz para decidirnos
por uno de ellos. En el caso de rechazo de ambos (<Pi y </J2 significativos) tendremos que seguir
trabajando la especificación del modelo.
Veamos un ejemplo.
Ejemplo 26. La demanda de carburante para usos de locomoción

Con datos de la encuesta continua t rimestra l de presupuestos familiares entre 1998 y 2005 ,
estimamos dos modelos no anidados de la ecua ción de de manda de carburante. En ambos utilizamos
como variable dependiente el incremento trimestra l (e n litros) del consumo per cápita de carburante
para locomoción en logaritmos 7 y como variable independiente los incrementos del precio medio
del litro de combustible para uso de locomoción (en eu ros constantes de 2000) .
La estimación del primer modelo es
6
En este sentido los modelos del Ejemplo 25 no son anidados puesto que ninguno incluye al otro, pero
tampoco son no anidados puesto que las variables dependientes son también diferentes.
7
Como ya sabemos , los incrementos o diferen cias sucesivas (.0.Zt = dZt = Zt - Zt-i) de las variables en loga-
ritmos equ ivalen a tasas de variación en t an t o por uno .
--
.6.ln (carburantet) = O, 007 - O, 732·'6.preciot
(0,012) (0,143)
[0,008] [0,097]
= 31 , R 2 =O, 4748, R2 = O, 4567
n
(8.2.11)
Akaike = -2, 520, Schwar z = -2, 490
RESET =O , 250,p - valor= O, 7810,
donde los incrementos de precios están en niveles. El contrate general de especificación funcional
(RESET) tiene un p-valor de 0.7810 de manera que hay una fuerte evidencia para no rechazar la
hipótesis nula de correcta estimación funcional. Los incrementos de los precios son significativos a
los niveles usuales. La interpretación es clara: un incremento de O,10 euros por litro de combustible
(en términos reales o en euros del año 2000) provoca una disminución del 7,32 % del consumo de
combustible per cápita (0 ,1·0,732·100 = 7,32).
La estimación del segundo modelo es
--
.6.ln (carburantet) =O, 008 - O, 705·'6.ln (preciot)
(0,012) (0,136)
[0,008] [0,071]
n= 31 R 2 = O 4822 R2 = O 4644 (8.2.12)
' ' ' '
Akaike = -2, 535, Schwar z = -2, 442
RES ET = O. 077, p - valor = O, 9259.
El estadístico RESET indica de nuevo que la especificación funcional es correcta y el estimador

del precio es significativo a los niveles usua les. Un incremento del 1 % del precio implica una
disminución de la cantidad consumida del 0,71 %.
Los modelos (8.2.11) y (8.2.12) son no anidados puesto que las variables independientes son
diferentes en ambos. Nos preguntamos cuál de los dos modelos debemos elegir. Desde luego
una opción es comparar ambos modelos como si fueran distintos (ni anidados ni no anidados)
como hicimos en el Ejemplo 25. Siguiendo este criterio no podemos rechazar ninguno por mala
especificación funcional.
También podemos utilizar el contraste sugerido por Mizon y Richard (1986) para modelos no
anidados, es decir, estimamos la ecuación ampliada
--
.6.ln (carburantet) =O, 008 - 1, 329·'6.ln (preciot) +O, 656·'6.preciot.
(0,012) (1.849) (1,937)
(8.2.13)
Primero contrastamos la hipótesis nula de que el modelo correcto es (8 .2.11 ). El estimador de

la variable «.6.ln (preciot)» no es significativo (1,329/1,849 = 0,719) , y por tanto no podemos
rechazar el modelo (8.2.11).
En segundo lugar contrastamos la hi pótesis nula de que el modelo correcto es (8 .2.12). El
estimador de la variable «preciot» tampoco es significativo (0,656/1 ,937 = 0,339) de manera
que tampoco podemos rechazar el modelo (8.2.12) .
Para utilizar el estadístico «J» de Davidson y MacKinnon, primero estimamos las siguientes
regresiones
Tema8 297
--
b.ln (carburantet) = -0, 005 +O, 506· b.preciot
(0,024) (1,906)
-- log-log (8.2.14)
+1, 699·b.l n (carburantet) ,
(2,640)
--
b. ln (carburantet) =O, 013 - 1, 172·b.ln (preciot)
(0,024) (1,820)
-- log-nivel (8.2. 15)
- 0, 706·b.l n (car burantet) ,
(2,658)
-- log-log
donde «b. ln (carburantet) » es la estimación mínimo cuadrática del modelo (8 .2.12) mien-
-- lag-nivel
tras que la estimación por MCO del modelo (8.2.11) es «b. ln (car burantet) ».
-- log-log
Como en la Ecuación (8.2.14) la variab le «b. ln (carburantet) » no es significativa
(1 ,699/2 ,640 = 0,644) , no podemos rechazar el modelo(8.2.11).
-- log-nivel
En la Ecuación (8.2. 15) la variable «b. ln (carburantet) » tampoco es significativa
(0 ,706/2, 658 = 0,266) , por tanto tampoco podemos rechazar el modelo (8.2.12).
En defin it iva , tanto si utilizamos el cont raste de Mizon y Richard como la <d » de Davidson y
Mackinnon , no hay evidencias para rechazar ningu no de los modelos. Alternativamente podemos
seleccionar el modelo que mejor ajuste (ambos mode los son no anidados y necesariamente la
variable dependiente es la misma en ambos, de ma nera que podemos comparar el nivel de ajuste
entre ellos) util izando el «R2 », el «Rh> o los crite rios de Akaike o Schwarz . El ajuste del modelo
(8.2.12) es mejor puesto que presenta mayores «R2 » y «Rh> y menores valores de los criterios
Aka ike o Schwarz .
8.3. ERRORES DE MEDIDA
Hasta ahora hemos supuesto que los datos utilizados para estimar los parámetros de
nuestros modelos son contrapartidas precisas de los valores teóricos, pero en la práctica esto
generalmente no es así. Son muchos los problemas de medición que pueden afectar a los datos
que utilizamos. Las variables agregadas, como el PIB , son solo estimadores de sus verdaderos
valores. Otras variables como la cantidad de dinero. la depreciación, los tipos de interés o los
rendimientos del capital son variables que establecemos en el ámbito del análisis económico y
no siempre disponemos de una única medida para cada una de ellas. Incluso en ocasiones las
variables teóricas no tienen contrapartida física: el fondo de comercio, la renta permanente o las
expectativas son ejemplos claros. Obviamente, los errores en las encuestas como consecuencia
de preguntas no contestadas u otras complicaciones, así como los errores de computación son
problemas que también inducen a errores de medida.
Sean cuales fueren las razones por las que se producen los errores de medida, lo cierto es
que estos errores pueden ser fuente de especificaciones sesgadas.
Aunque el problema estadístico de errores de medida es similar al caso de variables omi-

tidas, conceptualmente es diferente. En este caso la variable tiene un significado claro, y sin
embargo los datos disponibles contienen errores. Veamos los distintos casos en que se pueden
dar errores de medida.
8.3.1. Error de medida en la variable dependiente

Suponemos que el siguiente modelo cumple los supuestos del modelo de regresión lineal,
(8.3.1 )
donde la variable con asterisco «Yi*» representa la variable sin error de medida. El error de
medida será por definición
w =Y-Y*. (8.3.2)
«Yi » es la variable con errores de medida. Sustituyendo en (8.3.1) tenemos
(8.3.3)
modelo con todas las variables observables y en consecuencia estimable por MCO.
Si suponemos (o es realista considerar para los datos en cuestión) que el error de media de
la variable a explicar «Wi» es independiente de las variables explicativas «Xji», los estimadores
son insesgados y consistentes y los métodos de inferencia usuales válidos.
Para comprobarlo fácilmente consideremos el modelo de regresión simple
donde el límite en probabilidad del estimador MCO del parámetro X es
plim (L i XiYi)-n cov(X, Y)

plim (Li xT)-n var(X)
cov(X, Y*+ w) cov(X, Y*)+ cov(X, w)
var (X ) var(X)
que nos permite comprobar que
si cov(X, w) =O.
También se genera un problemas de ineficiencia al utilizar Y: los errores tienen mayor
varianza «a'1 < a;+ a~ » , y en consecuencia las varianzas (y también los errores estándar) de
los estimadores serán también mayores.
En definitiva solo si los errores de medida de la variable dependiente están sistemática-
mente relacionados con alguna de las variables independientes del modelo, los estimadores
serán sesgados. Pero si el error de medida es aleatorio y por consiguiente independiente de
las variables explicativas, como se suele suponer al ser lo más habitual, los estimadores serán
apropiados aunque con mayores errores estándar.
Tema8 299
8.3.2. Error de medida en la variable explicativa

Los problemas de errores de medida en las variables explicativas son mayores que los
producidos como consecuencia de errores de medida en la variable dependiente.
Supongamos que el modelo es de la siguiente forma
cuyo error de medida es
(8.3.5)
Sustituyendo (8.3.5) en (8 .3.4) tenemos
Las propiedades de los estimadores del modelo (8.3.6) dependen de cómo consideremos o
caractericemos los errores de medida, es decir, dependen de qué supuestos hagamos sobre error
de medida de la expresión (8.3.5). La expresión (8.3.6) sugiere que los sesgos dependerán de
la correlación entre el error Vi, que incluye el error de medicición, y el regresor X1i· De modo
que si Wi estuviera correlacionado con X1i, también lo estaría Vi y habría sesgo e incosistencia
en /31.
Es posible que el marco en el que se obtienen los datos nos lleve a suponer que el error de
medida no está correlacionado con la variable observable, digamos «X1 », es decir que
(8.3.7)
Este marco puede producirse, por ejemplo, cuando los datos provienen de una encuesta en
la que nos parece razonable considerar que el encuestado hace su mejor aproximación, dada
toda su información, acerca del verdadero valor de la variable sobre la que es preguntado. El
error de aproximación (esto es, el error de medida) no está entonces correlacionado con la
respuesta de cada individuo, si ha utilizado toda su información.
Por los supuestos del modelo de regresión lineal sabemos que «X1 » y «Ei» están incorrela-
cionados en (8.3.6); además, por el supuesto (8.3.7), «X1 » y «W1i» también están incorrelacio-
nados. Por tanto «Ei - /31 w1i» de la expresión (8.3.6) tiene media cero y está incorrelacionado
con «X 1». En definitiva si se cumple el supuesto (8.3.7), el modelo con errores de medida
(8.3.6) tendrá estimadores consistentes. En tal caso, como hemos visto tendremos estimado-
res consistentes, pero no olvidemos que la varianza del coeficiente /31 será mayor que en el
caso de ausencia del error, puesto que var (éi - j31 wli) > var (éi)·
Alternativamente el marco en el que se recolectan los datos nos puede hacer pensar que
el error de medición es puramente aleatorio, lo que se denomina modelo clásico de error de
medición. En tal caso podríamos considerar que el error de medida está incorrelacionado con
la variable no observable:
corr (xr' w1) =o, (8.3.8

y los errores de medida son de la forma
(8.3.9
donde el componente aleatorio w 1 es tal que tiene media cero y varianza constante, y además
corr (wi, éi) =O. Teniendo en cuenta la expresión (8.3.9), entonces la variable observada «X 1»
y el error de medida «w1» estarán correlacionados:
(8.3.10
El error de medida «Ei» y la variable observable «X1» están correlacionados en la ex-
presión (8.3.6), lo que incumple el supuesto de esperanza condicionada nula, y por tanto lo
estimadores de (8.3.6) son sesgados e inconsistentes.
El caso del modelo de regresión simple utilizado en esta sección nos permite comprobar la
expresión del sesgo para el modelo clásico de error de medición. Si desarrollamos el límite en
probabilidad del estimador MCO se tiene
plim (¿=i XiYi)-n cov(X, Y)

=
plim (L:i xl)-n var(X)
cov(X* + w, Y*) cov(X*, Y)+ cov(Y, w)
var(X* + w) var(X*) + var(w)
si multiplicamos por var(X*)/var(X*) , a ser la unidad, tendremos dado que cov(Y,w) =O
cov(X*, Y)/var(X*) f31 = var(X*) {3 .

plim/31 1
[var(X*) + var(w)] /var(X*) 1 + var(w)/var(X*) var(X*) + var(w)
A
El término ,\ es un ratio de varianzas. En el numerador la varianza de la señal y en el

denominador la varianza total (de la señal y del error de medida de la misma). Por tanto este
ratio está entre cero y la unidad. También esta última expresión nos permite ver (operando
mínimamente en el último igual) cuál es el sesgo (asintótico) de /31
var(w) )
= >.[31 - =- =- var(X*) + var(w) f31.
A (
plim(f31 - f31) f31 (1 - >.)(31
Y por tanto: (i) el estimador /3 1 estará sesgado hacia cero; es decir, si (3 1 > O, entonces
(/31 - f31) < O, mientras que si f31 < O, entonces (/31 - f31)
> O; por lo que podemos decir que
/3 1 infraestima el coeficiente poblacional de la variable medida con error; (ii) la inconsistencia
puede ser despreciable si la variabilidad del error de medida en relación a la variablidad de la
variable explicativa original (es decir si var(X*) es alta en relación a lavar( w)).
Tema 8 301
A modo de resumen hemos comprobado que dependiendo del supuesto que hagamos,
(8.3.7) u (8.3.8), los estimadores de los modelos con errores de medida serán consistentes o
inconsistentes, y esta inconsistencia podría resultar insignificante, pero no nula. Resulta difícil
determinar en la práctica cuál de los dos supuestos es más realista.
Un elemento a considerar es el sesgo que el error de medida puede inducir sobre otras
variables del modelo distintas de la medida con error. Para comprobarlo consideremos el
efecto sobre la variable constante del modelo de regresión simple. Calculamos el límite en
probabilidad para el mismo
plim ( So) plim (Y - S1 X *) = JE(Y) - plim ( S1 X*)
= lE(Y) - plimS1lE(X + w)
JE(Y) - \81lE(X),
que no es consistente, es decir no colapsa asintóticamente con /30, incluso si JE( w) = O.
/30 = JE(Y) - $1lE(X ).
Obsérvese que el error wi no está correlacionado con el valor de la variable medida Xi , ni

lógicamente tampoco la constante del modelo, y sin embargo se genera inconsistencia en
su coeficiente asociado. Pues bien, esto sucede también cuando consideramos un modelo de
regresión múltiple. En general (salvo casos muy particulares, casi solo contemplados en la
teoría), el error de medida en una variable produce inconsistencia en todos los coeficientes
estimados sj.
Una solución al problema del error en las variables es la estimación por variables instru-
mentales, que presentamos en la Parte II del libro. La estimación por variables instrumentales
que veremos en otros temas puede hacer que los estimadores de (8.3.6) sean consistentes in-
cluso en presencia de errores de medida generalizados. Otra solución pasaría por ser capaces
de modelizar el error, en particular esto sería factible en la medida en que tuviéramos infor-
mación adicional sobre >. lo que nos permitiría estimar este parámetro y por tanto corregir el
sesgo. En la mayoría de los casos esto no está alcance del usuario.
8.3.3. Variables aproximadas (variables proxies)

En ocasiones el problema con el que nos encontramos es que no existe ninguna variable
observable que se corresponda con la variable incluida en el modelo. El nivel cultural, la
inteligencia y otros factores similares suelen ser los ejemplos más utilizados. Por tanto, no se
trata puramente de un error en la medición.
Supongamos que el modelo poblacional consta de tres variables, y que una de ellas es no
observable. En ese caso el modelo poblacional es
(8.3.11)
donde denominamos a la variable inobservable mediante un asterisco «Xji». También supone-
mos que tenemos una variable que denominaremos variable proxy para la variable inobservable,
y en este caso la vamos a denotar por «X3i»· La relación entre ambas viene a través de la
siguiente relación lineal
(8.3. 12)
donde «E:3i» es el error que hace que «X3i» y «X3i» no sean iguales. «X3i» es una buena proxy
si está muy correlacionada con «X3i»; generalmente el parámetro será positivo «Ó3 > Ü», el
término constante puede ser positivo o negativo y permite que ambas variables se puedan
medir con escalas diferentes. Además, la variable proxy debe ser tal que sea redundante o
irrelevante en presencia de la inobservable X3i. Esto es, X3i afecta a la variable Y indirecta-
mente, solo a través de X3i. Si por ejemplo intentamos explicar la incidencia sobre el salario
de varias variables individuales, y una de ellas es la habilidad personal innata, entonces la
proxy «coeficiente intelectual» no tendría la menor importancia si conociéramos la habilidad
personal de cada individuo de la muestra.
Desde luego, siempre podemos estimar el modelo (8.3.11) eliminando la variable inob-
servable, en cuyo caso nos enfrentamos al problema de variables relevantes omitidas, y los
estimadores de «X ii» y «X2i» serán sesgados e inconsistentes si «X3i» está correlacionado
con alguna de las otras variables explicativas, «Xii» o «X2i»· Ante esta situación parece
una buena idea sustituir en el modelo (8.3.11) la variable inobservable «X3i» por la variable
aproximada «X3i», lo que denominamos solución por sustitución de variables omitidas .
Sin embargo «X3i» y «X3i» no son iguales, y para que «f31» y «f32» sean consistentes
debemos establecer dos supuestos, uno sobre «E:i» y el otro sobre «E:3i»:
l. Sabemos que los errores «E:i» de (8 .3.11) están incorrelacionados con «X1i», «X2i» y
«Xji» por el supuesto de esperanza condicionada nula «lE (éi 1 X1i, X2i, Xji) = 0». Ello
no implica necesariamente que la variable proxy «X3i» esté también incorrelacionada
con «Ei» , de manera que es necesario suponer que la variable aproximada o proxy «X3i»
también esté incorrelacionada con los errores «Ei» del modelo (8.3 .11).
2. Además necesitamos que el error «é3i» de (8.3.12) esté incorrelacionado con el resto
de variables explicativas, es decir que además de estar incorrelacionado con la variable
proxy «X3i », también lo esté respecto a «X1i» y «X2i»:
o dicho de otra forma, el valor esperado de la variable proxy solo debe depender en
media condicionada de la variable explicativa a la que sustituye en el modelo.
Si sustituimos la Ecuación (8.3.12) en (8.3.11), y realizamos algunas operaciones simples

podemos ver que
(8.3.13)
Bajo los dos supuestos anteriores, los errores «E:i + j33E3i» cumplen los supuestos usuales,
puesto que los errores de (8.3.11) y (8.3.12) tienen media cero y están incorrelacionados con
las variables explicativas. No obtendremos estimadores consistentes de los coeficientes de la
Tema 8 303
variable inobservable «(33 /= (33Ó3» ni del término constante «f3o /= f3o + (33Óo», pero sí del resto
de variables independientes «f31» y «f32».
Solo serán consistentes los estimadores de los modelos que incluyen variables aproximadas
si se cumplen las dos condiciones establecidas anteriormente. Es fácil demostrar que si la
variable inobservable está relacionada con todas las variables explicativas
(8.3.14)
es decir, si «Ói» y «Ó2» son distintos de cero entonces sustituyendo esta ecuación en (8.3.11)
tenemos que
(8.3 .15)
donde los estimadores son inconsistentes si la variable aproximada no es una buena proxy.
En todo caso parece razonable pensar que el sesgo sea menor cuando utilizamos la variable
aproximada que cuando omitimos la variable 8 . Veamos un ejemplo.
Ejemplo 27. Productividad y capital humano

Podemos plantear una función de Cobb- Douglas que incluya, además del stock de capital y del
factor trabajo, el capital humano, de la siguiente forma
(8.3.16)
donde «Y» representa la producción, «K» el stock de capital físico, «H» el stock de capital
humano y «L» el factor trabajo. También incluimos la restricción «1- (31 - f32» de rendimie ntos
constantes a escala.
Aplicando logaritmos y realizando operaciones sencillas tenemos que
lnY = lnA + (311nK + f32 lnH + lnL - (3 11nL - f32 lnL

In Y - lnL = lnA + f31 lnK - f31l nL + f32lnH - f32 lnL
lnt = lnA+ f31 lnf +f32lnf
Por consiguiente la productividad (producción por trabajador) depende del capital físico y humano
utilizado por trabajador. En consecuencia podemos estimar un modelo que relacione estas variables
añadiendo un término de error «Et». y realizando el cambio de variable «f3o = lnA», es decir,
podemos expresar el modelo de la siguiente manera [o lo que es igual, podemos estimar (8.3.16)
por mínimos cuadrados restringidos]
(8.3.17)
Pero el problema es que el capital humano del trabajador no es observable ya que depende de
la habilidad, la inteligencia y la preparación del trabajador. No obstante, probablemente el capital
humano esté muy relacionado con la formación del trabajador.
8
Generalmente se acepta que incluir una proxy, incluso si no es muy adecuada, es preferible (salvo excep-
ciones) a omitir una variable; véase por ejemplo Aigner (1974).
Con datos del Ministerio de Hacienda , la Contabilidad Nacional y el IVIE estimaremos el

siguiente modelo poblacional para España en t re 1980 y 2010:
In (i) = ,60 + ,61ln ( ~:) + ,61 ln (estudiost) +Et , (8.3.18)
donde la variable «estudiost» es el número medio de años de estudio por trabajador, dicho de
otra forma, utilizaremos como variable aproximada del capital humano los años de estudio por
trabajador. Además para evitar problemas propios del análisis de series temporales, estimamos el
modelo en primeras diferencias, cuyos resultados son
--ft)
6 1n (
t
=O, 355·6 1n (
(0,050)
lf:-) +O, 298·61n (estudiost)
t (0,088) (8.3.19)
[0,048] [0,073]
n = 30 R 2 = O 6430 R2
= O 6302
' ' ' ' '
donde todas las variables son significativa s a los niveles usuales. Por tanto un incremento del 1 %
en los años de estudio incrementa la pro ductividad del trabajo en un 0,30 %. Un incremento del
capital por trabajador del 1 % incrementa la productividad un 0,35 %.
Alternativamente podemos utilizar como variable aproximada del capital humano la proporción
de trabajadores que tiene al menos estudios de bachiller (o formación profesional superior), lo que
denominaremos trabajadores cualificados; los resultados son
--(,P.)
6 1n
t
= O, 356·61n (
(0,050)
lf:-) +O, 106·61n ( cuali~auiost)
t (0,032) t
(8.3.20)
[0,038] [0,030]
n = 30 R 2 = O 6406 R2 = O 6277
' ' ' ' .
De nuevo todas las variables son signifi cativas a los niveles usuales, la influencia del capital sobre
la productividad apenas ha variado (lo que es una prueba indirecta de que la influencia del capital
no es sesgada) ; sin embargo, la variable refer ida a la formación ha disminuido considerablemente .
Ahora un incremento de la proporción de trabajadores cualificados del 1 % incrementa O, 11 % la
productividad ; el ajuste de ambos modelos es similar. Sea como sea las evidencias sugieren que la
formación influye significativamente en la productividad del trabajo.
8.4. ÜTRAS FUENTES DE INVALIDEZ DEL MODELO
8.4.1. Problemas de selección muestra!

La validez del análisis de regresión t ambién se ve amenazada por la existencia de datos
perdidos. No es infrecuente que el investigador económico-social se enfrente a situaciones en
las que no existen datos. A los efectos de ver el alcance de la inexistencia de los mismos sobre
la validez del modelo, es preciso considerar la razón por la que dichos datos se consideran
perdidos. Los datos pueden faltar de manera totalmente aleatoria; es posible también que la
Tema 8 305
propia configuración de la variable X k determine o explique la pérdida de datos; y además,

los datos pueden faltar por motivos también relacionados con la variable dependiente, Y.
Cuando el motivo de la reducción de datos es por causas aleatorias, es decir , causas no
basadas en los valores de X y/ o de Y , entonces la reducción del tamaño muestral no produce
sesgo alguno. Si la pérdida de datos viene motivada por el valor de algún regresar, enton-
ces esto limitará el alcance o generalidad del modelo al no estar considerando las relaciones
introducidas para algunos valores de X , pero no se producirá tampoco problemas de sesgo.
Finalmente, cuando la pérdida de datos se debe a un proceso de selección que está relacio-
nado con el valor que toma la variable dependiente Y, entonces es posible que se introduzca
correlación entre el término error y los regresares. A este tipo de sesgo se le denomina sesgo
de selección muestrnl.
Uno de los supuestos del modelo de regresión con datos en forma de sección cruzada era
que la muestra que tomábamos de la población era aleatoria. Indirectamente presuponemos
que nuestros datos se obtienen por un proceso de muestreo aleatorio simple, y de hecho
consideramos dicha muestra nos es disponible. Estas asunciones no siempre son realistas.
Hay muchos mecanismos de selección muestral que nos conducen a muestras no aleatorias.
Podemos pensar, en el marco de datos por encuestas, en sujetos que no responden a preguntas
determinadas, o también en muestras mal diseñadas para obtener los datos, por ejemplo,
muestras que por diseño excluyan a parte significativa de la población de interés, por lo
tanto estaríamos analizando un subconjunto de la población, y no toda la población tendría
posibilidad de formar parte de la muestra. Un caso obvio es si queremos estimar la relación
entre los ingresos y algún regresar mediante una muestra aleatoria de la población. Si la
muestra que tenemos disponible está conformada por t rabajadores empleados (los que declaran
ingresos positivos), la estimación podría estar sujeta al sesgo de selección muestral.
La selección muestral está muy relacionada con modelos de truncamiento que trataremos
en la Sección 11.7.2, ya que la selección puede entenderse o configurarse a veces como un
modelo de truncamiento. Existen numerosos tratamientos para cuando seleccionada la muestra
queremos reducir o evitar el efecto del sesgo por selección muestral, sin embargo no se tratan
en este manual introductorio.
8.4.2. Causalidad simultánea
Cuando tenemos un modelo suponemos que las variables explicativas, X , son las que
<<causan» o generan cambios en la variable Y. La causalidad simultánea se produce cuan-
do la variable Y genera o «causa» cambios en alguna(s) de las variables X. Una regresión
MCO capturará ambos efectos, por lo que el estimador MCO será necesariamente sesgado e
inconsistente.
Para verlo con mayor detenimiento vamos a comprobar cómo la causalidad simultánea
induce a la existencia de correlación entre el regresar X y el término error en la regresión
poblacional de interés. Por comodidad y a efectos ilustrativos consideremos que existen solo
dos variables X e Y, y que existen dos ecuaciones que indican las relaciones de causalidad
entre ambas:
f3o + f31Xi + Ei, (8.4. l )

/O+ /lfi +Vi. (8.4.2)
La Ecuación (8.4. l) es la ecuación poblacional habitual en la que el coeficiente [31 es el

efecto sobre Y de una variación en X, y donde el término e representa otros factores influyente
distintos de X. La Ecuación (8.4.2) representa el efecto causal inverso de Y sobre X.
En esta situación es fácil ver que la causalidad simultánea conduce a la correlación entre
Xi y Ei. Para verlo, imaginemos, por ej emplo, que Ei es negativo en la Ecuación (8.4.1), lo que
hace disminuir }i. Este menor valor de Yi afecta al valor de X i a través de la Ecuación (8.4.2).
de modo que si el coeficiente /1 es, por ej emplo , positivo, un valor bajo de Yi conducirá a un
valor bajo en X i , y en tal caso, existirá correlación (positiva, en la misma dirección) entre X 1
Y éi·
Matemáticamente también es fácil comprobar la existencia de correlación entre X i y Ei·
La Ecuación (8.4.2) implica
cov(Jo+ 11Yi +vi, Ei )

11cov(Yi, Ei) + cov(vi , Ei)
/1cov(Yi, Ei )
11cov(f30 + f31Xi+ Ei, Ei )
11f31cov(Xi,Ei) +1w;.
Si despejamos cov(Xi, Ei ), obtenemos

2
/ lªc
COV ( X i ,Ei ) = ·
1 - 11!31
Para mitigar el sesgo de causalidad simultánea disponemos de dos posibilidades que se
presentarán en los próximos temas. Una solución es la estimación por variables instrumentales,
y otra solución consiste en diseñar un experimento aleatorizado controlado que anule el canal
de la causalidad inversa (de Y a X).
8.4.3. Errores estándar inconsistentes

La inconsistencia de los errores estándar origina que los contrastes de hipótesis presenten
un tamaño distinto del previsto por el nivel de significación deseado, así como que los intervalos
de confianza, digamos al 95 %, no incluyan al verdadero valor en el 95 % de las muestras
repetidas. En los temas precedentes ya hemos hablado de esta cuestión, y podemos decir
que las principales razones para esta inconsistencia son un tratamiento no apropiado de la
heterocedasticidad y la correlación del término error entre observaciones.
Por lo que se refiere a la heterocedasticidad, cabe decir que si utilizamos errores estándar
válidos bajo el supuesto de homocedasticidad, estos errores no constituyen una base fiable
para los contrastes de hipótesis y la construcción de intervalos de confianza. La solución a
Tema8 307
este problema ya la hemos tratado: utilizar errores estándar robustos a la heterocedasticidad,

y construir los estadísticos tipo F utilizando un est imador de la varianza también robusto a
la heterocedasticidad.
Por lo que se refiere a la correlación del término error entre observaciones, cabe señalar
inicialmente que este tipo de inconsistencia no ocurrirá si los datos son extraídos de una
población objeto de estudio mediante muestreo aleatorio. Esto es así porque la aleatoriedad
en el proceso de muestreo asegura que los errores estén distribuidos de manera independiente
entre una observación y la posterior. Por tanto este tipo de inconsistencias surgen en los datos
de panel y en los datos de series temporales. Si, por ejemplo, hacemos observaciones repetidas
de una misma unidad de análisis (individuo) a lo largo del tiempo, en caso de que el término
error contuviera una variable omitida persistente en el tiempo , entonces se induce correlación
serial en el error.
Otra situación en la que aparece la correlación del error de regresión entre distintas ob-
servaciones es cuando el muestreo se refiere a una unidad geográfica. Si existen variables
omitidas que reflejan influencias geográficas, estas variables podrían generar correlación entre
los errores de regresión de observaciones «cercanas» geográficamente.
Al igual que en el caso de la heterocedasticidad, tendremos estimadores MCO insesgados
y consistentes, pero los errores estándar nos podrán llevar a conclusiones no rigurosas. La
solución pasa por usar una fórmula alternativa para los errores estándar. Vimos en la Sección
6.2.2 las expresiones que proporcionan errores estándar que son robustos, tanto en presencia
de heterocedasticidad como de correlación serial.
8.4.4 . Modelos de regresión para la predicción
Es factible utilizar el análisis de regresión múlt iple para fines distintos de la estimación
de efectos causales. Una utilidad del mismo muy frecuente es usar el modelo para realizar
predicciones. En ese caso, y a diferencia del uso que veníamos dándole prioritariamente en
este texto, la validez del modelo se ve amenazada por otros factores . De hecho la preocupación
acerca de la estimación insesgada de los efectos causales ya no es un problema de validez
relevante. No debe sorprender en exceso que la insesgadez en la interpretación causal de
los coeficientes deje de ser un problema cuando nuestro interés se centra prioritariamente
en realizar pronósticos. Un modelo de regresión puede originar previsiones fiables , aunque
sus coeficientes no tengan un interpretación causal. De hecho el éxito de tales previsiones
dependerá de que el modelo explique gran parte de la variabilidad de la variable dependiente
y objeto de estudio, y de que la regresión sea est able en el tiempo.
El objetivo en estos casos es obtener un pronóstico fiable. Para ello la regresión estimada
debe poseer un poder explicativo relevante, sus coeficientes deben estar estimados con pre-
cisión, y debe de ser estable, es decir, que la regresión estimada sobre un conjunto de datos
determinados pueda ser fiable para realizar pronósticos a partir de otro conjunto de datos.
Dado que el uso de modelos de regresión para la predicción está más orientado a un
contexto de análisis distinto de la causalidad, y al ser específico de los datos en forma de serie
temporal, trataremos estas amenazas a la validez del modelo en la última parte de este libro.
EJERCICIOS
Teóricos
l. Suponga que el verdadero modelo es Yi = f3o + f31X1i + f32X2i + Ei

pero en su lugar se
estima Yi = 808f31X1i +Vi, es decir, se omite la variable relevante X2.
a) Muestre que, en general, J1 obtenido por MCO es un estimador sesgado de 81.

b) Indique si es posible determinar la dirección del sesgo ¿De qué depende esta?
e) Justifique en qué situación el estimador MCO anterior será insesgado a pesar de
haber omitido una variable relevante.
2. Considere ahora la situación inversa (es decir, que el modelo simple es el correcto y se
estima el que incluye además X2i)· Pruebe que el estimador MCO de /31 es un estimador
insesgado de 81.
3. Suponga que pretende estimar el modelo, Yi = 80 + 81Xt + Ei, donde la variable expli-
cativa Xt es medida con error. Considere cuál sería el efecto de los errores de medida
en los siguientes casos:
a) Xi = Xt + h donde h es una constante arbitraria.

b) Xi = Xt + Ui, donde Ui es una perturbación aleatoria con las propiedades habi-
tuales.
4. Sea el modelo lineal general yt = Xtf3 +Et:
a) Verifique que dicho modelo está anidado en el modelo en cuasidiferencias visto en

la Sección 6.2.4.
b) Explique si se podría llevar a cabo un contraste estadístico para decidir cuál de
los dos es el modelo más apropiado. En particular, diga si la estimación MCO del
modelo en cuasidiferencias le parece adecuada.
e) A su vez el modelo en cuasidiferencias está anidado en el modelo más general
yt = pYt-1 + X tf3 + Xt-1/ + Ut, donde Xt incluye un término independiente.
Indique qué restricciones impone el modelo en cuasidiferencias sobre este último
modelo.
d) Las restricciones anteriores se conocen con el nombre restricciones de factor común.
El operador de retardos B aplicado a una serie temporal Xt la retarda un periodo,
es decir, BXt = Xt- l · Utilice este operador para hacer patente la existencia de un
factor común en los dos miembros de la ecuación (si las restricciones son ciertas).
Tema8 309
Tabla 8.1: Especificaciones alternativas de la demanda de café

V. Dependiente: Log(Y) (1) (2) (3)
Constante 16,28 18,99 9,34
(1,85) (1 ,85) (2,33)
Log(X1) -1 ,02 -1,13
(0, 16) (0,14)
0, 10 0,29
(0,06) (0,09)
0. 70 0.677 0.263
Prácticos
5. Con datos del mercado de la leche se ha est imado la ecuación de demanda que aparece
en la columna 2 (especificación 1) de la Tabla 8.1 (entre paréntesis aparecen los corres-
pondientes errores estándar). A los efectos de este ejercicio, consideraremos que esa es
la especificación correcta. Sabemos además que la correlación precio y renta es -0.46.
En la especificación (2) se ha estimado el consumo de café en función de su precio, y en
la (3) en función de la renta disponible.
a) Explique por qué las ecuaciones (2) y (3) proporcionan, para precio y renta, esti-
madores diferentes de los obtenidos en (1).
b) Con los datos del enunciado, ¿puede justificarse la dirección de estas desviaciones?
e) Las regresiones simples parecen sugerir que el precio del café explica el 67.7% de
la variación del consumo y que la renta explica el 26.3 % de dicha variación. Sin
embargo cuando ambas variables se incluyen en la regresión, la explicación es solo
del 70 %. Explique esta aparente anomalía.
d) La tabla ET8 _ 1 contiene las mismas series referidas a la cerveza (todos los datos
están en logaritmos). Reproduzca el análisis anterior y comente los resultados.
Y = consumo de café; X 1= precio (nominal); X2 = renta disponible (nominal)
6. La tabla ET8 2 recoge datos trimestrales referidos al mercado de carburante en España

entre los años 1998 y 2005. En concreto contiene consumo per cápita de carburante,
precio del carburante en términos reales y rent a disponible per cápita.
a) Especifique y estime los modelos,
y comente en términos generales ambas estimaciones.

b) Compare los modelos anteriores utilizando los siguientes criterios: coeficiente de
determinación y coeficiente de determinación corregido; logaritmo de verosimilitud;
criterio de información de Akaike (AIC) y criterio de información de Schwarz (SIC)
e) Utilice un contraste de Ramsey para valorar dichas especificaciones (basta con que
incluya un término adicional en la ecuación de contraste).
d) Haga las modificaciones que le parezcan más oportunas para encontrar un modelo
más apropiado.
Parte II
AMPLIACIÓN DEL ANÁLISIS DE

REGRESIÓN
311
Introducción
En la Parte I de este libro hemos presentado la potencia y enorme utilidad que tiene
la regresión múltiple para «medir» o considerar el efecto parcial, eventualmente, causal que
sobre la variable de interés tiene una variación en las variables explicativas independientes.
El último tema de la Parte I señalaba una serie de limitaciones nada despreciables a tener
en consideración para tomar decisiones sólidas en base a estudios de regresión. U no de los
problemas más comunes es que la exclusión de una(s) variable(s) podía llevar a que los coefi-
cientes MCO del modelo de regresión estimado presentaran sesgo de variable omitida. Otros
problemas aparecen cuando hay errores en las variables y la potencial causalidad simultánea,
ambos generan, como hemos visto , problemas de sesgo que invalidan las conclusiones.
En esta parte ampliamos el modelo de regresión con la intención de ofrecer técnicas y
metodologías que palíen o resuelvan estos problemas. El Tema 9 presenta un método general
para la obtención de un estimador consistente de los coeficientes desconocidos de la función
de regresión poblacional cuando la variable explicativa, X, está correlacionada con el término
error. El Tema 10 presenta una metodología que permite que la estimación del modelo de
regresión no se vea afectada por la omisión de algunos tipos de variables omitidas que no
son observables. Para ello es requisito necesario utilizar datos de panel. El Tema 11 ofrece
una herramienta para tratar problemas relacionados con la forma funcional en el modelo de
regresión. En particular trata una situación de gran utilidad que se produce cuando la variable
a explicar es de naturaleza limitada por ser discreta o limitada (ya sea binaria o no, o bien
referidos recuentos o unidades temporales, etcétera), y queremos explicar los motivos por
los que cambia el comportamiento de este tipo de variable limitada dependiente. Tanto los
modelos a utilizar como la interpretación de la regresión cambian sustancialmente respecto
a lo visto hasta el momento. Finalmente el Tema 12, pese a ser considerado como un tema
avanzado no solo por el tratamiento analítico, sino también a nivel conceptual, presenta una
temática doblemente interesante. Por un lado , en la tónica de los temas precedentes de esta
parte, ofrece soluciones a los problemas de causalidad y simultaneidad, lo cual de por sí es
enormemente útil. Y por otro lado, las herramientas presentadas en este tema son utilizadas
cada vez con mayor frecuencia en la evaluación de programas económicos y sociales.
313
Tema 9
REGRESIÓN CON VARIABLES

INSTRUMENTALES
En el tema anterior comprobamos que aunque el modelo de regresión lineal (es decir, el
caracterizado con los supuestos de la página 224) es hasta cierto punto general, sin embargo
la realidad de las relaciones económicas y los datos económicos nos conducen fácilmente a
situaciones en las que alguno(s) de los supuestos que caracterizan al modelo de regresión
lineal no son satisfechas, y por tanto la validez del modelo es limitada. Tales son los casos
presentados, en dicho tema, por sesgo de omisión de variables, errores en las variables, y
causalidad simultánea. Todos ellos comparten que
JE(cilX)-/=O, i=l,2, ... ,n,
es decir, todos estos casos violan el supuesto de exogeneidad. En este tema, entre otras cosas,
quedará claro el sentido que tiene denominarlo con el calificativo de «exogeneidad». Como ya
sabemos por la expresión (5.1.6), la violación del supuesto se genera porque existe correlación
entre alguna(s) la(s) variable(s) explicativa(s) , X, y el término error, e,
JE (éiXi) -/= 0 , i = 1, 2, ... , n.
Cuando el supuesto de exogeneidad no se cumple, no solo el estimador MCO es sesgado,

sino que también es inconsistente, por lo que el sesgo no desaparece al crecer el tamaño de la
muestra. Sucede que las correlaciones entre las variables observables y los errores (donde se
incluyen al conjunto de variables determinantes o influyentes pero no observables) contaminan
persistentemente a nuestros estimadores, haciendo que sea prácticamente imposible obtener
información «limpia» de los coeficientes poblacionales /3j,j = 1, 2, ... , k. Afortunadamente, hay
una alternativa a la técnica MCO que se comporta mejor, al menos para muestras grandes.
Esta alternativa que vamos a exponer en este tema aprovecha el hecho de que, incluso cuando
JE (cixi) -/= O, es posible (a menudo) utilizar el propio análisis económico (esto es, la teoría
económica que subyace a la relación de las variables económicas) para localizar otras variables
que no estén correlacionadas con el término error Ei . Estas variables que hemos detectado por
el razonamiento económico pueden ser consideradas (cuando se cumplen ciertas condiciones)
315
316 REGRESIÓN CON VARIABLES INSTRUMENTALES
como un instrumento que nos facilite estimar f3J, j = 1, 2, ... , k, y por este motivo se denominan
variables instrumentales (VI).
El método de la regresión con variables instrumentales es un método para la obtención de
un estimador consistente de los coeficientes de interés de la función de regresión poblacional
(FRP) cuando la variable explicativa X está correlacionada con el término error. Intuitiva-
mente, podemos comprender cómo funciona la regresión VI si consideramos que X consta de
dos partes. Una parte, que por algún motivo , está correlacionada con e, y por tanto es la parte
que genera disfunciones; y otra parte que no está correlacionada con c. Si es posible obtener
información que permita aislar la primera parte de X , podríamos estudiar solo las variaciones
de X que no están correlacionadas con el error, y obviar las variaciones de X que sesgan la
estimación M CO.
9.1. ESTIMADOR DE VI EN UN MODELO DE REGRESIÓN SIMPLE
Consideremos el ejemplo del salario hora que hemos trabajado a lo largo de los temas
anteriores. Supongamos que el modelo bien especificado es el siguiente:
(9.1.1)
donde el término error representa los factores omitidos que determinan la variable dependiente,
en este caso, ln(salario). Indudablemente la habilidad del trabajador debe influir en el salario.
Además el nivel de estudios y la habilidad estarán normalmente también correlacionados. El
problema es que la variable «habilidad » es, cuanto menos, difícil de definir y en términos
prácticos imposible de medir, de manera que nos encontramos con una variable importante
que es inobservable.
Podemos sustituir la variable inobservable «habilidad » por una variable aproximada (proxy 1
como el «coeficiente de inteligencia», siempre que esta variable no esté correlacionada con «e»,
y que su valor esperado solo dependa de la variable «habilidad». Si es así podemos sustituir la
variable «habilidad» por «coeficiente de inteligencia» en (9.1.1) y obtendremos un estimador
de «/31» insesgado y consistente.
Consideremos, no obstante, que la variable «coeficiente de inteligencia» no es realmente
una buena proxy, y por tanto no podemos utilizarla. En su lugar podríamos considerar la
posibilidad de estimar el modelo sin la variable inobservable «habilidad» , es decir , estimar el
modelo de regresión simple
(9.1.2)
en el que la variable «habilidad» pasa a formar parte de los errores «v», que necesariamente
son distintos de los errores de la FRP (9 .1.1), c.
Por otra parte, dado el modelo de FRP, sabemos que
(9.1.3)
1
Ver Sección 8.3.3.
Tema 9 317
es decir, la variable que habitualmente denotamos por X está correlacionada con el término
error «v». Cuando sucede esto decimos que la variable explicativa es endógena. Solo
cuando X no está correlacionada con los errores poblacionales, decimos que la variable ex-
plicativa es exógena.
En el caso de la ecuación mal especificada por omisión de variable relevante, como en
la Ecuación (9.1.2), sabemos que la variable explicativa (estudios) será endógena al estar
correlacionada con el error v, ya que hemos considerado que el modelo poblacional es (9.1.1),
y por tanto el error de la i-ésima observación incorpora la variable habilidadi. Por este motivo,
MCO generará estimaciones no consistentes y sesgadas de los coeficientes de interés en el
modelo (9.1.2). Para estimar consistentemente «f3o» y «f31» en estas condiciones, tenemos
que utilizar información externa a la proporcionada en el modelo (9.1.2). Más concretamente
debemos encontrar una variable instrumental «Z» que satisfaga dos condiciones necesarias
para que el instrumento tenga el efecto deseado de permitirnos estimar consistentemente
los coeficientes de interés, es decir, dos condiciones para que el instrumento sea válido. A
estas condiciones se las conoce como condición de exogeneidad del instrumento y la
condición de relevancia
cov (Z, v) =O, (9.1.4)

y
cov (Z, X) #O, (9.1.5)

es decir, tenemos que encontrar una variable «Z» que no covaríe con los errores «v» de la
expresión (9.1.2) y covaríe con la variable independiente endógena «X». Bajo estos supuestos
decimos que «Z » es una variable instrumental de «X». También podemos decir que el instru-
mento «Z » es exógeno en el modelo (9 .1. 2) y está correlacionado con la variable explicativa
endógena «X ». Si un instrumento es relevante, la variación en el instrumento está relacionada
con la variación en Xi. Si , además, es exógeno, entonces la parte de variación de X i capturada
por el instrumento Zi es exógena. Por tanto, un instrumento relevante capta los movimientos
de Xi que son exógenos. Esta variación ahora exógena puede ser utilizada para estimar «sin
contaminación» el coeficiente f31.
Desde un punto de vista más técnico tendríamos una expresión equivalente a (8.1.5)
, (1/n) L:(Zi - Z) vi p (3 cov(Z,E) (3 Pzv crv
f31 - f31
-
+ (1/n) I:(Xi - X)(Zi - Z )
..:.+ 1 +
cov(Z, X)
= 1 + ----
pzx crx '
en la que si Z es un instrumento para X. resulta que Pzv O y por tanto tendremos un
estimador consistente de (31 .
La utilidad de la regresión de variables instrumentales está supeditada a la existencia
de instrumentos válidos. Si los instrumentos no son válidos las conclusiones carecerían de
sentido. Es por tanto importante saber evaluar cuándo los instrumentos son o no válidos.
Sobre este aspecto volveremos más adelante en el tema, por el momento supongamos que
existen instrumentos válidos.
Anteriormente hemos visto que la primera alternativa para enfrentarse al problema gene-
rado por la variable habilidad puede ser utilizar una variable proxy, «cociente intelectual ».
Ahora bien, ¿podríamos utilizar esta variable proxy como VI? Para contestar observemos que
en el caso de variables aproximadas, la variable «cociente intelectual» es una buena proxy de
la variable «habilidad» por estar muy correlacionada con ella, y además es relevante porque
es razonable esperar que esté también correlacionada con la variable que registra el nivel de
estudios concluidos. Sin embargo se requiere que el instrumento esté incorrelacionado con los
errores «v» [y, como sabemos, en la Ecuación (9.1.2) la variable «habilidad» forma parte de
los errores, por lo que la variable «cociente intelectual» está correlacionada con dichos erro-
res] por tanto podemos concluir diciendo que dicha variable es una mala variable instrumental
para el modelo (9.1.2).
En el caso del salario , expresión (9.1.1) , los expertos en el mercado laboral han utilizado
como variable instrumental el «nivel educativo de la madre». Este instrumento cumple clara-
mente la condición de relevancia al estar correlacionada con la variable «estudios» del hijo, y
puede resultar que también cumpla la condición de exogeneidad del instrumento , si conside-
ramos que la habilidad del hijo no está correlacionada con el nivel de estudios alcanzado por
la progenitora, cuestión que ha sido discutida en la literatura especializada.
Otra solución basada en VI ha sido utilizar instrumentos formados por variables binarias
(dicotómicas). En este sentido y para un modelo sencillo de los salarios de los hombres,
modelo (9.1.1), Angrist y Krueger (1991) propusieron como variable instrumental de los años
de educación una variable binaria con valor unitario si el nacimiento se produce en el primer
cuatrimestre y valor nulo en caso contrario2 . También esta aproximación ha sido motivo de
serias objeciones3 en la literatura especializada. Lo que pone de manifiesto que la elección de
instrumentos válidos es una cuestión central en el método de VI, y por tanto las decisiones
han de estar muy justificadas. Sin duda encontrar buenos instrumentos no es siempre fácil.
9 .1.1. El estimador de VI por mínimos cuadrados en dos etapas

y su distribución muestral
En todo caso, si disponemos de un inst rumento que cumple las condiciones (9.1.4) y (9.1.5),
entonces podemos estimar consistentemente la ecuación
(9.1.6)
mediante un estimador de VI denominado mínimos cuadrados en dos etapas (MC2E), aunque
en el modelo poblacional exista correlación entre X i y éi. El estimador consta de dos fases. La
primera etapa descompone X en una componente problemática que puede estar correlacionada
con el error de la regresión , y otra componente no problemática, que no está correlacionada con
el error. La segunda etapa utiliza el componente no problemático para estimar el coeficiente
fJ1.
2
El cumpleaños, sugerían, está correlacionado en América (por su legislación) con los años de educación:
los que cumplen años en el primer trimestre pueden abandonar la educación antes que los que cumplen en
junio, dado que los primeros cumplirán los 16 años con anterioridad. La diferencia es que unos habrán hecho
un año más, de modo que habrá correlación entre la variable binaria cumpleaños y los años de educación.
3
Bound, Jaeger y Baker (1995) llevaron a cabo el mismo estudio que Angrist y Krueger, pero utilizando
instrumentos falsos e irreales. La sorpresa es que apenas hubo diferencias entre los resultados de unos y otros.
La lectura es preocupante: las estimaciones por VI con datos reales son como las obtenidas con datos falsos,
regresiones que necesariamente son poco fiables.
Tema9 319
La primera etapa consiste en una regresión poblacional que relaciona a X con Z
donde los parámetros 7l"Q, 11"1 son el intercepto y la pendiente, respectivamente, y donde Ui es el
término error de esta regresión auxiliar. Esta regresión define las dos partes que necesitamos.
A partir de las condiciones de validez del instrumento, la parte no problemática de Xi es
7ro + 7r1Zi, que es la parte de Xi que captura o explica Zi. Dado que Zi es exógena, esta
componente está incorrelacionada con el término error de (9.1.6), Ei. La otra parte restante,
es decir, Ui será la parte de Xi problemática por estar correlacionada con Ei. Los MC2E utilizan
la parte no problemática, pero para ello es necesario estimar por MCO los coeficientes 7l"Q, 11"1
y formar la variable Xi = 11'0+11'1Zi. La segunda etapa consiste en la estimación por MCO de
la regresión de la variable a explicar Yi sobre Xi. Los estimadores resultantes de la segunda
regresión son los estimadores MC2E que denotamos por /:Jff 2E y ~1(1C 2 E . ª
Es relativamente fácil comprobar que en una regresión por VI simple, esto es, con una
sola variable explicativa endógena y un solo instrumento , la estimación MC2E nos conduce a
estimaciones consistentes de los coeficientes de la Ecuación (9.1.6). Para ello expresamos {31
en función de las covarianzas poblaciones que induce la Ecuación (9.1.6):
cov [Z, ((Jo+ f31Xi + éi)]

f31cov (Zi, Xi)+ cov (Zi, Ei).
A partir del requisito de exogeneidad del instrumento, cov(Zi, Ei) =O, y dado el cumplimiento
del requisito de relevancia, cov(Zi, Xi) i= O, podemos encontrar (identificar) la expresión
poblacional del parámetro {31:
cov (Zi, Yi)

{31 - (9.1.7)
- COY(Zi, Xi)'
Es decir, el coeficiente poblacional es el cociente de la covarianza poblacional entre Z e Y y
la covarianza poblacional entre Z y X.
Para estimar consistentemente estas covarianzas poblacionales, podemos utilizar sus análo-
gos muestrales:
2:~= 1 ( Zi - z) (Yi - Y)
(9.1.8)
l:~=l (Zi - Z) (Xi - X)'
y
'MC2E - ~MC2E -
f3o =Y - {31 X, (9.1.9)
si el instrumento «Z» y la variable endógena explicativa «X» coinciden, entonces los esti-
madores por VI y MCO (,6
1 = co~(~S)) coinciden. De hecho si recordamos las ecuaciones
normales de la estimación MCO
n n
L (Yi - ~o - ~1Xi) = L ti =o
i=l i=l
y
n n
¿ xi (Yi- ~º - ~1xi) = ¿ xiti =o,
i=l i=l
que nos conducían al estimador MCO, y utilizamos ahora la variable Z para «instrumentali-
zar» la variable explicativa endógena X en dichas ecuaciones obtendríamos:
n n
L (Yi - ~o - ~1Xi) = L ti = o (9.1.10)
i=l i=l
y
n n
¿zi (Yi- ~o - ~1xi) = ¿ziti =o, (9.1.11)
i=l i=l
que resolviendo nos permitiría recuperar la expresión del estimador MC2E (9.1.8) , y por tanto
también el estimador MC2E del término independiente.
Dado que las covarianzas muestrales en dicha expresión (9 .1.8) son estimadores consis-
tentes de sus respectivas poblacionales, es decir, éoV (Zi, Yi) !!+ cov (Zi, Yi), y cüv (Zi , Xi) !!+
cov (Zi, Xi), tendremos que
(3•1M C 2E J!+ {3 1,
por lo que el estimador de VI es también consistente.
De nuevo el uso de teorema central del límite, al tratarse de promedios de variables alea-
torias, nos conduce a la normalidad, tal y como demostramos en el Apéndice a este tema. Por
tanto, para muestras grandes resulta que el estimador de MC2E nos conduce a una distribu-
ción normal
' MC2E as ( 2 )
f31 '"" N {31 ) (]' fjtf C 2E )
donde
2 _ var ((Zi - µz) éi)
(]'{3MC2E - 2 ' (9.1.12)
1 n [cov (Xi, Zi)]
La expresión (9.1.12) se puede estimar a partir de la estimación de la varianza y covarianza
que aparecen en la misma. La raíz cuadrada de la estimación de (9.1.12) es el error estándar del
estimador VI. Dado que el error podría ser heterocedástico hemos de asegurarnos de utilizar
las versiones robustas a la heterocedasticidad por los mismos motivos que lo hacíamos con el
estimador MCO en regresión múltiple.
Para contrastar hipótesis sobre f31 utilizamos un estadístico tipo t , y si queremos construir
un intervalo de confianza al 95 %, siempre que la muestra sea grande, lo haremos de este modo
~f1C2E ± 1, 96 Xee (~f1C2E) .

9.2. MODELO GENERAL DE REGRESIÓN CON VI
En un modelo general de regresión con VI hay que considerar cuatro tipos de variables.
Vamos a introducir una notación ligeramente distinta a la que hemos mantenido hasta ahora
Tema 9 321
en este tema para referirnos a las mismas: la variable dependiente que es endógena, Yo; las
variables explicativas (regresares) endógenas, que están correlacionadas con el término error, y
por ser endógenas, pero distintas de la dependiente, las denotamos por Yk siendo el subíndice
k > O; los regresares que son variables exógenas incluidas, X; y por último las variables
instrumentales, Z.
El caso del modelo simple de regresión por VI [Ecuación (9.1.6)] quedaría con esta notación
de la siguiente manera
(9.2.1)
En este caso la regresión VI simple de la sección anterior es factible que se practique
porque hay el mismo número de regresares endógenos, k = 1, que instrumentos, Z. En caso
de que hubiera menos, es decir, en caso de que no hubiera instrumentos no podríamos realizar
la regresión de la primera etapa. Sin embargo, en caso de que hubiera más instrumentos que
regresares endógenos también podríamos hacer la regresión VI. Por tanto, es especialmente
relevante la relación entre el número de instrumentos (m) y el número de regresares endógenos
(k). Decimos que los coeficientes de regresión están exactamente identificados si el número
de instrumentos es igual al número de regresares endógenos, es decir, m = k. Los coeficientes
están sobreidentificados si el número de instrumentos es mayor que el número de regresares
endógenos, m > k. Si el número de instrumentos es menor, diríamos que los coeficientes están
subidentificados. Para estimar los coeficientes mediante la regresión VI, estos deben estar
identificados o sobreidentificados.
9.2.1. Modelo con un único regresor endógeno

Supongamos una ecuación general con «r» variables explicativas exógenas y una explica-
tiva endógena
(9.2.2)
donde la variable «Y1i» es endógena o correlacionada con los errores «Ei», el resto de variables
explicativas son exógenas (no correlacionadas con el término de error «Ei» ), y por tanto el
número de regresares endógenos es 1, k = l; el número de regresares total (incluyendo la
constante) es r + 1( = r + k). La Ecuación (9.2.2) a veces se denomina ecuación estructural.
Supongamos que tenemos solo una variable instrumental (m = 1) y que por tanto cumple
las condiciones de exogeneidad, «Zii» exógena respecto a (9.2.2), esto es, no correlacionada
con los errores «cov (Z1i, éi) = Ü»; y de relevancia «Zii », está correlacionada con la variable
endógena explicativa «cov (Z1i, Y1i) =/=- 0».
Esta última condición de relevancia la podemos intentar contrastar directamente en la
primera etapa cuando formamos la regresión:
(9.2.3)
donde regresamos la variable explicativa endógena «Y1i» con todas las variables exógenas de
la ecuación estructural (9.2.2) y el instrumento. Esta ecuación se denomina forma reducida
del modelo estructural (9.2.2) para la variable Yk. El requisito de correlación entre la variable
explicativa endógena «Y1i» y el instrumento «Z1i» se confirma si el estimador del coeficiente

asociado al único instrumento «7rk+i » de (9.2.3) es significativamente distinto de cero. De
manera que si «7rk+ l # Ü» entonces «Zlí » es un instrumento válido para «Y1i»· En tal caso
sabemos que entonces la ecuación estruct ural (9.2.2) está identificada, y podría estimarse.
En ocasiones contamos con más de una variable instrumental para «Y1i», por ejemp~o si
«Z1i» y «Z2i» son variables excluidas de modelo (9.2.2) y exógenas [en el sentido de estar
incorreladas con los residuos «Ei» del modelo estructural (9.2.2)], entonces incluiremos ambos
instrumentos «Z1i» y «Z2i» en la forma reducida (9.2.3) junto con el resto de exógenas
incluidas en el modelo. Si son en conjunto significativamente distintas de cero, es decir si
podemos rechazar la hipótesis nula «Ho : 7rk+l = 7rk+2 = 0», entonces ambas variables se
pueden utilizar como instrumentos válidos para «Y1i» o, dicho de otra forma, el modelo (9.2.2)
está identificado y lo podemos estimar, como vimos en la sección anterior, consistentemente
por el método de mínimos cuadrados en dos etapas (MC2E) 4 .
En este caso particular, en la primera etapa del método de MC2E estimamos la variable
explicativa endógena «Yú» por MCO utilizando la forma reducida (9.2.3), y en la segunda eta-
pa estimamos el modelo estructural (9.2.2), también por MCO, pero sustituyendo la variable
explicativa endógena «Yii » por la estimación realizada en la primera etapa «Yli»·
Puesto que la forma reducida (9.2.3) está constituida por variables exógenas [no correla-
cionadas con los errores del modelo estructural (9.2.2)], la estimación de la variable explicativa
endógena «Y1i» tampoco está correlacionada con los errores del modelo estructural. La ecua-
ción en forma reducida también se puede escribir como «Y1i = Y1i + Ui» y sustituyendo esta
expresión en (9.2.2) tenemos que
(9.2.4)
donde comprobamos que los errores «Ei + f3k+l ui» tienen media cero y están incorrelacionados
con todas las variables explicativas, y ahora además los estimadores son consistentes.
Los programas especializados suelen estimar de forma rutinaria por MC2E y por tanto no
es necesario realizar las dos etapas manualmente. Esto es especialmente importante porque los
errores estándar que calcularíamos a partir de la segunda etapa se calcularían (como vemos)
con estimadores del término error inapropiados pues no solo incorporarían (en tal caso) a
los Ei· El software econométrico especializado evita el realizar las dos etapas, y solventa esta
fuente de confusión o error. Generalmente estos programas piden que se especifique la ecuación
estructural (9.2.2) y otro conjunto de variables que incorpore todas las variables exógenas del
modelo estructural y las variables instrumentales propiamente dichas. En todo caso, salvo que
expresamente se indique lo contrario, presentaremos la regresión con Y1i en lugar de con Y1i
indicando siempre cuáles han sido los instrumentos.
Para comprender aún más la lógica de los MC2E, consideremos el modelo de regresión
simple con más de un instrumento disponible. En realidad para estimar por MC2E, según nos
indican las ecuaciones (9.1.10) y (9.1.11 ), bastaría un solo instrumento por lo que podríamos
deshechar los restantes. Sin embargo deshechar instrumentos es desperdiciar información (si
los instrumentos son buenos). Como hemos descrito, el método de los mínimos cuadrados en
4
Podríamos utilizar cada una de las variables instrumentales para estimar el modelo estructural (9.2.2) por
MC2E, pero entonces tendríamos dos estimadores diferentes y normalmente ninguno de los dos sería eficiente.
Tema 9 323
dos etapas (MC2E) nos conduce a considerar toda la información a través de la variable Y1,
constituida a partir de los instrumentos disponibles, y en ese caso las ecuaciones normales
serían
n n
L (Yi - ~o - ~1Xi) = L ti = o
i=l i=l
n n
I:-Y1i (Yi - ~o - ~1xi) = I:-Y1iti =o.
i=l i=l
Una forma alternativa de estimación es posible. Consideremos, por simplificar, que te-
nemos dos instrumentos (Z1, Z2) para el modelo de regresión simple. Ahora, además de las
restricicciones sobre los momentos (9.1.10) y (9.1.11), habrá otra condición o restricción nueva,
por lo que tendremos un total de tres restricciones
n n
L (Yi - ~o - ~1Xi) = L ti = o
i=l i=l
n n
L Z1i (Yi - ~º - ~1xi) = L Z1 iti =o,
i=l i=l
n n
L Z2i (Yi - ~o - ~1xi) = L Z2iti =o
i=l i=l
es decir, ahora tenemos tres ecuaciones con solo dos incógnitas, por lo que en principio po-
dríamos obviar una de las ecuaciones y usar las dos restantes para resolver y despejar las
incógnitas. Sin embargo para evitar desperdiciar información, podemos seleccionar los ~1, ~o
que más se aproximen a satisfacer simultáneamente las tres restricciones muestrales.
Esta vía de estimación conduce a la denominada estimación por el Método Generalizado
de los Momentos (MGM o GMM, por sus siglás en inglés) , y que desarrollamos en el apartado
9.5.1 de este tema. De hecho , como entonces se verá, el estimador GMM es más eficiente que el
de MC2E, estimador (este último) que bajo ciertos supuestos es un caso particular (de dichos
supuestos) de estimación GMM.
Intuitivamente, la mejora en la eficiencia se obtiene minimizando una versión ponderada
de las tres restricciones muestrales arriba indicadas, lo que indica o sugiere que no todas las
restricciones han de ser consideradas de igual importancia. Se espera que haya ponderaciones
(que den peso a cada una de las tres restricciones) que hagan óptimo o mejor (en térmi-
nos de menor varianza) las estimaciones de los tres parámetros desconocidos. Por ejemplo,
la ponderación más simple consistiría en hacer que las tres restricciones tuvieran la misma
importancia (si llamamos a cada una m1, m2, m3) minimizar la distancia a cero sería que la
suma de cuadrados fuera mínima: min( mr + m~ + m§). Otras alternativas de ponderación nos
llevarán a estimadores con menor varianza, tal y como se desarrolla en el apartado 9.5.1. Una
de esas pond~raciones mejores sería dar mayor peso a los momentos (restricciones) con menor
varianza, y esto es así por el mismo motivo por el que el estimador de mínimos cuadrados
generalizados, que ponderaba por la inversa de la (raíz de la) varianza, era más eficiente que
el estimador MCO.
9.2.2. Extensión al caso de múltiples regresores endógenos

Es perfectamente factible que el modelo tenga más de una variable explicativa endóge-
na. Consideremos un modelo estructural general con «r» variables exógenas y <<k» vari'ables
explicativas endógenas
(9.2.5
Para estimar (9 .2.5) necesitamos un número «m», igual o mayor a «k», de variables ins-
trumentales exógenas al modelo estructural (9.2.5) que estén correlacionadas con las «k»
variables endógenas del modelo estructural; esto se denomina condición de orden (número
de instrumentos al menos igual al número de variables explicativas endógenas).
Desafortunadamente la condición de orden es necesaria pero no suficiente para identificar
y por tanto para poder estimar el modelo estructural (9.2.5). La condición suficiente para
identificar el modelo estructural, denominada condición de rango, requiere estimar todas las
ecuaciones reducidas del modelo estructural. P ara la Ecuación (9.2.5) , tenemos «k» ecuaciones
reducidas
1(1)i = 7fQl + 7r11X1i + 7r21X2i + ... + 1fr1Xri + 1f(r+l)lz(l)i + ... + 1f(r+m)lZ(m)i + U1i
1(2)i = 7f02 + 7r12X1i + 7r22X2i + ... + 1fr2Xri + 1f(r+l)2Z(l)i + ... + 1f(r+m)2Z(m)i + U2i
Y(k) i = Kok + 7rlkXli + 7r2kX2i + ... + 1fr kXri + 1f(r+l)kz(l)i + ... + 1f(r+m)kZ(m)i + Uki·
(9.2.6)
Si utilizamos notación matricial para mostrar los estimadores de los instrumentos, obte-
nemos la siguiente matriz:
1f(r+l)l
1f(r+l)2 ::: :~:::~~ ) (9.2.7)
(
1f(r~l)k 1f(r+m)k
En el caso de que el número de instrumentos sea igual al número de variables endógenas
la matriz anterior sería una matriz cuadrada, al ser el número de filas igual al número de
columnas. Lo que interesa no es tanto el número de filas y columnas, sino el rango de la matriz
para que el modelo sea estimable. P ara que el modelo estructural (9.2.5) esté identificado y
sea estimable, el rango de la matriz de orden (k x m) debe ser igual al número de variables
endógenas explicativas «k» (igual al número de filas).
En caso de que m = k, la condición se satisface si su determinante es distinto de cero. Si
el rango es menor (determinante nulo) entonces el modelo estructural no está identificado y
no es estimable.
Si el número de instrumentos, m, es mayor que el número de endógenas explicativas
entonces la matriz de (9.2.7) tendrá un número de columnas mayor que «k», en tal caso
el modelo estructural está identificado si podemos construir una matriz de «k» columnas y
«k» filas cuyo determinante sea distinto de cero (matriz de rango «k») .
Tema 9 325
La condición de orden determina si el modelo está sobreidentificado, situación que se

produce cuando el número de instrumentos excluidos de la ecuación estructural 9.2.5 es mayor
que el número de variables endógenas explicativas. Cuando el número de instrumentos es igual
al número de variables endógenas, entonces sabemos que el modelo estructural (9.2.5) está
exactamente identificado y podemos estimarlo.
La estimación por MC2E del caso general de la Ecuación (9.2.5) comprende las siguientes
dos etapas:
l. Regresiones en la primera etapa: regresar por MCO Y1i sobre una lista de variables
formada por las variables instrumentales (Z1i , ... , Zmi) y por las variables exógenas in-
cluidas (X1i, ... , Xri) , incluyendo el intercepto. Esto nos permite calcular los valores
estimados de Y1i , que hemos denominado Yú, i = 1, .. ., n. Esto se repite para todos los
regresares endógenos, Y2i, ... , Yki, calculando por tanto sus valores estimados respectivos,
f'2i, ... ,
Yki, i = 1, ... , n.
2. Regresión en la segunda etapa: regresar por MCO Yi sobre una lista de variables forma-
da por los valores estimados de las variables endógenas ( Y1i, ... , Yki) y sobre las varia-
bles exógenas incluidas (Xli, ... , Xri), incorporando el intercepto. El estimador MC2E,
f:JMC2E = (f3tIC 2E, /Jf!C 2E, ... ,
/3/:!S2E) , son los coeficientes estimados en esta segunda
etapa.
En el modelo simple de la sección anterior, establecimos dos condiciones [(9 .1.5) y (9.1.4)] para
la validez de un instrumento. Las condiciones o requisitos para la validez de los instrumentos
en el modelo general de VI lógicamente han de incorporar a estas como caso particular.
En el caso más simple, que es cuando solo hay una variable explicativa endógena, Y1i , no
hay variables exógenas y solo hay un instrumento, cov (Zi, Y1i) =/:- O. En caso de que exista
una variable endógena y varios instrumentos, la condición de relevancia es que al menos un
instrumento sea útil (nos dé información) para aprender algo (predecir) de Y1 , dado X , es
decir, al menos el coeficiente de un instrumento Zen la regresión poblacional de Y1 sobre los
m instrumentos Z y las r exógenas incluidas X , debe ser distinto de cero. En el caso de que
existan varias variables endógenas incluidas en el modelo estructural, debemos garantizar que
no hay multicolinealidad perfecta en la regresión poblacional de la segunda etapa. Esto es así
porque si hubiera multicolinealidad perfecta en el modelo poblacional no podríamos estimar,
dado que los instrumentos no proporcionarían información suficiente sobre los movimientos
exógenos de las endógenas, y por tanto no podríamos «aislar» sus efectos sobre la variable
dependiente Y.
Resumimos a continuación las dos condiciones para la validez de un conjunto de m ins-
trumentos:
l. Relevancia del instrumento: Los vectores ( 1, X1i, ... , Xri, Y1i, ... ,Yki) no deben ser
perfectamente multicolineales , donde Y1i es el valor de predicción de Y1i a partir de la
regresión poblacional de Y1i sobre los instrumentos (Z) y los regresares exógenos in-
cluidos (X), y «1» es el valor que toma el término constante a todas las observaciones
i = 1, ... , n. Si solo hay una variable endógena incluida, Y1 , esto se cumple si al me-
nos el coeficiente de un instrumento Z en la regresión poblacional de Y1 sobre los m
instrumentos Z y las r exógenas incluidas X es distinto de cero.
2. Exogeneidad del instrumento: Los instrumentos no están correlacionados con el

término error: corr(Zji, éi) =O, j = 1, 2, .. ., m.
9.2.3. Distribución muestra! del estimador MC2E para el caso del modelo
general de VI
La distribución muestral del estimador MCO se obtenía bajo los supuestos de un modelo
que denominamos modelo de regresión lineal [Ecuación (6.1.1)], caracterizado por tanto por
las expresiones que configuran el modelo . El modelo de regresión VI lógicamente es diferente
del modelo de regresión mencionado, y por tanto las condiciones poblacionales han de ser
adaptadas a la ecuación general de VI (9.2.5).
El supuesto de exogenidad (6.1.2) es necesario que se satisfaga para las variables expli-
cativas exógenas incluidas, ya que en el modelo de VI consideramos que existen variables
explicativas endógenas. Sigue siendo también necesario que los datos sean extracciones iid,
como si de un muestreo aleatorio simple se tratara. E igualmente se mantiene el supuesto
de que los valores extremos grandes sean poco probables. Hay que añadir que se cumplen
los requisitos de relevancia de los instrumentos, requisitos que incorporan ya el supuesto de
ausencia de multicolinealidad de la Sección 6.1.
Al igual que sucedía y mostramos en el apéndice 9.6, en el caso particular de un úni-
co regresar endógeno, un solo instrumento y sin variables exógenas incluidas , el estimador
MC2E es para muestras grandes consistente y tiene una distribución normal. Los intervalos
de confianza se construyen de modo similar, y las hipótesis conjuntas se pueden realizar con
el estadístico F descrito para la inferencia en el modelo de regresión lineal. Sin embargo, hay
que considerar algunas cuestiones sobre los errores estándar de MC2E.
Por un lado , los paquetes informáticos llevan a cabo las dos etapas y realizan los ajustes
pertinentes para corregir adecuadamente la invalidez de utilizar los errores estándar que se
obtendrían en la segunda etapa de MC2E. Esta invalidez se produce porque el término error
de la Ecuación (9.2. 4) en su versión poblacional incluye ui, mientras que los errores estándar,
que son los que nos interesan, son relativos éi. Complementariamente, el error poblacional
del modelo estructural podría ser heterocedástico, por lo que al igual que sucede con los
estimadores MCO es preferible utilizar errores estándar robustos a la heterocedasticidad.
Resumimos entonces los supuestos del modelo de regresión VI.
Tema 9 327
Supuestos del modelo de regresión con VI
El proceso generador de (X1i, X2i, ... , Xri, Y(i)i' 1( 2)i' ... , Y(k)i' Yoi) , i = 1, ... , n es un modelo
lineal
donde Yoi es la variable dependiente; /30, .. ., /3r+k son coeficientes desconocidos a estimar,
relativos a los k regresares endógenos, 1(.)i' y a los r regresares exógenos X .i; y donde el
término error Ei representa factores omitidos o errores de medición. El proceso generador
debe además satisfacer:
2. (X1i, X2i, ... , Xri, 1(1)i' 1(2)i' .. ., Y(k)i' Yoi) son extracciones iid de su distribución con-
junta;
3. Los valores extremos elevados son poco probables:
O< JE(Xj\) < oo, O < JE(Y0';) < oo, O < JE(Y¡{) < oo O < JE(Zii) < oo,
con j = 1, ... , r; l = r + 1, ... , k; s = 1, .. ., m.
4. Se cumplen las condiciones de validez de los m instrumentos (Z1i, ... , Zmi).
La estimación del modelo requiere que m 2: k.
9.3. LA REGRESIÓN VI PARA LA RESOLUCIÓN DE PROBLEMAS

DE ENDOGENEIDAD
El tema anterior indicaba que los problemas de variables relevantes omitidas, los errores
de medida, y la existencia de causalidad simultánea hacían que
que implica que5
En estos casos decimos, en general, que hay endogeneidad en el modelo. En ese mismo
tema indicábamos que una de las soluciones para minimizar los efectos indeseados de la
endogeneidad (sesgadez e inconsistencia, que invalidan el modelo para realizar conclusiones
causa)es) consistía en utilizar regresiones VI, que son las que hemos presentado en el actual
tema.
5
Puesto que lE(éiXi) = lE[lE(éiXi[Xi)] = lE[X;lE(éi[X;)]; por lo tanto lE(é;Xi) =I O implica que
JE (éi [Xi) =I O
Por el momento hemos considerado el caso general de que existe al menos una variable
endógena explicativa, es decir, una variable que está relacionada con alguna(s) variable(s)
omitida(s) y por tanto incluida en el término error. Hemos visto que los efectos de no desea-
dos sobre la estimación del coeficiente de interés pueden ser mitigados si logramos localizar
instrumentos válidos. Consideremos entonces el caso de variables omitidas, esto es, en el
modelo sobre el que estamos trabajando hay fundadas sospechas sobre la existencia de va-
riables omitidas relevantes (es decir, variables que siendo factores explicativos de la variable
dependiente están correlacionadas con la variable explicativa). En tal situación se presenta un
problema de sesgo en el coeficiente de la variable en la que estamos interesados, el sesgo se
produce porque JE (Ei IXi) =f. O. En el caso de que no estén disponibles los datos de la variable
omitida, este sesgo de omisión no podría ser tratado con la inclusión de variables.
La regresión por VI ofrece una solución atractiva para cuando no podemos incluir la
variable omitida y tampoco podemos localizar una variable de control adecuada en los términos
previstos en la expresión (8.1.6). Podríamos localizar un instrumento para la variable omitida,
como tal tendría que ser relevante, es decir, estar correlacionado con la variable omitida.
Igualmente el instrumento debería estar no correlacionado con otros factores omitidos (y
contenidos en el término error). U na vez localizados los datos del instrumento estimaríamos
por MC2E, mitigando el problema del sesgo en la variable explicativa de interés.
Consideremos ahora otro de los casos en los que se produce endogeneidad, la situación en
la que hay error de medición en una variable explicativa. El modelo poblacional es
Yi = /30 + /31X {i +Vi, JE (ViXt) = o,

pero medimos X{ con un error wi, del t ipo X1i = X{i + wi , JE(X{wi) = O, JE( wJ) = a~, es
decir, condiciones semejantes a las previstas en el modelo de error clásico (Ecuación (8.3.8)).
Entonces
}i = /30 + /31X1i + (Vi - /31Wi) = /30 + /31X1i + Ei,
donde Ei = (Vi - /31 Wi), y se deduce que
y por tanto este tipo de errores de medida en las variables explicativas generan un problema
de endogeneidad.
Para mitigar el sesgo producido por los errores de medida, podríamos buscar un instru-
mento Zi (variable instrumental) que como tal esté correlacionado con el valor real XL pero
que no esté correlacionada con el error de medición Wi· Una variable de este estilo podríamos
obtenerla (si es posible) realizando una nueva medición Zi = X{i + ui que garantice que la
incorrelación de Ui tanto con el error de medición Wi como con el error del modelo Ei· En tal
caso
Por último consideramos la situación de simultaneidad de las relaciones económicas.

En la Sección 8.4.2 expusimos un modelo general sencillo que nos permitía comprender la
naturaleza del sesgo inducido por la existencia de un proceso con causalidad en doble dirección
entre dos variables, cuando la que nos importa es una de ellas.
Tema 9 329
La consideración de un modelo propiamente de contenido económico semejante al modelo

abstracto de la Sección 8.4.2 facilita la comprensión y la relevancia de la regresión por VI
para atenuar los problemas generados por la endogeneidad inducida por la bidireccionalidad
causal. El ejemplo económico ilustrativo que vamos a exponer es cuando las dos ecuaciones
del modelo son las ecuaciones de oferta y demanda6 .
Imaginemos que estamos interesados en estimar la elasticidad precio de la demanda de un
bien agrícola concreto. Para ello especificamos la siguiente ecuación:
(9.3.1)
donde suponemos que las variables están en logaritmos, la variable «Qd » es la cantidad de-
mandada, «p» el precio, «yd» la renta disponible y «E1 » los errores en los que se incluyen el
resto de variables independientes no incluidas específicamente. Consideramos además que el
bien es normal, en el sentido de que la elasticidad precio «/3 1 » es negativa y la elasticidad renta
«/32» positiva. En estas condiciones la gráfica de la demanda usual tiene pendiente negativa,
los incrementos de los precios reducen la cantidades a lo largo de la curva; y los incrementos
de la renta desplazan la curva de demanda (Figura 9.3.1).
Figura 9.3.1: Demanda

p
p1 --- - -- ---,
:
"' !
Pi --------+------
: :
1
1 1
i :
'
1'
1
Pero como la determinación del precio y de la cantidad finalmente consumida depende

también de la oferta del bien, podemos estimar la siguiente ecuación de oferta:
Qº = 'Yo+ 11·p+ 12·lluvia + E2, (9.3.2)

donde suponemos que las variables están también en logaritmos, la variable «Qº » es la canti-
dad ofrecida, «p» el precio, «lluvia» es la lluvia caída y «E2» los errores en los que se incluyen
el resto de variables independientes no incluidas específicamente. Consideramos además que
la elasticidad precio de la oferta «1 1 » es positiva tal y como indica la teoría y que el parámetro
«12 » de ia lluvia caída es positiva, en el sentido de que el aumento de la lluvia en los terrenos
6
Precisamente la regresión por VI tiene su origen en los trabajos de Phillip y Sewall Wright que pretendían
estimar las curvas de oferta y demanda de bienes de naturaleza agrícola.
donde se cultiva el producto agrícola analizado provoca mayores cosechas y en consecuencia

aumentos de oferta. En estas condiciones la gráfica de la oferta tiene pendiente positiva, l~
incrementos de los precios incrementan la cantidades ofrecidas a lo largo de la curva y lo::
incrementos de lluvia desplazan la curva de oferta.
Figura 9.3.2: Oferta

p O(lluvia 0 )
Hasta ahora hemos establecido una ecuación de oferta (9.3.2) y otra de demanda (9.3.1
además sabemos por la teoría económica que el mercado está en equilibrio (es decir, las
transacciones se efectúan) cuando la cantidad ofrecida y demandada coinciden, es decir cuando
(9.3.3
Esta observación es importante porque cuando nosotros recopilamos datos de precios y

cantidades efectivamente observados (intercambiados), estamos registrando pares de cantidad
y precio en periodos diferentes (ver Figura 9.3.3), donde en cada periodo las curvas de oferta
y demanda están sujetas a los cambios asociados (desplazamientos) a factores distintos del
precio, pero que afectan a la oferta y demanda de este mercado. En el modelo expuesto estos
factores distintos de precio son la renta y la lluvia.
Tema 9 331
Figura 9.3.3: Datos observados
El ajuste de una recta a los puntos (datos) que definen las intersecciones de demandas y
ofertas en la Figura 9.3.3 no estaría definiendo ni una curva de demanda, ni una de oferta,
ya que como vemos dichos puntos han sido determinados tanto por cambios de oferta, como
por cambios de demanda. Es decir, no podemos estimar la ecuación de demanda sin tener
en cuenta la influencia de la oferta y viceversa, porque ambas se establecen simultáneamente
(conjuntamente).
La única forma de estimar (o identificar) la ecuación de demanda es considerar las ecua-
ciones de oferta y demanda conjuntamente y permitir que la ecuación de oferta se desplace
(modificando los valores de la lluvia caída) de manera que los sucesivos valores de equilibrio
se correspondan con la ecuación de demanda.
Figura 9.3.4: Identificación de la demanda.

p
p1 ------------------
"'
En términos formales tenemos junto con la condición de equilibrio dos ecuaciones, una de
demanda (9.3.1) y otra de oferta (9.3.2). Podemos expresar ambas ecuaciones de la siguiente
forma:
Q = /310 + au ·p + /3u ·yd + c1 (9.3.4)

P = /320 + a22·Q + /322·lluvia +u,
ambas ecuaciones se denominan modelo de ecuaciones simultáneas .
La segunda ecuación, la de oferta, la expresamos en su forma inversa [p = f (Q)]. Al

hacerlo así vemos con mayor claridad que la relación de causalidad entre precios y cantidades
no es unidireccional (sino bidireccional) , en este caso las cantidades se explican por los precios
pero también los precios se explican por las cantidades. Es decir, precios y cantidades son
conjuntamente dependientes entre sí, hay una relación de causalidad en ambos sentidos o
simultánea o, dicho de otra forma, precios y cantidades son ambas variables endógenas.
Si como hemos indicado nuestro interés consiste en estimar la elasticidad de demanda, uti-
lizando la terminología de VI, diremos que la variable p es una variable explicativa endógena.
JE (c1i IPi) -=f. O, la variable exógena incluida es «yd», JE (c1i lydi) = O. Nos falta por tanto ver
qué rol desempeña la variable «lluvia» cuando estimamos la función de demanda.
Para ello consideremos la Figura 9. 3.4 en la que podemos observar que cambios en la
variable «lluvia» identifican una curva de demanda, y por tanto podríamos estimarla. La
idea fundamental por la que la variable «lluvia» nos permite identificar la demanda es que
(i) la «lluvia» está correlacionada con la variable «precio» (porque desplaza la curva y por
tanto varía el precio, tal y como indica la ecuación inversa de demanda (9.3.4)), y (ii) porque
la «lluvia» no está correlacionada con otros factores distintos del precio que determinan la
demanda, factores que están recogidos en el término c 1, es decir, las lluvias no deben tener
un efecto directo sobre la demanda del bien agrícola. Podemos decir entonces que la variable
«lluvia» es justamente el instrumento (la variable instrumental) porque satisface por (i) la
condición de relevancia, y por ( ii) la condición de exogeneidad.
Es ilustrativo tratar esta cuestión también analíticamente. Sustituyendo las cantidades de
la primera ecuación (demanda) en la segunda (oferta) tenemos
(9.3.5)
y si «a22au -=f. 1» [lo que es muy probable puesto que hemos supuesto que «au» es negativo
(demanda) y «a22» positivo (oferta)] podemos dividir ambas partes de la expresión (9.3.5)
por «1 - a22au» lo que nos lleva a
P= /ho+a22f310 + a22f311 yd + !322 lluvia + a22 ·e:1 +u

l-a22a11 l-a22a11 l-a22a11 l-a22a11 (9.3.6)
= 7r2Q + 7r21 ·yd + 7r22 ·lluvia +e,
que es lo que hemos denominado ecuación en la forma reducida para los precios. Además
como los errores de la forma reducida «e» son una combinación lineal de los errores de las
ecuaciones estructurales de demanda «c 1» y oferta «u», los precios «p» y los errores «c 1»
están correlacionados «cov (p, c 1) -=f. 0», que es precisamente el motivo por el que la variable
precios «p» es una variable explicativa endógena en la ecuación estructural de demanda, y
por tanto es lo que genera el sesgo en la estimación MCO del coeficiente de p en la ecuación
Tema9 333
estructural de demanda. Este sesgo además no puede desaparecer al aumentar el número de

observaciones, por lo que el estimador además es inconsistente.
La solución que plantea VI es precisamente usar la variable «lluvia» como instrumento,
justamente lo que hacemos en la forma reducida (9.3.6) y que constituye la base de estimación
de primera etapa en MC2E. Así luego, una vez aislado en p la parte incorrelacionada con el
error estructural de demanda, podamos en la segunda etapa estimar sin sesgo el coeficiente
de la variable explicativa endógena.
El siguiente ejemplo ayudará a afianzar estos conceptos aún más.
Ejemplo 28. Estimación de la demanda de tabaco por VI

En el Ejemplo 2 estimamos la demanda de tabaco en España entre 1998 y 2005 . La Figura
2.2.2 muestra el modelo en logaritmos, cuya estimació n es
tabacot ) = 3. 394 - O 979·1n (Preciot)

In ( oblaciónt ' ' ipct
+ it
P
(0,039) (0,059)
(9.3.7)
[0,0 18] [0,032]
n = 32; R = O, 9015; R = O, 8982.
2 2
El comportamiento adictivo del tabaco, las consecuencias sobre la salud de los fumadores
y también sobre los «fumadores pasivos» provocan efectos externos negativos (socialmente no
deseados) y justifican la intervención del estado , tanto vía precios (impuestos especiales sobre el
tabaco) como con la introducción de legislación que limite su consumo (al menos en determinados
espacios públicos) 7 .
Como cualquier ejercicio de estimación de la ecuación de demanda (9.3 .7) puede adolecer de
sesgo de especificación por simultaneidad , en el sentido de que cantidades y precios se establecen
simultáneamente mediante la interacción de la oferta y la demanda. Si esto es así entonces la
variable explicativa es endógena y la estimación por MCO sesgada e inconsistente.
En estas condiciones necesitamos información adicional a la utilizada en la expresión (9.3. 7)
para estimar consistentemente la elasticidad de la ecuación estructural de demanda. Stock y Watson
(2007) en un estudio de datos de sección cruzada para EE.UU. propusieron utilizar como variable
instrumental los impuestos especiales sobre el tabaco. El impuesto sobre el tabaco aumenta el precio
de los cigarrillos que paga el consumidor, lo que indica que satisface el requisito de relevancia . Si
además estuviera incorrelacionado con el error de la ecuación de demanda, entonces el instrumento
sería válido.
Utilizando los datos temporales, la ecuación reduc ida para los precios de (9.3. 7) es
. ) impuestostabacot
In pr~CWSt = O, 0004 + O, 323· tabacot +Et, (9.3.8)
(
ipCt (0,072) (0,035) ipCt
[0,088] [0,039]
donde regresamos el precio medio de la cajetilla de tabaco en términos reales respecto de los
impuestos especiales al tabaco por cajetilla en términos reales. El coeficiente es significativo a los
7
No obstante, algunos autores indican que la menor esperanza de vida de los fumadores (lo que implica ahorros
en gastos sanitarios) junto con los ingresos por los impuestos especiales pueden hacer que el saldo económico global
(ingresos - costes) no sea necesariamente negativo, pero el coste social sigue siendo negativo.
334 R EGRESIÓ N CO N VAR IABLES INSTRUMENTA LES
niveles usuales, hay correlación con el inst rumento y por tanto la variable endógena explicativa
parece ser relevante . Además para que el inst rumento sea válido, los impuestos especiales sobre
el tabaco deben estar incorrelacionados co n otras variables, distintas del precio, que sean factores
explicativos de la demanda de cigarrillos, es decir, deben estar incorrelacionados con los errores
de la ecuación estructural «Et ». En este sentido podría ser razonable considerar que la demanda
de paquetes de cigarrillos de tabaco por parte de un consumidor, además de depender del precio
final de la cajetilla, no siga dependiendo del nivel de impuestos, aparte , como decimos, de la
influencia del precio de la cajetilla. Esto nos conduce a tener un modelo con una variable endógena
explicativa y una variable instrumental, expresión (9.3.8); la ecuación estructural de demanda está
exactamente identificada y la podemos estimar. A partir de la versión muestra! de la expresión
(9. 1. 7) tenemos que
impuestostabaco¡ ]
COV ta.bacot In ( tabaco 1 )
~ [ ipc¡ ' poblaciónt
-0, 06496 - - 1
(9.3.9)
fJ1 = COV
[ impuestostabaco
ta.baca¡
1
In (pre. ciOSt) ] o' 061 58 - ' 055 '
ipct ' ipc¡
o también podemos estimar el modelo por MC2E (con los impuestos especiales por cajetilla en
términos reales como único instrumento) . Su estimación es
--
In ( tabaco_i ) = 3 442 _ l 055 .ln ( preciost )
poblaciont ('
0,047
) ('
0,071)
ipct
(9.3.10)
[0,040] [0,06 1]
impuestostabacot
MC2E, instrumento: fobacot
ipc¡
n = 32; R = O, 8961 ; R =O, 8927,
2 2
cuya elasticidad , como no puede ser de otro modo, es idéntica a la obtenida por VI. Hemos incluido
los errores estándar usuales y los robustos de heterocedasticidad y autocorrelación . Cuales quiera
que sean los errores estándar que utilicemos, los precios son significativos a los niveles usuales; sin
embargo, los intervalos deberían ser construidos con la versión HAC. La elasticidad de demanda
calculada por MCO es menor que la que obtenemos con MC2E , de hecho indica que un aumento
en el precio de un 1 % reduce el consumo en 1,055 %.
Alternativamente podemos utilizar como instrumento todos los impuestos y no solo los especia-
les. La justificación para incluir todos los impuestos y no los especiales se encuentra en que quizás
la capacidad de presión política de los fu madores pueda influir en el nivel de impuestos especiales
sobre el tabaco, de modo que si el grupo de fumadores se redujese, los hacedores de políticas
podrían optar ahora por subir los impuestos especiales relacionados con el tabaco. De modo que
si por ejemplo las campañas publicitarias que exponen los riesgos del tabaquismo hacen que su
consumo no esté tan de moda , entonces es posible que cambios en los gustos (localizados en el
error de la demanda) puedan estar correlacionados con los impuestos especiales del tabaco (si es
así, los impuestos especiales pueden estar correlacionados con los errores de la forma estructural) ,
y dejarían de ser un instrumento válido .
La forma reducida para los precios de la ecuación estructural (9 .3. 7) es
Tema 9 335
. ) totalimpuestost
In pr~CWSt =O, 066 +O, 009· tabacot + Ut, (9.3.11)
(
ZPCt (0,095) (0,001) ipCt
cuyo parámetro es significativo. La estimación por MC2E es
---
In ( tabaco} ) = 3 462 - 1 086-ln (preciost)
poblaciont ' ) (' ) ipct
(9.3.12)
(0,048 0,073
[0,046] [0,070]
totalimpuestost
MC2E, instrumento: ia.bacot
ipct
2 2
n = 32; R = O, 8909; R = O, 8873,
donde la elasticidad de demanda es aún mayor.
Finalmente también podemos utilizar ambos instrumentos, los impuestos especiales y los tota-
les. La ecuación reducida en este caso es
. ) impuestostabacot totalimpuestost
In pr~CWSt = -0, 020 +O, 183· tabacot +O, 005· tabacot + Ut, (9.3.13)
(
ipct (0,085) (0,049) ipct (0,002) ipct
donde los dos parámetros son significativos a los niveles usuales. Puesto que tenemos dos instrumen-
tos y una sola variable endógena explicativa, la ecuación estructural 9.3.7 está sobreidentificada.
Su estimación por MC2E es
---
In ( tabaco_i ) = 3 451 - 1 069-ln (preciost)
poblaciont '
(0,045
) ('
0,069
) ipct
(9.3.14)
[0,041] [0,062]
impuetdostabacot totalimpuestost
M C2E , · t t
ins rumen os :
tabacot
ipct
tabacot
ipct
n = 32; R 2
= O, 8939; R = O, 8903.
2
Observamos finalmente que el error estándar en la estimación 9.3 .14 es un 13 % inferior a

sus análogos errores estándar obtenidos con solo un instrumento. La razón es que en la Ecuación
9.3.14 utilizamos más información que en las otras dos, que solo usan un instrumento.
En cualquier caso, la evidencia indica claramente que la estimación por MCO subestima (por
sesgo de simultaneidad) la elasticidad precio de la demanda de tabaco. Sin embargo, nos podría-
mos preguntar incluso si pudiera estar omitido algún otro factor explicativo, o si realmente los
instrumentos son adecuados.
Este ejemplo pone de manifiesto que cuando utilizamos la regresión VI para mitigar los
problemas de endogeneidad debemos tener en consideración que es fundamental localizar
instrumentos válidos. Siempre que usamos variables instrumentales lo hacemos porque en
ese caso nuestro objetivo prioritario es estimar correctamente el efecto parcial de una variable
explicativa X sobre Y , y no lo es tanto obtener un R 2 elevado8 . En caso de que los instrumento_

no satisfagan los requisitos de relevancia y exogeneidad, el problema del sesgo, cualquiera que
sea la fuente , no quedará resuelto, y por tanto las estimaciones nos conducirán a conclusiones
falsas, y en consecuencia inválidas a los efectos del análisis causal. Por tanto, esta observación
sugiere que es importante localizar y evaluar la validez de los instrumentos seleccionados. La
sección siguiente precisamente trata estos temas.
Pero antes de ello vamos a presentar un estadístico de endogeneidad, que nos puede facilitar
la labor de localizar variables explicativas que sean endógenas.
9.3.1. Contraste de endogeneidad

La cuestión la podemos ilustrar a partir de un modelo general con una sola variable
explicativa endógena
(9.3.15
donde sospechamos que «Y1 » es endógena. Además contamos con dos instrumentos «Z 1 » y
«Z2» (la validez de los instrumentos depende de si son exógenos al modelo o no correlacionado~
con «E») .
Para contrastar si «Y1 » es verdaderamente una variable explicativa endógena Hausman
(1978) propuso comparar las estimaciones MCO y MC2E y si las diferencias entre ambas
estimaciones son significativas concluimos que «Y1 » es endógena, pues de lo contrario (en
caso de exogeneidad de la variable) ambos estimadores serían consistentes y no deberían
existir diferencias entre una y otra.
Para realizarlo partimos de la forma reducida de «Y1 »
Y1 = 7ro + 7r1X1 + ... + 7rkXk + 1l'(k+l)Z1+1l'(k+2)Z2 +u, (9.3.16)
ecuación que estimamos por MCO. A partir de la misma obtenemos
por tanto
cov(Y1, e) = O ~ cov(u, e) = O.
Vemos entonces que contrastar cov(Y1, E) = O es equivalente a contrastar cov( u, e) = O. Bajo
la hipótesis nula Ho : cov(Y1, E) =O, se verificaría que el coeficiente ó en la regresión
e = óu +error
sería nulo (ó =O). Es decir, contrastar ó =O equivaldría a contrastar Ho: cov(Y1, e) =O. En
la práctica dado que no observamos u utilizaríamos el residuo MCO de la primera etapa, u.
8
De hecho, en el modelo de regresión simple con problemas de endogeneidad, la descomposición de la
varianza habitual var(Y) = {3fvar(X) + var(t:) no es correcta puesto que cov(X,t:) =1- O, y la interpretación
del R 2 no es la que habitual hacemos , por lo que no podemos utilizar el R 2 para realizar contrastes del tipo F.
Tema 9 337
Precisamente, el contraste de endogeneidad, también denominado contraste de especi-

ficación de Hausman, consiste en introducir los residuos estimados en la forma reducida
«u» como una variable explicativa más, es decir, estimamos la siguiente ecuación por MCO
(9.3. 17)
y contrastamos «Ó» de la forma usual (mediante el contraste de la «t» ); si «Ó» es significativa
entonces concluimos que «Y1 » es endógena porque la «E» de la forma estructural y la «u»
de la forma reducida están correlacionadas (además los estimadores «/Ji» de esta ecuación
coinciden con los estimados por MC2E).
En el caso de r variables potencialmente endógenas, el contraste de Hausman requiriría (i)
estimar las r formas reducidas con sus correspondientes residuos (de la forma reducida); (ii)
incluir en el modelo de interés como r regresores adicionales cada uno de los residuos obtenido
en la fase (i); (iii) hacer un contraste de significación conjunta de dichos residuos mediante el
estadístico tipo F siguiente
TXT = ( - k- l)SCRR - SCR*fvR d 2

vvo n SCR* --+ Xr
NR
donde S C RR es la suma de los cuadrados de los residuos del modelo original (es decir sin incluir
los residuos de la formas reducidas), y SCR*fvR la suma de los cuadrados de los residuos del
modelo (no reducido), es decir que sí incorpora como regreso res los correspondientes residuos
de las r formas reducidas. Si los residuos son conjuntamente significativos (esto es, si se rechaza
la hipótesis nula) , entonces al menos una de las variables potencialmente explicativas lo es en
la realidad.
Veamos un ejemplo.
Ejemplo 29. Un modelo simplificado de la economía española

Las primeras aplicaciones de los modelos de ecuaciones simultáneas fueron modelos macro-
económicos que intentaban describir la economía de un país determinado. Un modelo keynesiano
simple de la demanda española puede ser el siguiente :
6.Ct = /310 + G'.11 ·6 (yt - Tt) + Elt

6. f t = G:21 ·6.yt + /321 ·Tt + E2t
(9.3.18)
6.Mt = f330 + Q'.31 ·6.Yt + E3t
6.yt = 6.Ct + 6. I t + 6.Gt + 6.Xt - 6.Mt,
donde «Ct» es el consumo de las familias, «Yt -Tt» el producto interior bruto menos los impuestos
o renta disponible, «rt» los tipos de interés a tres meses, « Ít» la formación bruta de capital o la
inversión privada, «Gt» el gasto público , «Xt» las exportaciones de bienes y servicios, y «Mt»
las importaciones de bienes y servicios. Todas las va riables están en incrementos y millones de
euros del año 2000 excepto los tipos de interés. Las observaciones utilizadas van desde el primer
trimestre de 1980 hasta el último de 2010.
La primera ecuación es una función de consumo en la que sus incrementos dependen de los
incrementos de la renta disponible. En la segund a ecuación la inversión depende de la renta y
del tipo de interés . La tercera explica la importación de bienes y servicios en función de la renta.
Finalmente la cuarta es la identidad que nos proporciona la Contabilidad Nacional y en consecuencia

se cumple de forma exacta o sin errores, por t anto no tiene sentido estimar esta ecuación pero es
necesaria para cerrar el modelo.
De manera que tenemos cuatro ecuaci ones estructurales y suponemos que hay cuatro variables
endógenas ( «6.Ct». «6.ft» , «6.Mt» y «6.rt» ). El resto ( «6.Tt». «rt». «6.Gt» y «6.Xt» ) las
consideramos exógenas, en el sentido de que ninguna de ellas está correlacionada con los errores
de las ecuaciones estructurales , «cit». «c2t» ni «é3t». Estos son los supuestos que tenemos que
mantener si queremos estimar este modelo de ecuaciones simultáneas propuesto.
No obstante , hoy en día , se estiman con poca frecuencia este tipo de modelos tan agregados.
Hay buenas razones para dudar de los supuestos mantenidos en el párrafo anterior . Resulta cuanto
menos difícil de justificar que el gasto público «Gt», los impuestos «Tt» y los tipos de interés
<<rt» sean exógenos (lo mismo cabe decir de las exportaciones «Xt» ). Los impuestos, a nivel tan
agregado, dependen claramente de la renta, y resulta también difícil de creer que el gasto público
sea independiente de los ingresos del esta do ( impuestos). Los tipos de interés tienen en cuenta la
inflación, que es claramente una variable endógena . Podríamos haber incluido las ecuaciones de
oferta y demanda de dinero para determinar el tipo de interés pero entonces resulta aún más difícil
encontrar variables exógenas suficientes para identificar el modelo . Sea como sea, este modelo es
didácticamente apropiado para entender cómo se estiman los modelos de ecuaciones simultáneas.
Además este tipo de modelos sigue siendo adecuado y útil para datos más desagregados o para
datos de corte transversal.
La ecuación estructural del consumo, bajo los supuestos mantenidos, tiene una variable endó-
gena , la renta disponible, cuya estimación de la forma reducida por MCO es
6.(yt - Tt) = 344, O - 15, 32·rt - O, 211·6.Tt +O, 366·6.Xt + 1, 318·6.Gt + Et,
(173, 1) (13,28) (0, 156) (0,086) (0,302)
[268,8] [16,55] [0,189] [0,12 1] [0,283] (9.3.19)
n = 123 R 2 = O 2429 R2 =O 217
' ' ' ' '
donde todos los instrumentos (variables exógenas no incluidas en la ecuación estructural : «rt».
«6.Tt». «6.Xt» y «6.Gt») excepto los ti pos de interés «rt» y los impuestos «Tt». son signifi-
cativos (tanto si utilizamos los errores estándar usuales como los robustos de heterocedasticidad y
autocorrelación). Eliminando los tipos de inte rés y los impuestos por no ser significativos , tenemos
que la estimación definitiva de la forma reducida para la renta disponible es
6.(yt - Tt) = 178 +O, 342·6.Xt + 1, 299·6.Gt + Et,

(109,8) (0,079) (0,292)
[135,99] [0,108] [0,289] (9.3.20)
n = 123 R 2 = O 2206 R2 = O 2076
' ' ' ' .
Podemos contrastar si la variable incremento de la renta disponible «6. (yt - Tt) » es endó-
gena. Para ello estimamos por MCO la ecuación estructural del consumo y añadiendo los errores
estimados en la forma reducida , expresión (9.3. 20), como si fuera una variable explicativa más
«Et» . la estimación del contraste de endogeneidad de Hausman es
Tema 9 339
6Ct = - 88, O +O, 897·6 (Yt - Tt) - O, 741·ft + fit .

(9 7,57) (0,128) (0,145 ) (9.3.21)
[167,5] [0,198] [0,197]
Como los errores de la forma reducida son significativos (- 0, 907 / O, 163 = -5, 564) concluimos
que la renta disponible de la ecuación estructural del consumo es una variable explicativa endógena;
por consiguiente dicha ecuación no se puede estimar por MCO puesto que los estimadores son
sesgados e inconsistentes.
Como la ecuación estructural del consumo tiene una sola variable endógena explicativa y tene-
mos tres instrumentos correlacionados con ella, la ecua ción estructural de la función del consumo
está sobreidentificada y la podemos estimar por MC2E ,
6Ct = - 88,0 +O, 897·6 (Yt - Tt) + fit

(137,1) (0,179)
[128,9] [0,190] (9.3.22)
MC2E, instrumentos : 6Xt, 6Gt
n = 123 ' R 2 =-O ' 3672 ' R2 =-O ' 3785 .
El estimador de la renta disponible es significativo a los niveles usuales, el coeficiente de

determinación es negativo , y como dijimos este coeficiente no tiene la interpretación habitual y
además no es prioritario, por lo que no le prestamos mayor atención . De hecho , es negativo en este
caso porque la suma de residuos MC2E al cuadrado puede ser mayor (y en este caso lo es) que
la suma cuadrática de la variable dependiente. Para ca lcular el «R2 » con la interpretación usual ,
calculamos por MCO la segunda etapa [sustituyendo el incremento de la renta disponible por la
estimada en la forma reducida , expresión (9.3.20)].
6Ct = - 88, O + O, 897·6 (Yt - Tt)

(99,29) (0,130)
-- + fit
(9.3.23)
[185,6] [0,2 14]
n= 123 R 2 = O 2826 R2 = O 2766
' ' ' ' '
cuyos estimadores son idénticos a los anteriores , expresión (9.3.22). Ahora la interpretación del
«R2 » es la usual y la estimación por MC2E explica el 27 ,66 % de la varianza del incremento del
consumo. El problema de esta estimación es que los errores estándar no son válidos y por ello es
recomendable usar la estimación directa que realizan los programas especializados.
La función de inversión tiene una variable explicativa endógena , la renta, cuya forma reducida
es
6Yt = 344, O - 15, 32·rt +O, 789· 6 Tt +O, 366·6Xt + 1, 318·6Gt + ft,
(173,1) (13,28) (0,156) (0,086 ) (0,302)
[268,8] [16,55] [0,189] [0,121] [0,283]
(9.3.24)
2
n = 123 R =O 4489 R 2 =O 4302
' ' ' ' '
donde todos los instrumentos son significativos . Solo los tipos de interés no lo son pero esta es una
variable explicativa del modelo estructural de la función de inversión. La estimación por MC2E es
6It = O, 494·6Yt - 22, 59 ·rt + f2t

(0,086) (10,75)
[0,160] [22,38] (9 .3.25)
J..![C2E , instrumentos: 6Tt , 6Xt, 6Gt
n = 123 ' R 2 -- O, 5308 ' R2 = O' 5269 '
cuyos estimadores son todos significativos a los niveles usuales, salvo si utilizamos los robustos de
heterocedasticidad y autocorrelación ; ademá s de que los signos son los esperados.
Finalmente la ecuación estructural de las importaciones «6Mt» tiene como única variable
explicativa la renta, de manera que la forma reducida es la estimada en la expresión (9.3.24), pero
eliminando el tipo de interés por no ser significativo , su estimación por MC2E es
6Mt = - 133, 7 +O, 715·6Yt + f3t

124,5) (0,091 )
[301,5] [0,261] (9.3.26)
MC2E, instrumentos : 6Tt, 6Xt, 6Gt
n = 123 R 2 =O 3398 R2 =O 3344
' ' ' ' '
con parámetros significativos a los niveles usuales; lo importante es que el estimador por MC2E es
consistente y que el incremento de un mi llón de euros de 2000 en la renta implica en promedio un
incremento de 1,5 millones de euros en las importaciones.
9.4. VALIDEZ DE LOS INSTRUM ENTOS
9.4.1. Relevancia y exogeneidad de los instrumentos

Revisamos en primer lugar el supuesto de relevancia del instrumento. En general podemos
decir que cuanta más variación de la variable explicativa endógena se explique por medio de
los instrumentos, más información tendremos disponible para su uso en la regresión de VI (en
la segunda etapa) , y por tanto nos dará una estimación más precisa. Por ejemplo , en el caso
de la demanda de tabaco anterior podríamos haber sugerido como instrumento las distancias
de los principales centros de consumo a las fábricas de producción y procesado de la cajetilla.
Este instrumento estaría correlacionado con el precio , pues a mayor distancia mayor coste de
transporte por cajetilla, y por tanto mayor precio por cajetilla; sin embargo la proporción que
representa el coste de transporte en el precio final de la cajetilla se considera realmente bajo,
pues las cajetillas ni ocupan ni pesan de una manera determinante. En comparación con los
otros dos instrumentos que utilizamos. ahora este resulta claramente más débil , y por tanto
peor. También lo podemos intuir en el ej emplo que comentamos al comienzo del tema sobre
el rendimiento de los años invertidos en educación sobre el salario. Como dijimos, algunos
investigadores han utilizado la variable binaria trimestre de cumpleaños como instrumento,
sin embargo los resultados de otras invest igaciones sugieren que la condición de relevancia, es
decir, si la correlación con la variable «años de educación» es extremadamente débil, lo que
llevó a los investigadores a resultados poco cuestionados por otros colegas de profesión.
Los problemas derivados de la debilidad de los instrumentos son relativamente fáciles
de intuir. Por ejemplo, si nos concentramos en el caso simple de la regresión VI, cuando solo
Tema 9 341
hay un instrumento para una variable explicativa endógena y no hay variables explicativas
exógenas en el modelo estructural, vimos en la Ecuación (9.1.8) que
En el caso extremo de ser un instrumento irrelevante, cov(Zi, Xi) = O, el cociente no sería

posible y no podríamos obtener un estimador consistente, y además asintóticamente no ob-
tendremos una distribución normal. El comportamiento en el caso extremo sugiere que cuanto
más débil sea el instrumento, es decir, cuanto más se aproxime al caso irrelevante, los métodos
habituales de inferencia fácilmente nos conducirán a conclusiones poco rigurosas. De hecho,
de la expresión indicada al comienzo del tema que ahora reproducimos
(JAMC2E
1
-
-
(31 + -
P Zó (Tó
---
PZX CTX
se observa que incluso si la correlación entre el instrumento y el error es pequeña, la incon-

sistencia del estimador puede ser muy grande si la correlación entre Z y X es también baja
(débil).
En el caso de una sola variable explicativa endógena y varios instrumentos sería posi-
ble utilizar el estadístico tipo F de la regresión de la primera etapa, para contrastar si los
coeficientes de los instrumentos Zli , .. ., Zmi son conjuntamente iguales a cero. Una norma
práctica sugerida en Stock y Yago (2005) es considerar que un instrumento es débil cuando
el estadístico computado F presenta un valor por debajo de 10.
Toda vez que las estimaciones son sesgadas y las distribuciones muestrales de los coefi-
cientes son diferentes asintóticamente de la normal, se desaconseja el uso del estimador MC2E
para estos casos de instrumentos débiles, y se sugiere la búsqueda de otros instrumentos menos
débiles.
El segundo requisito es el de exogeneidad del instrumento. En tal caso, ya comentamos
que entonces el estimador MC2E convergía necesariamente hacia algo diferente del coeficiente
de regresión del modelo poblacional, que es el que nos interesa. Para establecer si un ins-
trumento es exógeno, un primer paso es pensar en los argumentos acerca de por qué puede
o no serlo. Para ello es conveniente preguntarse cuáles son los factores que forman parte del
término error en la especificación que hayamos hecho del modelo, y entonces pensar si esa lista
de factores puede estar (y en qué grado de verosimilitud) relacionada con los instrumentos.
Cuando el modelo está sobreidentificado podríamos realizar un contraste sobre la validez de
alguno(s) de los instrumentos, tal y como veremos posteriormente. Sin embargo cuando el mo-
delo tiene el mismo número de instrumentos que de variables endógenas explicativas, entonces
es imposible verificar si algún instrumento cumple el requisito exogeneidad. Presentamos a
continuación un contraste útil a estos efectos.
Contraste de sobreidentificación de restricciones

Supongamos que disponemos de un solo regresar endógeno y de dos instrumentos (modelo
sobreidentificado). Bajo estas condiciones podríamos estimar el modelo utilizando solo un
instrumento, en cuyo caso tendríamos dos estimaciones, una que utiliza el primer instrumento
y otra con el segundo. Si ambos instrumentos son exógenos a la ecuación estructural y está::
correlacionados con la variable explicativa endógena, es decir si se cumple (9.1.4) y (9.1. 5
entonces ambas estimaciones deberían ser cercanas (no iguales debido a la variación muestra!
y si no es así, entonces parece razonable concluir que uno de los instrumentos, o bien los d ~
no son exógenos a la ecuación estructural, en el sentido de que no se verifica la expresió::::.
(9 .1.4).
Esto es lo que hacemos de forma implícita cuando estimamos por MCO la siguiente ex-
presión:
(9.4. 1
donde «tt¡1C 2E» son los residuos estimados por MC2E usando todos los instrumentos , y sor:
por tanto las versiones muestrales de éi. Contrastamos mediante la F la hipótesis nula de que
los instrumentos no son significativos «Ho : 6 1 = 62 = 0». El estadístico para el contraste de
sobreidentificación, también denominado estadístico «J », se construye de la siguiente forma.
«J = mF», donde «m » es el número de instrumentos, y cuya distribución para muestra:;
grandes sigue una «x~ » donde «q» o grado de sobreidentificación es el número de instrumento .
en nuestro caso «m = 2», menos el número de variables explicativas endógenas , en este caso
con valor unitario «q = 2 - 1 = l ». Nada impide aplicar este contraste de forma general a
modelos con más variables explicativas endógenas siempre que el número de instrumentos sea
mayor que el número de regresores endógenos. De manera que el contraste «J » nos permite
contrastar la exogeneidad de los instrumentos siempre que el modelo esté sobreidentificado.
Podemos aplicar este contraste al ejemplo del tabaco, la regresión de los residuos estimado
por MC2E de la ecuación sobreidentificada, expresión (9.3.14) , sobre las variables instrumen-
tales (impuestos sobre el tabaco y total de impuestos) es
impuestostabacot totalimpuestost
utfC 2E = -0, 005 + 0, 031 · tabacot _ O, OO l · __t_a_ba_c~ot_ _ (9.4.2)
(0,042) (0,048) ÍpCt (0,001 ) ipct
donde hemos incluido solo los instrumentos puesto que en la ecuación de demanda (9.3.14)
solo incluimos como variable explicativa el precio. De manera que en este caso la hipótesis
nula de exogeneidad de los instrumentos «Ho : 61 = 62 = 0» coincide con el estadístico
«F» de significatividad conjunta de la regresión anterior, cuyo coeficiente de determinación
es 0,0193. Por tanto la «F» empírica es 0,285 [º ·º; / 13~~~~913 =O, 285], y el estadístico «l»
93
es 0,57 (J = mF = 2·0,285) que se dist ribuye asintóticamente como una «x~ = xi » cuyo
valor crítico al 95 % de confianza es 3,84. Como el valor empírico es menor que el crítico, no
podemos rechazar la exogeneidad de los instrumentos utilizados. Los programas especializados
suelen incluir de forma rutinaria este contraste cuando estimamos por MC2E y el modelo está
so breidentificado.
Conviene dejar claro que este contraste J es válido si además los errores son homocedás-
ticos. En caso de heterocedasticidad también existe un contraste equivalente que mostramos
en la Sección 9.5.
Tema 9 343
9 .4.2. Variables de control en la regresión VI

Las variables X de la Ecuación (9.2.5) son aquellas variables exógenas incluidas, en cuyo
caso JE (ci IXi) = O. Sin embargo, también pueden ser variables de control de las que no se
requiere una interpretación causal, sino que las incluimos para garantizar que un instrumento
no está correlacionado con el término error.
En el ejemplo de la demanda de tabaco sugerimos que el instrumento de los impuestos
totales sobre ventas satisfacía a priori los requisitos de relevancia y exogeneidad. Es económi-
camente razonable considerar que este tipo de impuestos pueden depender de los niveles de
renta de las zonas estudiadas. La renta es una variable omitida en el modelo de la demanda de
tabaco que sabemos afecta a la demanda de los bienes. Así pues, en esta situación, tendríamos
que el instrumento estaría correlacionado con el término error, que es el que incorpora la renta,
perdiendo la condición de exógeno. En este caso, incluir la variable renta en el modelo estruc-
tural (9.2.5) evitaría que el instrumento (nivel de impuestos totales) estuviera correlacionado
con el término error, y la estimación del coeficiente del precio sería consistente.
La inclusión de una variable de control X ha de asegurar que la media (esperanza) condi-
cionada del término error no dependa del instrumento , es decir, debe cumplir el requisito de
independencia condicionada
esto es, que una vez que controlamos el efecto de la variable X i, la media condicionada no
depende de Z . Esto, como en el caso de variables de control en la estimación MCO, supone
una relajación del supuesto de que el error ha de tener media condicionada nula, dados Z y
X.
Para ver por qué funciona el supuesto de independencia condicionada, remitimos al lector
a la Sección 3.1.5; y para revisar el concepto de variable de control en MCO a la Sección 8.1.2.
Ahora veamos por qué los métodos de inferencia que hemos presentado son válidos cuando
reemplazamos el primer supuesto del modelo de regresión VI (ver Sección 9.2.3) por
JE (c· lz· x control) =JE (c· lxcontrol)

i i' i i i '
donde por simplificar hemos considerado una sola variable explicativa endógena que deno-
minaremos Y1 y una única exógena xcontrol que no es propiamente una variable explicativa
exógena, sino que es una variable que incluimos para lograr que el instrumento Z sea exógeno.
El modelo es
Hagamos un supuesto adicional más: que el error de la observación i-ésima es lineal respecto
de la variable de control introducida, JE (é'i 1 X¡ontrol ) = /O + ¡2 Xfontrol, dado que facilita los
cálculos, pero que puede relajarse en un tratamiento más técnico del que presentamos aquí.
Definimos la diferencia entre el error del modelo y el error del modelo condicionado por el
instrumento y el control del siguiente modo
de modo que
JE (v· IZ· xcontrol)

t t' t = JE ( Ei -JE (Ei lzi,Xitrol) ¡zi,xrntrot)
= JE (Ei lzi, x¡ontrol) - JE ( Ei lzi, Xf°ntrol) = Ü.
Un modelo con este error cumpliría la condición primera (exogeneidad) prevista en los su-
puestos del modelo de regresión VI.
La cuestión es que el modelo original , Yoi = /30 + /31 Y1i + /32Xicontrol + Ei, puede reescribirse
utilizando los supuestos (independencia condicionada y linealidad del error respecto de la
variable de control) que hemos hecho con un término error vi,
Yoi /30 + /31 Y1i + /32Xfºntrol + Ei

/30 + /31 Y1i + /32Xf 0 ntrol + Vi + JE ( Ei 1 zi' xrtrol)
/30 + /31 Y1i + /32Xf 0 ntrol + Vi + JE ( Ei 1x¡ontrol) (por independencia condicionada)
/30 + /31Y1i + /32Xintrol +Vi+'º+ r2Xitrol (por linealidad con x¡ontrol)
(/30 +ro) + /31 Y1i + (/32 + /2) xrtrol +Vi
Óo + /31Y1i + 82Xf°ntrol +Vi.
La última expresión indica por tanto que satisface todos los criterios del modelo de regresión
VI previstos en la Sección 9.2.3, y por tanto todos los métodos de estimación e inferencia
desarrollados en este tema son igualmente válidos para dicho modelo.
Por otra parte, al igual que sucede con las variables de control en MCO, podemos observar
en la última expresión que (a) el coeficiente de la variable de interés, en este caso Y1 , se estima
consistentemente por MC2E; (b) el coeficiente del término asociado a la variable de control no
tiene una explicación causal, si bien (c) la estimación por MC2E del coeficiente 82 = /32 + /2
será consistente y reflejará la suma del efecto causal directo de x¡ontrol , fh, y /2, que da
cuenta de la correlación entre Xf°ntrol y los factores omitidos en Ei que la variable control
tiene en consideración.
En el caso del ejemplo de la demanda de tabaco, debido a la posible endogeneidad causada
por la correlación entre la renta y los impuestos, que están en el término error del modelo
estructural original y por tanto generando que el instrumento no sea válido, una solución es
incorporar la renta como variable de control dentro de la especificación del modelo. En tal
caso el estimador del coeficiente de la variable explicativa endógena (los precios) ya estaría
consistentemente estimado y su interpretación en términos causales sería correcta. Adicional-
mente, habría un nuevo coeficiente estimado relativo a la renta. Como acabamos de mostrar
tal coeficiente reflejaría el efecto de la renta (elasticidad renta, si introducimos la variable en
logaritmos, como generalmente hacemos con variables informativas de rentas de individuos) ,
y además también reflejaría el efecto causado por correlación con otros elementos que hemos
dejado de especificar y está en el error. Tal podría ser el caso de la educación: es verosímil que
a mayor educación, menor consumo de t abaco; y que a mayor educación, mayor renta. Por lo
que de ser así, el coeficiente estimado por MC2E para el control no reflejaría únicamente el
efecto renta.
Tema 9 345
9.4.3. Regresión VI con series temporales

En los ejemplos de la demanda de tabaco y en el modelo simplificado de la economía
española hemos utilizado datos en forma de serie temporal, cuando sin embargo el tratamiento
y exposición que hemos realizado (los supuestos) son más coincidentes con la casuística propia
de los datos de sección cruzada (transversales). Es perfectamente posible aplicar MC2E a datos
de series temporales siempre que no perdamos de vista los problemas propios de este tipo de
datos.
En la Sección 6.2 expusimos que un problema de trabajar con datos temporales es la
existencia de autocorrelación, esto es, situaciones en las que la varianza del término error no es
constante por la existencia de correlación temporal entre errores poblacionales. La distribución
asintótica normal del estimador MC2E está garantizada si utilizamos la Suposición 4, sin
embargo la fórmula adecuada para el cálculo de la varianza muestral de los estimadores es la
utilizada en la expresión (6.2.5) donde ahora depende de las autocovarianza de ZtEt· En los
términos matriciales que exponemos posteriormente esto implicaría utilizar un estimador de
la matriz n = JE (ZiZ~cZ) que considerara los métodos HAC estudiados anteriormente en la
sección en la que presentamos la Ecuación (6.2.6), con las correspondientes transformaciones.
No obstante, para poder aplicar los estimadores HAC insistimos en que los datos deben
acomodarse para satisfacer el supuesto que hacemos (Suposición 4) sobre la naturaleza esto-
cástica de todas las variables que figuran en el modelo. Es decir, (i) tienen una distribución
de probabilidad que no cambia a lo largo del tiempo y (ii) cualesquiera dos vectores tempora-
les (distintos) se convierten en independientes a medida que se alejan en el tiempo. Por este
motivo (como quedará más claro en la Parte III del libro) es recomendable diferenciar las
variables (también los instrumentos) antes de estimar.
Finalmente es posible que la contrapartida teórica (el modelo económico) del modelo
econométrico que vamos a estimar prevea que el término error debe entenderse como una
perturbación no predecible (inesperada). Esta impredecibilidad implica que la perturbación
Et no puede estar correlacionada con Et-j, j > O, es decir, no puede estar autocorrelacionada
dada la información pasada de la que disponen los agentes económicos. En consecuencia, bajo
este marco, no es necesario utilizar los estimadores HAC. Complementariamente, la impre-
decibilidad en términos de la esperanza condicionada sobre el modelo poblacional equivale a
que, por ejemplo, en la Ecuación (9.2.1) tengamos 9
JE (et IYo,t-1, Zt-1 , Y1,t-1) =O,
La expresión pone de manifiesto que todas las variables retardadas serían candidatas (por
cumplir con el requisito de exogenidad) a ser instrumentos válidos.
Hemos visto que la estimación por MC2E , es decir, utilizar el método de las VI es aplicable
tanto a modelos que incorporen datos de secciones cruzadas, como a modelos cuyos datos
vengan en forma de serie temporal. También es posible utilizar VI en modelos con datos
en forma de panel y datos fusionados de sección cruzada, si bien sobre esta particularidad
volveremos en el tema dedicado a este tipo de datos.
9
Esto es, en (9.1.6) se tendría JE (ét IYt-1, Zt-1, Xt-1) = O.
9.5. EXPRESIÓN MATRICIAL Y ESTIMACIÓN DE LA R EGRESIÓ N

VI
El modelo (9.2.5) se puede escribir matricialmente como sigue
Y= X/3+e, (9.5.1
donde ahora X es una matriz de orden n x ( k + r + 1) que contiene a los regresores exógeno
incluidos y a los regresores endógenos, de modo que la fila i-ésima es
el vector de errores, e , es de orden n x l; y finalmente el vector de orden n x 1, Y , está formado

por la variable dependiente, Yoi, i = 1, ... . n. Las columnas de X las denotamos como
Por otra parte, definimos la matriz Z como una matriz de orden n x (m + r + 1) consti-
t uida por todos los regresores exógenos, es decir, está formada por los instrumentos y por las
variables exógenas incluidas:
Bajo los supuestos del modelo de regresión VI, el requisito de exogeneidad garantiza
(9.5.2)
El estimador MC2E se caracteriza, como hemos visto, por una primera etapa donde se
calculan los valores Yú, ... Yki mediante k proyecciones lineales (predicción) que obtenemos
a partir de las regresiones MCO del t ipo Y1i, ... , Yki sobre Z . Esto nos permite definir una
matriz X de orden n x ( k + r + 1) cuya fila i-ésima es
donde hemos considerado el hecho de que la predicción de una variable del tipo Xri, obtenida
a partir de la regresión de la variable exógena Xri sobre Zi (nótese que este vector incorpora
a la propia variable Xri), es la p.ropia variable Xri , y por tanto las regresiones de la primera
fase se incorporan en la matriz X como sigue:
x = ( z (z'zr 1z'1, z (z'zr 1z'x.1 ,

... z (z'zr 1z'x.r, z (z'z) - 1z'Y.1, .. ., z (z'zr 1z'v .k) (9.5. 3)
(z (z'zr 1z'x)
P zX, (9.5.4)
Tema 9 347
siendo P z = Z(Z'Z)- 1 Z' la matriz de proyección 10 .

La segunda etapa consiste en estimar los coeficientes de {3 con una regresión MCO donde
utilizamos la matriz X obtenida en la primera etapa, y estimamos
Y= Xf3 + u,
en el que los errores no coinciden con los del modelo estructural original. En tal caso el
estimador MCO de esta segunda regresión proporciona los estimadores por MC2E
~Mc2E = (x'x)-1 x'Y.

Este estimador lo podemos reescribir utilizando (9.5.4) y las propiedades de idempotencia
y simetría de las matrices de proyección de la siguiente manera:
1
~MC2E
(X'P~PzXf X'P z Y
(X'PzXf 1 X'P z Y . (9.5.5)
Una vez que tenemos la expres10n matricial del estimador MC2E podemos derivar la
distribución asintótica de la misma si consideramos los supuestos de modelo de regresión VI
de la Sección 9.2.3 y aplicamos el teorema central del límite.
El primer paso es expresar (9.5.5) en función del término error del modelo estructural
(9.5.1). Para ello sustituimos (9.5.1) en (9.5.5):
~/\I C2E
(X'PzXf 1 X 'P z Y.
(X'PzXf 1 X'P z (X{3 +e)
1
f3 + (x'Pzxf X 'P z e.
Reordenando y multiplicando por fo y usando la definición del proyector P z se obtiene,
Vn (~MC2E _ {3) 1
( ;;¡:X'PzX
)-l Vn X'P ze.
1
X'Z (z'z) -l Z'X) -l X'Z (z'z) -l Z'e . (9.5.6)

( n n n n n fo
El segundo paso consiste en evaluar asintóticamente hacia qué converge en probabilidad
(ver Sección 5.5.2) cada uno de los términos de la expresión anterior. Los supuestos de la
regresión VI garantizan que asintóticamente
10
Se recomienda revisar la Sección 3.4 donde se explican las propiedades y este tipo de matrices. Entre
otras cosas el concepto de proyección nos permite comprender que la proyección de, por ejemplo, Xii sobre
las columnas de Z , que contienen al vector que forma Xi i, i = 1, ... n , es el propio X 1i, es decir, P z X. 1 = X. 1 .
Esto precisamente explica por qué solo es necesario realizar k regresiones en la primera etapa, y no k + r + 1
regresiones.
Z'Z -=-+
p
JE zizi = Qzz.
(
-
') _
n
También bajo los supuestos VI, se garantiza que Z i Ei es iid, tiene media nula, y la varianza
está bien definida (existe y es distinta de cero). Por tanto , aplicando el teorema central del
límite, se tiene que la suma de este tipo de variables (dividida por fo) converge a un vector
de dimensiones (m + r + 1) x 1 cuyos elementos siguen una distribución normal, en particular
El tercer y último paso consiste en evaluar conjuntamente (9.5.6) y las expresiones asin-
tóticas de cada uno de los términos que la integran. En este sentido , aplicando los resultado
obtenidos, sobre los términos de (9.5.6) . tenemos que
r,:: ( /3~ MC2E

vn - /3 ) d (
-t QxzQzz - 1 Qzx )-1 QxzQzz -1 Wzg '""N ( O, V MC2E) ,
donde
La expresión (9.5.7) nos proporciona la manera de estimar la varianza yMC 2E al simple-

mente poder hacerlo sustituyendo los momentos poblaciones de la misma por sus análogo
muestrales, Qzx, Qxz , Qzz y
Los errores estándar de los estimadores de cada uno de los coeficientes estimados se calculan
haciendo la raíz cuadrada de los elementos de la diagonal principal de yMC 2E.
9.5.1. Propiedades de la distribución VI con homocedasticidad

y con heterocedasticidad
Muchos estimadores econométricos pueden ser vistos como soluciones a problemas de op-
timización. Sin ir más lejos, el estimador MCO se obtiene minimizando la suma cuadrática
de los residuos. En el contexto de VI un estimador del vector (k + r + 1) x 1 de parámetros /3
en (9.5.1) que también minimice una función objetivo cuadrática es posible. El supuesto de
exogeneidad de los instrumentos proporciona las bases fundamentales para dicha estimación.
El supuesto garantiza que poblacionalmente los errores no están correlacionados con los re-
gresores exógenos, es decir, (9.5.2) impone que en el verdadero /3 los momentos poblaciones
satisfagan las restricciones dadas por
JE ((Y - X/3)' ZJ =O. (9.5.8)
Las restricciones poblacionales forman un sistema de (m + r + 1) ecuaciones que incorpora

las (k + r + 1) incógnitas (parámetros desconocidos) del vector ¡3. Para encontrar la solución
al sistema de ecuaciones poblacional necesitamos conocer las esperanzas JE (Y'Z) y JE (X'Z) ,
Tema 9 349
y como desconocemos dichas esperanzas, las reemplazamos por sus contrapartidas muestrales
(los momentos muestrales), es decir, tratamos de resolver entonces
~ (Y- X{3*)' Z = O, (9.5.9)

n
donde {3* sería el estimador de {3.
El sistema (9.5.9) tendrá solución única, {3* , si m = k, es decir, cuando exista identificación
exacta. Conviene observar que, sin embargo, los momentos muestrales (sujetos a variación
muestra!) son distintos de los momentos poblaciones, y por tanto la solución de (9.5.9) es un
estimador de la solución de (9.5.8). Como sabemos, los modelos pueden estar sobreidentificados
(m > k) , en este caso el sistema de ecuaciones con las restricciones poblacionales (9.5.8)
tendrá (m - k) ecuaciones redundantes y por tanto tales restricciones se cumplirán para el
verdadero {3. Sin embargo, el sistema de ecuaciones de restricciones muestrales (9.5.9), que
tiene más ecuaciones que incógnitas, en general no tendrá solución (es decir formará un sistema
incompatible), aunque habrá vectores {3** que hagan que (Y - Xf3**)' Z esté «próximo» a
cero.
Justamente, en el caso de la sobreidentificación, buscar como solución el vector que mejor
aproxime a cero todas las restricciones muestrales constituye en sí una forma equilibrada de (i)
satisfacer cada ecuación muestra! y (ii) minimizar una función objetivo (una forma cuadrática)
que incluya todas las ecuaciones. La proximidad nos la da la definición de una distancia, en
este caso se trata de minimizar la distancia entre (Y - Xf3**)' Z y cero, para ello utilizamos
como estimador aquel vector, que denotamos por /JGMM, que minimiza para {3* el escalar
(Y - X/3*)' ZWZ' (Y - X{3*), (9.5.10)
donde W es una matriz simétrica de orden (m + r + 1) , semidefinida positiva, denominada

matriz de ponderaciones. Si W n = I (m+r+l)' tendríamos que (9.5.10) sería el cuadrado de la
distancia habitual euclídea.
La solución del problema de minimización se deja como ejercicio al lector interesado. En
todo caso, su solución pasa por derivar la función cuadrática objetivo respecto de {3* , igualar
el resultado a cero, y reordenar a fin de obtener
¡3~MM = (x zwz xr 1 X'ZWZ'Y.

1 1
(9.5.11)
Obsérvese que hemos utilizado en la expresión del estimador (9.5.11) un superíndice, GMM ,
distinto de por ejemplo VI. Los motivos son varios. P or una parte, veremos seguidamente que
el estimador (9.5.11) incorpora como caso particular al estimador de VI que hemos presen-
tado en este tema. Incluso el propio estimador MCO es un caso particular de (9.5.11) para
unas determinadas selecciones de Z y W. Por otra parte, el estimador (9.5.11 ) nos invita a
considerar elecciones de la matriz de ponderaciones W que hagan que el estimador sea más
eficiente, y en este sentido el tratamiento del estimador es más general. También por otra
parte, el estimador GMM nos permitiría no solo tratar el caso de una ecuación (una variable
dependiente) como (9.2.5), sino casos de múltiples ecuaciones lineales y no-lineales, que no
son tratados en este libro. Por último, señalar que el acrónimo GMM es una contracción del
inglés Generalized Method of the Moments. Este método es, como su propio nombre sugiere.
una generalización del clásico método de los momentos (MM), y su relevancia en los desarro-
llos econométricos desde 1982 es más amplia que la que se puede desprender de su uso para
estimar modelos de regresión con VI. Remitimos al lector interesado a la obra de Hayashi
(2000) para un tratamiento econométrico general basado en el principio de GMM.
Es interesante observar que el estimador (9.5.11) utiliza combinaciones ponderadas de
los instrumentos Z , cuando el número de instrumentos es superior al número de variables
endógenas incluidas. Por este motivo el estimador MC2E de la expresión (9.5 .5) es un caso
particular de (9.5.11), es decir una combinación particular ponderada de los instrumentos, en
el que el problema de minimización se resuelve para la matriz de ponderaciones particular
W = (Z' Z)- 1 . Igualmente, otros métodos de estimación son reconciliables con este siempre
que determinemos una Z y una W . Por ejemplo, si seleccionamos la matriz de ponderaciones
W = (X'X/n)- 1 y consideramos que los instrumentos son todos variables exógenas, es decir.
si consideramos que no hay problemas de endogeneidad, Z = X , entonces (9.5.11) es el
estimador M CO.
La distribución asintótica del estimador ¡3fvM M (Ecuación (9 .5.11)) se deriva igual que
hemos obtenido la de MC2E y su varianza siguiendo los pasos dados para llegar a (9.5.7). El
resultado general es
vln (f3fvMM - f3)~ N (o, vfvMM)'
v?J 1M 1
= (QxzWQzx)- Qx zWOWQzx (QxzWQzx )-
1
. (9.5.12)
Es de interés saber si hay matrices de ponderación asintóticamente más eficientes que
otras. La eficiencia dependerá de la varianza, es decir de (9 .5.12). De nuevo las propiedades
de los errores del modelo jugarán, como en el caso MCO, un papel determinante.
Vamos a considerar el caso en el que los errores son homocedásticos . Recordemos que
en MCO , bajo este supuesto, el teorema de Gauss-Markov ofrece un resultado en términos de
eficiencia de los estimadores. En VI hay un resultado análogo que indica que la estimación
MC2E es asintóticamente eficiente en la clase de estimadores VI en los que los instrumentos
son combinaciones lineales de las filas de Z.
Con homocedasticidad, JE (cf IZi) = a}, se tiene que
n =JE ( Zi Z~ct) =JE [JE (Zi Z~cf ¡zi)] =JE [zi z~JE (cf IZi)] = (J';Qzz.
Esta expresión hace que ahora (9.5.12) se convierta en
V~0Afnr: =O'; (QxzWQzx )- Qx zWQzzWQzx (QxzWQzx )-

1 1
. (9.5.13)
Igualmente, con homocedasticidad, la configuración de la matriz n generará, tras una

simplificación sencilla, otra expresión del estimador MC2E (9.5.7)
MC2E 2 ( -1 )-1
V homo = O'f; QxzQzz Qzx · (9.5.14)
Demostrar que MC2E es asintóticamente eficiente entre la clase de estimadores que son
combinaciones lineales de Z consiste en probar que
c'VGMMC > c'V MC2E c (9.5.15)
homo - homo
Tema 9 351
para todas las matrices W semidefinidas positivas y t odos los vectores e de orden (k+r+ 1) x l.
La demostración se deja como ejercicio teórico para el lector con dominio de álgebra matricial.
Por tanto, en el caso homocedástico , la eficiencia del estimador VI se encuentra haciendo
que la matriz de ponderaciones (Ecuación (9.5.11)) W = (Z'Z)- 1 , que es la que, como hemos
visto, da lugar a la estimación MC2E. Podemos además observar la cercanía entre la expresión
eficiente bajo homocedasticidad de w y n- 1 = (1/a;)Qz~·
En el caso de errores heterocedásticos, el estimador MC2E no es eficiente entre la clase de
estimadores VI que utilizan combinaciones lineales de Z como instrumentos. En este caso el
estimador eficiente se encuentra a partir del estimador GMM , expresión (9.5.11). Por analogía
al caso homocedástico, donde la expresión de la varianza que nos conduce a un estimador
eficiente es aquella correspondiente a una selección de la matriz de ponderaciones que lleva
a (9.5.14), en el caso heterocedástico la matriz de ponderaciones que nos conduce a una
expresión similar (9.5.14), y por analogía eficiente, es cuando W = n - 1 . En este caso la
expresión (9.5.12) se reduce, tras simplificar,
V GMM = (Q xzu
n-lQ zx )-1 .
Se puede demostrar también que
c'vGMMC
horno -
> c'VGMM C ·
Por lo que el estimador eficiente bajo heterocedasticidad se alcanza cuando W = n- 1 , y si
sustituimos esto en (9.5.11), obtemos
13cMM = (x'znz'xf 1 x'znz'Y.

Para lograr que este estimador sea factible necesitamos que la matriz n sea estimada
consistentemente. Este estimador se calcula en dos etapas. La primera consiste en estimar
consistentemente el vector de coeficientes f3 de la Ecuación (9.5.1), en el caso de VI estimamos
por MC2E. Esto nos permite obtener los residuos de la ecuación de interés, y por tanto,
podemos formar O = L:r=l Zi Z~ if . En la segunda etapa se calcula la matriz de ponderaciones
óptima ñ- 1 y se calcula el estimador GMM eficiente:
1
(3GMM = ( x'zn- 1 z'x )- x'zn- 1 z'Y.
Finalmente debemos señalar que cuando expusimos el estadístico de contraste J , indica-
mos que era válido bajo el supuesto de homocedasticidad. El estimador eficiente nos permite
encontrar una versión del estadístico J en caso de heterocedasticidad. La clave está en con-
siderar la función de ponderaciones GMM eficiente. Ahora los residuos , en lugar de estar
estimados por MC2E, lo estarán por GMM, que usa la matriz n-
1
, y la forma del estadístico
es
JGMM = (z'¿GMM)' (2-1 (z'¿GMM) /n,
donde ¿GMM =y - x13GMM. Bajo la hipótesis nula JE (Ziéi) =o,
JGMM ~ X~-k·
Normalidad asintótica del estimador MC2E para modelo simple de VI

Una forma alternativa de la expresión (9 .1.8), que expresa el estimador MC2E en función
de los errores del modelo, es posible y útil. Consideremos el modelo (9.1.6) en desviaciones
respecto de las medias de sus variables Y; - Y = /31 (Xi - .X) + (ci - €). El numerador
del estimador MC2E (Ecuación (9.1.8)) es, teniendo en cuenta que las minúsculas denotan
variables en desviaciones respecto de sus correspondiente medias muestrales
n
éoV(Z, Y) = (n - 1)- 1
L ZiYi
i=l
n
i=l
n
i=l
n
/31cÜV (X, Z) + (n - 1)- 1 L ZiEi,
i=l
donde la última igualdad se debe a ¿ 7= 1 ZiE = O. Al sustituir esta última expresión en la

Ecuación (9.1.8), y multiplicando numerador y denominador por el factor (n - l)n para así
obtener una expresión más tratable, tenemos
MC2E - /31éÜV (X, Z) 1)- 1 L~=l ZiEi

+ (n -
/J1
A
-
éoV (Z,X)
n- ¿~ 1 (zi - .Z) Ei
1
/3
1
+ n-1 "'~ (Z·1 - Z) (X1 - X)
~1=1
éoV(Z, e)
/3 1 + éoV (X, Z)'
Cuando la muestra es grande Z no es distinguible de su media poblacional µz, de modo que

el numerador será aproximadamente w = n- 1 (Zi - µz) Ei, que tendrá esperanza nula por la
condición de exogeneidad del instrumento Zi, JE(wi) =O. Bajo el supuesto de muestra aleatoria
de las variables que intervienen en las regresiones, tendremos que Wi es iid, y las condiciones
usuales sobre la existencia de momentos garantizan que existe varianza de Wi = (Zi - µz) Ei,
que denominamos O'~ . Por estos motivos, var(w) = O'~/n. El teorema central del límite
garantiza entonces que w/ Jvar(w) se distribuye asintóticamente como una N(O, 1). Tenemos
entonces que asintóticamente
AMC2E w
131 = 131 + COY (X, Z)'
donde hemos utilizado de nuevo que la covarianza muestra! es un estimador consistente de la
poblacional, que es distinta de cero. De este modo tendremos la variable aleatoria que define
Tema 9 353
~f1C 2 E converge asintóticamente a una distribución normal, por el comportamiento de w; con

media JE (~f1C 2 E) = f31 +O, y varianza
var(w) var ((Zi - µz) Ei )

[cov (X, Z)]
2 = n [cov (X, Z)]
2 .
EJERCICIOS
Teóricos
l. Demuestre (9.5.15).
2. Suponga que entre las variables X e Y hay causalidad simultánea, de modo que Y =
a+ (3X +u y X = 'Y+ bY +v. Muestre que en este caso los regresores de ambas
ecuaciones son endógenos.
3. Sea el proceso generador de datos igual Xi = f310 + f320Yi * +ui . Suponga que y* no es
observable y en su lugar emplea Yi = Yi*+Vi , es decir estima Xi= f31+ f32Yi+ Ei . Suponga
además que u y v son iid con medias nulas y varianzas o-~ y a-;
respectivamente, que
ambos errores están incorrelados y que E(y*, v) = O. Muestre que en estas condiciones
habrá correlación entre y y e y trate de determinar su signo.
4. Suponga que el modelo de regresión simple Yi = a + f3Xi + ui está mal especificado

debido a la omisión de una variable relevante. Se dispone además de un instrumento
apropiado W i· Justifique si es necesario en este caso utilizar el estimador VI para obtener
un estimador consistente de f3i.
5. Considere el modelo Yi = a+ f31Xi + f32Wi + ui . Suponga que W es un regresor endógeno

siendo Z su instrumento. Muestre que la «forma reducida» del regresor exógeno X es
la propia variable X (es decir que el instrumento de X es la propia X).
6. En muchos ejercicios prácticos suelen usarse variables retardadas como instrumentos.

Señale si esta práctica le parece adecuada.
7. Sea el modelo (que consideramos correcto) Yi =a+ f31X1i + f32X2i + Ui. Suponga que
X2 es no observable pero que disponemos de una buena proxy, Z.
a) Justifique si Z sería un instrumento adecuado en la regresión Yi =a+ (31 X 1i + ui

b) Suponga ahora que disponemos una variable W incorrelacionada con u y corre-
lacionada con X. ¿Funcionará el método VI en el supuesto de que X y u estén
incorrelacionadas? En caso afirmativo, ¿es este método preferible a MCO? Justifi-
que sus respuestas.
e) Suponga que está interesado solo en el efecto de Xi sobre Y y que dispone tanto d
una buena proxy como de un buen instrumento adecuado para la regresión simplE
¿Qué alternativa sería preferible?
8. La expresión de la varianza asintótica del estimador VI de la pendiente en el modelr

simple, viene dada por e7~ / (ne7~Txz ), donde res la correlación entre x y su instrumem
z.
a) Razone cuáles son las consecuencias sobre dicha varianza de una baja correlació
entre x y su instrumento.
b) Indique si esa situación puede tener consecuencias también sobre la inconsistencia
Prácticos
9. La tabla ET9 1 contiene datos del consumo de arroz, precio y renta disponible, todo:;
ellos en logaritmos.
a) Estime la ecuación de demanda en dicho mercado y comente los resultados obte-

nidos.
b) Suponga que tiene fundadas sospechas de endogeneidad con respecto al precio.
Utilice el contraste de Hausmann para confirmar (o no) sus sospechas.
e) Como posibles instrumentos disponemos del precio de los cítricos y del precio de lo
helados (ambos también en logaritmos). Estime la ecuación de la forma reducida
del precio. ¿Son significativos los instrumentos empleados en esta regresión?
d) Utilice los resultados anteriores para estimar una ecuación de demanda apropiada.
10. Los datos de la tabla ET9 _ 2 tienen un interés histórico: son los empleados por Haavel-
mo en un artículo clásico para ilustrar el sesgo de simultaneidad. El autor argumentaba
que la ecuación de consumo Ct = /30 + /31 Yt + Ut donde e es el consumo e y la renta dispo-
nible, no podía estimarse por MCO al existir correlación entre la renta y el término de
error, debida a una relación causal bidireccional entre consumo y renta. Como variable
instrumental proponía utilizar la inversión.
a) Obtenga el valor de la propensión marginal a consumir por MCO y diga si es

significativa.
b) Calcule a continuación la forma reducida, valore si el instrumento es relevante y
calcule la estimación por VI (MC2E). ¿Es muy diferente la propensión marginal al
consumo obtenida por esta vía?
e) Trate de emplear el test de Hausman para contrastar si la renta es endógena. ¿Cuál
es el resultado? ¿Qué explicación encuentra?
Tema 9 355
11. La tabla ET9 _ 3 contiene datos de la ECPF referidos a gastos, ingresos y tamaño de
las familias de dos CCAA españolas.
a) Estime la ecuación de gasto considerando los ingresos y el tamaño familiar como

variables explicativas. Para gastos e ingresos, emplee logaritmos. ¿Son significativas
las variables explicativas? Interprete los valores de los coeficientes obtenidos.
b) Se sospecha que la variable tamaño puede estar correlacionada con el término de
error. Utilice el contraste de Hausman e indique si se confirma (o no) esa sospecha.
e) Como posibles instrumentos se dispone de las series tipo de hogar y tipo de casa.
Valore la relevancia de estos instrumentos.
d) Estime la ecuación por VI empleando por separado cada uno de los instrumentos.
Estime asimismo la ecuación empleando a la vez los dos instrumentos. ¿Producen
estimaciones muy diferentes? Emplee el contraste J para valorar la restricción de
sobreidentificación.
12. Emplee los datos de la tabla ET9 4 para hacer este ejercicio.
a) Estime la relación entre los gastos de consumo de los hogares y la renta disponible
contenidos en la tabla ET9 4. ¿Es la relación acorde con los postulados teóricos?
b) Dadas las identidades de la Contabilidad Nacional, es razonable sospechar que
el regresar no es exógeno. Suponga que no dispone de más información que la
contenida en la tabla. Proponga un instrumento razonable con el que solventar el
problema.
e) Use la prueba de Hausman para contrastar la exogeneidad de la renta disponible.
d) Estime el modelo por VI y compare el resultado con el obtenido por MCO. Diga
si en este caso encuentra razonable recurrir a la estimación VI.
Tema 10
REGRESIÓN CON DATOS DE PANEL Y

FUSIONADOS
Hemos visto hasta ahora cómo se utilizan las técnicas de regres10n fundamentalmente
con datos transversales. Igualmente hemos visto que modificando ciertos supuestos es posible
también analizar datos temporales, si bien estos aspectos se volverán a tratar en detalle en la
Parte III del libro. Desde el primer tema anunciamos que cada vez es más frecuente disponer
de datos que ofrecen, simultáneamente, una dimensión transversal y temporal. En este tema
veremos cómo también podemos aplicar el análisis de regresión a estos conjuntos de datos. Sin
embargo, mucho más relevante que la mera extensión o aplicabilidad del análisis de regresión
a este tipo de datos, es que la técnica de regresión en sí se convierte en un método que nos
permite considerar algunas variables omitidas no observadas, lo cual nos permite resolver,
respecto de estas variables, los sesgos de omisión potencial de las mismas.
Distinguiremos dos tipos de configuración de los datos:
Nos referimos a datos fusionados cuando utilizamos datos obtenidos mediante muestreo
aleatorio en diferentes momentos de tiempo. La característica fundamental de este conjunto
de datos es que provienen de observaciones muestrales independientes aunque probablemente
las observaciones referidas a distintos momentos de t iempo puedan no estar idénticamente dis-
tribuidas. Veremos que esta cuestión se puede incorporar al análisis de regresión permitiendo
que el término constante (y a veces también la pendiente) varíen con el tiempo.
Los datos de panel (también denominados datos longitudinales) son datos que también
tienen conjuntamente dimensión transversal y temporal, pero que se diferencian de los datos
fusionados en que las entidades individuales o de corte transversal (familias, empresas, ciuda-
des , estados, etc.) observadas son las mismas a lo largo del tiempo. Lógicamente, no podemos
suponer que las observaciones estén distribuidas de forma independiente en el tiempo, pues se
trata de las mimas unidades y por lo tanto es factible que los factores no observados afecten
a lo largo del tiempo.
La forma general del panel para una de las variables sería:
357
358 REGRESIÓN CON DATOS DE PANEL Y FUSIONADOS
1 2 T
1 Y11 Y12 YIT Yi.
2 Y21 Y22 Y2T Y2.
Yit Yi.
N YNI YN2 YNT YN
Y,1 Y,2 Yt Y.T
Este panel define una variable Yit en dos dimensiones, la individual o de agente de la
sección cruzada, i, y la dimensión temporal, t. Ambas configuran el ancho y el largo del panel.
y por tanto no son dimensiones intercambiables. El índice temporal marca una ordenación (en
el tiempo cronológico: días, semanas, meses, trimestres, años, ... ) y dota de una interpretación
común a muchos paneles. Sin embargo, el índice individual, i, no tiene ningún orden, y además
su interpretación o contenido varía según la aplicación en cuestión. Se puede referir a personas.
empresas, municipios, países, árboles, etcétera.
En función de la forma del panel podríamos distinguir entre paneles de series temporale
(T > N) que son comunes en macroeconomía. y paneles de secciones cruzadas (N > T) que
dominan en microeconomía (especialmente en economía laboral) . También se hace referencia
a paneles largos cuando el número de periodos es mayor que el número de observacione
transversales (T > N) o cortos cuando ocurre lo contrario (T < N) .
10.1. DATOS FUSIONADOS DE SECCIÓN CRUZADA
Tanto las empresas como las instituciones realizan a menudo encuestas que se repiten a
intervalos regulares (sobre el comportamiento de los individuos, familias, empresas, etc.), pues
bien, cuando fusionamos estas encuestas (en general muestras aleatorias) en distintos momen-
tos de tiempo, obtenemos lo que denominamos datos fusionados. Una de las razones para
utilizar estos datos es que al fusionar las secciones de distintas encuestas incrementamos el
tamaño de la muestra. Siempre que la relación entre la variable dependiente y al menos alguna
de las variables explicativas permanezca constante a lo largo del tiempo resultará beneficioso
fusionar los datos de las secciones independientes , puesto que se consiguen estimadores más
precisos. Estadísticamente el tratamiento es similar al que hacemos en una sección. Ahora
el número de elementos muestrales es NT, por lo que tomamos muestras de tamaño N en
diferentes T momentos del tiempo, lo que invita a considerar que las observaciones no nece-
sariamente han de estar idénticamente distribuidas. Por ejemplo, la distribución de la renta
o de los salarios ha cambiado a lo largo del tiempo.
Si el muestreo es aleatorio entonces las observaciones son independientes, sin embargo para
tener en cuenta que la función de distribución puede variar de un periodo a otro debemos
permitir que al menos el término const ante varíe con el tiempo (incluyendo a tal fin una
variable ficticia para cada año excepto uno que consideraremos como periodo base). En este
tipo de aproximación comprobamos que se da lugar a observaciones que son independientes,
no idénticamente distribuidas ( i. n. i. d), y aun así podemos contemplar cambios agregados a
lo largo del tiempo, y como veremos en los ejemplos, también podremos hacer interactuar
variales ficticias ( dummies) con explicativas para permitir que los efectos parciales cambien a
lo largo del tiempo.
Tema 10 359
Estas características hacen que este t ipo de análisis de datos fusionados resulte útil para
evaluar los efectos de política económica o los cambios provocados como consecuencia de
distintos escenarios. De hecho se pueden relacionar fácilmente estas técnicas con la literatura
sobre experimentos naturales donde hay grupos de control y de experimentación.
Las técnicas básicas que hemos aprendido para datos de sección cruzada son aplicables a
conjuntos de datos formados por secciones cruzadas apiladas (fusionadas). El estimador MCO
aplicado sobre las series apiladas nos daría estimaciones insesgadas y consistentes de los coe-
ficientes de las variables explicativas, siempre que el modelo esté correctamente especificado 1 .
Sin embargo, dado que el término error es muy fácil que esté correlacionado en el tiempo para
un individuo o entidad, los errores estándar habituales no deberían de ut ilizarse, por lo que
habríamos de usar las versiones robustas. Igualmente es posible utilizar la técnica de estima-
ción por variables instrumentales (VI) y los contrastes o test de especificación desarrollados
en temas precedentes.
Matricialmente el modelo de datos fusionados es el siguiente
1
Yit = a+ x ít/3 + Eít (10.1.1)
donde X i t es un vector k x 1 de variables independientes, y el resto son escalares con los

significados habit uales en el modelo de regresión, pero con los subíndices de tiempo y de
individuos que anteriormente indicamos. Apreciamos que todos los coeficientes son constantes
a lo largo del t iempo, lo que introduce a priori una fuerte restricción, y que parcialmente
podemos relajar introduciendo en el vector Xit alguna variable que no cambie en el tiempo,
para lo que usaríamos variables binarias de género, industria, estado o región en función del
t ipo de entidad considerada en i . La estimación matricial y las propiedades de los estimadores
se tratan en el apéndice de este tema.
Consideremos ahora algunos ejemplos ilustrativos.
Ejemplo 30. Ingreso personal y crisis económica

Con datos de la encuesta de presupuestos famili ares para los años 2007 (antes de la crisis)
y 2010 (durante la crisis) , estimamos un modelo con dat os fusionados que relaciona los ingresos
personales mensuales «ing» en logaritmos de los encuest ados con el nivel de estudios terminados
«est» , la edad en años «edad» en forma cuadrática , y variables binarias para el género «muj»
(1 si es mujer y O en caso contrario) , la condición de inmigrante «inm» (1 si es inm igrante y
O en caso contrario) , el estado civil «cas» ( 1 si está casado y O en caso contrario) y « D » con
valor unitario si el individuo pertenece al año 2010 y nu lo para 2007. Consideramos además que
la influencia de la edad y de los estudios terminados sobre los ingresos es una relación estable en
los dos periodos considerados . El objetivo del modelo es determinar cómo ha variado la influencia
sobre el ingreso personal del género , la inmigración y el estado civil como consecuencia de la crisis
económica a nivel nacional. El modelo propuesto es:
1
En cambio serían inconsistentes si el modelo de efectos fijos (que veremos en la Sección 10.2.2) fuera el
modelo apropiado para el tipo de relación entre las variables económicas en cuestión.
In (ing) = f31est + f32edad + f33edad 2

+10+11muj + /2inm + ¡ 3cas + ¡4inm·muj + ¡5muj-cas
+6o D + 61muj- D + 62inm·D + 63cas·D + 64inm·muj- D + 65muj-cas ·D +E.
(10.1.2
La ecuación está ordenada de manera que en la primera fila se muestran las variables independientes
que son comunes a ambos periodos , la segunda se refiere al año 2007 y la tercera al 2010 . El gru pc
base o de control es el hombre no inmigran t e y soltero , descontada la influencia de la edad y los
estudios. En el año 2007 (antes de la cri sis) , el ingreso medio estimado para este grupo es «¡o >
El ingreso medio en 2010 (durante la crisis) del grupo de control (hombre no inmigrante soltero
sería «/o+ 60».
Las mujeres en 2007 tendrían unos ingresos medios de «/o+ ¡ 1 », los inmigrantes «/o+ 12>
los hombres casados «/o+ ¡3», las muj eres inmigrantes «/o+ ¡ 1 + ¡ 4 » y las mujeres casad as
«/o+ 11 + /5» .
Las mujeres en 2010 tienen unos ingresos med ios de «/o + 11 + 60 + 6 1 », los inmigrantes
«/o + /2 + 60 + 62 », los hombre casados «/o+ /3 + 60 + 63 » . las mujeres inmigrantes «/o+ 11 -
/4 + 60 + 61 + 64 » y las mujeres casada s « / o + 11 + /5 + 60 + 61 + 65 », siempre descontando la
influencia de los estudios y de la edad.
El modelo estimado es:
I ~) = O, 139est + O, 036edad - O, 0003 edad 2

(0,002) (0,001) (0,00001)
[0,002] [0,002] [0,00001)
+5, 43 3 - O, 169muj + O, 0 13i nm +O, 228cas - O, 080inm·muj - O, 369muj-cas
(0,036) (0,016) (0,032) (0,015) (0,046) (0,021)
[0,040] [0,017] [0,031]
...
[0,016]
.
[0,048] [0,022)
- 0 , OllD +O, 071muj- D - O, 241inm· D + O, 018cas·D +O , l06inm·muj- D

(0,018) (0,023) (0,042) (0,021) (0,060)
[0,019) [0,024) [0,043] [0,021] [0,064]
.
- 0, 039muj-cas· D
(0,029)
[0,031]
2 - 2
n = 2 1842, R = O, 3366 , R = O, 3362 .
(10.1.3)
Los errores estándar se reproducen entre paréntesis, los robustos frente a heterocedasticidad
(o de White) entre corchetes y debajo , med iante asteriscos indicamos su grado de significatividad ,
tres (***) indica que es significativament e distinto de cero al 1 % de significatividad, dos (**) que
lo es al 5 % y uno (*) al 10 %.
No es significativo el parámetro que se refiere a la inmigración en el periodo base (2007 )
«inm», por lo que antes de la crisis los inmigrantes tenían un nivel de ingresos mensual similar
al del grupo de control. Tampoco es signif icativo el término independiente para 2010 « D », lo
Tema 10 361
que significa que los ingresos en 2007 y 2010 son prácticamente iguales, en términos nominales
(si tenemos en cuenta que el IPC creció aproximadamente un 5,8 %, esa es la pérdida de poder
adquisitivo si consideramos nula la diferencia entre los ingresos medios de ambos periodos para
el grupo de control), no obstante mantenemos el parámetro como variable de control . El grupo
de las mujeres casadas en 2010 «muj-cas·D» tampoco es significativamente distinto al grupo
correspondiente a 2007. El resto de estimaciones son significativas, al menos al 10 %, y la mayoría
lo son incluso al 1 %.
Antes de la crisis (año 2007) las mujeres «muj» tenían unos ingresos medios de aproxima-
damente un 16,9 % (0,169·100) inferiores a los hombres solteros (descontados los efectos de la
educación y de la edad) si además la mujer es inmigrante «inm·muj » entonces los ingresos me-
dios disminuyen un 8 % adicional . Los hombres casados «cas» incrementan sus ingresos, respecto
del grupo de control, un 22,8 %; sin embargo, las mujeres casadas disminuyen sus ingresos, un
31,0 % [(0,228 - 0,369 - 0,169)-100] respecto del grupo de control, cantidad a la que habría que
sumar otro 8 % si además de mujer casada es emigrante (un 39 % menos que el grupo de control).
Como consecuencia de la crisis económica (2010 ) las mujeres han mejorado «muj·D» un
7 % (quizás porque los hombres han empeorado más), los casados tanto hombres «cas·D» como
mujeres «muj-cas·D» mantienen la misma situación que antes de la crisis y los grandes perdedores
como consecuencia de la crisis son los emigrantes «inm·D», que pasan de tener unos ingresos
similares a los del grupo de control al reducir sus ingresos en un 24,1 %; si además son mujeres
hay que aumentar un 10,6 % adicional de pérdida.
El modelo (10.1.2) es un modelo de datos fusionados puesto que tenemos dos variables,
estudios terminados «est» y la variable de edad («edad» y «edad 2»), cuya influencia es común
a ambos años (2007 y 2010). Si hubiéramos incluido también términos de interacción en
estas variables (es decir si además incluimos las variables «est· D », «edad·D» y «edad 2·D» ),
entonces los resultados serían los mismos que si estimáramos dos modelos de corte transversal
por separado, uno para cada año independientemente. Veamos un ejemplo.
Ejemplo 31. Consumo e ingreso familiar en España antes y durante la crisis

Con los datos de la encuesta de presupuestos familiares utilizamos la variable consumo mensual
de las familias «consumo», su ingreso mensual «ingreso» y el tamaño de la unidad familiar
«tamaño», es decir que estimamos el siguiente modelo:
consumo= f3o + f31ingreso + f32tamaño +E, (10.1.4)

para el año 2007 (antes de la crisis) la estimación es:
con8'Urño2007 = 539, 010 +O, 624-ingreso2007 + 325, 804·tamaño2007

(23,702) (0,007) (8,034)
...
[25,003]
2
[0,017]
-2
...
[9,971] (10.1.5)
n = 21514, R =O , 3883, R =O, 3882,
donde todos los estimadores son altamente significativos.

Para realizar la estimación en 2010 y poderla comparar con la anterior, primero debemos
deflactar el ingreso y consumo familiar. Ent re 2007 y 2010 el índice de precios al consumo creció
un 5,8 %, de manera que para obtener el ingreso y el consumo en euros de 2007 basta con
multiplicar por 0,9451 (100/ 105, 8 ~O, 9451) el ingreso y el consumo de 2010. La estimación para
2010 (durante la crisis) en euros constantes de 2007 es:
consumo2010 = 521, 489 +o, 708·ingreso2010 + 203 , 854·tamaño2010

(18,528) (0,006 ) (6,239)
[19,211] [0,012] [7,167] (10.1.6
••• ***
2 -2
n = 22135, R = O, 4563, R = O, 4563.
La comparación entre ambas estimaciones es clara: en 2010 el consumo autónomo fue menor.
aproximadamente 17,5 euros mensuales menos (521 , 489 - 539, 010 = -17, 521), la propensión
marginal al consumo aumentó en 0,084 puntos (O, 708 - O, 624 = O, 084), y el gasto por cada
miembro de la unidad familiar disminuyó, 122 euros al mes (203, 854 - 325, 804 = -121 , 95).
Por tanto parece que las consecuencias de la crisis son claras , disminución del consumo autónomo
(familiar y por cada miembro) y aumento de la propensión marginal al consumo.
Al mismo resultado llegamos si utilizamos datos fusionados e incluimos una variable dummy con
valor unitario si las variables son del año 2010 y nulo en caso contrario (2007), además debemos
introducir términos de interacción en toda s las variables, es decir estimamos el modelo siguiente:
coñSUrno = 539, 010 +O, 624·ingreso + 325, 804·tamaño

(21,356) (0,006) (8,691)
[25,003) [0,017] [9,971]
-17, 521·D +O, 084·ingreso· D - 121 , 949·tamaño·D (10.1.7)

(30,246) (0,010) (7,240)
[31,531] [0,021)
2 -2
...
[12,279]
n = 43649, R = O, 4215, R = O, 4214,
estimación que lleva a las mismas conclusiones que cuando realizamos una regresión para cada año.
Quizás la única ventaja de utilizar datos fusionados es que ahora vemos de forma directa que la dis-
minución del consumo autónomo familiar en 2010, de 17 ,52 euros al mes, no es significativamente
distinta de cero .
Bajo el supuesto de que los modelos estén bien especificados podemos recurrir a un gráfi-
co típico de la función de consumo keynesiana antes y durante la crisis económica para analizar
las diferencias . Para ello tenemos en cuenta que el tamaño medio de las familias encuestadas
en 2007 es de 2,85 personas y en 2010 de 2,80 y consideramos como consumo autónomo la
suma de la constante más el gasto ocasionado por el número medio de miembros de la uni-
dad familiar , es decir consideramos como gasto autónomo mensual para 2007 de una familia
típica es de 1.468 euros al mes (539, 01 + 325, 804·2, 85 = 1467, 55) y en 2010 de 1.092 euros
[539 , 01 - 17, 521+(325,804 - 121 , 949) ·2, 80 = 1092, 28].
Tema 10 363
Figura 10.1.1: Función de consumo de familia típica en 2007 y 2010

Conm• : !.092+-0,708·/ng,,." / Con = lng
.,,.,. ,,. .
Ingreso medio= 1.948 r
/
/
'./"' conmi • l .468•0.624'1ng 1001
/
// /
/
/
/
Ingreso mensual
Representamos (Figura 10.1.1) en abscisas el ingreso y en ordenadas el consumo . La bisectriz

(en trazo discreto corto) indica los puntos en que ingresos y gastos de consumo son iguales, de
manera que por debajo de ella las familias ahorran y por encima se endeudan. En trazo continuo se
observa la estimación del consumo de una familia típica, tres miembros, en 2007 para los distintos
niveles de renta y en trazo discreto largo la estimación del consumo para 2010 . Cuando los ingresos
mensuales (en euros de 2007) de las familias típicas se encuentra en el entorno de los 3.900 euros
los dos modelos estiman que las familias ni ahorran ni se endeudan , cuando obtienen mayores
ingresos ahorran y cuando obtienen menos, se endeud an. Las estimaciones de consumo para 2007
y 2010 se cortan aproximadamente en los 4.500 euros mensuales, o lo que es igual , las familias
típicas con ingresos familiares menores a los 4.500 eu ros de 2007 consumen menos en 2010 que
en 2007; y las que tienen ingresos mayores , consumen más. El ingreso medio de las familias,
considerando los dos periodos , es de 1.948 euros mensuales. A ese nivel los modelos estimados
indican, en ambos casos, endeudamiento mensual o desahorro, si bien se aprec ia con claridad que
el endeudamiento ha disminuido de forma apreciable de 2007 a 2010 para la familia típica; dicho
de otra forma, se puede interpretar la diferencia entre la línea continua (estimación del consumo
en 2007) y la línea discreta larga (estimación del consumo en 2010) como un a medida del ajuste
realizado por la familia típica con ingresos medios como consecuencia de la crisis . Además, como
se ve en el gráfico a medida que disminuimos los ingresos el esfuerzo , o el ajuste, ha sido mayor.
Un detalle importante que no habrá pasado desapercibido al lector atento es que mientras en
el primer ejercicio utilizamos los datos corrientes (ingresos personales mensua les), en el segundo
deflactamos (es decir, utilizamos euros constantes de 2007 para el ingreso y consumo mensual
familiar) . Desde luego en ambos ejemplos nos interesan los ingresos reales y no simplemente los
corrientes o nominales, pero en el primero los ingresos están en logaritmos y al incluir una constante
para el año 2010 , esta incluye también de forma im plícita el deflactor de precios ya que por las
propiedades de los logaritmos tenemos que «I n (ingi,2010 x O, 954) =In (ingi,20io) + In (O, 954)» y
como los ingresos en 2010 son distintos entre personas pero el deflactor es constante, se deduce de
forma inmediata que el deflactar en el primer ejercicio solo modificará el término constante para el
año 2010, es decir la variable «Óo» del modelo (10.1.2) mientras que el restos de variables quedan
igual, por consiguiente cuando las variables monetarias están en logaritmos e incluimos variables
ficticias anuales entonces no es necesario deflactar. Sin embargo, cuando las variables están en
niveles y lo que nos interesa son las variab les reales entonces es necesario hacerlo.
Finalmente pueden existir problemas de heterocedasticidad en el término error lo que se so-
luciona de las formas analizadas en el tema correspondiente (nosotros hemos utilizado los errores
estándar robustos de heterocedasticidad, reproducidos entre corchetes en las estimaciones de este
tema).
En los ejemplos anteriores hemos considerado solo dos años (2007 y 2010) , pero los mo-
delos con datos fusionados pueden estimarse teniendo en cuenta más periodos, simplemente
tendremos que incluir una variable binaria más por cada año adicional que incluyamos en el
modelo.
10.2. DATOS DE PANEL
La regresión múltiple es un potente instrumento que permite tener en cuenta el efecto de

las variables de las que tenemos información. No obstante, también sabemos que en muchas
ocasiones nos encontramos con problemas de variables omitidas, bien porque no hay datos
para dichas variables o porque son variables directamente inobservables. El problema es po-
tencialmente grave puesto que si hay correlación de dichas variables omitidas (y por tanto en
el error) con alguna de las variables explicat ivas, el modelo proporciona estimadores sesgados
e inconsistentes. Pues bien, quizás la mayor virtud de los modelos de panel es que permiten
estimar algunos tipos de variables omitidas que de hecho no se observan. Por tanto veremos
que estimar (adecuadamente) modelos utilizando datos de panel es otra de las alternativas,
que junto con el uso de variables instrumentales o el uso de variables proxy, permiten resolver
el serio problema derivado de la omisión de variables relevantes. Es decir, el disponer de datos
de secciones cruzadas a lo largo del tiempo, nos abre una nueva posibilidad de estimación
correcta de los efectos parciales en un modelo lineal.
Estos modelos permiten capturar la heterogeneidad no observada entre los individuos
o la heterogenidad no observada en el tiempo. Lógicamente capturar heterogeneidades es
posible dada la mayor cantidad de datos, y por tanto las conclusiones serán a priori más
informativas. Por ejemplo, supongamos que tenemos 3 entidades (N = 3) y para cada una
disponemos de información sobre la variable Y y la X a lo largo de 20 periodos consecutivos
(T = 20). Si estamos interesados en estimar la relación lineal (que suponemos existe) que se
establece para cada entidad entre las variables, y suponemos que es la misma para las tres
(misma pendiente) , entonces si apilamos o fusionamos los datos y estimamos, difícilmente
obtendríamos por estimación MCO la pendiente común correcta, pues la diversidad de cada
entidad hace factible que cada una tenga, por ejemplo , niveles distintos para cada par de
variables (tal y como se puede apreciar en la Figura 10.2.1). Sin embargo con la estimación
de modelos de datos de panel podríamos ser capaces de capturar la heterogeneidad. Si esta
heterogenidad (que reside en el término error) no estuviera correlacionada con el resto de
regresares , entonces habría otros tratamientos econométricos que también veremos.
Tema 10 365
Figura 10.2.1: Heterogeneidad individual y temporal
•• •
•
•z
• ••
-·
•
.
• •
.r
•
• • •
.i!.
. .......
.._ ..
......
• •
Además de lo que hemos indicado en la introducción del tema, los paneles pueden ser de dos
tipos: equilibrados (o completos) , si tenemos datos para todas las observaciones, o incompletos,
si hay alguna observación ausente para alguna(s) sección, en ese aspecto se indicaría con un
subíndice, del siguiente modo Ti. En principio nosot ros pensamos en paneles equilibrados si
bien todos los métodos utilizados se pueden extender también a paneles incompletos.
Como sucede en el resto de temas, los retos prioritarios son cómo estimar con precisión los
efectos parciales y cómo realizar inferencia correctamente, para lo cual los errores estándar
de los estimadores juegan un papel decisivo pues ahora es necesario controlar el efecto de
la correlación temporal para un individuo o entidad , junto con la propia heterocedasticidad.
Dado el nivel introductorio del texto nos centraremos principalmente en el primer reto.
10.2.1. Datos de panel con dos periodos: comparaciones antes y después

El panel más sencillo es aquel que tiene dos periodos y una variable observable explicativa.
Supongamos que tenemos datos para dos periodos t emporales (t = 1, 2) y N valores de corte
transversal para entidades individuales (i = 1, 2, ... , N) relativos a dos variables, «Yit » y «Xit »,
donde el subíndice «i» indica la entidad individual y el subíndice «t » el periodo de tiempo.
Además, consideremos que el modelo que relaciona ambas variables es
(10.2.1)
donde la variable «Zi» es una variable que influye en «Yit » pero que no varía con el tiempo, es
decir tiene carácter idiosincrásico para las entidades individuales , como los hábitos culturales,
personales, etc. Si se tratara de una ecuación salarial, dicha variable podría referirse a la
habilidad natural de cada trabajador; si se tratara de una ecuación de producción , podría
referirse a los conocimientos organizativos de la entidad i considerada. De este modo parte
de la heterogeneidad o singularidad de cada entidad sería contemplada. Debido a que esta
variable no varía con el tiempo (temporalmente invariantes), la influencia será igual en ambos
periodos y por ello solo incluimos el subíndice «i» en la expresión. Consideramos además que
la variable «Zi» es inobservable.
En estas condiciones, si realizamos la regresión de corte transversal entre «Yi » y «Xi»
y dejamos fuera de la misma a la variable Zi, puesto que no es observable, corremos el
riesgo de que el estimador del efecto parcial sea sesgado, y lo será sin duda si Xi y Zi está::.
correlacionados.
Alternativamente, y debido a que Zi no cambia con el tiempo, puede eliminarse ( i!:
correr el riesgo de obtener estimadores inconsistentes) mediante el análisis de las diferenci~
temporales entre ambos periodos. Formalmente tenemos que la estimación del primer period
es
(10.2.2
y la del segundo periodo
(10.2. 3
de manera que la diferencia entre ambas es
(Yi2 - Yi1) = Pl (Xi2 - Xi1) + (éi2 - Cil)

(10.2.-!
6.Yi = /316.Xi + 6.t:i ,
y por tanto el estimador de la diferencia es una forma de calcular «/31 »sin incurrir en
el problema de variables omitidas del modelo (10.2.1). La intuición es clara: El estimador de
la diferencia da cuenta del cambio de la variable Yit producido para una unidad individual
i entre un periodo (antes) y el siguiente considerado (después). Si la variable Zi , pese tener
un efecto diferente sobre las distintas unidades individuales, no experimentó ningún cambio
de un periodo a otro, entonces no pudo ejercer ningún efecto sobre el cambio de Yit (es decir.
sobre 6Yi). Los cambios de Yit provienen de los cambios en la variable explicativa Xit al pasar
de t =antes a t =después, y de los cambios en otros factores que determinan la variable Yit·
pero que no hemos hecho explícitos y por tanto están en la variación (cambio) de los errores.
6.t:i .
Así pues, el estimador de la diferencia es el estimador MCO en la Ecuación (10.2.4) , que
como hemos comprobado explota la singularidad de los datos de panel: medir la asociación
entre regresares específicos de cada entidad que cambian de un periodo a otro y los cambios de
un periodo a otro en la variable dependiente también específicos de la entidad correspondiente.
Se observa fácilmente que este método de estimación no permite identificar a los coeficientes
de los regresares invariantes en el tiempo.
10.2.2. Regresión de efectos fijos

El método que presentamos a continuación, al igual que el anterior, tiene en consideración
las variables omitidas, siempre que estas variables varíen entre las distintas entidades indivi-
duales, y no cambien a lo largo del tiempo considerado (variables invariantes en el tiempo).
El método de efectos fijos que explicamos seguidamente facilita estimar directamente el
modelo (10.2.1) con dos o más periodos.
Debido a que la variable inobservable «Zi» de (10.2.1) no varía entre periodos para cada
entidad individual, también podemos escribir la Ecuación (10.2.1) con «n » términos constan-
Tema 10 367
tes 2 (tantos como entidades individuales), y por ello la expresión más habitual de (10.2.1)
es
(10.2.5)
En este modelo los O:i , o efectos fijos individuales, se tratan como términos independien-
tes a estimar en la ecuación (para cada entidad individual). Hay por tanto n efectos fijos
individuales, efectos que son distintos como resultado de las variables omitidas invariantes
en el tiempo. Se observa que el coeficiente poblacional de la pendiente, /3i , es el mismo para
todas las entidades , siendo el intercepto o término constante lo que varía entre las mismas. Se
comprueba también que, al igual que sucede con el estimador de la diferencia, este modelo es
menos restrictivo que el modelo de datos fusionados toda vez que permite que el intercepto o
constante varíe a lo largo de los individuos, y así se captura cierto grado de heterogeneidad
individual no observada.
La estimación por MCO no es adecuada si se aplica directamente sobre la ecuación (10.2.5)
porque produce estimadores sesgados e inconsistentes toda vez que JE (Eit) = O:i . Una alterna-
tiva es considerar a O:i como un coeficiente de una variable dummy (binaria), de esta manera
podemos caracterizar el modelo de efectos fijos utilizando variables binarias para cada entidad
individual, es decir, podemos considerar el modelo de regresión siguiente:
(10.2.6)
Las variables dicotómicas del modelo (10.2.6) tienen valor unitario para la entidad indivi-
dual a la que hacen referencia y valor nulo para el resto. Así «D2i» tiene valor unitario para
la segunda entidad individual (segunda observación de corte transversal) y valor nulo para
el resto. La interpretación es clara: «f3o » es el efecto fijo individual de la primera entidad de
corte transversal «0:1 »; el segundo , f3o + 12 = 0:2, y en general f3o + /i = o:i.
Para el caso de dos periodos se obtiene el mismo resultado «(3 1 » con el estimador de la
diferencia (10.2.4) que con el de efectos fijos (10.2.6). En el caso de que tengamos paneles de
más de dos periodos debemos recurrir a la estimación de efectos fijos individuales (10.2.6).
Si existen otras variables independientes observadas que influyen en «Yit » y que varían
con el tiempo debemos también incluirlas en el modelo (10.2.6); su extensión resulta sencilla:
Yit = f31Xitl + f32Xit2 + ... + f3kXitk + Ü'.i + Eit , (10.2.7)

y su estimación por MCO utilizando variables binarias la realizamos a partir de
(10.2.8)
En ambas expresiones (10.2. 7) y (10.2.8) tenemos «k» variables independientes observables

que varían con el tiempo. Obsérvese, por otra parte, cuál es el número de grados de libertad
del estimador de efectos fijos individuales. El número total de observaciones es nT, al que
2
Para facilitar la notación de algunas partes utilizaremos en ocasiones n para referirnos al tamaño muestra!
de la sección cruzada.
hemos de descontar (n - 1) parámetros estimados en las variables dummy, así como los k + l
regresores de la constante y de las variables explicativas que cambian en el tiempo.
Así pues el estimador de efectos fijos , a diferencia del estimador por MCO fusionado.
explota la singularidad propia de los datos de panel. Así pues mide la asociación entre las
desviaciones específicamente individuales de los regresores respecto de sus correspondientes
promedios temporales y las desviaciones específicas individuales de la variable dependiente
respecto de su promedio temporal. Un inconveniente del estimador de efectos fijos, compartido
también con el estimador de las diferencias, es que no se pueden introducir variables expli-
cativas binarias adicionales 3 puesto que entonces tendríamos colinealidad perfecta. Lo cual
lógicamente impide que podamos estimar el efecto parcial de una de este tipo de variables
(pensemos por ejemplo en la condición de genéro en una ecuación de salarios) sobre la variable
dependiente.
Tanto el estimador de efectos fijos como el estimador de la diferencia producen estimaciones
consistentes de los k parámetros o coeficientes de los regreso res Xit ,j, j = 1, 2, ... , k, esto es de
los efectos parciales sobre la variable dependiente de Jos cambios en los mismos. Mientras que
los N parámetros ai, i = 1, ... , N tienen un interés escaso o incidental, si bien su presencia
es necesaria para la calidad de la estimación de los k. Sobre estos aspectos volveremos más
adelante en la exposición.
10.2.3. El algoritmo MCO en desviaciones respecto de su media

Aunque los modelos de efectos fijos (10.2.8) se pueden estimar por MCO mediante la
utilización de variables binarias, expresiones (10.2.6) y (10.2.8), lo cierto es que las regresiones
calculadas de esta forma tienen muchos regresores, k + N , por lo que en la práctica pueden
generar ineficiencias de cálculo. Los programas especializados utilizan rutinas especiales para
facilitar la estimación de efectos fijos con datos de panel.
Normalmente los programas especializados calculan el estimador de efectos fijos en dos
etapas. En la primera se le resta a cada variable observable Ja media específica de cada
entidad individual y en la segunda se estima la regresión en desviaciones a las medias por
MCO. Veamos cómo se calcula para el caso de una sola variable explicativa observable. Por
un lado tenemos la ecuación de efectos fijos,
(10.2.9)
calculamos las medias de cada entidad individual de la forma usual: Y i. r- 1 1 Yit , I:,f=
Xi . = r- 1 I:,f=
1 Xit , y E\. = r-
1
I:,f=
1 fit, de manera que la ecuación de efectos fijos para los
valores medios es
f:i . = /31X·i. +a·+

i t·i.' (10.2.10)
y debido a que el efecto fijo ai es constante también aparece en la ecuación de valores medios.
Se puede considerar que esta ecuación es una ecuación de sección cruzada.
3
En general , este tipo de modelos no permiten identificar coeficientes de regresares invariantes en el tiempo.
Tema 10 369
Restando ambas ecuaciones para cada t, obtenemos la ecuación de efectos fijos en diferen-
cias a las medias temporales, en la que los efectos individuales específicos han desaparecido:
Yit - fi. = f31 (Xit - Xi.) + (éit - €i.), t = 1, 2, ... T. (10.2.11)

Estimar por MCO esta última ecuación para t = 1, 2, .. , T; i = 1, 2, .. ., N conduce exáctamente
al mismo estimador de efectos fijos obtenido en (10.2.8).
Su extensión a k variables explicativas observables es
A partir de esta estimación se calculan los efectos fijos ai, de la siguiente forma:
a·t = Y:t. - f3'1x·i., i - f3'2x·t., 2 - ... - f3'kx.i., k· (10.2.13)

Se observa que en este estimador la medias aritméticas son calculadas a partir de la va-
riación temporal observada dentro de cada observación, i, de sección cruzada (tanto para la
variable dependiente, como para las independientes o explicativas), y por ello se denomina
estimador intragrupos o estimador «within», siendo un estimador que por diseño tie-
ne en cuenta información importante sobre cómo las variables consideradas (explicativas y
explicada) varían en el tiempo.
Esto contrasta con otro estimador, que no vamos a estudiar porque hay otros claramente
mejores, pero que al menos vamos a enunciar. Nos referimos a un estimador que solo usa la va-
riación entre secciones cruzadas (estimador «hetweem>) y consiste en estimar los coeficientes
por MCO desde la ecuación
(10.2.14)
Las estimaciones de los parámetros «f3i» intragrupos o de efectos fijos coinciden con la
estimación de efectos fijos mediante la utilización de variables binarias (10.2.8). Podemos
comprobar que el número de grados de libertad con variables binarias (dummies) y en desvia-
ciones a la media coinciden. A tal efecto, obsérvese que en el modelo (10.2.12) no hay término
constante pues se ha cancelado al hacer la transformación de las variables, y además, para
cada observación i perdemos un grado de libertad al trabajar en desviaciones respecto de su
media. Por tanto se pierden en total n + k grados libertad de los nT dados por el número de
observaciones disponibles.
A modo de completar esta sección, merece la pena hacer notar que cuando tenemos pane-
les con dos periodos temporales llegamos a los mismos estimadores utilizando cualquiera de
los tres procedimientos: el que estima el modelo de las diferencias, el que estima el modelo
con variables binarias y el que estima el modelo en diferencias a las medias (intragrupos).
Cuando el panel tiene más de dos periodos entonces podemos estimar el modelo de efectos
fijos mediante la utilización de variables binarias o mediante el estimador en diferencias a
las medias, y también podemos hacerlo con el estimador de la diferencia, si bien este caso es
claramente menos eficiente. Como el uso de programas especializados está generalizado y su
estimación por el procedimiento de diferencias a las medias es menos tediosa (y obtenemos los
mismos estimadores de «f3i»), cuando nos referimos a estimaciones de efectos fijos, en genera.
nos estamos refiriendo a la estimación por el procedimiento de diferencias a las medias.
10.2.4. Inferencia en el modelo de efectos fijos
Modelo de regresión de efectos fijos
Para cada i el modelo es
l. IE (cit IXil, Xi2, ... , Xir, ai) =O, para t = 1, 2, .. ., T
2. (Xi1, Xi2, .. ., Xir, Ei1, .. ., EiT), i = 1, 2, .. ., N son extracciones iid de su distribución

conjunta
3. (Xit, Eit) tienen momentos de orden cuatro finitos
4. No hay multicolinealidad perfecta
Bajo estos supuestos, los estimadores de efectos fijos son insesgados y consistentes, la
estimación adecuada es MCO utilizando errores robustos a la autocorrelación y a heteroce-
dasticidad (HAC), [ver Arellano (1987)] .4 Sin duda hay aparentemente muchas similitudes
con los supuestos del modelo de regresión lineal, sin embargo es especialmente interesante
observar algunos aspectos diferenciales. Para ver la necesidad y el alcance del primero de los
supuestos (exogeneidad) , consideremos la ecuación (10.2.4), que tal y como ha sido desarro-
llada permite estimar /31 consistentemente, bajo los supuestos básicos del modelo de regresión
lineal, siempre que
que es equivalente a
y que operando permite llegar a
Los dos primeros sumandos serían nulos simplemente si requiriéramos una versión menos
estricta que la indicada en el supuesto, es decir, si el requisito fuera IE (cit IXit, ai) = O, los
dos primeros sumandos serían nulos. En cambio, esta versión del supuesto no garantiza que
xil esté incorrelacionado con Ei2 o que xi2 esté incorrelacionado con Eil . Precisamente asumir
4
Podríamos obviar los métodos robustos, en la situación teórica, no habitual en la prác-
tica, de errores homocedásticos =a;,
[Var (é:it 1 Xi, ai) para todo t] y no autocorrelacionados
[para cada t, Cov (éit, Cis 1 xi, ai) =o, para todo t # s].
Tema 10 371
que el error fit está incorrelacionado con Xi1, Xi2 para t = 1, 2 es una forma de exogeneidad
más estricta que la que veíamos en el modelo de regresión habitual y de referencia. Esta forma
de exogeneidad es la que garantiza JE (6Xi6ci) = O y por tanto la que se requiere para la
estimación consistente e insesgada del modelo de regresión con efectos fijos. En el caso de más
de dos periodos en el panel, la restricción es exactamente JE (cit fXi 1, Xi2, ... , Xir, ai) = O,
para t = 1, 2, ... , T.
Incluir los efectos fijos individuales ai - no observados- dentro del condicionante es impor-
tante. El objetivo es identificar correctamente los coeficientes de efectos parciales de la recta
de regresión con efectos fijos. Esto es
y tras operar
JE (Yú fXi11 ... , Xir, ai) = /31Xit + ai +O,
que permite observar que condicionando por los efectos individuales no restringe el hecho
singular de que exista potencial correlación entre el efecto fijo individual y las variables obser-
vadas explicativas, en este caso solo una. Precisamente el no estar restrigindos por la potencial
correlación entre ai y los regresares es la característica diferencial del modelo de efectos fijos.
Nótese que en caso de que el condicionante fuera del tipo JE (cit fXil, ... , X ir ), entonces no
podríamos garantizar que JE (ai f Xi 1 , .. ., X ir) = JE (a¡) en caso de correlación entre el efecto
fijo y alguna(s) de las observaciones de las variables explicativas. En tal situación no logra-
ríamos el objetivo de identificar el efecto parcial de X en la función de regresión, es decir
no seríamos capaces de mantener constante (descontar el efecto de) la variable no observable
propia del individuo i cuando queremos obtener el efecto parcial de la variable explicativa X.
Esto también nos permite entender el porqué el efecto fijo individual ai se entiende más como
una variable aleatoria que como un parámetro.
El segundo supuesto sostiene que la independencia es entre distintas entidades individuales,
sin embargo permite que exista autocorrelación temporal para la misma unidad, es decir no
impone restricciones a la autocorrelación dentro de la unidad. Esto es una de las ventajas de los
modelos de panel en general: que permitiría caracterizar cierto efecto dinámico de la variables
explicativas sobre la variable dependiente. Por ejemplo, un panel nos permitiría estimar la
proporción de desempleados que, tras una acción de política (económica) determinada, van a
seguir siéndolo en el próximo trimestre.
El tercer supuesto es similar al que hicimos para sección cruzada, y lo mismo sucede con el
cuarto, sin embargo en el contexto de modelos de datos de panel la multicolinealidad perfecta
aparece con bastante frecuencia, dadas las técnicas de estimación que hemos visto elaboradas
a partir de variables binarias. Si una de las variables explicativas es constante a lo largo del
tiempo para todos los individuos o entidades, la condición o supuesto cuarto se incumple,
y genera que el modelo no se pueda estimar. Este resultado no debe de sorprendernos: si a
está correlacionada con el vector de variables explicativas, el efecto parcial de una variable
explicativa constante no se puede distinguir del efecto propio de a. Dicho de otra manera,
solo podremos estimar consistentemente f3 si hay variación de Xit en el tiempo.
Cuando analizamos individuos (agentes económicos), factores como el género o la raza no
pueden ser incluidos como variables explicativas. Lo mismo sucede cuando lo que analizamos
son ciudades, las variables que describen atributos constantes de las ciudades (si pasa cerca U!:
tren, o si la ciudad tiene río) tampoco pueden considerarse. En muchas aplicaciones es ciert"
que este tipo de variables - constantes en el tiempo para todos los sujetos de estudio- no so~
el centro de atención del economista. En tal caso, no debería preocuparnos el modelizarlas
dado que el objeto directo de interés son las variables explicativas que cambian en el tiemp
Lógicamente este cambio temporal no tiene que producirse para todas y cada una de la.:::
unidades o sujetos considerados: basta con que cambie en el tiempo para algunos sujetos de
la sección cruzada para que puedan ser estimados.
Los supuestos que hemos indicado garantizan no solo la consistencia de los efectos parcial~
de las variables que cambian a lo largo del tiempo, sino también la distribución asintótica
normal. De una manera intuitiva, esto es así porque estamos estimando por MCO con un -
supuestos más restrictivos que los que planteamos para datos de sección cruzada.
Dado que la heterocedasticidad y la autocorrelación de los errores (correlación a lo largc
de t para un i determinado) del modelo son dos elementos prácticamente consustanciales a
cualquier aplicación, si queremos garantizar inferencias estadísticamente válidas debemos con-
trolar ambas situaciones, y por ello utilizamos estimadores de la varianza de /Jj robustos a la
heterocedasticidad y a la autocorrelación (HAC). En particular han de usarse los denomina-
dos errores estándar agrupados. El agrupamiento se refiere a la agrupación que naturalmente
genera cada entidad individual (cada entidad es un propio grupo). Por tanto la heterocedasti-
cidad y la autocorrelación se permiten, con este tipo de estimadores, dentro del grupo, pero no
entre los grupos, es decir, no entre las distintas entidades individuales. Cuando nos referimo~
a resultados asintóticos en modelos de datos de panel, nos referimos a que para un T fijo .
N--+ OO.
Cuando el número de entidades individuales, N, es grande, la inferencia realizada a partir
de los errores estándar agrupados puede realizarse con los valores críticos de las distribuciones
habituales, esto es los valores críticos de la normal para contrastes tipo t, y los valores crítico
de la Fq,oo para el contraste de restricciones.
Conviene observar que hay cierta asimetría en la calidad de los estimadores de los pará-
metros de efectos parciales /3j y la de los interceptos individuales ªi· De hecho los intercepto
son conocidos como elementos incidentales o parámetros ruidosos en el sentido de que, siendo
necesarios para la correcta estimación de (3j, su valor no tiene gran interés en sí misma. No
solo por esto es necesario diferenciar entre unos y otros, sino que además, a diferencia de lo
que ocurre con /JfFestimados 5 con (10.2.12), que son estimadores consistentes para un T fijo.
n --+ oo, los &fF no lo son. El motivo es intuitivo: a medida que incorporamos una entidad
de sección cruzada adicional, tenemos que estimar una nueva &f F. El problema desaparecería
cuanto mayor fuera T, en el límite cuando T --+ oo. En todo caso, las estimaciones de &fF
son insesgadas.
5
Se diferencia con el superíndice el estimador de efectos fijos del MCO, si bien generalmente en este texto
quedará claro por el contexto a cuál nos referimos.
Tema 10 373
10.2 .5. Regresión con efectos fijos transversales y temporales

Hasta el momento hemos modelizado diferenciando entre varios tipos de variables. Por una
parte, del mismo modo que hacíamos en el modelo de regresión habitual, consideramos que los
efectos o impactos de las variables observables Xj, j = 1, 2, ... , k son los mismos para todas la
entidades (individuos) i a lo largo del tiempo t. Estos impactos se recogen en los parámetros
f3J referidos solo a las variables Xj. Por otra, una parte de la heterogeneidad o singularidad
individual no capturada por Xj,it, j = 1, 2, ... , k la hemos representado anteriormente como el
efecto de variables omitidas individuales que no varían en el tiempo (invariantes temporales) ,
ai, i = 1, ... , N, es decir variables que son iguales a lo largo del tiempo dada una sección
cruzada, pero varían entre las unidades de la sección. En este apartado completamos esta
descomposición de la heterogeneidad no observada u omitida contemplando variables que son
iguales para los individuos de la sección en un periodo , pero varían a lo largo de tiempo (en
los distintos periodos) tales como tipos de interés , precios, nivel de confianza en la economía,
etcétera; nos referiremos a este tipo de variables por µt.
Esto nos permite entender la heterogeneidad no observada y omitida que reside en un
término error fi,t de un modelo, como si la hubiéramos descompuesto en variables omitidas
con efectos individuales, variables con efectos temporales y el resto de variables con efectos, es
decir, variables no observadas con efectos temporales e individuales. De nuevo el reto consiste
en controlar el efecto de las variables omitidas para estimar y realizar una correcta inferencia
sobre los parámetros estructurales f3J.
Para verlo recordemos que en la estimación de efectos fijos incluíamos una variable no
observable que influía en las entidades individuales (efectos transversales) pero que no variaba
con el tiempo. Ahora introducimos una variable inobservable que varía con el tiempo pero
que es constante para todas las entidades individuales. Es decir, consideramos ahora que el
modelo tiene la forma siguiente
(10.2.15)
donde St no es observable y el subíndice t indica que todas las entidades individuales se ven
afectadas por igual en cada periodo, y donde solo hay una variable explicativa, X. Si la variable
St está correlacionada con Xit y no la introducimos en la ecuación obtenemos estimadores
sesgados.
Podemos escribir esta ecuación en términos de efectos fijos de forma semejante a como
hicimos en la expresión (10.2.5) añadiendo efectos fijos temporales,
(10.2.16)
donde añadimos la variable µt que se mantiene constante para todas las entidades individuales
y solo cambia con el tiempo, es decir, se añade un término independiente para cada periodo
temporal.
El modelo se puede estimar por MCO introduciendo variables binarias para los efectos
fijos individuales y temporales,
donde incluimos variables binarias idiosincrásicas de la misma forma que hicimos en la ex-
presión (10.2.6), pero añadiendo variables binarias para cada periodo a partir del segunde
La variable binaria B2t tiene valor unitario cuando las observaciones se refieren al segund~
periodo y valor nulo para el resto, etc. La interpretación es la siguiente: /30 es el término con5-
tante para la primera observación del primer periodo, el término constante para la segund.:.
identidad individual del segundo periodo es /Jo+ 12 + 82 y en general el término constante d~
la observación ij-esima es /Jo+ /i + Ój.
Ampliar el modelo a k variables explicativas observables resulta sencillo: el modelo de
efectos fijos es
Yit = /31Xm + /32Xit2 + ... + f3kXitk + ai + µt + Eit, (10.2.l

y el modelo MCO con variables binarias
Yit =/Jo+ f31Xit1 + f32Xit2 + ... + fJkXitk

+ 12D2i + ¡ 3D3i + ... + /nDni (10.2.19
+ 82B2t + ó3B3t + ... + órDTt + Eit·
También puede expresarse de una forma más compacta usando sumatorios
n T
Yit = L ajDj,it + L ÓsBs,it + f31Xitl + f32Xit2 + ... + fJkXitk + Eit
j=l s=2
donde hay n variables binarias para los efectos fijos individuales iguales a la unidad si i = j.
(T - 1) binarias para los efectos fijos temporales iguales a la unidad si s = t, y en este caso
no podríamos incluir la constante pues hemos considerado directamente los n efectos fijos
individuales. Recuérdese que los estimadores son consistentes para los parámetros que varían
en el tiempo, y por tanto podremos estimar consistentemente los fJJ y los Ó8 • Por este motivo
en las expresiones matriciales que incluimos en el apéndice técnico de este tema el vector Xit
incorpora las (T - 1) variables binarias relativas a los coeficientes Ó8 •
Los mismos estimadores de f3i se pueden obtener por el procedimiento en diferencias a las
medias de un panel equilibrado. En primer lugar se calcula la Yit y las Xit , en desviaciones a
las medias individuales y temporales, y posteriormente estimamos la ecuación en desviaciones
a las medias por MCO. El estimador en diferencias a las medias es
(Yit - Yi. - Y .t +Y .. ) = !31 (Xitl - Xu - X.tl + x .. ,1) + !32 (Xit2 - xi. ,2 - X.t2 + X ..,2)
+ ... + fJk (Xitk - xi.,k - X.tk + x .. ,k) + (éit - Ei. - E.t + €..)
(10.2.20)
donde Y .. = (nT) - L~=l L:f=l Yit y€ .. , X .. ,j se definen de forma equivalente. El motivo por
1
el que es necesario hacer estas transformaciones es para asegurar que desaparecen los términos
de los efectos temporales e individuales. En el apéndice se comprueba este extremo.
Los programas informáticos especializados estiman los modelos de panel de esta forma,
lo que elimina la labor de especificar todas las variables binarias. Las propiedades de los
estimadores y la inferencia sobre los mismos guardan las mismas propiedades que el modelo
de efectos fijos individuales.
Tema 10 375
Veamos algunos ejemplos.
Ejemplo 32. Relación entre delincuencia y desempleo

Con datos del incremento anual del índice de delincuencia (delitos por cada mil habitantes)
«delicuenciait» y el incremento anual de la tasa de paro «paroit» por comunidades autónomas
entre los años 2001 y 2010 nos planteamos estudiar el efecto del desempleo sobre el índice de
delincuencia.
Planteamos el modelo que relaciona ambas variables
delincuenciait = (J.parOit + ai + T/t + Eit· (10.2.21)
Es decir que el incremento de la tasa de paro anual (evolución de la situación económica) debe
influir en el incremento anual del índice de delincuencia, pero también sabemos que la delincuencia
depende de otros factores, muchos inobservables. A lgunos de carácter idiosincrásico puesto que
las comunidades autónomas tienen históricamente distintos índices de delincuencia. En general las
comunidades con mayores núcleos urbanos tienden a tener también mayores índices de delincuencia.
Factores como distribución por edad, educación y género también influyen . Pues bien todos los
factores que se mantienen constantes en el tiempo, o varían muy despacio, como los mencionados
son captados por los efectos fijos individuales ªi· También hay factores que cambian en el tiempo y
que afectan a todas las comunidades por igual como los cambios en las leyes y la eficacia policial.
En general todos los factores que cambian con el tiempo pero que afectan a todo el territorio
nacional por igual son captadas por los efectos fijos t emporales T/t·
Primero consideramos dos periodos, 2007 y 20 10, es decir antes y durante la crisis, como
hicimos en ejercicios anteriores.
Estimamos una ecuación de corte transversal por MCO para el año 2007 que relaciona ambas
variables; su estimación es
--
delincuencia2007 =O, 262 - O, 046·paro2001
(0,652) (0,969)
[0,805] [1,200] (10 .2.22)
n = 17, R 2 = 0, 0001,
donde sorprende el signo del incremento de la tasa de paro . La interpretación literal de la ecuación
sería que ante el incremento del paro, el índice de delincuencia disminuye, lo que es contrario al
sentido común. Ninguno de los dos parámetros son sign ificativos , de manera que la conclusión es,
en el mejor de los casos, que paro y delincuencia no tienen relación alguna entre sí. El sesgo de
variables omitidas está en el origen del signo contrario al esperado.
El estimador de la diferencia entre los años 2007 y 2010 evita el sesgo por variables omitidas;
su estimación es
--
6delincuencia = -3, 895 + 1, 145·6paro
(1,617) (0,628)
[1,379]
..
[0,497] (10.2.23)
n = 17, R 2 = O, 1817, -2
R = O, 1272,
Tabla 10.1: Efectos individuales y temporales

Efectos fijos individuales
Andalucía -0 ,755 Castilla y LeónO , 836 Galicia-0, 755 La Rioja 1, 393
Aragón O, 283 Castilla La Mancha 1, 378 Madrid O, 536 Cantabria-O, 058
Asturias-O, 180 Cataluña O. 345 Murcia-1, 475
Baleares-2, 458 Valencia-O. 779 Navarra 2, 140
Canarias-2, 458 Extremadura-0, 393 País Vasco 0,935
Efectos fijos temporales
2007 1, 948 2010 -1 , 948
ind. = 17, tem. = 2, n = 34, R 2 =O , 5507, R =O , 0115.
ahora el signo es el esperado y ambos coeficientes son significativos al 5 %. Un incremento anual del
paro del 1 % implica un incremento anual del 1,15 % del índice de delincuencia también en 2010.
El término constante negativo significa que el incremento de la delincuencia anual entre 2010 y
2007 disminuyó en promedio prácticamente un 4 %6 descontada la influencia del incremento anual
del paro.
Al mismo resultado se llega utilizando el estimador de efectos fijos individuales y temporales,
expresión (10.2.24):
---
delincuencia2010y2007 = - 1, 46
(0,549)
+ 1, 145paro2010y2007
(0,628) (10.2.24)
[0,703] [0,703]
Generalmente los efectos fijos no se muestran en los trabajos aplicados salvo en casos muy
especiales; nosotros lo haremos solo esta vez con fines didácticos (Tabla 10.1). Las comunidades
autónomas que tienen efectos fijos positivos presentan incrementos anuales de delincuencia entre
2007 y 2010 por encima de la media (Madrid y Cataluña) , y las que tienen efectos fijos de signo
negativo los incrementos son menores (Ca narias y Baleares). El parámetro del paro es el mismo que
la estimación por diferencias (10.2.23) . El error estándar también es igual (entre paréntesis), pero
el error estándar robusto a la correlación y a la heterocedasticidad (entre corchetes) es distinto
puesto que el cálculo es diferente en la regresión normal y de panel. La estimación en diferencias
a las medias de efectos fijos no tiene término constante; sin embargo la Ecuación (10.2.24) sí
lo tiene . La razón es que normalmente los programas especializados normalizan los efectos fijos ,
tanto los temporales como los individuales, de manera que su media sea nula y en consecuencia el
término constante de la expresión (10.2.24) es la media de esos efectos fijos. El término constante
de las diferencias a las medias (10.2.24) es distinto de la estimación en diferencias (10.2.23)
6
EI estimador de la diferencia aquí tiene término constante lo que no ocurre en (10.2.4); para llegar a la expresión
con término constante debemos especificar la ecu ación de corte transversal para 2007 como, Y2007 = .80+.81X2007+
€1, y como la de 2010 con datos fusionados y términos de iteración Y2010 = .80+.81X2007+.82D2010+.83X2010D2010+
€ 2 como sabemos que los dos primeros térm inos de la segunda ecuación son la estimación de la primera tenemos que
Y2010 = Y2007 + .82D2010 + ,83X2010 D2010 + é2 - é1, de manera que Y2010 - Y2007 = .82D2010 + ,83X2010 D2010 + é,
que es el estimador de la diferencia con término constante. El término constante , en este caso, es lo que se ha
incrementado la delincuencia descontado el efecto del incremento de la tasa de paro.
Tema 10 377
pero si nos fijamos en los efectos fijos temporales nos damos cuenta de que la suma de estos
efectos, prescindiendo del signo, es muy similar al término constante de la estimación en diferencias.
Finalmente vemos que el coeficiente de determinación es mucho más alto. Esto se debe a que en
esta ecuación hemos calculado muchos más parámetros, los efectos fijos, por ello el coeficiente de
determinación corregido es mucho más informativo .
En realidad tenemos datos de incrementos anuales de delincuencia y paro entre los años 2001
y 2010 y sería un desperdicio no utilizar todos los datos disponibles. Su estimación es:
--
delincuenciait = -0, 100 + O, 333-paroit
(0,422) (0,180)
[0,099] [0,172]
(10.2.25)
efectos fijos individuales y temporales
2 - 2
ind. = 17, tem. = 10, n = 170, R = O, 3142, R = O, 1849,
tenemos 17 comunidades autónomas y 10 años, en total 170 observaciones. El incremento anual
del paro es significativo al 5 %, un incremento anual del paro del 1 % implica un incremento de
0,33 % del índice de delincuencia. Si comparamos este resultado con el anterior (1,15) vemos que
el efecto es mucho más modesto. La diferencia entre ambos es que aquel compara 2010 con 2007,
es decir, se trata de un estimador a más largo plazo , 3 años; mientras que la expresión (10.2.25)
se refiere al cambio anual (0,33). El término constante no es significativo , el signo negativo indica
que durante la década la delicuencia ha tenido una tendencia negativa (descontada la influencia
del paro, y de los efectos fijos considerados).
Ejemplo 33. La demanda de electricidad para uso doméstico

Varios estudios han utilizado datos de panel para estim ar la demanda residencial de gas natural
y electricidad para Estados Unidos. Nosotros, a partir de la encuesta de presupuestos familiares
anuales y de la contabilidad regional entre 2006 y 2010 , estimamos un modelo similar,
--
In (electricidadit) = 11, 601 - 1, 193-ln (preciOit)
(3,615) (0,158)
+O, 022-ln (PI Bit)
(0,366)
[6,067] [0,206] [0,598]
... *** (10 .2.26)
2 -2
ind. = 17, tem. = 5, n = 85 , R = O, 9466 , R = O, 9276,
odas las variables están en términos per cápita , los precios y el PIB en euros constantes de 2010
(deflactados por el IPC de cada comunidad). Los signos son los esperados si bien el PIB no es signi-
1cativo a los niveles usuales quizás porque no hay alternativa al consumo eléctrico para uso domés-
t ico. No podemos rechazar la hipótesis de elasticidad precio unitaria [(1, 193 - 1) /O, 206 =O, 937].
=n general las estimaciones MCO de demanda pueden presentar sesgo de simultaneidad (demanda
- oferta) pero si los cambios de la oferta afectan a todas las comunidades autónomas por igual,
estos estarán recogidos en los efectos fijos temporales y los estimadores serán insesgados.
378 REGRESIÓ N CON DATOS DE PANEL Y FUSIONADOS
Ejemplo 34. Demanda de tabaco con datos de panel

Ya hemos estimado la demanda de tabaco (cajetillas de 20 cigarrillos por persona) en temas
anteriores. Recordemos que al ser una estimación de demanda utilizamos el método de VI para
eliminar el sesgo de simultaneidad. Los métodos de análisis de paneles también nos permiten estim a
evitando problemas del sesgo. Lo hacemos a partir de los datos de la encuesta de presupuestos
familiares entre 2005 y 2010 con datos de panel . Si la oferta se desplaza afectando a todas las
comunidades autónomas por igual , entonces los efectos fijos temporales captan sus desplazamientos
(para el caso español esta hipótesis parece razonable) . Utilizamos precios y PIB per cápita en euros
constantes de 2010. La estimación es
----
In (tabacOit) = -0, 630 - 1, 174-ln (precioit)
(6,239) (0,191)
+ 1, 263·1n (P I Bit)
(0,625)
[6,850] [0,115]
.
[0,679]
(10.2.27
2 -2
ind. = 17, tem. = 5, n = 85, R = 0,8478 , R =O, 7938.
La elasticidad precio de la estimación por VI fue (-1,086), muy parecida a la actual (-1,174). La
introducción de efectos fijos idiosincrásicos se puede justificar con factores como la educación , o
la distribución por edad y sexo de cada comunidad. Los efectos fijos temporales tienen en cuenta
entre otros factores , la publicidad (que relaciona negativamente el tabaco con la salud) .
La estimación utilizando como instrumento los impuestos especiales al tabaco por cajetilla es
prácticamente la misma
----
In (tabacoit) = -0, 617 - 1, 172-ln (precioit)
(6,241) (0,193)
+ 1, 261 -ln (P I Bit)
(0,625)
[6,872] [0,125]
.
[0,682]
(10.2.2
MC2E, instrumento: impuesto especial por cajetilla
2 -2
ind. = 17, tem. = 5, n = 85, R =O, 8478, R =O , 7938.
Algunos autores estiman la demanda de tabaco con datos de panel utilizando las mismas
variables pero introducen el consumo reta rdado un periodo para tener en cuenta el carácter adictivo
del tabaco. La estimación para el caso español es
----
In (tabacoit) = 1,567 -1 ,435-ln (precioit)-0, 117-ln (tabacoit-1)
(9,160) (0,339) (0,122)
+ 1,200-ln (PI Bit)
(0,923)
[13,372] [0,264] [0,090] [1,295]
•••
MC2E, instrumento: impuesto especial por cajetilla
efectos fijo s individuales y temporales
2 - 2
ind. = 17, tem. = 4, n = 68, R = O, 8576, R = O, 7879,
(10.2.29
Tema 10 379
donde la elasticidad precio ha aumentado sustancialment e. Ahora solo los precios son significativos,
por tanto rechazamos la introducción del consumo de t abaco retardado como variable explicativa
en este caso.
Una de las ventajas de utilizar datos de panel, o fusionados , es incrementar el tamaño

de la muestra lo que permite conseguir estimadores más precisos y realizar contrastes con
más potencia. Sin embargo los ejemplos anteriores adolecen precisamente de tener pocas
observaciones, sobre todo si las comparamos con los trabajos publicados, de manera que los
resultados debemos tomarlos con precaución.
Ejemplo 35. La función de consumo europea
Con datos anuales de renta disponible y consu mo de los hogares entre 1997 y 2010 para 22
países europeos 7 (fuente Eurostat) estimamos la fu nción de consumo ; los resultados son
--
.6 1n (consumoit) =O, 004 + O, 867·.61n (Y Dit)
(0,001 ) (0,029)
[0,001] [0,048
(10.2.30)
2 - 2
ind. = 22 , tem . = 14, n = 308, R = O, 8598 , R = O, 8418,
donde tanto el consumo como la renta disponible est án en términos per cápita y euros constantes
de 2005 ( deflactados por el 1PC armonizado) . La utilización de diferencias de los logaritmos equivale
a utilizar tasas de variación (en tanto por uno) . Ambas estimaciones son significativas incluso al
1 %.
Todos sabemos, por introspección , que cuando aumenta nuestra renta disponible también au-
mentamos el consumo de bienes y servicios, de man era que esta línea de causalidad es clara .
No obstante también sabemos, por la teoría macroeconómica elemental , que cuando aumenta
el consumo , las empresas venden más y aumentan su producción lo que implica una mayor ren-
ta disponible . Por tanto existe también línea de causalidad del consumo a la renta , de manera
que la renta dispon ible es endógena y, por consigui ente, la estimación anterior presenta sesgo de
simultaneidad .
El tratamiento tradicional de este problema co nsidera la identidad contable de los hogares,
renta = consumo + ahorro, y toma el ahorro como variable instrumental. Alternat ivamente,
al igual que otros autores, también podemos utilizar como variables instrum entales la variables
consumo y la renta ret ardadas. La ecuación reducid a para estas variables instrumentales es
.61;;(Ybit) =O, 017 +O, 634·.61 n (consumoit- i) - O, 442·.61n (Y Dit-1)

(0,003) (0,119) (0,120)
[0,002]
...[0,196]
efectos fijos individuales y t emporales

[0,169]
(10.2.31)
2 - 2
ind. = 21, tem. = 14, n = 286, R = O, 4005, R =O, 3166,
7
Los pa íses utilizad os son A lem an ia, Austria, Bélgica , Chi pre, Dinamarca, Eslovaqu ia, Eslovenia, España , Es-
tonia , Finlandia , Franc ia, Grecia , Italia , Leton ia , Lituania , Noru ega, Países Baj os , Polon ia, Port uga l, Reino Unido ,
Repúbl ica Checa y Suecia.
con ambos instrumentos significativos por lo que podemos utilizarlas como variables instrumentales
La estimación por VI es:
--
L:. ln (consumoit) = O, 002 +O, 983·.l:.ln (Y Dit)
(0,002) (0,096)
[0,002]
...
[0,102]
(10.2.32
MC2E, instrumentos: consumo y renta retardados un periodo
2 - 2
ind. = 22, tem. = 13, n = 286, R = O, 8473, R = O, 8266 ,
donde el término constante no es significativo y la influencia de la renta disponible en el consumo

aumenta ligeramente.
Para contrastar si los efectos fijos ind ividuales son significativos consideramos como ecuaciór
irrestricta la expresión (10.2.30) y como rest ringida aquella en la que solo se consideran efectos
fijos temporales ; su estimación es:
--
L:. ln (consumoit) =O, 004 +O, 878·.l:. ln (Y Dit)
(0, 001) (0,025)
[0,001] [0,039]
(10.2.33
efectos fi j os temporales
2 - 2
ind. = 22, tem. = 14, n = 308, R = O, 8549, R = O, 8479,
de manera que el contraste de significatividad conjunta de los efectos fijos individuales es
Riir-Ri 0,8598-0,8549
0,000233
21
Fq,n-k-1 = ~ 1-0,8598 O
, 000514 =O, 453 = F21 ,272, (10.2 .34
n-k-1 308-35-1
cuyo valor es muy inferior a los valores críticos usuales (al 10 % el valor crítico es 1,44). La
hipótesis nula es Ho : 0:1 = 0:2 = ... = an =O, y como el valor empírico es muy inferior al crítico,
no podemos rechazar la hipótesis nula de efectos fijos individuales nulos. Decir también que el
número de grados de libertad del numerador (21) tiene en cuenta los efectos fijos calculados menos
uno, puesto que el término constante resta un grado de libertad a los efectos fijos individuales y
temporales. Los grados de libertad del denominador son: n-(k + 1) = 308-(22+14+1)-1 = 272,
donde 22 y 14 son los coeficientes fijos individuales y temporales respectivamente.
Para contrastar si los efectos fijos temporales son significativos estimamos como ecuación
restringida la expresión (10.2.30) pero sin efectos fijos temporales,
--
L:. ln (consumoit) =O, 003 +O, 948·.l:. ln (Y Dit)
(0,002) (0,029)
[0,001] [0,043]
*** ***
(10.2.35)
efectos fi j os individuales
2 -2
ind. = 22, tem. = 14, n = 308, R = O, 8156, R = O, 8013,
Tema 10 381
el contraste de significatividad conjunta es
Riir-Ri 0,8598-0,8156
13 0,0034
Fq ,n-k- 1 = -1-_-'-~-iir 1-0,8598 O = 6, 614 = F13,272 , (10.2.36)
000514
n-k-l 308-35-1 '
y el valor crítico al 1 % de significatividad es 2,196 . Como el valor empírico es mayor que el
teórico o crítico, rechazamos la hipótesis nula y concluimos que los efectos fijos temporales son
significativamente distintos de cero. Por consiguiente la estimación más adecuada de la función
de consumo europea es la expresión (10.2.33) cuya diferencia con la expresión (10.2.31) es muy
pequeña, 0,878 frente a 0,867. La estimación por VI ten iendo en cuenta solo efectos fijos temporales
es
--
61n (consumoit) =O, 001+1 , 030·61n (Y Dit)
(0,002) (0,071)
[0,002] [0,066]
(10.2.37)
MC2E, instrumentos : consumo y renta retardados un periodo
efectos fijos temporales
2 -2
ind. = 22, tem. = 13, n = 286 , R = O, 8348, R = O, 8269,
donde la influencia de la renta ha aumentado hasta 1,03. La diferencia con la otra estimación por
VI (0,983) no es muy importante desde el punto de vista estadístico puesto que si calculamos un
intervalo con el 95 % de confianza, 1, 03±2·0, 066 = (O, 898; 1, 162), se incluye esa estimación. Lo
relevante es que los 22 países considerados presentan una función de consumo que estadísticamente
es igual para todos ellos (puesto que no hay diferencias individuales entre ellos) .
10.2.6. Datos de panel con efectos aleatorios

El modelo de efectos fijos individuales es
(10.2.38)
donde incluimos el término constante, fJo, al considerar que los efectos fijos tienen media nula,
como hacen los programas especializados.
La gran ventaja de la estimación por efectos fijos es que las variables no observables
individuales ai pueden estar correlacionadas con las variables explicativas Xitj, es decir, el
modelo de efectos fijos permite que la heterogeneidad individual no observada pueda estar
correlacionada con los regresares.
Pues bien, si estamos dispuestos a sostener (porque el tipo de análisis o estudio que esta-
mos realizando lo permite) la restricción de que estas variables, ai , no están correlacionadas
con el resto de variables explicativas Xitj , entonces los estimadores de efectos fijos (10.2.38) ,
que son (y seguirían siendo) consistentes, pueden mejorar en su eficiencia. Este supuesto ge-
neralmente no es siempre posible. Por ejemplo, si un panel está conformado por observaciones
individuales de trabajadores, una variable observable y de interés habitual es el salario por
hora del trabajador. Este salario puede estar correlacionado fácilmente con una variable no
observable como, por ejemplo, las habilidades del trabajador en cuestión, que implícitamente
está incorporada en el error específico individual ai, por lo que entonces el error podrá esta:
correlacionado con otras variables explicativas con las que correlacione la habilidad , com"
puede ser el nivel educativo alcanzado, entre otras.
En todo caso, si estamos en condiciones de asumir dicha restricción, entonces la forma de
conseguir estimadores eficientes en estas condiciones es recurrir al modelo de efectos aleatorio_
Si bien, en caso de que realmente hubiera correlación entre ai y Xitj, el modelo de efect "
aleatorios dejaría de producir estimadores consistentes. Así pues, si se cumple que
cov (Xitj, ai) =O, t = 1, 2, .. ., T, j = 1, 2, .. ., k (10.2.39

junto con los supuestos ya aludidos para el modelo de efectos fijos (ver Sección 10.2.4), po-
demos estimar eficientemente los coeficientes /3itj mediante el estimador de efectos aleatori -
que exponemos a continuación.
El modelo de efectos aleatorios considera, además la incorrelación indicada en (10.2.39
que el término error está compuesto de la siguiente forma , Vit = ai + Eit, donde ai y Eit sor:
variables aleatorias iid con media y varianza definidas:
Ü!i "' [a, O'~], Eit "' [O, O';J.
De esta manera podemos escribir (10 .2. 38) como
Yit = /30 + /31Xitl + /32Xit2 + ... + /3kXitk + (ªi + Eit) (10.2.40

= /30 + /31Xitl + /32Xit2 + ... + /3kXitk + Vit·
Modelo de regresión de efectos aleatorios
3. (Xi1, Xi2, ... , Xir, Ei1, .. ., EiT), i = 1, 2, .. ., N son extracciones iid de la distribución
conjunta
4. (Xit, Eit) tienen momentos de orden cuatro finitos
5. No hay multicolinealidad perfecta
El supuesto o característica 2 del modelo de efectos aleatorios es nuevo respecto del de

efectos fijos. Este supuesto evita la existencia de correlación entre el efecto no observado
invariante en el tiempo, ai, y las variables explicativas. Debido a que hemos incluido lo
efectos individuales invariantes en el tiempo en el término de error Vit, este ahora presenta
autocorrelación:
Tema 10 383
que por el supuesto 1 del cuadro de referencia se puede reducir a
JE( vft) = lEal + lEcTt = O"; + O";.

Por otra parte, la aplicación de los suspuestos nos facilita el desarrollo de la covarianza
(t =/= s)
cov( Vit, Vis) = E( VitVis) - E( vit)E( Vis) = E( VitVis)
que desarrollando conduce
Y por tanto la autocorrelación es
(10.2.41)
donde, como hemos dicho , O"& = Var (ai) y O"'f = Var (cit)· Se aprecia que esta correlación es
el ratio de la varianza de ai sobre la del error compuesto Vit, por lo que mide la importancia
relativa de los efectos invariantes ªi·
En este nuevo modelo la estimación MCO claramente producirá errores estándar incorrec-
tos, por tanto y tal y como vimos en el Tema 6, para corregir la autocorrelación debemos
recurrir el estimador por el método de mínimos cuadrados generalizados (MCG). La transfor-
mación utilizada parte de
2
,\ = 1 - O"é (10.2.42)
(O"i + T0"~)1/2'
cuyo valor está entre cero y uno. De tal manera que la ecuación transformada (MCG) para
calcular los estimadores de efectos aleatorios es
Yú - >.fi. = f3o (1 - >.) + f31 (Xitl - >. . ~\.,1 ) + f32 (Xit2 - >.Xi.,2) + ...
(10.2.43)
+ f3k (xitk - >..Xi.,k) + (vit + >.vi.) ,
que es una estimación en cuasidiferencias a las medias temporales.
Una de las ventajas del estimador de efectos aleatorios es que permite incluir variables
explicativas binarias (variables que no se pueden incluir en el estimador de efectos fijos).
El parámetro >. no se conoce en la práctica por lo que recurrimos al estimador mínimos
cuadrados generalizados factibles (ver Sección 6.2.4). En general los programas especializados
calculan rutinariamente el estimador de efectos aleatorios.
Cuando en la expresión (10.2.43) >. = O la estimación de efectos aleatorios y MCO (sin
incluir efectos fijos) coinciden (es decir , el modelo de datos fusionados). En cambio cuando
>. = 1 los estimadores de efectos aleatorios y de efectos fijos coinciden. Además y puesto que
los estimadores de efectos fijos son consistentes incluso bajo los supuestos de efectos aleatorios
a medida que el número de observaciones aumenta, >. tiende asintóticamente a 1 (NT -t oo ).
El modelo de efectos aleatorios individuales y temporales es similar. Ahora el error com-
puesto es Vit = ai + T/t + Eit, donde hemos añadido los efectos fijos temporales. La estimación
de efectos aleatorios individuales y temporales requieren que tanto los errores individuales
como los temporales no estén correlacionados con las variables explicativas y de igual forma
tenemos que recurrir para su estimación a MCGF, la estrategia para calcularlo es similar a
la de efectos fijos individuales pero más compleja8 . Por suerte los programas especializados
calculan este estimador de forma rutinaria.
Es posible estimar efectos aleatorios individuales y efectos fijos temporales y viceversa.
En ocasiones se estiman efectos aleatorios individuales y los efectos temporales se calculan
mediante variables binarias.
10.2. 7. Efectos aleatorios versus efectos fijos

No hay una regla sencilla que nos ayude a decidir entre el estimador de efectos aleatorios
y efectos fijos y ante la duda lo más sencillo es utilizar el estimador de efectos fijos , puesto
que estos son también consistentes bajo los supuestos de efectos aleatorios, lo que no ocurre
a la inversa, es decir si los efectos fijos están correlacionados con las variables explicativas
entonces el estimador de efectos aleatorios es sesgado e inconsistente.
En los trabajos aplicados en muchas ocasiones se decide utilizar efectos fijos o aleatorios en
función de si los efectos fijos son considerados como parámetros a estimar o como resultados de
una variable aleatoria. Cuando los datos no pueden considerarse como una muestra aleatoria
de una población grande es usual decantarse también por el estimador de efectos fijos.
Hausman (1978) establece la siguiente estrategia para contrastar la hipótesis nula de
efectos aleatorios individuales [Ho: JE (ai IXil, X i2, ... , Xir) = JE(ai) =O] comparando los es-
timadores de efectos fijos (FE) y efectos aleatorios (RE) a partir del siguiente estadístico
QFE ,RE = ( f3FE

~ - ~
f3RE
)' ((jfjFE
2 - (jf3RE
2 )-l (~f3FE - ~
f3RE
)' (10.2.44)
que no es más que el cociente del cuadrado de las diferencias de los estimadores y las diferencias
entre la matriz de varianzas y covarianzas. El test de Hausman converge a una distribución
2
Xk·
La idea con la que se construye el test consiste en aprovechar que tanto el estimador
de efectos aleatorios como el de efectos fijos son consistentes si no hay correlación entre las
variables explicativas Xit ,j y G:i. Si ambos son consistentes entonces deberían converger a
verdadero valor del parámetro /3j. Es decir, para muestras grandes las estimaciones deberían
ser similares, por lo que la diferencia entre ambos valores estimados debe ser pequeña (al
menos asintóticamente). Por otra parte, en caso de correlación entre X it,j y ai, el estimador
de efectos aleatorios sabemos que es inconsistente, mientras que el de efectos fijos sigue sien-
do consistente, por lo que este último estimador convergerá a los verdaderos valores de los
parámetros , mientras que el de efectos aleatorios no lo hará. En tal caso, esperamos apreciar
diferencias estadísticas significativas entre ambas estimaciones, constituyendo esta diferencia
evidencia en contra de la hipótesis nula anteriormente señalada. Así, al haber evidencia en
8
La transformación es, para la variable explicada: Y;; = (Yit - (Ji fi. - (h Yt - (}J Y.), con (h = 1- ~;
TO'o +u.u
fh = 1 - ~; 81
Na 11 +uv
= 1 - v'Tu 2 +Na
"" 2
+0'v2
. Las transformaciones para las variables explicativas y el error
0 11
son similares.
Tema 10 385
contra del supuesto JE (ai IXi1, Xi2, .. . , X iT) = lE(ai) = O, sería preferible que el modelo se
estimara con el estimador de efectos fijos.
El test así planteado contrasta una hipótesis nula conjunta al comparar todos los coe-
ficientes estimables. En ocasiones estamos interesados en un solo coeficiente del modelo , en
tal caso es posible plantear una versión del test de Hausman a través de un ratio de la t
para dicho parámetro o coeficiente. El estadístico tipo t también compara la diferencia entre
las estimaciones de cada estimación respectiva de un solo coeficiente, digamos el coeficiente
k-ésimo
cuya distribución asintótica es la normal estándar.

El test de Hausman se aplica de forma similar también para efectos individuales y tempo-
rales o solo de efectos temporales. Normalmente los programas especializados realizan el test
de Hausman de forma rutinaria.
El modelo de efectos fijos tiene el atractivo de que permite estudiar los efectos parciales e
incluso causales de las variables explicativas sobre la variable dependiente con supuestos más
flexibles (menos restrictivos) que los que se necesitan para establecer una relación causal con
datos de sección cruzada o con modelos de paneles sin efectos fijos , como es el caso del modelo
de efectos aleatorios y, lógicamente, también el de datos fusionados . Salvo que el esquema
de causas estén muy claro y los datos se hayan obtenido de un experimento controlado (o
las circunstancias del mismo estén cercanas a ser un experimento controlado), es preferible
utilizar el modelo de efectos fijos en la medida en que estemos interesados en medir relaciones
causales.
Lógicamente la disyuntiva entre efectos fijos y aleatorios se presenta porque los efectos
fijos tienen algunas desventajas. La más relevante es que la estimación de los coeficientes de
regresares que sean invariantes en el tiempo no es posible y quedará absorbida dentro del
coeficiente del efecto fijo individual. Esto provoca que únicamente podamos hacer previsiones
(a partir del modelo) sobre la variación la media condicionada a partir de cambios en los
regresores que varían a lo largo del tiempo. Por estos motivos , incluso al coste de que el
análisis causal no quede garantizado, también utilizamos el modelo de efectos aleatorios.
Veamos un ejemplo.
Ejemplo 36. La demanda de cerveza con datos de panel

Con datos de la encuesta anual de presupuestos familiares entre 2006 y 2010 y de la contabilidad
regional estimamos un modelo de demanda de cerveza ; pensamos que el modelo es
In (cerve zait) = /30 + f31ln (precioit) + f32ln (Y Dit) + ai + T/t + Eit, (10.2.45)
donde cervezait son litros consumidos al año por persona y comunidad autónoma; precioit. los
precios medios por persona y comunidad pagados por litro en euros de 2010; y Y Dit• la renta
d isponible por persona y comunidad anual en euros de 2010; incluimos además efectos individuales
y temporales.
Ta bla 10.2: Modelos alternativos para la demanda de cerveza

Variable dependiente
In (cerveza) fusionados efectos fijos efectos aleatorios 1
n = 85
(1) (2) (3) (4) (5) (6) (7)
constante 12,32 -6,94 10, 96 12,03 12,50 13, 13 12,32
( 1,618) (7,639) (4,006) (1 ,681 ) (2,866) (2,536) (1,618)
...
[3,192] [8,258]
- ..
[4,907]
...
[3,473]
...
[2,226]
...
[2,079]
...
[3,192]
In (precio) -2,02 -0, 72 -0,97 - 2, 13 - 0,96 -1 , 06 - 2,02

(0,296) (0,257) (0,205) (0,324) (0,221) (0,198) (0,296
In (YD) -0,20
...
[0,552]
...
[0,233]
1,68
...
[0,181]
-0,09
...
[0 ,655]
- o, 17
...
[0,162]
-0,25
...
[0,155]
-0,31
...
[0,552:
-0,20
(0,165) (0,761) (0,399) (0,172) (0,286) (0,254) (0,165
[0,328]
- ..
[0,822] [0,486]
-
[0,359]
-
[0,222]
-
[0,208]
-
[0,328:
-
efectos individuales no SI si no si si no
efectos temporales no si no SI si no SI
R'2 0,4758 0.9497 0,9366 0,4843 0,2202 0,2979 0,4758
R'L 0,4630 0. 9319 0,9194 0,4446 0,2012 0,2807 0,4630
La Tabla 10.2 muestra las estimaciones de varios modelos. Hemos realizado 7 estimaciones
diferentes , 3 de efectos fijos , 3 de efectos aleatorios y 1 sin efectos (MCO fusionados).
Primero nos centramos en las tres esti maciones de efectos fijos , en todas ellas la elasticidad
precio es significativa y tiene el signo adecuado , sin embargo en la primera [modelo (2)] nos
encontramos con elasticidad rígida, en el segundo [modelo(3)] aproximadamente unitaria y en el
tercero [modelo( 4)] elástica . Respecto a la renta nos encontramos con un parámetro significativo
[modelo (2)] y positivo (bien normal) , y dos no significativos [modelos (3) y (4)] además con signo
negativo (bien inferior).
La primera pregu nta está clara : ¿cuál de los tres modelos debemos elegir? La respuesta estadís-
tica adecuada es rea lizar contrastes de exclusión múltiple. Para ello consideramos como ecuación
no restringida la esti mación de efectos fij os individuales y temporales y como restringidas las que
solo tienen uno de ellos.
El contraste de significatividad conjunt a de los efectos fijos individuales es
Riir-R; 0,9497-0,4843
Fq ,n-k-1 = ~ --1-_~1
0 ,~~4~9=7 - = 36, 432 = F16,62, (10.2.46)
n-k - 1 85-(16+4+2)-1
el valor crítico al 5 % es 1,81 , y como el valor empírico es mayor rechazamos la hipótesis nula y
los efectos fijos individuales conjuntamente son significativos.
Lo mismo hacemos con los efectos fijos temporales:
Tema 10 387
Riir-Ri 0,9497-0,9366
Fq,n-k-1 = ~ 1 _ 0 ~ 497 = 4, 102 = F4,62 · (10.2.47)
n-k-1 85-(16+4+2)-l
El valor de tablas es 2,52, de manera que los efectos fijos temporales también son conjuntamente
significativos. En consecuencia elegimos el modelo con efectos fijos individua les y temporales.
Si nos fijamos en las estimaciones de efectos aleatorios [modelos (5), (6) y (7)] lo primero
que percibimos es que a medida que incluimos efectos en el componente de error los coeficientes
de determinación van disminuyendo . Además el modelo (7) es idéntico al modelo (1); la razón se
encuentra en que al estimar el modelo por MCGF el valor de>. cuando utilizamos efectos temporales
(10.2.43) se hace nulo y, en consecuencia , la estimación coincide con la MCO (sin efectos). Las
estimaciones de efectos aleatorios presentan errores estándar menores [comparándolos por pares ,
es decir, el modelo (2) con el (5) , el (3) con el (6) y el (4) con el (7)] es decir que los estimadores
de efectos aleatorios son más eficientes .
Ya hemos visto que los efectos individuales y t emporales son conjuntamente significativos y
por tanto la cuestión es decidir si el modelo de efectos fijos individuales y temporales es preferible
o no al modelo de efectos aleatorios (también con los efectos individuales y temporales incluidos
en el término de error), es decir se trata de decidir entre el modelo (2) y (5). Para el lo recurrimos
al contraste de Hausman, expresión (10.2.44), cuyo valor empírico es
( -O ' 72 + o, 96 1, 68 + o, 25 ) ( O, 07 - O, 05 -0, 05 +O, 02

o, 58 - o, 08
)-l ( -0, 72 +O, 96 )
1, 68 + o, 25
= ( o 24
'
1 93 ) (
'
o, 02 -O, 03
O, 50
)-l ( o,1, 9324 ) = 14
'
364 = 2
X2,
(10.2.48)
donde la matriz central es la matriz de varianzas y covarianzas de los estimadores sin tener en
cuenta el término constante . Como el valor de tabl as al 5 % es 5,99 , rechazamos la hipótesis
nula de efectos aleatorios, es decir, escogemos el modelo de efectos fijos individuales y temporales
[modelo (2)] .
10.3.1. Derivación de la validez de la expresión (10.2.20)

Retomamos la expresión
(10.3.1)
y tomamos medias temporales, medias individuales y medias fusionadas, respectivamente:
T
~. = f31Xi. + ªi + r- 1 ¿ µt +ti. (10.3.2)
t==l
n
Yt = f31X.t + n- 1 L ai + µt + t.t (10 .3. 3)
i==l
n T n T
Y = /31X. + (nT)- 1
L L o:i + (nT)- L L µt +t.. 1
i=l t=l i=l t=l
esta última expresión se puede reescribir del siguiente modo

n T
Y.= {3iX.. + (nT)- 1
T L O:i + (nT)- n L µt +E..
1
(10.3.4)
i=l t=l
Si restamos (10 .3.2) y (10.3 .3) de (10 .3. 1) obtendríamos
- -
Yit - Yi. - Yt = /31 (
xit - - X.t- )- 1"'"' µt - n - 1"'"' O:i +
xi . - r-
T
L__¿ L__¿
n
Eit - Ei. - E.t
t=l i=l
que no nos permite aún estimar /3 1 al desconocer muchos parámetros, sin embargo si a esta
expresión le sumamos (10.3.4) tenemos
i. -Yt+Y)
(Y:t-Y:
i . .. =/31(X·t-X·i. -Xt+X
. . . )+(c·t-€·
i ii. -tt+E)
. ..
que es una expresion equivalente para una variable a (10.2.20).

Una vez que hemos estimado, minimizando la suma cuadrática de los errores, /31, e impo-
niendo la restricción ¿ i O:i = O = 2=t µt , estas expresiones nos permiten obtener los estima-
dores de los efectos fijos. Para ello calculamos la diferencia entre las versiones muestrales de
(10.3.2) y (10.3.4), primero, y después de (10.3.3) y (1 0.3.4)
n
Y:i. - Y. . = /3-1 (X.i. - X··) + &· + (n)- 1"'"'
iiL__¿ &· i i
i=l
T
Yt - Y.= /31 (Xt - xii) + r- 1:¿:µt + µt
t=l
y despejamos aplicando las restricciones es su modo muestral
&·i = (Y:i. - Y. . ) - /3-1 (X·i. - X··)

ii
10.3.2. Tratamiento matricial

Datos fusionados
Podemos dar una expresión matricial aún más compacta para la ecuación (10.1.1) de modo
que para cada entidad (individuo, empresa, región, ... ) definimos
Tema 10 389
donde 8 = [ a (3' J'

de dimensiones (k + 1) x 1 es el vector de parámetros, los vectores y i
y ci son T x 1 formados por la respectiva entrada t-ésima de Yit y éit, y la matriz Wi es de
dimensiones T x (k + 1) donde la fila t-ésima es w~t = [1 Xit]'.
Dado que tenemos N entidades, si las apilamos o fusionamos una a continuación de otra
tendremos
y=Wó+c
donde ahora y y e son vectores NT x 1, y W es una matriz de regresares de dimensiones
NT x (k + 1) con la primera columna de unos.
Para conseguir estimadores MCO de los parámetros
'
ópusJONADos =
(WW
/ )-1 Wy
/
es preciso requerir que la matriz de regresares no sea perfectamente multicolineal; para que
sean consistentes y asintóticamente normales se requiere que los regresares no estén correla-
cionados con los errores del modelo, JE (e IW) =O; y para realizar inferencia, lo hacemos con
errores estándar robustos a la autocorrelación y a la heterocedasticidad estimados a partir de
donde ii = Yi - Wi8. De forma más compacta y equivalente lo podemos expresar así:
--
Var(SFUSJONADOS)
1
= [W'WJ- W'ü'W [w'wJ- 1 .
En caso de que el verdadero modelo o el modelo más adecuado fuera el de efectos fijos ,
entonces el estimador fusionado dejará de ser consistente. Efectivamente, en tal caso podríamos
reescribir el modelo de efectos fijos como sigue
donde (por ser el modelo adecuado el de efectos fijos ) hay correlación entre los efectos indivi-
duales ai y el regresar Xit, lo que propicia que el error combinado (ai - a+ éit) correlacione
el regresar, y de este modo la regresión fusionada de Yú sobre la variable explicativa y el
intercepto genere estimaciones no consistentes.
Efectos fijos
La expresión matricial del modelo de efectos fijos la podemos formar a partir de la trans-
formación correspondiente para las variables en este tipo de modelos y que hemos expuesto
en el texto anteriormente:
que se puede reescribir como

l.°? -1(3 + éit·
.lit= Wit -
Podemos a partir de esta expresión colocar las observaciones temporales de cada agente
(como hicimos en el modelo apilado)
Yi = W i/3 + i i
donde Yi es un vector T X 1, al igual que ii, y w i será la matriz con T filas y el número de
columnas indicativo de los regresores que varían en el tiempo, digamos k . Es posible compactar
más aún la expresión matricial simplemente apilando los N individuos o agentes
con sus respectivas dimensiones NT x l ,NT x k,k x l,NT x l.

El estimador del modelo de efectos fijos (EF), tal y como explicamos en el texto principal.
es el estimador MCO de este último modelo
Desde esta expresión podemos comprobar las condiciones para la consistencia simplemente
mediante el álgebra habitual
Dada la independencia a lo largo de los individuos i, la condición fundamental para que

la consistencia es que JE ( Wiei) = O. Una condición suficiente para ello es precisamente
JE (cit IXi1, Xi2, ... , Xir, o:i) =O.
La varianza asintótica es entonces
donde ¿i = Yi - wJ3EF, por lo que es un estimador que solo requiere independencia entre
las entidades, pero acepta que tanto Var(sit) como cov(Eit, Eis) varíe con i, t , s.
Efectos aleatorios
Si seguimos los mismos pasos que en el caso del modelo de efectos fijos, llegamos a expre-
siones similares a las obtenidas anteriormente, siempre que realicemos las transformaciones
adecuadas. En este caso tendremos un modelo
Tema 10 391
donde f'it = Yú - .A}i,Wit = Wit - .Awit; y donde ,\ se estimará a partir de los estimadores
muestrales de la varianzas correspondientes, como indicaremos más adelante. Con el modelo
así formulado, podemos colocar las observaciones temporales de cada agente (como hicimos
en el modelo apilado)
Yi Wif3+ei
=
donde Yi es un vector T X 1, al igual que i i, y w i será la matriz con

T filas y el número
de columnas indicativo de todos los regresores, digamos q. Es posible compactar más aún la
expresión matricial simplemente apilando los N individuos o agentes
con sus respectivas dimensiones NT x l,NT x q,q x l,NT x l.

El estimador del modelo de efectos fijos (RE), tal y como explicamos en el texto principal,
es el estimador MCO de este último modelo
Desde esta expresión podemos comprobar las condiciones para la consistencia simplemente
mediante el álgebra habitual
Dada la independencia a lo largo de los individuos i, la condición fundamental para que la

consistencia es que JE ( Wiii) = O, que está garantizada si el modelo es de efectos aleatorios.
La varianza asintótica es entonces
donde~ = Yi - wJ3RE, por lo que es un estimador que solo requiere independencia entre
las entidades, pero acepta que tanto Var( Eit) como cov(Eit, Eis) varíe con i, t, s.
Cualquiera de estas estimaciones requiere que se estime consistentemente las varianzas
a~= Var (ai) y a;= Var (Eit), y así poder estimar .A. Los programas informáticos especializa-
dos en econometría y que ofrezcan la estimación con datos en forma de panel obtienen dichas
estimaciones consistentes de
A2 = (N(T - 1) - k)
ere: -1""""[ (lit - Yi.)
L.,¡ L.,¡ - - (Xit - Xi) ¡ f3EF
' ]2
i t
Este estimador se utiliza para estimar la varianza a~. La podemos obtener a partir del vector
estimado /3 8 de la regresión del modelo que hemos denominado «between» en la ecuación
(10.2.14), cuyo término error tiene una varianza de a~+ a'f. /T. Así pues un estimador consis-
tente será
= (N - (k + l))- 1 L
i
(Yi - &s - x~/3B r-
(1 / T)C;;.
EJERCICIOS
Teóricos
1. Diga cuáles son las ventajas de los datos de panel respecto a datos puramente trans-
versales o de series de tiempo. Explique asimismo cuáles son los modelos de panel más
habituales.
2. Para estimar la ecuación Yit = .Bo+,81Xit+.B2 Wit+Uit se recogen datos de dos periodos de
tiempo diferentes. Compruebe que la inclusión de una variable ficticia temporal junto con
términos de interacción para las dos variables explicativas, equivale a estimar regresiones
separadas en cada uno de los periodos de tiempo. ¿Puede generalizarse esta conclusión?
3. Sea el modelo Yit = X~t .B + ai + Uit donde ai es el efecto fijo no observado y suponga que
dispone de un panel con dimensión temporal T = 2. Muestre que la estimación MCO de
datos fusionados presentará residuos autocorrelacionados.
4. Considere de nuevo el modelo del ejercicio anterior. Suponga que dispone de un panel
de dimensión NT y que hay k variables explicativas. ¿Cuál es el número de grados de
libertad del estimador de efectos fij os /3?
5. Muestre bajo qué condiciones puede considerarse que el estimador de efectos fijos tiende
en probabilidad al verdadero vector de parámetros poblacionales a medida que el número
de unidades de sección cruzada, N tiene a infinito mientras el número de periodos, T
permanece constante.
Prácticos
6. Emplee los datos de la tabla ETlO 1 para hacer este ejercicio.
a) Ordene adecuadamente los datos para estimar por datos fusionados un modelo
que relacione el gasto total de los hogares con la renta disponible. Obtenga una
estimación tanto de la elasticidad como de la propensión marginal a consumir por
comunidades.
b) Contraste en ambos casos la significatividad individual de la variable explicativa.
¿Hay que sospechar que exista heterocedasticidad? ¿Y autocorrelación? ¿Por qué?
Contraste ambos supuestos.
Tema 10 393
e) Utilice ahora un estimador robusto. ¿Qué ha sucedido con los errores estándar
de los respectivos estimadores? ¿Ha afectado a la significatividad de la variable
explicativa?
d) Indique de qué otra forma podría haber tratado los hipotéticos problemas de he-
terocedasticidad y autocorrelación.
e) Estime el mismo modelo en diferencias y valore los resultados.
7. La tabla ETlO _ 2 contiene datos por CC.AA. (sin Ceuta y Melilla) de número total
de homicidios, número total de delitos y tasa de paro, referidos a los años 2002 - 2006 ,
ambos inclusive.
a) Diga si los datos de dicha tabla se pueden o no considerar propiamente datos

de panel. En caso afirmativo, ¿se trata de un panel equilibrado o desequilibrado?
Señale la dimensión de la muestra.
b) Especifique y estime por datos fusionados un modelo en el que los delitos totales se
hacen depender de la tasa de paro (emplee el logaritmo de los delitos como variable
dependiente). ¿Tiene el parámetro correspondiente el signo apropiado? ¿Por qué?
Diga si es estadísticamente significativo en un contraste bilateral.
e) Repita el análisis empleando como variable dependiente el número total de homi-
cidios en todas sus clases.
d) Emplee el estimador de efectos fijos para las dos ecuaciones anteriores e incluya el
logaritmo de la población como variable explicativa. ¿Han variado las conclusiones
generales?
e) Puesto que la legislación civil y penal es en general, competencia del Estado central,
puede tener sentido preguntarse si los delitos aumentan o disminuyen en función de
cuál sea el signo del gobierno de turno. Especifique y estime un modelo que tenga
en cuenta esta circunstancia. ¿Cuál sería su conclusión?
f) Es evidente que el número de delitos no puede depender solo de la tasa de paro (o
en su caso, del paro y la orientación política del Gobierno) y, en consecuencia, los
modelos anteriores omiten variables importantes. Indique hasta qué punto puede
considerarse que el modelo de efectos fij os soluciona este problema.
g) Incluya la variable dependiente retardada como explicativa y compare los resulta-
dos.
h) En base a los resultados de la estimación del modelo de efectos fijos , muestre
la distribución de los aiy señale qué comunidades autónomas registran tasas de
delincuencia por encima de la media.
i) Indique si en este ejemplo considera más apropiado un modelo de efectos fijos o
uno de efectos aleatorios. Justifique su respuesta.
8. Los datos de la tabla ETlO 3 han sido obtenidos de la encuesta de empresas del INE.
a) Especifique un modelo que haga depender el salario hora del resto de las variables
incluidas en la tabla.
b) Haga una valoración global de los resultados. Para cada variable explicativa, co-
mente el signo y si es o no estadísticamente significativa (indicando si emplea un
contraste unilateral o bilateral y por qué). Comente asimismo si desde un punto
de vista teórico está justificada la inclusión de cada una de las variables.
e) En base a los resultados de los apartados anteriores, especifique y estime el modelo
que considere más adecuado para explicar el salario hora de las diferentes empresas.
¿Podría decirse que las empresas más exportadores son más productivas?
9. En el conocido modelo de crecimiento de Solow la tasa de ahorro, la tasa de crecimiento

de la población y el progreso técnico se toman como exógenos. Considerando una fun-
ción de producción de tipo Cobb-Douglas, Mankiw, Romer y Weil (1992) 9 , sugieren la
siguiente especificación para contrastar dicho modelo:
log(y) = f3o + f31log(s) + f32log(n + g + d) +e

siendo y el producto real per cápita, s la tasa de ahorro, n la tasa de crecimiento de
la población, g una medida del progreso técnico y d la depreciación. El modelo supone
que los países con mayores tasas de ahorro experimentan tasas de crecimiento mayores.
y que cuanto mayor es n +g+d, menor es el crecimiento. Utilice los datos contenidos en
la tabla ETlO _ 4. y
a) Estime el modelo anterior utilizando la técnica de datos apilados y verifique que

los signos de los parámetros son acordes con lo que pronostica la teoría (considere
como en el trabajo original de los autores, que g+d=0.05).
b) Emplee ahora el modelo de efectos fijos con el mismo propósito que en el apartado
anterior. ¿Ha cambiado de forma sustancial la estimación?
e) Una consecuencia del modelo anterior (ver el trabajo original de los autores), es
que f31 = -f32. Contraste dicha restricción en los dos modelos anteriores.
(La tabla ha sido extraída de Hayashi , F. Econometrics. Princeton Universtity Press, Prin-
ceton, 2000. En dicha tabla, y es el producto real per cápita en dólares de 1985, pop es la
población en miles, rpop la tasa de crecimiento de la población en el quinquenio expresada en
tanto por uno y srate la tasa de ahorro en el año).
9
Mankiw , N.G ., Romer , D. and Weil, D.N .: A Contribution to the Empirics of Economic Growth, QJE,
107, n° 2, mayo de 1992.
Tema 11
MODELOS CON VARIABLE DEPENDIENTE

LIMITADA
11.1. I NTRO DUCCIÓ N
En temas anteriores vimos cómo incluir variables explicativas de naturaleza binaria en

el modelo de regresión. En estos modelos la variable dependiente de naturaleza cuantitativa
trataba de explicarse por un conjunto de variables entre las que había algunas que eran
de naturaleza cualitativa (género, etnia, estado civil, filiación sindical o política, etc). Sin
embargo hay situaciones en las que es la propia variable dependiente la que tiene naturaleza
cualitativa y sobre la que nos interesa plantear un modelo. Pensemos por un momento en
los siguientes ejemplos. Una persona acude a un banco a solicitar un crédito. El empleado,
tras requerirle la información que estime pertinente, debe decidir si finalmente se lo concede
o no. Esta es una decisión típicamente binaria y podemos modelizarla con una variable de
naturaleza cualitativa, asignándole por ejemplo un 1 si la decisión es afirmativa y O en caso
contrario, es decir Y = 1, si se le concede el crédito, e Y = O si se le deniega. Como variables
explicativas podemos imaginar las típicas relacionadas con la situación económico-financiera
del solicitante, pero puede haber además variables cualitativas como el sexo , el color, etc.
Asimismo es posible imaginar muchas situaciones en las que la variable explicada presenta
solo dos alternativas, del tipo sí o no: ¿qué factores determinan si la mujer se incorpora o no
a la fuerza de trabajo?, ¿qué nos hace decidirnos por comprar o alquilar una vivienda?, ¿por
qué empleamos, o no, el transporte público? Los ant eriores son solo algunos ejemplos en los
que la variable explicada es binaria.
En este tema trataremos someramente este tipo de modelos . En la Sección 11.2 analizamos
el modelo lineal de probabilidad, que no es más que la utilización de un modelo de regresión
análogo a los vistos en los primeros temas, pero en el que la variable endógena es binaria.
Debido a los problemas que plantea el modelo lineal de probabilidad, lo habitual en estos
casos es recurrir a otro tipo de modelos. En las secciones 11.3 y 11.4 nos ocupamos de los
dos principales: los denominados modelos Logit y Probit. En la sección 11.5 se presenta un
ejemplo numérico en el que se comparan los resultados de la estimación por cada uno de estos
procedimientos.
395
396 MODELOS CON VARIABLE DEPENDIENTE LIMITADA
Figura 11.2.1: Diagrama de dispersión de compra de vivienda y renta
o cnmax>oa.:o o:s>ooom 0000 o o o CJX>
>-
o CID O O CDCCl>O O Cl>O O O
º-º o4 º-ª 12 1-6 2_0 2_4 28 32 3.6

Renta (miles euros)
11.2. EL MODELO LINEAL DE PROBABILIDAD
Para tratar de motivar este tema recurriremos a un ejemplo. En concreto examinaremos la

decisión sobre la compra de una vivienda a partir de los datos de la encuesta de presupuesto~
familiares del año 1990. Disponemos de una muestra de 21.155 familias y datos referidos a
diversas variables. Para empezar trataremos de modelizar la probabilidad de que una familia
compre una vivienda en función de su renta. Para ello supondremos (arbitrariamente y con
motivos exclusivamente didácticos) que las familias que figuran como propietarias de una
vivienda han decidido adquirirla en 1990. Suponemos que la decisión de comprar (Y = 1) o
no (Y = O) una casa debe estar directamente relacionada con el nivel de renta. En la Figura
11.2.1 se muestra la representación gráfica de los datos. En abcisas la variable Renta muestra
los ingresos de la familia (en millones de pesetas) y en ordenadas tenemos la variable Y, que
toma exclusivamente los valores O (la familia no dispone de vivienda en propiedad) y 1 (tiene
vivienda propia).
Debido a la naturaleza binaria de la variable endógena, el diagrama de dispersión presenta

un aspecto muy diferente al que estamos acostumbrados a ver. A pesar de que es probable-
mente más difícil de apreciar a primera vista, la figura sí parece mostrar una relación positiva
entre la decisión de comprar una vivienda y la renta de la familia: a medida que la renta crece.
la intensidad (el número de puntos) en la recta de ordenada O disminuye.
El modelo lineal de probabilidad consiste simplemente en regresar Y sobre X estimando
la relación por MCO, es decir, la ecuación a estimar es:
(11.2.1)
Tema 11 397
La estimación en nuestro caso concreto proporciona, con la renta medida en millones de

pesetas:
}i = 0,71 + 0,021Xi. (11.2.2)
(0, 048) (0,0018)
Entre paréntesis se muestran los errores estándar de los respectivos estimadores. En los distin-
tos modelos empleados hasta ahora hemos aprendido a interpretar adecuadamente los valores
de los estimadores: cambios marginales si es un modelo en niveles, elasticidades si el modelo es
doblemente logarítmico, etc.; pero ¿qué significan los parámetros de la ecuación que acabamos
de estimar? En principio, la estimación parece acorde con la teoría puesto que /3 es positivo y
es también estadísticamente distinto de cero, dado que la hipótesis nula H 0 : (3 =O, resultaría
rechazada en base a un estadístico tipo t. Pero además, la parte derecha de la ecuación debe
ser interpretada como la probabilidad de que la variable dependiente sea igual a la unidad.
Es decir, en nuestro caso, como la probabilidad de que una familia concreta decida comprar
una vivienda. Es fácil ver por qué.
Recordando la teoría de la regresión lineal que hemos aprendido, tenemos que:
IE(Yi) = a+ f3 X i. (11.2.3)
Por otra parte, de la estadística elemental sabemos que la esperanza matemática de una
variable aleatoria, en este caso Y, viene dada por:
IE(Yi) = OPr(Yi =O)+ lPr(Yi = 1) = Pr(Yi = 1),
dado que Y solo toma dos valores , O o l. Igualando ambas expresiones obtenemos finalmente:
Pr(Yi = 1) =a + f3Xi (11.2.4)

que justifica esa interpretación 1 . Por ejemplo, la probabilidad de que una familia con una renta
de 1.000.000 unidades monetarias compre una vivienda es, aproximadamente, O,71+0,021*1 =
0,731. Por su parte el parámetro (3 mide el cambio en la probabilidad de éxito (de que Y =
1), derivada de un cambio unitario en el valor de X. Por ejemplo, si la renta mensual pasa
de 1 a 2 millones, 6X = 1, entonces la probabilidad de comprar vivienda se incrementará en
0,021. Los resultados anteriores son bastante sorprendentes en la medida en que, de acuerdo
con la ecuación anterior, la probabilidad de que una familia sin renta compre una vivienda
es Pr(Y = 1) = 0,71, es decir una probabilidad extraordinariamente elevada, muy difícil de
justificar a pesar de la alta tendencia que existe en algunos países a tener una vivienda en
propiedad.
Por otra parte y como es lógico, la decisión de adquirir una vivienda en propiedad no
viene determinada exclusivamente por la renta, sino por muchas otras circunstancias que de
momento no hemos tenido en cuenta. El modelo anterior puede extenderse para contemplar la
influencia sobre la variable explicada de un conjunto más amplio de variables. Así la expresión
general del modelo lineal de probabilidad será la de un modelo de regresión múltiple:
(11.2.5)
1
En puridad habría que hablar de lE(Y;/Xi), pero el resultado es el mismo.
donde cada f3J mide el cambio en la probabilidad de éxito derivada de un cambio unitario en
Xj manteniendo constantes el resto de las variables. Entre los elementos de X puede haber
también variables de naturaleza cualitativa.
El modelo lineal de probabilidad tiene la ventaja de que es fácil de interpretar y puesto que
se estima por MCO, tampoco en este sentido plantea ninguna diferencia importante con todo
lo que hemos aprendido hasta ahora. Sin embargo este modelo presenta algunos problemas.
Citamos a continuación los más importantes,
a) Puesto que la variable explicada solo puede tomar dos valores, O o 1, los errores del
modelo tomarán igualmente solo dos valores, -a - f3 X i cuando Yi = O, y 1 - a - f3Xi cuando
Yi = 1, es decir, no se distribuyen como una normal sino como una binomial. Además su
varianza será
donde P es Pr(Yi = 1). Es decir que la varianza de los errores depende de X y en conse-
cuencia, no puede mantenerse la hipótesis de homocedasticidad. Este es un problema que
vamos a encontrar en todos los modelos desarrollados en el presente tema y, por tanto, e
esencial que cuando estimemos modelos de este tipo, empleemos el estimador robusto a la
heterocedasticidad.
b) El coeficiente de determinación R 2 no es una buena medida de la bondad del ajuste.
La razón debería ser evidente contemplando la Figura 11.2.l: a no ser que los puntos en lo
dos grupos del diagrama de dispersión estén muy concentrados, el valor del coeficiente de
determinación clásico será siempre reducido.
c) Hemos dicho que &.+/3Xi debe interpretarse como la probabilidad de éxito o Pr(Yi = 1)
y por tanto los valores de dicha expresión deberían estar comprendidos entre O y 1 como
corresponde a toda función de probabilidad. Sin embargo en la práctica, con el modelo lineal de
probabilidad pueden obtenerse valores menores que Oy mayores que 1 para dicha probabilidad.
lo que obviamente no tiene sentido.
d) Finalmente, el modelo lineal de probabilidad implica que el efecto marginal de cada una
de las variables explicativas es constante , lo que no es muy razonable. En efecto, en el caso de
la decisión sobre la compra de una vivienda, esperaríamos que incrementos unitarios de renta
en los tramos inferiores y superiores, fuesen poco o nada significativos, mientras que estos
mismos incrementos han de ser mucho más importantes en los tramos centrales de renta.
Los inconvenientes más importantes son los dos últimos y, básicamente, son los que han
llevado a desarrollar otro tipo de modelos para analizar el comportamiento de estas variables.
En las dos siguientes secciones se presentan dos de los más utilizados: el modelo logit y el
modelo probit.
11.3. EL MODELO LOGIT
Evitar los problemas mencionados en el último párrafo exige encontrar una función que
cumpla dos condiciones: estar acotada entre O y 1 y, además, presentar un crecimiento no
lineal con mayores incrementos en la parte central. Estos requisitos recuerdan bastante a una
clase de funciones que típicamente los cumplen: las funciones de distribución acumuladas.
Tema 11 399
Figura 11.3.1: Función logística
0.9
0.8
FDA logística
/-
0.7
0.6
0.5
0.4
0.3
0.2
0.1
o '--~=~=-.i---~~~~~~~~~~'--~~-'-~~__J
-6
Una primera posibilidad es emplear la función de distribución acumulada logística, cuya

expresión matemática viene dada por:
1
f(x) 1 + exp(-x)
(11.3.1)
La representación gráfica de esta función se muestra en la Figura 11.3.1. Puede comprobarse

que la función se ajusta exactamente a lo que buscamos: está acotada entre O y 1, pues en
efecto:
z·
n-!~I+exp(-x) -
1 - o Y lim 1
n--tool+exp(-x)
= l.
Además presenta un trazado en forma de S que se ajusta a lo que necesitamos: pendiente
mayor en el tramo central que en los extremos.
En el caso de una única variable explicativa Xi el modelo logit vendrá dado por:
1
Yi = 1 + exp [-(a+ ,6Xi)] = A(X,6), (11.3.2)
mientras que para más de una variable explicativa:
(11.3.3)
Independientemente del número de variables explicativas incluidas, la función está acotada

entre O y 1, Pr(Y = 1), siempre será mayor (o igual) a cero y menor (o igual) que la unidad,
es decir, es una función de probabilidad correctamente definida. Por otro lado el efecto sobre
Pr(Y = 1) de un cambio en cualquiera de las variables explicativas, ya no será constante
como en el modelo lineal de probabilidad. sino que dependerá del valor concreto de X siendo
menor para valores extremos y mayor para valores en la parte central del rango. Con ello se
solventan los inconvenientes señalados en los apartados c) y d). Persisten, sin embargo, los de
heterocedasticidad y el de encontrar una medida adecuada de la bondad del ajuste.
Una dificultad del logit es que es un modelo no lineal y no puede ser estimado por MCO. En
su lugar debe recurrirse a métodos de est imación más complicados como mínimos cuadrados
no lineales MCNL o máxima verosimilitud , siendo este último el procedimiento habitual (por
ser más eficiente). El proceso de cálculo, que exponemos en la sección 5, es ahora más complejo
pero, afortunadamente, cualquier programa econométrico lo lleva a cabo automáticamente.
Baste señalar que bajo supuestos generales, el estimador MV (de máxima verosimilitud) da
lugar a estimadores consistentes, asintóticamente eficientes y con distribución asintótica nor-
mal. El cálculo de la matriz de varianzas y covarianzas de los /Jj es también más difícil, pero
una vez obtenida con el programa informát ico, y dadas las propiedades del estimador MV,
puede ser empleada para construir estadísticos t e intervalos de confianza de la forma habitual.
Sirva como ejemplo la estimación de un logit para el modelo de la vivienda, que proporciona
el siguiente resultado:
fi = Pr(Yi = 1) = F(0,77 + 0,18Xi)·

0,03 0,01
Para una familia sin renta, el modelo pronostica una probabilidad de éxito muy parecida a la
del modelo lineal de probabilidad:
1
Pr(Y = 1) = 1+exp( -0, 77) -- O' 68 ·
El contraste de significatividad individual se puede llevar a cabo igual que en los modelos de
regresión típicos. Por ejemplo, para la significatividad de la renta, la hipótesis nula Ho : (3 = O
puede ser rechazada en base a un contraste tipo t
t oc -- 0,18 -
0,01 -
18 )
mayor que el valor crítico a cualquiera de los niveles que suelen emplearse (en este caso, el
valor crítico para un contraste de dos colas al 95 3 es 1,96 y el valor p es menor que una
diezmilésima). El mismo procedimiento puede usarse si el modelo tiene más de una variable
explicativa.
Para llevar a cabo contrastes de hipótesis múltiples, podemos recurrir a un contraste de
ratio de verosimilitud. El procedimiento es similar al de las regresiones restringida e irres-
tricta, pero en lugar de fijarnos en la sumas cuadráticas residuales, ahora lo hacemos en el
logaritmo de la función de verosimilitud de los modelos restringido y no restringido. De la
misma manera que al eliminar variables del modelo no restringido, la SCR necesariamente
aumenta (o permanece igual), el valor del logaritmo de la función de verosimilitud será menor
(o igual) en el modelo restringido que en el no restringido. Se trata entonces de comparar
Tema 11 401
si la reducción en el valor de dicha función, al pasar del modelo irrestricto al restringido, es

estadísticamente significativa. Para ello se utiliza el estadístico del ratio de verosimilitud dado
por:
(11.3.4)
donde LNR y LR son los valores del logaritmo de la función de verosimilitud para los modelos
no restringido y restringido, respectivamente. Este estadístico se distribuye como una x~ siendo
q el número de restricciones. Con ello tenemos todo lo necesario para contrastar hipótesis de
este tipo. Finalmente cabe indicar que el método de estimación por máxima verosimilitud tiene
en cuenta automáticamente el problema de la hipotética heterocedasticidad de la varianza del
que hemos hablado anteriormente.
Como en el caso del Modelo Lineal de Probabilidad, el coeficiente de determinación cal-
culado como el cociente entre la variación explicada y la total, no es una buena medida de
la bondad del ajuste tampoco para el modelo logit (y será extensible iguamente al modelo
probit presentado más adelante). Dos de las alternativas más utilizadas para tratar de evitar
este inconveniente son las siguientes:
l. Proporción de aciertos. Se trata de verificar el porcentaje correcto de aciertos del

modelo, es decir el número de veces que el modelo predice adecuadamente el valor de Y.
Pero, como puede comprobarse en la práctica, el modelo raramente asigna los valores O
o 1, únicos que toma la variable endógena, por lo que se emplea la siguiente regla: se
considera que el modelo ha predicho correctamente el valor de Y; = 1 cuando le asigna
una probabilidad mayor que 0,5 y, análogamente, se considera que el modelo ha predicho
correctamente el valor de Y; = O cuando le asigna una probabilidad menor que 0,5. La
proporción de aciertos es la proporción de las n observaciones que está correctamente
estimada.
2. Pseudo R 2 . Emplea de nuevo la función de verosimilitud para calcular la bondad del

ajuste. Como ya hemos señalado, la adición de regresares a un modelo necesariamente
aumenta (o en el límite deja inalterada) la función de verosimilitud. Este procedimiento
mide la calidad del ajuste comparando el valor de la función de verosimilitud de la
ecuación estimada, es decir con todas las variables explicativas, con el que resultaría si
eliminásemos todos los regresares excepto la constante. Suele ser una salida habitual de
los programas informáticos2 .
Otra diferencia importante en el caso de los modelos logit (y probit) , es que los coeficientes
estimados no tienen una interpretación tan fácil como en el modelo lineal de probabilidad.
Cuando trabajamos con modelos lineales (modelo lineal de probabilidad), la derivada parcial
de Y con respecto a cualquiera de las variables explicativas, {)Y/ 8Xj, es la constante /3j
que mide el efecto sobre Y de un cambio unitario en Xj. Pero el logit (y el probit) es un
modelo no lineal y la influencia sobre Y sobre la probabilidad de que Y = l o probabilidad de
2
En concreto el pseudo R 2 de McFadden se calcula como 1 - (LNR/.lo), es decir, 1 menos el cociente
entre el logaritmo de verosimilitud de la función estimada y el logaritmo de la función de verosimilitud de la
ecuación que solo tiene la constante como variable explicativa. Conviene señalar que existen otros pseudo R 2
aunque aquí emplearemos la versión de McFadden cuando sea necesario.
éxito, derivada de cambios unitarios en X j, ya no es constante. No se puede decir que /]j, e~

coeficiente estimado mide el cambio sobre Pr( Y) derivado de un cambio unitario en Xj: ~
decir Síno mide el efecto parcial. Para obtener la magnitud de ese efecto, hemos de calcular
la derivada parcial correspondiente:
oY ( 1 )' (11.3.5
oXj = 1 + exp( -X/3) /3j·
Es decir que la influencia depende del punto de la curva en el que estemos situados, dado qu
la derivada de la expresión anterior incluye X /3 como argumento. Para nuestro ejemplo, est"
significa que un mismo incremento de renta tendrá un efecto diferente sobre la probabilida¿
de éxito en función de cuál sea el valor de X. Conviene recordar que este era precisamente une
de los objetivos perseguidos con los modelos logit y probit. Lo que sí puede afirmarse es quE
la dirección del efecto coincidirá siempre con el signo de /3j dado que la derivada es siempre
positiva.
Para ver cómo se incrementa la probabilidad de éxito ante cambios en la(s) variable(s) X
lo más práctico es seguir un procedimiento en tres pasos que funcionará con independencia
de lo complicado que sea el modelo:
1. Utilizando la ecuación de regresión estimada, calculamos Pr (Y = 1) en el valor origina:

de X a partir del cual queremos medir el efecto.
2. A continuación calculamos de nuevo Pr (Y = 1) en X + 6X.

3. La diferencia entre ambas probabilidades será el efecto sobre la probabilidad de éxito
derivado de 6X.
A continuación presentamos la estimación de un logit en el que hemos incluido como variable

explicativa adicional el nivel de estudios del sustentador principal. Esta variable, representada
porX1i, toma los valores 1, 2, 3, 4 o 53 según el nivel de estudios:
f'i = F(l,35 - 0,44Xli + 0,35X2i)·

0,04 0,019 0,016
Todas las variables son estadísticamente significativas y el nivel de estudios influye negati-
vamente: cuanto mayor es dicho nivel, menor es la probabilidad de comprar vivienda4 . ¿Cuánto
se reduce la probabilidad de comprar vivienda si, para el mismo nivel de renta, digamos 2
millones de unidades monetarias, pasamos de un nivel de estudios 2 a un nivel de estudios 3? Si-
guiendo el procedimiento mencionado encontramos que Pr(Y = l/X1 = 2yX2 = 2) = 0,763
mientras que Pr (Y = 1/ X 1 = 3 y X2 = 2) = 0,674, de manera que la reducción de probabili-
dad es 0,097. Pero, como hemos dicho, en este tipo de modelos los cambios en la probabilidad
3
En concreto, X=l si es analfabeto, 2 si EGB o FPl, 3 BUP, COU o FP2, 4 Diplomado y 5 Licenciado.
4
Este es otro resultado que habría que justificar. En la medida en que un mayor nivel de estudios debe llevar
asociado en media un mayor salario, se esperaría una relación diferente. Pero también cabe señalar que las
personas con mayores niveles educativos viven en su mayor parte en ciudades, donde el precio de la vivienda
(una variable no contemplada en la encuesta) debe ser significativamente más elevado y por tanto existir una
mayor propensión al alquiler.
Tema 11 403
Tabla 11.1: Probabilidad estimada de licenciados y niveles de renta

Renta Pr(Y = 1) Cambio Pr
6 0.778
7 0.833 0.055
8 0.876 0.043
9 0.909 0.033
10 0.934 0.025
11 0.953 0.018
12 0.966 0.013
de éxito derivados de cambios unitarios en X no son constantes , sino que dependen del valor
de partida de X. La Tabla 11.1 muestra cómo cambia la probabilidad de éxito a medida que
cambia el nivel de renta, para un valor dado del nivel de estudios (X1 = 5). Se observa que
un cambio unitario en el nivel de renta va teniendo efectos cada vez menores en la probabi-
lidad de comprar vivienda (el rango de valores de renta recogidos en la tabla están situados
aproximadamente en el primer cuartil).
Un procedimiento habitual para valorar la magnitud de los efectos parciales consiste en

calcularlos para los valores medios de las variables explicativas. Como el efecto parcial depende
de X conviene estudiar ese efecto para valores «interesantes» de la(s) variable(s) exógena(s),
que podemos entender proporcionados por sus medias. Puesto que, en general, el efecto parcial
de Xj vendrá dado por:
a A A
ax [1í(& + X ,6),6J]6X j, (11.3.6)

J
siendo 1í la derivada de la función , podemos sustituir X por sus valores medios para obtener:
a - A
ax 1í(& + X ,6), (11.3. 7)

J
y a continuación multiplicar la expresión anterior por cada uno de los ¡]j para obtener el efecto
parcial de un cambio unitario en Xj.
11.4. EL MODELO PROBIT
Otra función que reúne las condiciones requeridas es la función de densidad acumulada de
una normal tipificada. En efecto esta función está por definición acotada entre O y 1 y tiene
también un trazado en forma de S. De hecho las representaciones gráficas de las FDA logística
y normal son muy similares. La Figura 11.4.1 muestra el trazado de ambas.
Figura 11.4.1: Comparación de las FDA logística y normal

l
0.9
1 FDAlogística
FDA llOfmal
/
T-
o.a
0.7
/
j
0.5
0.4
0.3
/
0.2
' /
: I
0.1
__ · /
/
o L...........~=----=--'--~~=......~~~-'--~~__J_~~~~~___J
-6
La única diferencia destacable es que la logística tiene colas algo más anchas, lo que se
traducirá en que la probabilidad de éxito para valores próximos a O (o 1), será algo mayor en los
extremos de la distribución cuando empleemos la logística. Dada su similitud no es fácil elegir
entre uno u otro modelo. Históricamente el modelo logit tenía a su favor una mayor facilidad
de cálculo pero, solventado este problema con la aparición de programas informáticos, esta
ventaja ha desaparecido. El modelo basado en esta función se denomina modelo probit y su
expresión para un solo regresar es:
Pr(Y; = 1) = (a + f3Xi), (11.4.1)
donde representa la FDA, función de distribución acumulada, de una normal tipificada. Para
calcular la probabilidad de éxito condicionada a un valor concreto de a + f3Xi emplearemos
la tablas de una distribución normal estándar para obtener
Pr(Y = 1) = (a + f3Xi) = Pr(z ~a+ f3Xi), (11.4.2)
es decir que a+ f3Xi juega aquí el papel de z de la distribución normal estándar.

La estimación del pro bit para nuestro modelo de la vivienda, tomando como única variable
explicativa la renta declarada de la familia, es:
"fi = ( 0,5 + 0,096Xi),

0,017 0,0073
de forma que para una familia sin renta, la probabilidad de comprar vivienda es:
-
Pr(Y; = 1/ X= O) = (0,5) = Pr(z :::; 0,5) = 0,69
algo menor que con los modelos anteriores, pero muy elevada para el valor de X.
Tema 11 405
El modelo probit comparte la práctica totalidad de las características del modelo logit. En
concreto es, como aquel, un modelo no lineal que debe ser estimado por máxima verosimilitud
(o mínimos cuadrados no lineales). Para medir la bondad del ajuste se emplea la proporción
de aciertos computada como se señaló anteriormente, o el Pseudo R 2 y los procedimientos
para llevar a cabo contrastes de hipótesis son asimismo idénticos. Finalmente, para medir
el efecto sobre Pr(Y) de cambios en los valores de las variables explicativas, emplearemos el
procedimiento en tres pasos descrito para el modelo logit.
La estimación de un modelo probit en el que se incluyen como variables explicativas el
nivel de estudios (X1i) y la renta (X2i) es:
---
Pr(Y = 1) = 0,085. - 0,25X1i
0,02 0,008
+ 0,184X2i·
0,011
Las variables tienen el mismo signo que en el modelo logit y son estadísticamente signifi-
cativas, dado que en ambos casos e:Sj) es superior al valor crítico en tablas para un nivel del
99 %. Para un valor del nivel de estudios (Xli = 2) y un nivel de 2 millones de renta anual, el
modelo pronostica una probabilidad de éxito de:
---
Pr(Y = 1/ X 1i = 2 y X 2i = 2) = q,(o, 85 - O, 5 +O, 184 * 2) = Pr(z '.S O, 718) ~ O, 764,
mientras que si el nivel de estudios sube un escalón, la predicción es ahora:
---
Pr(Y = 1/ X 1i = 3 y X 2i = 2) = q,(o, 85 - O, 75 + O, 184 * 2) = Pr(z '.SO, 468) ~O, 68,
de manera que la diferencia es 0,084. Todos estos resultados son muy parecidos a los que
obtuvimos con el modelo logit. Ello se debe a que las estimaciones son también muy parecidas
aunque la comparación no sea posible a primera vista. Una comparación aproximada de los
coeficientes estimados puede obtenerse multiplicando las estimaciones del pro bit por 1,6 (o
las del logit por 0,625) 5 . Puede comprobarse entonces que los resultados de los dos modelos
son bastante similares (Tabla 11.2). Presentamos finalmente la misma tabla que calculamos
también para el modelo logit, en la que se comparan las probabilidades de éxito para un valor
fijo del nivel de estudios (X 1i = 5) y distintos valores de renta. Puede comprobarse la gran
similitud de los resultados recogidos en las dos tablas.
Una última cuestión que conviene señalar con respecto a los modelos logit y probit es
que la estimación MV resultará imposible en el caso de que alguno de los regresares (o una
combinación lineal algunos de ellos) sea lo que se denomina un clasificador perfecto de Y. Tal
situación se producirá si existe un valor umbral h tal que para X < h, todos los valores de Y
sean nulos y para X > h, todos iguales a la unidad (o viceversa). En estas circunstancias, la
estimación MV no es posible al fallar el algoritmo de optimización. La única solución consiste
en eliminar dicha variable de la muestra.
5
También es posible comparar los resultados del modelo lineal de probabilidad con los del logit (deben
multiplicarse estos por 2,5) o con el probit (multiplicar por 4). Ver por ejemplo el manual de Wooldridge
(2006).
Tabla 11.2: Probabilidad estimada para licenciado y niveles de renta

Renta Pr(Y= l ) Cambio en Pr
6 0, 759
7 0,813 0,053
8 0,858 0,045
9 0,895 0,037
10 0,925 0.030
11 0,948 0,023
12 0,969 0,017
Para terminar, presentamos la estimación de un modelo algo más sofisticado para la pro-
babilidad de comprar vivienda. Además de la renta y el nivel de estudios hemos considerado
las siguientes variables explicativas adicionales: la variable x1 es el número de miembros de la
unidad familiar (varía entre 1 y 16) , x2 es una dummy que indica si el sustentador principal
trabaja en la provincia de residencia (1) o no (2) , x3 es la renta declarada en millones de pe-
setas, X4 es el tamaño del municipio (varía entre 1, municipios de menos de 10000 habitantes
y 5, con más de 500000); X5 el nivel de estudios, X5 el tipo de hogar (toma valores entre 1 y
14 y combina el tamaño del hogar y la edad de sus miembros); X7 una medida del percentil
de renta 6 y x 8 los gastos totales del hogar 7 .
Un problema que suele achacarse a las cifras de renta declarada en este tipo de encuestas.
es que dichas cifras no son reales porque el encuestado tiende a ocultar su verdadera renta. En
este sentido una alternativa que podría estar menos sesgada, es el percentil de renta e incluso
los gastos del hogar podrían tomarse como una proxy del nivel de renta. Se han considerado
todas estas posibilidades en la estimación del modelo. Las variables x 1 y X5 también son en
cierta medida redundantes, de manera que usaremos una u otra en función de los resultados.
Tras probar diversas opciones, ofrecemos la estimación de la especificación finalmente
elegida en la Tabla 11.3.
Si se aproxima la renta por los ingresos declarados o el gasto total del hogar, los resultados
son parecidos, pero el ajuste es significativamente menor.
Los tres modelos proporcionan resultados muy similares como viene siendo norma. Los
signos son iguales en los tres: todos negativos excepto el correspondiente a la renta. Respecto
al número de miembros, resulta evidente que a medida que aumente aumentará también el
tamaño de la vivienda que pueda acogerlos y por tanto su precio, de manera que es lógica
su influencia negativa. El signo del tamaño del municipio también podría justificarse por la
misma vía: el precio en las zonas rurales es mucho menor. Por otra parte todas las variables son
estadísticamente significativas y la bondad del ajuste muy parecida. En cuanto a la magnitud
6
En concreto esta variable toma valores entre 1 y 7, asignándose del siguiente modo: 1, percentil 5; 2, del
percentil 5 al 10; 3, del percentil 10 al 15; 4, del percentil 15 al 25; 5 segundo cuartil; 6, tercer cuartil y 7,
cuarto cuartil.
7
Todos estos datos están disponibles en la página del INE.
Tema 11 407
Tabla 11.3: Estimaciones probabilidad de compra vivienda

MLP Logit Probit
cte 0,881 1,881 1,130
(0,011) (0,056) (0,033)
Xl -0,017 -0,096 -0,055
(0,002) (0,011) (0,007)
X4 -0,037 -0,211 -0,121
(0,003) (0,012) (0,007)
X5 -0,073 -0,415 -0,241
(0,003 7) (0,019) (0,011 )
X7 0,034 0,202 0,114
(0,001) (0,007) (0,004)
Pseudo R 2 0,053 0,049 0,051
de los coeficientes, las de los modelos Logit y Probit son muy similares una vez llevada a
cabo la corrección correspondiente. No así las del Modelo Lineal de Probabilidad, que parecen
menores en este caso.
11.5. ESTIMACIÓN DE MODELOS LOGIT Y PROBIT
Ya hemos señalado que estos modelos son de naturaleza intrínsecamente no lineal por lo
que no pueden estimarse con el procedimiento MCO empleado hasta ahora. En su lugar se
recurre al método de estimación por máxima verosimilitud, el habitual en este contexto. Como
es sabido, los estimadores máximo-verosímiles de los parámetros de una población seleccionan
las estimaciones /JfV que maximizan la probabilidad (o verosimilitud) de observar la muestra
dada. El procedimiento consiste en formar la función de verosimilitud de los datos, suponiendo
una determinada distribución de probabilidad, y maximizarla con respecto a los parámetros,
ªj·
Como la variable dependiente es discreta y toma solo dos valores , la función de verosimili-
tud se define de forma diferente a la habitual para una variable continua. Si para el elemento
i el valor de la variable dependiente es Yi, su verosimilitud cuando Yi = 1 es precisamente la
probabilidad de que Yi = 1, mientras que si Yi =O su verosimilitud es la probabilidad de que
Yi = O. Dada una determinada función de distribución, F (en nuestro caso la logística o la
normal), la contribución de dicho elemento puede escribirse:
Pr (Y = Yi) = F(X¡J)Yi [l - F(X¡3)] 1 -Yi (11.5 .1 )

donde en todo momento uno de los dos factores es la unidad. Dado el supuesto de indepen-
dencia, la función de verosimilitud conjunta será:
l= II F(X¡J)Yi II [1 - F(X¡J)]l-y; (11.5.2)

y;=l y;=O
Por comodidad lo habitual es trabajar con el logaritmo de verosimilitud, cuya expresión
es:
n
ln l = L[YilnF(X ¡3) + (1 - Yi)ln[l - F(X,6)] (11.5.3)
i=l
En el modelo Logit, F viene dada por:
Pr(~ = 1) = exp(Xif3) (11.5.4)

1 + exp(Xif3)
y sustituyendo en la expresión anterior, el logaritmo de la función de verosimilitud vendrá

dada por,
n n n
ln l = L ~Xi/3 - L ln[l + exp(Xi{3)] = Z{3 - L ln[l + exp(Xif3)] (11.5.5
i=l i=l i=l
donde Z = I:~ 1 ~Xi .

La primera condición de máximo exige igualar a cero la primera derivada con respecto a
{3:
(11.5.6
Lo que da lugar al sistema de ecuaciones (no lineales) necesario para estimar el vector {3 .
Para obtener una estimación de la varianza asintótica de (:J, podemos recurrir a la matriz
hessiana:
(11.5. 7)
La esperanza de esta matriz cambiada de signo nos da la matriz de información de la que se

tienen las varianzas y covarianzas de (:J .
Un procedimiento similar puede emplearse para el modelo probit. En este caso la función
de verosimilitud es:
n
l= I1 [(Xif3)]Yi [1 - (Xif3)] 1-Y; (11.5.8)
i=l
y el logaritmo de la función de verosimilitud:
n n
lnl = L~ln((Xif3 ) + L(l - ~)ln[l - ((Xif3)] (11.5.9)
i=l i=l
La igualación a cero de la primera derivada conduce, tras algo de álgebra, a:
Tema 11 409
(11.5.10)
expresión de la que se obtiene el sistema de ecuaciones que permite estimar (3 .
Finalmente la matriz de información queda:
(11.5.11)
cuya inversa proporciona la matriz de covarianzas de /3 MV.
11.6 . EJ EMPLO: AVENTURAS EXTRAMATRI MON IALES
En una curiosa investigación Fair (1978) se propuso estudiar los factores determinantes
de las experiencias extramatrimoniales de las muj eres casadas norteamericanas. Dispuso para
ello de una muestra de 6366 observaciones obtenidas mediante una encuesta llevada a cabo
entre mujeres americanas por la publicación Redbook en 1974. Las variables consideradas por
Fair son las siguientes:
• y es la variable endógena a explicar. Toma el valor 1 si la mujer ha tenido alguna

experiencia y O en caso contrario.
• xl: mide el grado de satisfacción del matrimonio ; toma valores entre 1 (muy infeliz) y
5 (muy feliz).
• x2: edad en años.
• x3: número de años casados.
• x4: número de hijos, toma valores entre O y 5,5 (recoge hasta 10 hijos posibles).
• x5: religiosidad codificada entre 1, nada religioso, y 4, muy religioso.
• x6: número de años de educación (toma los valores 9, 12, 14, 16, 17 y 20) .
• x7: ocupación de la esposa.
• x8: ocupación del esposo.

En el estudio original de Fair la variable endógena no era exactamente como aquí señalamos.
Aunque tomaba el valor O para las mujeres sin experiencias, para quienes sí las tuvieron la
variable no tomaba indiscriminadamente el valor 1, sino que se cuantificaba en función de
la frecuencia de esas experiencias. Aquí sin embargo emplearemos la versión de la variable
descrita más arriba.
El hogar es una unidad de análisis básica en la teoría económica y también desde el punto
de vista de las relaciones personales, por lo que es lógico que la mayor parte del tiempo de ocio
los esposos lo consuman con miembros del hogar. Pero para muchas personas el ocio consumido
con personas que no forman parte del entorno familiar es asimismo esencial. Fair señala que.
de la misma manera que en la teoría de la utilidad (demanda) se incluye más de un bien, así
debería también hacerse en lo que se refiere al tiempo de ocio que, sin embargo, la teoría suele
considerar agrupado en una única variable bajo la rúbrica ocio. Fair considera un modelo en
el que el tiempo de ocio puede separarse entre tiempo con la esposa y otros miembros del
hogar y tiempo de ocio con personas que no forman parte de ese entorno. El tiempo de ocio
dedicado a aventuras extramatrimoniales sería un tipo particular de estas últimas. De ambos
derivará el individuo una utilidad y por esta vía cabe especificar una función de demanda.
Fair trata pues de explicar el tiempo que las mujeres americanas casadas 8 dedican a aventuras
extramatrimoniales en función de las variables mencionadas, es decir:
donde x es un vector con los datos de las ocho variables y /3 el correspondiente vector de
parámetros.
En la Tabla 11.4 se presenta el resultado de la estimación de dicha ecuación con los tres
modelos contemplados en este tema, modelo lineal de probabilidad, logit y probit.
Los resultados de los tres modelos son muy similares. En primer lugar, los signos de los
coeficientes estimados son los mismos y es también común el hecho de que ni la ocupación del
marido ni el número de hijos tienen influencia significativa sobre la probabilidad de «éxito»:
en ninguno de los tres modelos es posible rechazar la hipótesis nula Ho : /3j = O ni para el
número de hijos ni para la ocupación del marido. Este resultado coincide también con los
obtenidos por Fair en su trabajo original, por más que este autor, dada la naturaleza de la
variable endógena empleada, estimara un modelo tobit 9 .
La hipótesis nula conjunta Ho : {34 = /Js =O no puede ser rechazada en ningún caso. Para
el modelo lineal de probabilidad podemos emplear el habitual estadístico F para comparar las
SCR de las regresiones irrestricta y restringida. El resultado es F2, 6364 = O,17 con un valor p
8
La muestra se obtuvo con mujeres casadas solo por primera vez.
9
Recordemos que la variable endógena para quienes tienen experiencias extramatrimoniales no es mera-
mente un 1 en el trabajo de Fair, sino una variable numérica que mide la frecuencia de tales encuentros. En
total hay 2053 mujeres que reportan al menos una experiencia de este tipo , de manera que la mayoría no
reconocen ninguna aventura (valor O). La naturaleza de estos datos exige pues la utilización de un modelo
tobit , cuyas características puede consultar el lector interesado en la mayoría de los manuales citados en la
bibliografía.
Tema 11 411
Tabla 11.4: Resultados según Modelos

Mod Lin Prob Logit Pro bit
cte 1,21 3,73 2,21
(0,053) (0,299) (0,175)
X1 -0,145 -0,716 -0,429
(0, 005) (0,031) (0,018)
X2 -0,011 -0,060 -0,035
(0,002) (0,010) (0,006)
X3 0,021 0,110 0,066
(0,002) (0,011) (0,006)
X4 -0 ,0021 -0,004 -0,004
(0,006) (0,032) (0,019)
X5 -0,066 -0,375 -0,223
(0,006) (0,035) (0,020)
X5 -0,007 -0,039 -0,024
(0, 003) (0,015) (0,009)
X7 0,0029 0,160 0,095
(0,006) (0,034) (0,020)
Xg 0,0019 0,012 0,007
(0, 004) (0,023) (0,013)
Pseudo R 2 0,1 61 * 0,132 0,133
= 0.84. Para el logit, el contraste de ratio de verosimilitud es x~ = 0,31 y un valor p = 0.86. Un

resultado análogo se obtiene para el modelo probit. Con base en estos resultados , estimamos
de nuevo el modelo excluyendo esas dos variables. La Tabla 11.5 recoge los resultados.
Ahora todas las variables son estadísticamente significativas prácticamente al 99 %. En

cuanto al signo de los coeficientes, es lógico que tengan influencias negativas , tanto el grado
de satisfacción matrimonial como la edad o la religiosidad. Más discutible es que la educación
influya también negativamente, aunque podría pensarse que a mayor educación hay una ma-
yor propensión a divorciarse cuando el matrimonio no funciona y, una vez separados, no cabe
hablar de estas experiencias. Por otra parte también resulta lógico suponer que el número de
años de matrimonio influya positivamente. Para justificar el signo de la ocupación hay que te-
ner en cuenta cómo se ha codificado esa variable. El autor dice haber empleado la clasificación
de Hollingshead, que ordena la ocupación en una escala del 1 (trabajos mejor remunerados)
al 7 (trabajos con menor remuneración). En este caso se esperaría un signo negativo (mayor
probabilidad de affaires para aquellas mujeres en la escala profesional superior, es decir, con
valores más bajos de esta variable) , contrario al obtenido.
Para comparar los resultados de los tres modelos, podemos recurrir a las aproximaciones
mencionadas. Por ejemplo, para comparar logit y probit, multiplíquese la columna corres-
pondiente a la estimación logit por 0,625. Puede comprobarse que los resultados son muy
próximos a los obtenidos con el modelo probit.
El ajuste ha permanecido prácticamente sin cambios a pesar de haber eliminado dos
variables.
Tabla 11.5: Modelo estimado con 6 variables

Mod Lin Prob Logit Pro bit
cte 1,2 1 3,74 2,21
0,052 0,296 0,174
X1 - 0,145 -0,715 -0,428
0,006 0,032 0,019
X2 -0,011 -0,060 -0,035
0,002 0,010 0,006
X3 0,020 0,109 0,065
0,002 0,009 0,005
X5 -0,068 -0,376 -0,223
0,005 0,034 0,009
X5 -0,007 -0,038 -0,023
0,003 0,015 0,009
X7 0,030 0,163 0,097
0,006 0,034 0,020
Pseudo R 2 0,1 60 0,133 0,133
Tabla 11.6: Efectos parciales aproximados

Logit Pro bit
X1 -0,213 -0,091
x2 -0,018 -0,0069
X3 0,033 0,012
X5 -0,112 -0,042
X5 -0,011 -0,004
X7 0,049 0,019
La Tabla 11.6 muestra, para los modelos logit y probit, los efectos parciales de cada
variable, calculados mediante el artificio de valorarlos en sus medias.
En resumen, con las limitaciones propias de este tipo de ejercicios, el modelo puede consi-
derarse una buena aproximación a los datos. Fair concluye su trabajo señalando que, aunque
los datos empleados no son los ideales, el modelo estimado soporta su hipótesis teórica y
considera que serían de gran interés nuevas pruebas sobre la misma basadas en mejores datos.
11.7. ÜTROS MODELOS DE VARIABLE LIMITADA
La casuística dentro de este tipo de modelos puede ser muy variada, lo que ha llevado al
desarrollo de una amplia tipología de modelos. Veremos aquí brevemente algunos de los más
destacados, remitiendo al lector interesado a textos más avanzados (por ejemplo, Wooldridge,
2010 o Greene, 2012).
Tema 11 413
11. 7 .1. Modelos de respuesta discreta no binaria

En los modelos que hemos visto hasta ahora, la variable dependiente era discreta pero
de respuesta binaria: Y tomaba solo los valores O o l. Nos ocuparemos ahora de situaciones
en las que dicha variable toma más de dos valores . En principio, podemos clasificar estos
modelos en dos tipos diferentes , según se trate de modelos de respuesta ordenada o modelos
de respuesta no ordenada. Un ejemplo de respuesta ordenada podría ser la nota otorgada a
un activo financiero por una agencia de calificación de riesgos, donde claramente se puede
establecer un orden entre las distintas calificaciones (con las notas de Moody 's, Aaa es mejor
que Aal, ésta mejor que Aa2, etc.). En otros casos, sin embargo, no hay forma de establecer
una ordenación de las respuestas. Piénsese por ejemplo en la decisión del medio de transporte
empleado para ir diariamente al trabajo: no es posible ordenar de mejor a peor las distintas
opciones , por lo que se tendría un modelo de respuesta no ordenada.
En el último apartado presentamos los modelos de recuento.
11. 7.1.1. Pro bit ordenado

Aunque pueden emplearse otras distribuciones, el modelo de referencia en este caso es el
denominado Probit ordenado , basado en la distribución normal. Por sencillez, comenzamos
presentando este modelo bajo el supuesto de que Y toma solo tres valores, por ejemplo, O, 1
y 210 , siendo inmediata la extensión para un rango de valores más amplio , como se muestra
en el ejemplo.
Suponemos que la variable observada y¡ depende de una variable latente 11 Yi* = Xi,B + Ei,
con Ei --+ N(O, 1), según:
y¡ = O, si fi* <O
y¡= 1, si O:::; fi* <e
y¡ = 2, si fi* > e
Por tanto:
Pr(Yi =O) = Pr(fi* <O)= Pr (ci < -Xi,8) = (-Xi,8)
Pr(Yi 1) = Pr(O:::; fi*:::; e) = P r (O:::; X i,8 + Ei <e)

= (c-Xi,8) - (-Xi,8)
10
En lugar de O, 1 y 2, puede considerarse cualquier otra terna ordenada de valores, lo que no implica sino
cambios mínimos.
u Una variable latente es una variable decisiva que entra en la función de decisión del individuo o entidad ,
pero que es de tal naturaleza que es imposible de observar por parte del económetra.
Pr(Yi = 2) = Pr(Y/ 2'. e)= Pr(Xi/3 + Ei 2'. e) = 1 - (c-Xi/3)
Para una muestra de tamaño n el logaritmo de la función de verosimilitud será:
lnl L ln [(-X¡/3)] + L ln [(c - Xi/3) - (-Xi/3)]

Yi=l
+L ln [1 - (c - X,8)] (11.7.1 )
Yi=2
La maximización de dicha función nos proporciona los estimadores buscados tanto del
vector ,B como de e (o de los e¡ en los casos donde haya más de tres alternativas). La matriz
cov(,B) se obtiene asimismo a partir del logaritmo de verosimilitud.
En estos modelos , los efectos parciales son, en general, poco claros. No obstante, en este
caso puede comprobarse que para la primera opción, 8Pr(Y = 0) / 8X ha de tener un signo
contrario al del parámetro, mientras que para la última, 8Pr(Y = 2) / 8X 12 , tendrá el mismo
signo que (3 . El resto de los coeficientes deben interpretarse con cuidado.
Como ejemplo emplearemos los datos de Riphahn, Wambach y Million (2003) tal como
aparecen en Greene (2012), estimando la respuesta a un cuestionario sobre el grado de sati-
facción con el sistema público de salud. Los valores de la variable dependiente oscilan entre O
(nada satisfecho) y 10 (máximo grado de satisfacción) 13 .
La extensión del esquema anterior para este ejemplo, en el que hay once respuestas posibles
en lugar de tres, sería:
Pr(Y = O!X) = (-X/3)
Pr(Y = l!X) = (c1 - X/3) - (-X,8)
Pr(Y = 2!X) = (c2 - X,B) - (c1 - X/3)
Pr(Y = lOIX) = 1 - (cg - X,B)
Como variables explicativas tomamos la edad, la renta, los años de educación y cuatro
variables dummy: si tiene hijos menores de 16 años, casado y empleado (si está en activo)
y mujer. La estimación con los datos correspondientes al año 1984, obtenida con Eviews8,
arroja el siguiente resultado:
12
(0 en un caso más general 8Pr(Y = J) / 8X), siendo J la última opción).
13
En la serie original el rango de variación era diferente, pero ha sido recodificado.
Tema 11 415
Probit ordenado
Variable dependiente: Satisfacción
Number of obs = 3874
Variable coef std. dev t-stat
Cte 2.26197 0.144198 15.68652
Edad -0.02242 0.001745 -12.85024
Renta 0.04121 0.00121 3.412944
Hijos 0.09155 0.038906 2.353207
Educación 0.04063 0.008067 5.036532
Casado 0.05792 0.044838 1.291764
Trabajo 0.17991 0.041347 4.351285
Mujer 0.02449 0.038564 0.634936
el 0.16079
c2 0.45811
c3 0.73251
c4 0.94362
c5 1.53662
c6 1.74454
c7 2.10167
c8 2.64415
c9 2.98462
Con esta estimación, empleando las medianas de las variables edad (44) , renta (3.200) y
educación (10.5) de un hombre soltero sin hijos (en realidad las dummies de estado civil y
sexo no son significativas) , las probabilidades de cada respuesta en función de que la persona
esté o no trabajando, serían:
Pr(Y = O 1 2 3 4 5 6 7 1 8 9 10
No .033 .013 .037 .051 .051 .196 .081 .141 .186 .084 .125
Sí .022 .010 .028 .040 .042 .174 .077 .141 .201 .098 .165
El signo del coeficiente Trabajo es positivo y, sin embargo , la probabilidad cuando la

variable pasa de O a 1, a veces disminuye y a veces aumenta. En cuanto a los resultados, no
se aprecian grandes diferencias, aunque los trabajadores parecen valorar más el sistema dado
que las puntuaciones más altas (8, 9 y 10) son más probables para quienes pertenecen a este
grupo.
11. 7.1.2. Logit multinomial

Cuando las respuestas no admiten una ordenación, la situación es más complicada. Su-
pongamos que las opciones posibles son J + l. Entonces, Yi1 = 1 si el individuo i elige la
alternativa j y O en otro caso. Esto significa que Lf:!:f

Yij = 1 y, si Pi1, P i2, ... , PiJ+l son las
probabilidades asociadas a cada una de las J +1 elecciones, Lf:!:f
Pij = 1.
En este caso el modelo más empleado es el denominado Logit multinomial, según el cual.
la probabilidad de cualquiera de las opciones, es:
(11.7.2)
El sumatorio en el denominador es J y no J +1 debido a que la suma de las probabili-

dades debe ser la unidad, con lo que solo son necesarios J parámetros para identificar J + 1
probabilidades. Suele normalizarse haciendo f3o =O.
Para la estimación del vector /3 y su correspondiente matriz de covarianzas, se recurre
como es habitual al método de máxima verosimilitud.
Los resultados de estos modelos son difíciles de interpretar. Wooldridge (2010) emplea un
ejemplo en el que se trata de modelizar la decisión de trabajar o seguir estudiando por parte de
los jóvenes. Hay tres opciones, trabajar, estudiar o permanecer en casa (ni estudia ni trabaja).
La variable dependiente se denomina status, y se codifica como status = O, estudiando, que
se toma como categoría base, status = 1, en casa y status = 2, trabajando. Como predictores
se emplean los años de educación, la experiencia laboral y su cuadrado y la dummy étnica,
black. Utilizado datos del año 1987 ajustamos el modelo (esta vez con Stata14), obteniendo
el mismo resultado:
1 Logit multinomial
Number of obs = 1717
LR chi(8) =583.72
Pr > Chi2 = 0,000
Log likelihood = -907.85723 R 2 = 0,24
coef std . dev z pr(z) >
status 1 (home) educ -0.6736 0.0699 -9.64 o
exper -0.1062 0.1733 -0.61 0.54
expersq -0.0125 0.0252 -0.5 0.62
black 0.8130 0.3027 2.69 0.007
- const 10.278 1.1333 9.07 o
status 2 (work) educ -0.3147 0.0651 -4.83 o
exper 0.8487 0.1569 5.41 o
expersq -0 .0773 0.0229 -3.37 0.001
black 0.3114 0.2815 1.11 0.269
- const 5.5438 1.0864 5.10 o
Obsérvese en primer lugar, que hay dos vectores de resultados: (J +1)-1, uno por cada uno
de los estados distintos del elegido como base: status 1 (home), para quienes están en casa sin
trabajar, y status 2 (work), para quienes están trabajando. El coeficiente black en la segunda
Tema 11 417
ecuac10n (status = 2, es decir trabajar), toma un valor igual a 0.311. Esto significa que la
probabilidad relativa de trabajar con respecto a estudiar, es, aproximadamente, un 36 3 mayor
para un negro (exp(0.311) = 1.36). Análogamente puede verse que la probabilidad relativa
de estar en casa es más del doble para los negros. Por tanto el valor de los coeficientes no
puede ser interpretardo en términos de probabilidades absolutas. Para determinar el efecto de
ser negro en estos términos, debemos calcular los efectos marginales para lo que se recurre a
la derivada parcial correspondiente, 8Pr(Y = j)/axk· Sin embargo, esta derivada tiene una
expresión muy complicada y muestra que ni siquiera la dirección del efecto está completamente
determinada por la misma.
Otra posibilidad es recurrir al cálculo de las diferencias en probabilidad. Por ejemplo, con
los datos de la estimación anterior usando los valores medios de educ (12) y exper (0.5), la
expresión (11.7.2) nos dice que la probabilidad de que una persona de raza negra esté en casa,
es 0.13 puntos mayor que la de un blanco.
11. 7.1.3. Modelos de recuento

En muchas ocasiones la variable dependiente de interés toma solo valores enteros no ne-
gativos (incluyendo el cero). Por ejemplo, el número de patentes que registra una empresa, el
número de veces que un sujeto es arrestado o sancionado, el número de veces que vamos al
hospital o al médico de atención primaria, etc. Dada su naturaleza, los modelos para estudiar
este tipo de datos reciben el nombre de modelos de conteo o de recuento. En estos casos el
probit ordenado no sería adecuado porque no conocemos de antemano el número de resultados
posibles. Lo que necesitamos es una distribución que admita como resultado cualquier valor
entero no negativo. No es por tanto extraño que se emplee como referencia la distribución de
Poisson.
Una variable discreta Y sigue una distribución de Poisson 14 , si:
exp(-,\).Ar
Pr(Y = Yi) = , y= O, 1, 2, ...
Yi 1·
Esta distribución viene completamente determinada por su media y, en particular:
E(Y 1 X) = var(Y IX) = A (11. 7.3)
El modelo más sencillo se obtiene sustituyendo A por una función no negativa de un

determinado conjunto de regresores X. Un candidato natural es por tanto:
(11.7.4)
14
En el documento Apéndices y Tablas hay un resumen de las principales distribuciones de probabilidad.
con lo que se obtiene:
Pr(Y = YilX) = exp(-X,B)[exp(X,B)]Yi (11.7.5

Yi.·'
El anterior es un modelo logarítmico lineal en el que los correspondientes f3J pueden in-
terpretarse como el cambio proporcional en Y derivado de un cambio unitario en Xj o, come
hemos venido haciendo, l00(3j el cambio porcentual en Y derivado de un cambio unitario e~
Xj.
La función logarítmica de verosimilit ud es:
n
ln l = L [-exp(X,8) + yX,8 - ln y!] (11.7.6
i =l
cuya maximización con respecto a f3 proporciona:
Blnl n
a,a = L([y - exp(X,B)]X =o (11.7.7
i= l
La varianza asintótica de los estimadores puede obtenerse a partir de la matriz hessiana.

Por ejemplo, podemos emplear los datos de Fair en los que la variable dependiente original
es discreta y su valor en la muestra oscila entre O y 12 experiencias fuera del matrimonio. Las
variables explicativas son ahora, X 1 : sexo del cónyuge (1 si varón), X2: edad, X3 : años casados.
X4 : dummy = 1 si el matrimonio tiene hijos, Xs :grado de religiosidad, X5 : nivel educativo
(varía entre 9 y 20) , X7: nivel de ocupación del individuo y Xs : grado de satisfacción del
matrimonio.La estimación, obtenida con Eviews 8, proporciona:
Variable Coef. St. Error t-Stat

Cte 2.552872 0.287731 8.872416
Zl 0.057793 0.08165 0.707814
Z2 -0.033029 0.005957 -5.544558
Z3 0.116968 0.01078 10.85066
Z4 -0.002663 0.102727 -0.025924
Z5 -0.354725 0.030968 -11.45446
Z6 0.000604 0.016908 0.035732
Z7 0.071717 0.02478 2.894109
Z8 -0.410561 0.027931 -14.69893
R2 0.149181 S.E. Regression 3.063259
SCR 5555.064 S.D. dependent var 3.298759
Log likelihood -1426.77 AIC 4.777938
Mean dependent var. 1.455907 LR Statistic 565.9046
Tema 11 419
Los resultados muestran que el género, los hijos en el matrimonio o la eduación, no son
variables estadísticamente significativas.
Un problema con estos modelos es que los supuestos de la distribución de Poisson son
demasiado restrictivos. Aunque la estimación por máxima verosimilitud proporciona estima-
dores consistentes y asintóticamente normales de {3, a menos que la varianza sea realmente
igual a la media, lo que suele incumplirse en la práctica, no podremos estimar correctamente
var(/3). Una manera de solventar este problema consiste en suponer que la varianza es pro-
porcional a la media, es decir var(Y) = 0' 2 E(Y). En la mayoría de las aplicaciones 0' 2 > 1
lo que implica que la varianza de Y es mayor que la que supone el modelo de Poisson. Este
fenómeno se conoce como sobredispersión 15 y se han diseñado diversos test para contrastarlo,
aunque no entraremos aquí en su detalle.
Si se cumple la relación de proporcionalidad anterior, una solución simple al problema de
la sobredispersión consiste en ajustar los errores estándar obtenidos en la estimación máximo
verosímil. El ajuste consiste en multiplicar los errores estándar inicialmente calculados, por
la raíz cuadrada de la estimación del parámetro de proporcionalidad 0' 2 . Dicha estimación es
sencillamente 0- 2 = (n - k)- 1 ¿~ iI/fJi, siendo Yi = exp(/JMvX).
Aplicando este procedimiento a la última estimación obtenemos 0- 2 = 6,9868 con lo que la
corrección consistiría en multiplicar los errores estándar de la tabla anterior por )6,9868 =
2,6436. Esta corrección suele venir incorporada en los programas econométricos. Por ejemplo,
en Eviews 8 consiste simplemente en activar la opción Robust Covariances/ GLM, con lo que
se obtiene idéntico resultado:
Variable Coef. St. Error t-Stat

Cte 2.552872 0.760547 3.356628
Zl 0.057793 0.215822 0.267781
Z2 -0.033029 0.015746 -2.097627
Z3 0.116968 0.028494 4.105042
Z4 -0.002663 0.271533 -0.009808
Z5 -0.354725 0.081857 -4.333472
Z6 0.000604 0.044693 0.013518
Z7 0.071717 0.065501 1.094904
Z8 -0.410561 0.073830 -5.560925
R2 0.149181 S.E. Regression 3.063259
SCR 5555.064 S.D. dependent var 3.298759
Log likelihood -1426.77 AIC 4.777938
Mean dependent var. 1.455907 LR Statistic 565.9046
Como consecuencia del crecimiento de los errores estándar, la ocupación (Z7) ha dejado
de ser significativa.
15 2
La infradispersión, es decir 0' < 1, es mucho menos frecuente.
11. 7.2. Datos censurados y datos truncados

En la práctica hay situaciones en las que una variable dependiente continua ve limitado
su rango de valores por razones de censura o truncamiento, dos términos que resulta fáci l
confundir. Tanto en un caso como en otro, diremos que la variable dependiente está limitada.
Cuando esto sucede se complica el análisis de regresión siendo necesario el empleo de metódo
específicos diseñados para tener en cuenta las especiales características de este tipo de dato .
11. 7.2.1. Modelos de regresión censurada

A veces tenemos el problema de que nos faltan datos de una determinada variable, aunque
dispongamos de información sobre la misma. Por ejemplo, puede que la observemos por encima
o por debajo de un determinado umbral. En este caso hablamos de modelos de regresión
censurada y puede llevarse a cabo un tratamiento similar hasta cierto punto, al del modelo
Tobit que, de hecho, puede considerarse un modelo de regresión censurada.
Supongamos por ejemplo que los valores de la variable dependiente Yi están censurado
de forma tal, que solo observamos su verdadero valor cuando Yi < Ci , mientras que si Yi ~ q.
observaremos Ci, siendo éste un umbral superior conocido. Un ejemplo de esta situación podría
ser una encuesta donde, entre otras cosas, se pregunta a los individuos por sus ingresos anuales.
Es frecuente en estos casos ofrecer distintos intervalos de renta para que el entrevistado se
ubique en uno de ellos, pero donde el último intervalo no tenga límite superior: por ejemplo
ganancias superiores a 500000 euros/ año.
Asumiendo por comodidad el supuesto de normalidad se tendría:
donde en lugar de Yi observaremos Wi = min(Yi, Ci)·
Está claro que la estimación MCO sería válida en el caso de que la muestra solo contuviera
valores de Yi < Ci, pero no proporcionará estimadores consistentes si dicha muestra incluye
valores de la endógena mayores que el umbral Ci.
Como en los casos anteriores, podemos estimar f3 por máxima verosimilitud, para lo que
necesitamos conocer la función de densidad de la variable observada, que será distinta según
las observaciones estén o no censuradas. Dado el supuesto de normalidad y las características
del modelo, se tiene:
a) Para las observaciones con censura:
Pr(Wi = q\X)
b) Para las no censuradas la función de densidad de Wi será la misma que la de Yi, es

decir:
Tema 11 421
(11.7.8)
Combinando estas dos expresiones podemos obtener la estimación máximo verosímil de f3

y de O';.
Los Síse interpretan como en el modelo de regresión lineal clásico, es decir representan
cambios marginales , elasticidades o semielasticidades.
El modelo Tobit
Este modelo debe su nombre a Tobin quien lo presentó en 1958 y puede considerarse un
caso particular de regresión censurada. Su formulación es como sigue:
Y* = X(3 +E, con E,...., N(O, O';) (11.7.9)
Y= Y*, si Y*> O, Y= O, en otro caso (11.7.10)

donde Y* es una variable latente e Y es la variable observada, cuyo valor coincide con el de
la variable latente para valores positivos de ésta. Se asume que Y* ,...., N(µ,ü 2 ) y que cumple
los supuestos del modelo lineal clásico.
La función de densidad de Y dado X se deriva en dos pasos. Primero , para Y= O:
Pr(Y O) = Pr(Y* :::; O) = Pr(Xf3 + E :::; O) =

Pr(E < -X(3) = Pr (!.-. : :; - X(3)
O't;; O't;;
(11.7.11)
y, puesto que E/O't::es normal estándar y es independiente de X:
(11.7.12)
Por otra parte, cuando Y > O, la función de densidad será:
(11.7.13)
Combinando ambas partes, encontramos el logaritmo de la función de verosimilitud del

modelo tobit:
lnl L ln(- X/3/o-c) +

Yi=O
¿ 1n [: ((Y - X,6)/o-c)]. (11.7.14

Yi>O t:
A partir de esta expresión, se obtiene tanto la estimación de todos los parámetros rele-
vantes, como la matriz de covarianzas de los estimadores, siguiendo el mismo procedimiento
visto con anterioridad, si bien el álgebra es ahora más compleja. Por otra parte, cualquier
programa econométrico nos ahorra todos los cálculos (en Gretl simplemente hay que tocar la
pestaña Modelo y elegir Variable Dependiente Limitada/ Tobit.), por lo que omitimos aquí
esos desarrollos.
La interpretación de los coeficientes de un modelo tobit no es inmediata. En particular, en
este modelo hay dos esperanzas que son de interés, E(yly > O, X ) y E(YIX), ambas referidas
a la variable observada, que es la que se quiere explicar. La primera nos indica cuál es la
esperanza de Y condicionada a valores concretos de X , para aquella parte de la muestra en la
que los valores de Y son positivos. Una vez conocida, podemos calcular la segunda esperanza
como:
E(YIX) Pr(Y = O)E(YIY > O, X)

(X/3/o-t:)E(YIY >O, X)
Puede demostrarse que E(YIY >O, X) = X/3 + o-t:<P(Xf3/o-t:)/(Xf3/o-t:) siendo las
funciones de densidad y distribución de una normal estandarizada. Por tanto:
E(YIX) = (X/3/o-t:) [X/3 + o-t:<P(X/3/o-t:)(X/3/o-t:)]

(X/3/o-c)X,6 + o-c<P(X/3/o-c)
A partir de aquí, aplicando el cálculo podemos hallar los efectos causales parciales (o las
elasticidades) de una variable concreta que, como en el caso de los modelos logit y probit,
son no lineales y dependen de los valores del resto de las variables exógenas así como de O-t:·
Lo normal es valorar estos efectos para los valores medios del resto de las variables y el valor
estimado de o-t: (que también aparecerá como una salida más).
Tema 11 423
Los datos originales empleados en el ejemplo de Fair son, como dijimos, más apropiados
para un modelo Tobit. Vamos a reproducir aquí el modelo estimado en su artículo. La muestra
consta de 601 observaciones y la variable dependiente Y es ahora el número de experiencias
extramatrimoniales de la pareja (hay 451 individuos que nunca tuvieron contactos sexuales
fuera del matrimonio, mientras que 150 sí tuvieron experiencias, oscilando su número entre 1
y 12). Las variables explicativas son ahora, X1: sexo del cónyuge (1 si varón) , X2: edad, X3 :
años casados, X4 : dummy = 1 si el matrimonio tiene hijos, X5 : grado de religiosidad, X5 :
nivel educativo (varía entre 9 y 20) , X7: nivel de ocupación del individuo y X8 : grado de
satisfacción del matrimonio. La estimación del modelo Tobit arroja el siguiente resultado:
"fi = 7,61 + 0,946X1 - 0,193X2 + 0,533X3 + 1,019X4 - 1,699X5

(3,91) (1,06) (0,081) (0,147) (1,28) (0,405)
+ 0,025X5 + 0,213X7 - 2,273X8, R 2 = 0,15, 0-c: = 8,258
(0,228) (0,321) (0,415
resultado que no es muy diferente del modelo de conteo sin corrección.
11.7.2.2. Modelos para datos de duración

Los datos de duración son aquellos que miden el periodo de tiempo transcurrido hasta que
ocurre un determinado suceso. Por ejemplo, el tiempo que una persona pasa en paro hasta
que vuelve a encontrar trabajo, o el tiempo que pasa desde que un condenado abandona la
cárcel tras haber cumplido su condena, hasta que es detenido de nuevo. Estos modelos pueden
considerarse modelos de regresión censurada. La censura entra en escena una vez tenemos en
cuenta que, para algunos individuos, el evento en cuestión no llegará a suceder (al menos en el
periodo de observación): algunos parados no volverán a encontrar empleo de la misma forma
que algunos condenados no serán detenidos nunca más.
El tratamiento básico de estos casos es por tanto el indicado en la sección anterior. Por
ejemplo, queremos analizar la evolución de un grupo de jóvenes recién incorporados al mercado
de trabajo y seguimos su situación durante 18 meses. Todos ellos han terminado el bachillerato
pero algunos han seguido, además, algún curso de formación orientado a sus intereses laborales
por el que han obtenido el correspondiente certificado. Definimos una dummy que toma el
valor 1 para todos aquellos que han seguido dicho curso de formación. La variable dependiente,
duración, es el número de meses que han estado en paro. Hay 10 individuos. de un total de
50, que seguían en paro al cabo de los 18 meses. La estimación del modelo , incluyendo un
conjunto de variables de control adicionales es:
---
duracion = 11,89 - 6,31 +controles
(1,03) (1,33)
424 :VÍODELOS CON VARIABLE DEPENDIENTE LIMITADA
es decir que, quienes han recibido form ación adicional permenecen aproximadamente medio
año menos en paro.
En la práctica, más que el periodo de tiempo que transcurre hasta que ocurre (o deja de
ocurrir) un determinado evento, lo que nos interesa es la probabilidad de que una determinada
situación acabe tras haberse prolongado durante un periodo de tiempo de longitud t. Por ejem-
plo, la probabilidad de que una huelga termine tras haber permanecido activa durante t días,
o la probabilidad de ser detenido tras haber estado t meses en libertad. Este planteamiento
da lugar a modelos más sofisticados que quedan fuera del alcance de este manual.
11.7.2.3. Modelos de regresión truncada

El problema ahora es que no disponemos de datos para un subconjunto significativo de
la población, en cuyo caso MCO deja de ser apropiado porque no se cumple el supuesto de
muestra aleatoria. La diferencia con la regresión censurada está en que aquí sencillamente no
tenemos los datos de la variable dependiente para, por ejemplo, Yi > e, mientras que con datos
censurados sí disponíamos de esas observaciones, aunque los valores estuvieran limitados por
el umbral.
El tratamiento estándar parte de la normalidad, lo que nos permite escribir el modelo de
regresión truncada como:
(11.7.15)
La muestra contendrá datos de Y solo si esta variable es menor (mayor) que un determi-
nado valor,Y; ::; e, siendo e el valor del truncamiento. En estas condiciones, la probabilidad
de que Y pertenezca a la muestra, es:
Pr(Yi ::; e) = Pr(XJ3 + Ei ::; e) = Pr (Ei < e - Xi/3) =

Ei
Pr [ - <
()¡;:
La función de densidad de Yi es normal pero, al ser una distribución truncada, su área no

sumará la unidad como es preceptivo. Por tanto, la densidad de Yi condicionada a que Yi < e,
será sencillamente la densidad de Yi condicionada a Yi < e, dividida por Pr(Yi < e), lo que
conduce a:
(11.7.16)
Yi = O, en otro caso
El logaritmo de la función de verosimilitud es entonces:

Tema 11 425
lnl
(11.7.17)
Obsérvese que esta función es diferente de la que resultaría considerando solo la estimación
MCO sobre la muestra observada 16 , únicamente por el último término, que es precisamente
el que nos permite tener en cuenta los valores no observados.
Como siempre, la maximización de la función anterior nos proporcionará la estimación de
los {3 buscados.
En muchas ocasiones la muestra está truncada pero no por razones que tengan que ver
con la variable dependiente en sí, sino con otra variable relacionada con ella, originando lo
que se conoce como problema de selección muestral. Un ejemplo típico en la literatura para
presentar este problema es el mercado laboral. En una ecuación de salarios observaremos solo
el de aquellos que han decidido entrar en el mercado de trabajo, pero no dispondremos de
datos para todos los que han decidido no incorporarse al mismo (por ejemplo, porque su salario
de reserva es mayor que el de equilibrio, mientras que para quienes sí trabajan es menor). En
estas condiciones la estimación a partir de tal muestra no gozará de las propiedades deseables.
La diferencia es que ahora el truncamiento no está relacionado con la variable dependiente,
el salario de equilibrio, sino más bien con la diferencia entre éste y el salario de reserva, que
estará correlacionado con el de equilibrio.
Para corregir el problema, consideremos el siguiente modelo biecuacional, en el que se
incorpora la selecctividad muestral:
ecuación de salarios Y/ = Xif3 + Ui

ecuación de selección zi = Wi"f +Vi
con ( ~: ) ~ NI D [O, ( ;; p; )]
La segunda ecuación determina quiénes deciden trabajar, según Zi 1, si zi > O. En
realidad observaremos Y y z de acuerdo con:
Yi=Y/ , sizi>O, (Yi=Oenotrocaso)
Zi = 1, si zi >O, (zi =O, enotrocaso)
16
en cuyo caso , como sabemos, MCO y ML conducen al mismo resultado
Dado que no tenemos información sobre la magnitud de z* (solo conocemos el signo).

establecer la varianza de Vi igual a la unidad no supone ninguna restricción.
Los parámetros del modelo anterior pueden estimarse por máxima verosimilitud pero
Heckman , quien presentó este problema en 1976, sugiere un procedimiento en dos pasos para
llevar a cabo la estimación. El método se basa en reescribir la ecuación de salarios como:
</;(wn)
Yi = X if3 + pa ( -wn ) + Ei (11.7.18)
donde el numerador y el denominador de la fracción son las funciones de densidad y distribu-

ción de una normal estándar. A continuación:
l. Se estima la ecuación de selección empleando un modelo probit, con lo que obtenemo

un estimador consistente de¡.
A A
2. Con dicha estimación calculamos los valores de </;(wn)/(wn) y estimamos por MCO
la ecuación de salarios reformulada y obtenemos un estimador libre de sesgo para /3.
Procedimiento que es conocido como método H eckit.

Además de lo anterior, la ecuación (11.7.18) puede servir para contrastar si tenemos un
problema de selecctividad muestral. En efecto, llamando ó = pa y teniendo en cuenta que
a > O, el contraste de dicha hipótesis consiste simplemente en contrastar Ho : ó =O empleando
un ratio tipo t. Si dicha hipótesis es rechazada, estaremos ante un problema de selección
muestral.
Tema 11 427
EJERCICIO S
Teórico-prácticos
l. Con objeto de evaluar un nuevo método de enseñanza de econometría se lleva a cabo
un estudio entre los estudiantes. La variable endógena Y = 1 si el alumno ha obtenido
una calificación igual a notable o más y O en caso contrario. Como variables explicativas
se toman la nota de la prueba de selectividad X 1, la calificación de un examen de
conocimientos econométricos y estadísticos básicos realizado a principio de curso X2 y
una variable dummy que toma el valor 1 si el alumno ha seguido el nuevo método y O en
caso contrario X3 . El cuadro siguiente presenta los resultados de las estimaciones MLP,
logit y pro bit (errores estándar entre paréntesis) :
Logit Pro bit MLP

Constante -20,83 -13,78 -7,39
(4,75) (2,34) (O, 72)
Xi 3,73 2,03 0,66
(2,26) (0,78) (0,27)
X2 0,11 0,06 0,01
(0,08) (0,06) (0,01)
X3 3,88 2,09 0,59
(2, 16) (0,89) (0,16)
Valore estos resultados . A la vista de los mismos, ¿puede decirse que el modelo logit otorga
más importancia al nuevo método de enseñanza? ¿Podría hacerse una idea del efecto parcial
de la calificación en la prueba de selectividad sobre la probabilidad de obtener notable o más?
2. Sea el MLP Yi = a+,6Xi+ui donde X es una variable cuantitativa. Obtenga la expresión

de Í3McO en términos de X y var(X).
3. En un modelo logit donde X es la matriz de variables explicativas, sea log ( 1_:'.'h) = X ,6.
Pruebe que la probabilidad de éxito es Pt = 1/ (1 + exp(-X,6)).
4. Sea una variable binaria Y y suponga que dispone de una muestra de solo 3 observa-
ciones,
a) Escriba la función de verosimilitud.

b) Compruebe que el estimador máximo verosímil de p (la probabilidad de éxito)
coincide con la media muestral de Y.
e) Repita los cálculos anteriores para una muestra de tamaño N.
5. Los datos de la tabla ETll _ 1 proceden de una muestra de 250 mujeres casadas. Se
trata de estimar un modelo para estudiar lo que determina su decisión de incorporarse
al mercado laboral.
a) Utilice los datos de esta tabla y estime el modelo que considere más adecuado y
estímelo utilizando los tres métodos presentados en este tema.
b) Estudie la significatividad de las variables y diga si el signo de cada una de ellas
es razonable.
e) Calcule los efectos parciales en cada uno de los tres modelos ¿Cómo influye en la
probabilidad de éxito de un año más de educación para una mujer de 40 años con
20 de experiencia en el mercado laboral, un hijo menor y 6 años de educación? ¿Y
si tiene 15 años de educación?
6. Un artificio que suele emplearse a veces para aproximar un modelo logit por MCO con-
siste en agrupar las observaciones. Supongamos que el modelo a estimar hace depender
la decisión de comprar vivienda exclusivamente del nivel de renta. En la tabla ETll _ 2
se presentan los mismos datos del ejemplo de la vivienda pero agrupados por niveles de
renta.
a) Obtenga para cada intervalo la probabilidad de comprar vivienda. Para cada uno
de estos intervalos obtenga a continuación el ratio entre la probabilidad de comprar
y la de no comprar vivienda.
b) Muestre que el logaritmo de dicho ratio es igual a a+ f3Xi.
e) Utilice la marca de clase de cada intervalo para llevar a cabo la regresión MCO
entre ln [Pi/(1 - Pi)] y Xi.
d) Interprete adecuadamente los resultados de dicha regresión. ¿Cuál es la proba-
bilidad estimada de que una familia con una renta de 2.000.000 de pts. compre
vivienda?
e) Señale cuál es el principal problema de la regresión anterior y diga cómo podría
corregirse.
7. Con objeto de estudiar la efectividad de un programa de reinserción laboral, se ha

llevado a cabo una encuesta entre 100 trabajadores que perdieron su empleo. Los datos
de esta se recogen en la tabla ETll _ 3. La variable endógena Y es una variable binaria
que toma el valor 1 si el individuo encontró trabajo en los 12 meses posteriores a la
finalización del programa, PROG toma el valor 1 para quienes siguieron el programa de
reinserción y O en caso contrario, ESTUDIOS es el número de años de estudio, EDAD
la edad en años y ECIVIL una variable que indica si el individuo está casado (1) o no.
a) Utilizando los tres modelos, estime la probabilidad de encontrar trabajo para, (i)
todo el conjunto de individuos encuestados, y (ii) los mayores de 50 años. ¿Diría
que el programa ha tenido éxito?
b) Calcule las funciones de probabilidad de encontrar trabajo para casados y solteros.
e) Calcule la diferencia en la probabilidad de encontrar trabajo en función de la par-
ticipación en el programa (suponga que las variables EDAD y ESTUDIOS toman
su valor medio).
Tema 11 429
d) Contraste la hipótesis de que el parámetro correspondiente a la participacion en el

programa es igual en ambos grupos.
Tema 12
CUASIEXPERIMENTOS Y REGRESIÓN
Desde el primer tema de este libro hemos llamado la atención sobre el hecho de que una
buena parte del análisis econométrico se centra en saber cuál es el efecto de una determinada
acción, decisión o política sobre una variable de interés. Por ejemplo, es normal que un econo-
mista esté interesado en saber cómo afectan los años de formación sobre el nivel de salarios;
el cambio climático sobre la actividad económica; los incentivos sobre el comportamiento de
un agente; los impuestos del tabaco en la reducción del número de fumadores , etcétera.
En particular hemos expuesto hasta qué punto la regresión puede ofrecernos una técnica
(MCO y MC2E) viable y válida para obtener conclusiones en términos causales. Las Secciones
1.3, 3.1.5 y 3.1.6 en buena medida aportan argumentos y conceptos que vamos a utilizar a lo
largo de este tema 1 .
Uno de los grandes retos a los que se enfrenta la correcta estimación (y por tanto in-
terpretación causal) de los coeficientes de los modelos es, como hemos visto en la Sección
8.1.2, el sesgo generado a partir de las variables omitidas. En los temas precedentes hemos
ofrecido técnicas (estimación por VI y regresión con datos de panel) de estimación que preten-
dían paliar los efectos de la omisión de variables relevantes. Anticipamos en la Sección 8.1.2
que otra posible solución era diseñar un experimento aleatorizado controlado . Este es
precisamente el eje central de este tema.
12.1. INTRODUCCIÓN
La natureleza de la economía hace que la gran mayoría de los datos económicos sean de
tipo observacional, como contraposición a experimental. Por lo que cabe entonces preguntarse
por el sentido último de considerar los experimentos aleatorizados controlados como fuente
de análisis causal útil para cuestiones de índole socio-económica, dado que en economía son
escasos y difíciles de llevar a cabo (pero no siempre imposible).
Para verlo con mayor claridad consideremos una situación en la que la utilidad del ex-
perimento aleatorizado controlado es clara. Consideremos el ejemplo que nos proporcionan
los estudios de utilización generalizada de un fármaco (tratamiento) como medicamento. La
1
Recomendamos ahora su relectura.
431
432 CUASIEXPERIMENTOS Y REGRESIÓN
evidencia obtenida a través de pruebas experimentales en pacientes proporciona evidencia

estadística convincente para el uso generalizado del fármaco. Estas pruebas experimentales
articulan fácilmente siguiendo las pautas generales de un experimento aleatorizado controla-
do. El experimento consiste en que a unos pacientes seleccionados de forma aleatoria se les
admistra el fármaco y a otros se les proporciona un placebo. Las diferencias experimentales
entre unos y otros conformarán los datos para posteriormente realizar un análisis causal en
términos estadísticos, y así llegar a una conclusión.
Resulta difícil realizar este tipo de experimentos en economía: ¿dónde encontramos in-
dividuos a los que aleatoriamente se les ha administrado algún «tratamiento»? Pese a la
manifiesta dificultad es posible que existan circunstancias externas que hagan que parezca
como si algunos individuos hubieran sido tratados por azar (aleatoriamente). Este tipo de
situaciones «como si» aparecen en economía con mucha más frecuencia, y son la base de lo
que se denomina cuasiexperimentos.
Uno de los campos, pero no el único, en el que los cuasiexperimentos han proliferado ha
sido la evaluación de programas económicos y sociales. El objeto de esta área es evaluar
el efecto de un programa, de una decisión política, o en general de alguna otra intervención
(tratamiento). Por ejemplo , preguntas estudiadas por esta literatura han sido: ¿cuál es efecto
sobre los salarios de acudir a un programa de formación laboral? ¿Qué efecto tiene sobre el
empleo de trabajadores de baja cualificación un aumento del salario mínimo? ¿Cuál es el efec-
to sobre un colectivo de interés de un cambio en la cuantía del subsidio de desempleo o de la
duración del mismo? En economía las unidades de análisis no solo son individuos. En general
las unidades de análisis son sujetos económicos: individuos , hogares, mercados, empresas, pro-
vincias , regiones o países. Los tratamientos pueden ser muy variados. Por ejemplo, programas
de asistencia en búsqueda de empleo, programas educativos, normativa legal, medicamentos
farmaceúticos, exposición medioambiental, uso de tecnologías, etcétera.
Las técnicas propias de los experimentos aleatorizados controlados tienen ya bastante re-
corrido en la literatura estadística especializada en las mismas. Este tipo de literatura utiliza
un lenguaje distinto del presentado hasta el momento y por tanto es necesario familiarizarse
con el mismo. Debido a la proximidad conceptual entre el experimento aleatorizado contro-
lado y el cuasiexperimento, las herramientas técnicas de los experimentos pueden adaptarse,
con ciertos ajustes, a los cuasiexperimentos. Se hace entonces necesario conocer este tipo de
herramientas estadísticas, que en realidad se pueden reinterpretar, con ciertos matices, en los
términos de las herramientas de regresión que hasta el momento hemos expuesto en los temas
precedentes.
12.2. EXPERIMENTOS ALEATORIZADOS CONTROLADOS
12.2.1. Terminología
El objeto último de los experimentos es aprender o tener información sobre el efecto que
tiene sobre una unidad de análisis el estar expuesto a un tratamiento. Supongamos que estamos
interesados en asesorar la toma de una decisión sobre inscribirse en un programa de formación
laboral (tratamiento), o bien sobre ir a la universidad o no. Es razonable preguntarse sobre
Tema 12 433
cuáles son los beneficios de apuntarse (de recibir el tratamiento). Un marco analítico con
muchas ventajas para asesorar dicha decisión es imaginar qué pasaría en el hipotético caso de
recibir el tratamiento y qué resultado tendría en caso de no recibirlo (es decir, de no inscribirse
en el curso de formación laboral, por ejemplo). En estos términos, la diferencia entre ambos
resultados sería el efecto causal individual del tratamiento (de apuntarse al programa).
Necesitamos identificar una variable respuesta que indique el resultado que obtendría una
unidad (individuo, en este caso) al recibir un tratamiento. Por simplicidad podemos considerar
un tratamiento binario, es decir o se expone al tratamiento o no. La variable binaria Xi = 1,
si el individuo i-ésimo recibe el tratamiento, y Xi =O, en caso de que no lo recibiera. En tal
caso, definimos una variable respuesta que recoja los dos potenciales resultados:
.
resultado potencial = {Yi (1) si xi= 1
Yi (O) si xi= o
Nos interesa la diferencia de resultados potenciales, es decir, nos interesa la diferencia entre
Yi (1) y Yi (O) en la medida en que es el efecto causal de estar expuesto a tratamiento (ir a la
universidad, o bien recibir formación de inserción laboral).
El principal problema es que no es posible medir el efecto causal para una sola persona2 ,
es decir, solo uno de los dos resultados potenciales puede ser realizado por el individuo (y por
tanto un solo resultado es observado). Nótese que antes de que se tome una decisión ambos
son potencialmente observables, de ahí que se le donomine resultado potencial. Este resultado
potencial no hay que confundirlo con el resultado observado o realizado, que denominamos }i.
Ambos conceptos se relacionan fácilmente a partir de la expresión siguiente, que realmente
nos permite definir el resultado observado a partir de los resultados potenciales:
(12.2.1)
Debido a la imposibilidad de medir el efecto causal de un tratamiento X para un individuo

(es decir, Yi(l) - Yi(O)), es suficiente3 con considerar el efecto causal promedio. Cuando
algunos individuos reciben el tratamiento y otros no, la diferencia esperada en los resultados
entre los dos grupos es
(12.2.2)
donde la igualdad se obtiene simplemente usando la expresión (12.2.1). Esta expresión pone en
relación la diferencia observada entre las medias de los resultados experimentales , y las medias
de los resultados potenciales, sin embargo no es exactamente en lo que estamos interesados.
Nuestro interés es saber cuándo a partir de las diferencias observadas podemos extraer el efecto
causal promedio de la población de la que extrajeron los sujetos. Dicho en otros términos, si
nuestro interés es la diferencia salarial entre los que van a la universidad y los que no , comparar
las medias salariales de los individuos que fueron a la universidad y la de los que no fueron
no nos proporciona necesariamente una medida del efecto causal de ir a la universidad. De
2
Este aspecto ya ha sido tratado en la Sección 1.3 y en la Sección 3.1.5.
3
Ver Sección 3.1.5.
hecho, es posible que la diferencia de una y otra exagere por exceso el efecto causal, toda vez
que es bastante posible que en media aquellos que han ido a la universidad hubieran ganad
más (que los que no fueron) incluso en caso de no haber ido. Es decir, la simple diferencia d
medias no considera que hay un sesgo de selección que distorsiona las conclusiones.
Para verlo formalmente tenemos que introducir la expresión
JE (Yi(O) IXi = 1)'
que refleja el resultado potencial esperado que habría obtenido el individuo que ha sido expues-
to al tratamiento, en caso de no haber sido expuesto. En el ejemplo en el que el tratamient
es ir a la universidad, la expresión considera cuál hubiera sido el salario de una persona qu _
ha ido a la universidad, con sus característica propias, en caso de que no hubiera ido. En e.
ejemplo en el que el tratamiento es atender a un programa de formación laboral, el términ
recoge cuál hubiera sido el salario medio en caso de que el sujeto que atendió al programa n_
hubiera atendido. Podemos introducir esta expresión en (12.2.2) haciendo lo siguiente
JE (Yi IXi = 1) - JE (Yi IXi = o) JE (Yi(l) IXi = 1) - JE (Yi(O) IXi = 1)

Diferencias de promedios observados Efecto promedio del tratamiento en tratados
+JE (Yi(O) IXi = 1) - JE (Yi(O) IXi =O) .
Sesgo de selección
Justamente esta expresión nos permite visualizar dos cosas importantes: (a) La utilidac
del concepto de resultado potencial. El primer sumando recoge la diferencia de las medias de
resultados potenciales que los sujetos tratados obtendrían si en lugar de haber sido tratados, ne
lo hubieran sido. (b) El papel potencialmente distorsionador del término «sesgo de selección»
Debido a que es posible que aun así los que han ido a la universidad obtuvieran mayores
salarios que los que tendrían los que no han ido, las diferencias de promedios observado_
sobrestimarían el efecto causal promedio, es decir, el sesgo de selección en este caso sería
positivo. Es incluso posible que en algunos casos el sesgo sea de tal magnitud que vele lo~
efectos de un tratamiento determinado. P or este motivo es fundamental afrontar la cuestión
de cómo cancelar el sesgo de selección.
El objetivo por tanto es estimar el efecto causal promedio para un población dada, para
lo cual es importante eliminar el sesgo de selección. Esto es teóricamente posible en el caso
de los experimentos aleatorizados controlados. Veamos por qué. En general, el efecto causal
individual de un tratamiento puede variar de un individuo a otro porque su efecto puede
depender de otras características del sujeto, lo que implica que las distribuciones de Yi(l
y Yi(O) serían distintas. Sin embargo, si hacemos una selección aleatoria de los individuo
a partir de una población, las variables respuesta (y por tanto sus efectos causales) se pue-
den considerar extraídas de una misma distribución, por lo que el valor esperado (promedio)
del efecto muestra! coincidiría con el valor esperado del efecto poblacional. Por otro lado.
si los sujetos pudieran ser asignados aleatoriamente a los grupos de tratamiento y control.
entonces el estado de un sujeto (Xi, tratado o no tratado) se distribuiría independientemen-
te de todos los atributos personales del individuo, así como de las potenciales respuestas.
Tema 12 435
Yi(l) y Yi(O). Formalmente, la independencia implica que los promedios en tal caso satisfacen
JE (Yi(O) IXi = 1) =JE (Yi(O) IXi =O) , por lo que sustituyendo en la expresión (12.2.2) se tiene
JE (Yi(l) IXi = 1) - JE (Yi(O) IXi = 1)

JE (Yi(l) - Yi(O) IXi = 1)
JE (Yi(l) - Yi(O)),
donde la última igualdad se obtiene de la independencia inducida por la asignación aleatoria

del tratamiento 4 .
Esta última expresión indica que si a partir de una selección aleatoria de sujetos, asignamos
aleatoriamente el tratamiento, entonces la diferencia de promedios de los resultados observa-
dos en el experimento entre los tratados y lo no tratados coincide con el efecto promedio
causal del tratamiento en la población. Dicho en otros términos, si denominamos experimen-
to aleatorizado controlado a aquel expermiento que satisface el diseño que hemos indicado,
entonces el sesgo de selección se anula, de modo que las diferencias de medias observadas nos
permiten capturar el efecto causal promedio , que es lo que buscábamos.
Obviamente, este experimento sería ideal, y la realidad nos devuelve a situaciones que
no garantizan la implementación de las condiciones del experimento aleatorizado controlado
ideal. Es decir condiciones en las que la asignación del tratamiento es independiente de los
resultados potenciales
Xi l. [Yi(O), Yi(l)].
De hecho en el ejemplo del efecto causal sobre el salario por motivo de ir a la universidad, no
se dan las condiciones de experimento aleatorizado controlado. La asignación del tratamien-
to, en ese ejemplo, no es aleatoria. La mayoría de los trabajos aplicados con experimentos
ideales se han hecho en áreas relacionadas con la bioestadística. No obstante, es posible que
se den situaciones en ramas socio-económicas (de hecho se han dado) en las que es posible
llevar a cabo un experimento ideal. Normalmente cuando esto ocurre las conclusiones de esta
investigación tienen mucha relevancia a la hora de asesorar en la toma de decisiones sobre el
desarrollo de programas.
4
En general, sin embargo, esto no será así. Para comprobarlo supongamos que no hay efecto causal, de modo
que Y;(O) = Y;(l) para todos los individuos, y por tanto el efecto causal promedio será nulo, JE (Y;(l) - Y;(O)) =
O. Consideremos igualmente que el tratamiento Xi está, por ejemplo, positivamente correlacionado con el
resultado potencial. En el ejemplo en el que el tratamiento es ir a la universidad , es bastante probable que los
estudiantes que van a la universidad (tratados) sean los más motivados o los que tienen mayores habilidades.
En esta situación de correlación positiva entre estar tratado X i = 1 y el resultado potencial, resultaría que
JE(Y;(1) ¡xi= 1) > JE(Y;(l)),

JE(Y;(O) IXi =O)< JE(Yi(O)).
Es decir, que en tal caso, el salario promedio potencial por ir a la universidad de la población que efectivamente
ha ido a la universidad es mayor que el salario promedio potencial por ir a la universidad de la población con
independencia de si efectivamente ha ido o no a la universidad. Esto significa que entonces
JE(Y;(l) ¡xi= 1)-JE(Y;(o) ¡xi= o)> JE(Y;(I))-JE(Y;(O)) =o,

donde la igualdad se debe al supuesto que hemos hecho de efecto causal nulo.
12.2.2. Estimación por modelos econométricos

En el caso de los experimentos aleatorizados controlados, la terminología que hemos ex-
puesto en la sección anterior resulta relativamente fácil de relacionar con el análisis de regresiór:
que hemos presentado hasta el momento. Si eso es así, tendremos un modo de estimar el efectc
causal promedio para este tipo de experimentos.
Consideremos para ello las siguientes definiciones. Sea €i = Yi(O)-JE (Yi(O)) y denominemos
f3o =JE (Yi(O)), es decir, el resultado promedio potencial en caso de no haber tratamiento. E:
efecto del tratamiento para el sujeto i será f31i = Yi (1 )-Yi(O) . Consideremos ahora la expresiór:
que relaciona el valor observado con un resultado potencial (expresión (12.2.1)),
Yi Yi(l)Xi + Yi(O) (1 - Xi)

Yi(O) + [Yi(l) - Yi(O)] Xi
[JE (Yi(O))J + [Yi(l ) - Yi(O)J Xi+ [Yi(O) - JE (Yi(O))]
f3o + f3i1Xi + t:i. (12.2.3
Esta expresión es más general que la expresión habitual de un modelo de regresión simple
dado que considera que el efecto causal del tratamiento varía a lo largo de la población, y por
tanto no es constante. Bastaría suponer que es constante para recuperar el modelo usual, en
tal caso obtendríamos lo que se conoce como estimador de las diferencias .
Por otra parte, esta expresión nos permite ver que si el tratamiento se asigna al azar, es
decir, si es independiente de [Yi(O) - JE (Yi (O))], entonces también lo es del error €i y de f31¡.
Por lo tanto, la JE (c:i !Xi) =O, por lo que considerando que los efectos causales del tratamiento
son constantes, entonces la estimación :MCO nos dará una estimación del efecto causal del
tratamiento que será insesgada y consistente.
Es posible incluir otras variables explicativas de control adicionales, W, a fin de poder
mejorar la eficiencia del estimador
(12.2.4)
Estas variables de control mejoran la estimación en la medida en que ayuden a explicar la
variación de la variable Y. Para que su inclusión no distorsione la interpretación causal del
coeficiente {31 , es necesario que Wi incorpore características individuales pretratamiento, como
por ejemplo el género. De esta manera al ser Wi una característica pretratamiento y al estar
el tratamiento administrado al azar, este también será independiente de la característica Wi·
y no solo de €i, lo que implica que el error satisface el requisito de independencia condicionada
del error del tipo previsto en (8.1.6)
Recordemos que en caso de usar los controles, los coeficientes estimados de los controles
Wri, por MCO no tienen, en general, una interpretación causal, y por tanto no es necesario
exponerlos.
La estimación de (12.2.4) nos conduce al denominado estimador de las diferencias
con variables observables que también es útil cuando el proceso de asignación aleatorio
Tema 12 437
del tratamiento se ha hecho en función de alguna covariable, es decir, en función de una

característica W, por ejemplo mediante el uso de una ponderación. En estos casos, es necesario
incorporar la variable W a fin de garantizar la estimación insesgada del coeficiente /31 de la
Ecuación (12.2.4) dado que el tratamiento X i se asigna aleatoriamente en base a Wi· Esto es
así porque es posible que la covariable W esté relacionada con la variable respuesta (resultado
potencial) y en ese caso la covariable actuaría como variable omitida generando un sesgo de
omisión. Es decir, si la característica Wi afecta también al resultado potencial y el proceso de
aleatorización del tratamiento se hace con arreglo a Wi, entonces dejarla fuera del modelo a
estimar sesga el valor del coeficiente. Sin embargo, la asignación aleatoria dado Wi implica que,
condicionado a Wi, entonces Xi y [Yi(O), Yi(l)] son independientes y se denota formalmente
de este modo
{Xi _l_ [Yi(O), Yi(l )]} /Wi . (12.2.5)
La expresión (12.2.5) se denomina de varias formas; quizás la más habitual es la de condición
de inconfundibilidad 5 .
Es posible relacionar formalmente también la condición de inconfundibilidad (12.2.5) y la
condición de independencia condicionada del error de la regresión (12.2 .4). Cuando el efecto
del tratamiento no varía entre los sujetos y siempre que la función de la esperanza condicionada
JE (Yi /Xi, Wi) sea lineal, la inconfundibilidad implica independencia condicionada del error.
Para comprobarlo recordemos que hemos definido éi = Yi(O) - JE (Yi(O)), que en este modelo
(12.2.4) con una sola covariable W y con efectos constantes del tratamiento implica éi =
Yi(O) - /Jo - f32Wi, y que el término /31 = Yi(l) - Yi(O) representa el efecto constante del
tratamiento. En tal caso la Ecuación (12.2.3) sería
Bajo la condición de inconfundibilidad (12.2.5), se tiene que condicionado a Wi, X i y [Yi(O), Yi (1 )]

son independientes, por lo que
que utilizado en la expresión del error de regresión condicionado
nos lleva a
que es precisamente la condición de independencia condicionada del error.

Vimos en la Sección 3.1.5 que esta condición suponía una restricción menos fuerte que
.a del supuesto de exogeneidad del modelo clásico de regresión, y que en caso de sustituir
el supuesto de exogeneidad por el de independencia condicionada del error, incluso así la
estimación de los coeficientes de las variables de interés por MCO o MC2E proporcionaba
5
Esta condición implica que Pr (Xi =l IWi = w, Yi(O), Yi(l)) = Pr (Xi =l IWi = w ).
una estimación insesgada y una interpretación causal. Esto , una vez más, subraya el pape.
esencial que juega en la econometría moderna el supuesto de independencia condicionada
Precisamente esta condición nos garantiza la interpretación causal de los coeficientes (ve
la demostración en la Sección 3.1.5). Estos coeficientes pueden ser, en tales circunstancias
obtenidos con garantías por medio del uso de la regresión (MCO o MC2E). Esto es así si --
función de esperanza condicionada es lineal (ver Sección 3.1.6) , pero incluso si es no lineal. c..
uso de la regresión lineal nos proporciona la mejor aproximación lineal a la función esperanza
condicionada subyacente (ver Teorema 8).
12.3. Cu ASIEXPERIMENTOS
En economía abundan, como dijimos en el primer tema del libro, los datos observacionale::;
esto es, datos que generalmente son de naturaleza no experimental. Lo interesante, y que e::.
buena medida justifica el tratamiento ofrecido en la sección anterior, es que los métodos e ide~
de los experimentos aleatorizados controlados pueden, en ciertas circunstancias, trasladarse ·
en su caso aplicarse a datos no experimentales. Podríamos por tanto a partir de esos dat
analizar los resultados para observaciones de un grupo de tratamiento y otro de control en 1
que el tratamiento no hubiera sido asignado aleatoriamente.
En estos casos ya no estamos en el marco de los experimentos aleatorizados, y por tanto lG.
literatura se refiere a ellos como cuasiexperimentos o experimentos naturales. El prime:
término, heredado de la psicología, enfatiza el hecho más sustantivo de que no se trata d
experimentos. El segundo término incide en el hecho singular de que para poder realizar un es-
tudio de este tipo es necesario que existan variaciones en circunstancias individuales (externas
que hagan que parezca «como si» la asignación del tratamiento hubiera sido aleatoria. Estas
variaciones en las circunstancias individuales pueden surgir como consecuencia de factores o-
relacionados con el efecto causal de estudio (por tanto exógenos). Estos factores en ocasione::;
provienen de fuentes de aleatoriedad natural como son las fechas de nacimiento, la lluvia o, e
general, cuestiones genéticas. También se pueden encontrar en factores institucionales comr
la ubicación, el calendario de aplicación de un programa o acción, la entrada en vigor de una
norma, etcétera. Un buen cuasiexperimento es aquel en el que hay una transparente fuente de
variación exógena en las variables explicativas que determine la asignación del tratamiento.
Para verlo con mayor claridad consideremos un ejemplo. Supongamos que estamos intere-
sados en estudiar los efectos de la inmigración sobre el mercado laboral. Una de las preguntas
que más interesan a los economistas, y también a la sociedad, es saber si la inmigración reduce
los salarios. La teoría económica sugiere que al desplazarse a la derecha la curva de oferta de
trabajo, ceteris paribus todo lo demás, se llegaría a una situación de equilibrio estable en la
que los salarios (precios de trabajo) serían más bajos que antes. ¿Qué haríamos si pudiéramo:
realizar un experimento aleatorizado controlado? Un experimento para estimar el efecto sobre
los salarios de la inmigración asignaría aleatoriamente un número diferente de inmigrantes
(diferentes tratamientos del experimento) a distintos mercados de trabajo (sujetos del expe-
rimento) , y luego mediría el efecto sobre los salarios (respuesta observada en el experimento
y compararía. Sin embargo, es evidente que por muchos motivos de distinta naturaleza esto
no lo podemos hacer. Podemos por tanto pensar en un cuasiexperimento. De hecho el trabajo
Tema 12 439
del economista David Card (1990) es un ejemplo de cuasiexperimento.

El levantamiento temporal de las restricciones sobre emigración desde Cuba en 1980, su-
puso un éxodo de cubanos hacia Miami , inmigrantes que pasaron a formar parte del mercado
laboral de Miami. Este hecho institucional puntual, que constituye una fuente exógena (na-
tural) de variación, fue utilizado por Card para estimar el efecto causal sobre los salarios.
Para ello comparó la variación de los salarios de trabajadores poco cualificados en Miami con
la variación de salarios de trabajadores similares en otras ciudades comparables (con Miami)
de EE.UU. durante el mismo periodo. La conclusión fue que no hubo efecto estadísticamente
significativo sobre los salarios de los trabajadores menos cualificados.
Otros temas que han sido analizados por economistas por medio de experimentos naturales
son: efectos de legislación sobre salarios mínimos por medio de cambios en las normas estatales
o federales en los EE.UU. ; los efectos del tamaño familiar sobre las elecciones de las familias
utilizando los partos gemelares como fuente exógena de variación; los efectos de los impuestos
sobre la oferta de trabajo y la inversión examinando reformas impositivas; los efectos del
seguro por enfermedad sobre la salud , la oferta de trabajo y las ayudas con hijos dependientes,
utilizando para ello ampliaciones de programas que han permitido ampliar la posibilidad
de selección de nuevos sujetos; los efectos de las restricciones de liquidez sobre la inversión
utilizando los cambios en los precios del crudo como shocks para el cashflow de filiales no
dependendientes del petróleo; por citar algunos ejemplos clásicos.
12.3.1. Técnicas de regresión para cuasiexperimentos
Lo que caracteriza a un cuasiexperimento es que el tratamiento no está asignado al azar,

es «como si» estuviera asignado al azar cuando condicionamos algunas variables observadas,
W. Debido a que el investigador no tiene control sobre la aleatoridad en la asignación del
tratamiento, es probable que la correcta comparabilidad entre grupos no esté garantizada,
incluso después de haber controlado W. Existe aún la posibilidad de que haya variables omi-
tidas, por ejemplo , que sean permanentes en los dos grupos y explicaran también los distintos
resultados potenciales. Esto supone que entonces no se está cumpliendo el supuesto de incon-
fundibilidad (Ecuación (12.2.5)), y por tanto las conclusiones obtenidas con los estimadores
de las diferencias que hemos visto anteriormente no serían veraces.
U na forma atractiva de tratar esta situación es analizando la variación experimentada
antes y después del tratamiento por la variable resultado Y en cada uno de los dos grupos,
tratados y no-tratados (controles) . Esto supone que consideramos que hay un «antes» y hay un
«después». Por ejemplo, en el caso del estudio sobre el efecto de la inmigración sobre el salario
de los trabajadores, se compara la variación de los salarios en Miami antes y después del éxodo ,
con la variación en otras ciudades similares en EE.UU. antes y después de cuando se produjo
la entrada de inmigrantes. Esto nos permite ver que lo que en último término analizamos es la
diferencia entre las variaciones (que son diferencias) , lo cual explica el motivo por el que a esta
técnica se denomina estimador de diferencias en diferencias. Veamos en qué consiste.
Estimador de diferencias en diferencias (DID)

Llamamos -Y¿~~:~miento a la media muestra! de Y para los sujetos dentro del grupo de
tratamiento antes de que sean expuestos al tratamiento, y sea -YJ;~:~~iento media muestra! de
Y para los sujetos dentro del grupo de tratamiento después de que sean expuestos al trata-
miento. Para los sujetos (unidades de análisis) que integran el grupo de control definimos de
manera análoga las variables Ya~t; 01 , YJ;;~t:;é;. Como hemos dicho, el estimador de diferencias
en diferencias es la diferencia entre la variación promedio en Y de aquellos en el grupo de
tratamiento y la variación promedio de aquellos en el grupo de control,
P,DID
fJ
= (Y.tratamiento_ ytramiento) _ (ycontrol _ ycontrol)
después antes después antes
= ,(iytratamiento _ ,(iycontrol
'
(12.3.1)
siendo las variaciones promedio postexperimentales y preexperimentales fiytratamiento
y fiycontrol, respectivamente.
Esta doble diferencia elimina los posibles sesgos asociados a diferencias permanentes entre
los dos grupos que no están relacionados con el tratamiento. Imaginemos que en el ejemplo
de la inmigración y el efecto sobre los sueldos, estos eran más bajos en Miami antes del éxodo
cubano que en otra de las ciudades con las que se hace el cuasiexperimento. Ambos niveles
de salarios se explican posiblemente por motivos permanentes de sus mercados laborales.
Consideremos, por ejemplo, que después del éxodo a Miami se registra un descenso de los
salarios en Miami, y en ese mismo lapso de tiempo en la ciudad que hace de control los
salarios se mantienen iguales debido a factores de su propio mercado de trabajo. En esta
situación, si comparamos la diferencia entre los salarios (promedio) en Miami y los salarios
de otra ciudad después de la inmigración a Miami, observaremos una diferencia exagerada y
no enteramente imputable a la entrada de inmigrantes en el mercado laboral de Miami. Esto
es así porque antes del tratamiento ya existía una diferencia en contra del nivel de salarios
de Miami, por lo que el efecto del tratamiento no debe incorporar tal diferencia permanente.
Eso es precisamente lo que hace el estimador DID al calcular la diferencia entre la variación
producida en el grupo de tratamiento (que en este caso es negativa) y la variación en los
salarios promedio del grupo de control (que en este ejemplo es nula), por lo que la variación
de las diferencias es ahora solo imputable al efecto del tratamiento, evitando así el sesgo
inicial.
El estimador DID se puede expresar con la notación habitual de la regresión. Sea Li}i
la diferencia de Y para el individuo i-ésimo registrada antes y después del experimento. El
estimador DID es el estimador MCO de la regresión
(12.3.2)
En caso de que no hubiera tratamiento Xi = O, la diferencia experimentada sería imputable
a los factores permanentes propios que quedarían recogidos en f3o, cuyo estimador es, en este
caso, la media aritmética de las diferencias de Yi entre individuos. En caso de existir tratamien-
to, Xi = 1, las diferencias individuales se explican en media por el componente permanente
y el efecto propio del tratamiento, {31 , que consideramos constante entre los individuos. El
estimador MCO del coeficiente {31 en el modelo anterior es igual 6 a (12.3.1).
6
Ver Apéndice técnico de este tema.
Tema 12 441
El estimador DID se puede ampliar para incluir regresares adicionales que midan carac-
terísticas individuales que estuvieran presentes antes de la realización del experimento. Estos
regresares adicionales W i transforman el modelo (12. 3.2) en un modelo de regresión múltiple
(12.3.3)
El estimador MCO de {3 1 de (12.3.3) será insesgado siempre que Xi esté asignado «como si
fuera aleatorio», condicionado a W1i, ... , Wri· Esto es así porque recordemos que en tal caso
el error éi satisfaría la condición de independencia en media condicionada, y podría tener por
tanto un significado causal.
Tanto para el caso de los modelos simple y múltiple (ecuaciones (12.3.2) y (12.3.3)) en
realidad tenemos un panel de dos periodos (antes y después del tratamiento) 7 , por lo que el
estimador se puede ampliar a casos en que el número de periodos del panel sea superior a dos.
Un caso diferente al panel es cuando el conjunto de datos procede de una sección cruzada
repetida. Este tipo de conjuntos se caracteriza por el hecho de que cada conjunto de datos de
sección cruzada corresponde a un periodo de tiempo diferente. Por ejemplo, el conjunto de
datos podría estar formado por observaciones de 300 sujetos en el periodo t , y por 350 sujetos
diferentes en el periodo t + 1, lo que configuraría un total de 650 sujetos observados.
Para poder utilizar este conjunto de datos configurado a partir de secciones en dos mo-
mentos diferentes es necesario considerar que si los individuos de la sección en t son extraídos
aleatoriamente de una población, entonces estos individuos se pueden utilizar como sustitutos
de los individuos (sujetos) de los grupos de tratamiento y control en la sección cruzada t +l.
En este caso de dos periodos , el modelo de regresión para este tipo de datos sección cruzada
repetida es
(12.3.4)
donde Xit se refiere al tratamiento del i-ésimo sujeto en la sección cruzada de tiempo
t, t= 1, 2; Gi es una variable indicador (variable binaria) de si el sujeto está en el grupo
de tratamiento (ya sea antes, tratamiento sustituto, o después del tratamiento); y Dt es otro
indicador del periodo en el que está el sujeto (pretratamiento, t =O, o postratamiento, t = 1).
A patir de estas definiciones resulta fácil comprobar que un sujeto recibe el tratamiento si
está en el grupo de tratamiento (Gi = 1) y además está en el segundo periodo (Dt = 1) , es
decir un sujeto tratado se caracteriza por Xit = Gi x Dt.
Si el cuasiexperimento hace que el tratamiento Xit fuera «como si» estuviera asignado
al azar, condicionado a los controles W , entonces el efecto causal del tratamiento puede ser
estimado por el estimador MCO de ~l· Podemos observar que el modelo de la Ecuación (12.3.4)
nos conduce al mismo estimador de la Ecuación (12.3.1), por lo que los modelos (12.3.4) y
(12.3.3) son equivalentes. Para verlo consideremos el caso más simple de (12.3.3), es decir,
cuando no hay W. En tal caso, se puede comprobar fácilmente que
[JE (YJ;~;~~is) _JE (YC:~~!~dos) J _ [JE (YJ;s;t;;¿~) _ JE ( y~::ret;ol) J = f3i,

cuyo estimador consistente es (12.3.1).
7
Pese a tener un panel de T = 2, el estimador DID no tiene en cuenta el hecho singular del panel, esto es,
estima ignorando que las observaciones proceden de la misma unidad en ambos periodos.
Estimadores de VI
En algunos cuasiexperimentos, es posible que tengamos disponibilidad de otra variable
adicional, que llamaremos Z, de la que sabemos que influye en la recepción o exposición a.
tratamiento, X, y que está administrada «como si» fuera al azar entre los sujetos. Por ejemplo.
consideremos de nuevo el efecto del tratamiento «ir a la universidad» sobre los salarios. Supon-
gamos que a algunos individuos se le asignó aleatoriamente una ayuda económica para cubrir
gastos de formación universitaria. Sea Z la variable binaria que indica si un individuo recibe
la ayuda, y que podemos denominar instrumento. En este caso es esperable que el instrumento
Zi pueda afectar a la decisión de un individuo sobre ir a la universidad (tratamiento).
En este escenario podemos comprobar que, dado que la variable tratamiento es binaria.
entonces el estimador siguiente (conocido por estimador de Wald)
--- ---
13wald =
--- ---
JE (Yi 1zi = 1 ) - JE (Yi 1zi = o)
JE (xi 1zi = 1) - JE (xi 1zi = o)
¿ YiZi/ ¿ z i - ¿ Yi (1 - zi) / ¿ (1 - zi)
(12.3 .5
¿ xizif ¿ zi - ¿xi (1 - zi) / ¿ (1 - zi)

es consistente. Al tratarse Zi de una variable binaria, el denominador captura el efecto medio
de recibir la ayuda económica sobre la decisión de ir a la universidad, y dado que las ayudas
motivarán que ciertos estudiantes, que en otro caso no irían, vayan a la universidad, se espera
que sea un número entre O y l. En cambio el numerador es el efecto de la ayuda sobre lo
salarios, dado que las ayudas aumentan el número de universitarios, lo que incrementa su
salarios. Por tanto, el estimador está ponderando los efectos de los salarios (numerador) por
la proporción de la población afectada por la ayuda económica.
La consistencia del estimador quedaría comprobada si realmente f3wald ..!!t JE (Y¡(l) - Y¡(O) ).
donde, como antes, Y¡(l) y Y¡(O) son resultados potenciales que se obtendrían en caso de ser
o no tratados. Recordemos que estos resultados no son observables simultáneamente a nivel
individual
Ahora además contamos con el instrumento binario que puede afectar al tratamiento recibido.
Por tanto, el estado del tratamiento dependerá de los valores que tome el instrumento Zi , por
lo que potencialmente tendremos el estado Xi(l) en el caso de que Zi = 1, y alternativamente
el estado será potencialmente Xi(O) si Zi = O. Ahora también cabe decir que para un individuo
solo podremos observar uno de los posibles tratamientos
(12.3.6)
Conviene observar que, por un lado, suponemos que el instrumento afecta al tratamiento
observado (recibido), esto es, la probabilidad de recibir tratamiento en caso de que Zi = 1 es
diferente de la probabilidad de recibir tratamiento si zi = o,
Pr (Xi(l ) = 1) -:/= Pr (Xi(O) = 1).

Tema 12 443
Por otro lado, asumimos que el instrumento Zi está asignado aleatoriamente, lo que implica
que es independiente también de los tratamientos potenciales Xi(l), Xi(O) ,
(12.3.7)
Como hemos dicho, nuestro interés está en estimar el efecto potencial del tratamiento, que
vamos a considerar de nuevo constante para los individuos
JE (Yi(l) - Yi(O)) = /3,
por lo que el efecto medio del tratamiento también será {3.

En estas circunstancias la Ley de los grandes números nos garantiza que
~wald P JE (Yi IZi = 1) - JE (Yi IZi =O)

...:.t JE (Xi IZi = 1) - JE (Xi IZi =o)'
que está expresado en resultados no-potenciales (observados), y que podemos relacionar con
los potenciales, que son en los que están expresados los efectos causales promedio. Así, el
numerador puede expresarse
JE (Yi(l)Xi(l) + Yi(O) (1 - Xi(l)) IZi = 1)

-JE(Yi(l)Xi(O) + Yi(O) (1 - Xi(O)) IZi =O)
JE (Yi(l)Xi(l) + Yi(O) (1 - Xi( l)))
-JE (Yi(l)Xi(O) + Yi(O) (1 - Xi(O)))
JE [(Yi(l) - Yi(O)) (Xi(l) - Xi(O))]
{JJE [(Xi(l) - Xi(O))] ,
donde la segunda igualdad proviene de la independencia de zi (expresión (12.3. 7)) y la tercera

del supuesto de efectos constantes.
El denominador se simplifica utilizando (12.3.6) a JE (Xi(l)) - JE (Xi(O)), por lo que el
cociente indica que
~wald .J:+ JE (Yi IZi = 1) - IE (Yi IZi = O) = {3.
!E (Xi IZi = 1) - !E (Xi IZi =o)
A este estimador consistente es al que llegamos utilizando la técnica de las variables
instrumentales de los temas anteriores . Para comprobarlo observemos que podemos escribir
Yi(l) = Yi(O) + /3 ,
por lo que el resultado observado será
Yi = Yi(O) + /3Xi =!E (Yi(O)) + /3Xi + Ei, Ei = Yi(O) - !E (Yi(O))'
que podemos reescribir del modo habitual
Yi = /30 + /3Xi + Ei, /30 =!E (Yi(O)). (12.3.8)

Dado que estamos considerando que los potenciales resultados puedan estar correlacio-
nados con el tratamiento, es decir, dado que fácilmente podemos tener un problema de en-
dogeneidad, JE (ci IXi) # O, entonces existe riesgo derivado de la falta de consistencia en l~
estimadores. Este problema lo podremos paliar, como hemos visto en el tema dedicado a l~
variables instrumentales, en la medida en la que exista un instrumento, Zi, que sea indepen-
diente de los resultados potenciales. Precisamente este es el supuesto que hacemos en (12.3.7).
y por tanto sabemos con certeza que el estimador consistente existe y es el de la expresión
(9.1.8), es decir, el estimador MC2E. Dada la naturaleza binaria de las variables instrumento
Zi y tratamiento Xi, en el Apéndice técnico mostramos que llegamos a (12.3.5).
12.4. ESTRATEGIAS DE IDENTIFICACIÓN
El éxito de las técnicas que hemos presentado depende de la localización de fuentes de

variación externas que sean apropiadas para la identificación de los efectos de interés. Uno de
los principales retos de los cuasiexperimentos es que la estimación de los efectos del tratamiento
pueden ser propensos al sesgo de selección, donde se asocia la asignación de los tratamientos
con los posibles resultados del tratamiento. La superación de este sesgo de selección requiere
de una variación en la asignación de los tratamientos que sea independiente de los resultados.
En el caso de los cuasiexperimentos las fuentes de variación externas que han sido utilizadas
en la literatura dependen del problema o del efecto en cuestión que se esté examinando,
siendo por tanto bastante amplia la gama de fuentes de variación externa utilizadas. En esta
sección exponemos algunos de los casos o temas que más influencia han tenido en la literatura
especializada, ya sea por la relevancia del tema y de sus conclusiones, o por la intensidad de
estudios al respecto.
Empecemos por el caso estudiado ya en este tema de los efectos de la inmigración en el
mercado laboral. El problema surge porque la variable salario (precio de la mano de obra)
se ve afectada por dos vías: la oferta y la demanda de trabajo. El salario debería bajar ante
la entrada de inmigrantes, pero a su vez los inmigrantes entran donde hay fuerte demanda
de trabajo. Si estimamos por MCO el efecto de la inmigración sobre el salario estaremos
estimando con sesgo. La solución propuesta consiste, como vimos, en un cuasiexperimento en
el que la variación externa para identificar el efecto proviene de un hecho político como fue el
levantamiento temporal de restricciones de emigración cubanas. En tal caso, el tratamiento
(recepción de inmigrantes) es como si aleatoriamente determinara la totalidad del tratamiento.
Podemos comparar este estudio con otro de naturaleza distinta sobre los efectos del servicio
militar en los ingresos salariales de los civiles. Por ejemplo, incialmente podría intentar realizar
una regresión de los salarios de civiles sobre la variable «realización previa del servicio militar».
El problema es que probablemente el coeficiente estimado sería sesgado. La variable resultado
es el ingreso salarial, mientras que el tratamiento es la realización del servicio militar. Es
posible que personas alistadas en el ejército lo estén porque no encuentran trabajo en el
mercado laboral, de modo que el tratamiento no puede ser considerado como si fuera aleatorio.
Una alternativa propuesta por investigadores estadounidenses ha sido analizar los historiales
laborales de personas que sirvieron en el ejército durante la guerra de Vietnam, dado que
el reclutamiento (exposición al tratamiento) estaba parcialmente determinado por un sorteo
Tema 12 445
nacional basado en las fechas de nacimiento y a partir de dicho sorteo se configuraba una
bolsa de reclutables. De esta manera, la variable «reclutable» puede actuar como instrumento
puesto que por un lado se asigna aleatoriamente por el propio diseño, y además afecta en parte
(no en su totalidad, dado que había otras formas de acceder voluntariamente al ejército) a la
exposición al tratamiento.
Uno de los temas más estudiados a través de cuasiexperimentos ha sido la estimación
de los rendimientos (retornos) de la inversión en capital humano. La presencia de «sesgo de
capacidad» en las estimaciones del rendimiento de estas inversiones en capital humano en
forma de educación es un problema bien establecido. Las primeras soluciones propuestas al
problema incluyeron el uso de resultados de los test de inteligencia (imperfectas medidas de
la capacidad) utilizando a los hermanos como variables de control de aquellas características
no observables a nivel familiar. Posteriormente se ha ido sugiriendo que los cuasiexperimentos
(experimentos naturales) que inducen variación en el rendimiento escolar no relacionado con
la capacidad pueden ser utilizados para eliminar el sesgo de capacidad en la estimación del
rendimiento de la educación. Estos experimentos «nat urales» incluyen como variación natural
externa la fecha de nacimiento y el sexo del niño. Además , otros estudios han utilizado las
diferencias en el nivel de escolaridad de los individuos en gemelos monocigóticos para eliminar
la contaminación de las estimaciones de los rendimientos de las diferencias genéticas en la
capacidad.
Otro de los temas estudiados pertenece al ámbito del comportamiento del consumidor a
nivel agregado. Uno de los modelos más utilizados y probados de ciclo vital del consumo y
el ahorro es el modelo de «renta permanente». Los investigadores han estado interesados en
ofrecer evidencias sobre el motivo por el que los mercados de capitales son incompletos, tal
y como refleja el hecho de que el consumo es «demasiado» sensible respecto de los ingresos
corrientes (actuales). Los modelos de ciclo vital que admiten la incertidumbre sobre los flujos
futuros de ingresos tienen la característica de que la capacidad de respuesta del consumo (y
del ahorro) ante los ingresos depende de que las fluct uaciones en los ingresos sean inesperadas
y transitorias.
Distinguir entre componentes de los ingresos transitorios y permanentes e identificar sus
efectos son los principales retos de esta literatura. Los datos no proporcionan medidas de
ingresos que identifiquen convenientemente los ingresos para estos dos conceptos teóricos. Por
otra parte, las fluctuaciones en los ingresos pueden reflejar las decisiones de los agentes (lasco-
rrelaciones entre los cambios en el ingreso y el consumo no pueden aportar mucha luz en estos
modelos, porque el ingreso en cualquier punto dado en el ciclo vital puede reflejar inversiones
anteriores y decisiones de ahorro). Por ejemplo, en las poblaciones agrícolas, las inversiones
en equipo o en semilla afectan al nivel y a la variabilidad de los ingresos , y a su vez estos
pueden reflejar preferencias (por ejemplo, para el riesgo) que también afectan a las decisiones
de consumo. Varios estudios han utilizado la variable tiempo meteorológico, en el contexto
de los agricultores, como una forma de identificar los efectos de los componentes transitorios
y permanentes de los ingresos. La variable tiempo atmosférico tiene características deseables
para el análisis de los efectos de los ingresos: los fenómenos meteorológicos tienen efectos
significativos en los ingresos agrícolas, no pueden ser afectados por el comportamiento de los
propios agricultores y satisfacen el criterio de aleatoriedad. Por otra parte, las distribuciones
climáticas se caracterizan por la estacionariedad en periodos de tiempo relevantes para el

estudio del efecto de los ingresos sobre el consumo, de modo que las distinciones entre lo per-
manente y lo transitorio son significativas; y las series largas de datos sobre las precipitaciones
diarias, que están disponibles en muchos países del mundo, permiten la correcta estimación
de los parámetros permanentes que describen los momentos de las distribuciones del tiempo
atmosférico.
Un reto importante en la economía del trabajo es explicar el incremento secular de la
participación laboral de las mujeres casadas en los países más industrializados. Uno de lo
factores candidatos a explicar el aumento de la mano de obra femenina es la disminución de
la fertilidad. Dado que tanto la oferta de trabajo como las decisiones sobre fertilidad están
endógenamente seleccionadas, se ha hecho necesario utilizar variables instrumentales para
evaluar la contribución de los cambios en la fertilidad sobre la participación materna en el
mercado laboral así como en el número de horas de trabajo. Para ello un estudio utiliza un
evento «natural», como es tener gemelos en el primer parto, para estimar cómo la fertilidad
afecta a la oferta de trabajo materna. Otro estudio utiliza el género de los dos primero
nacimientos, específicamente la igualdad de sexo, como un instrumento «natural» para estimar
los efectos de fertilidad en la oferta laboral de las mujeres casadas.
Otras fuentes de variación externas válidas provienen de la puesta en marcha de política
gubernamentales que son capaces de crear un tratamiento «natural» y grupos de compara-
ción. Esto es posible porque el marco institucional normativo en el que se circunscribe la
actividad económica permite que unas zonas cambien de normas, mientras que otras no lo ha-
cen. Piénsese por ejemplo en las distintas normativas de las comunidades autónomas o de lo
estados que configuran la zona euro. Los ejemplos más ilustrativos los podemos encontrar en
la literatura especializada sobre los efectos sobre la duración del estatus de desempleado que
tienen los seguros de desempleo. En estos estudios las fuentes externas de variación natural
han sido las diferencias entre estados de los calendarios de aplicación del beneficio social a lo
largo del tiempo.
12.5. POSIBLES PROBLEMAS DE VALIDEZ
Hay varias fuentes de problemas que pueden hacer que los cuasiexperimentos nos con-
duzcan a conclusiones no válidas, y por tanto es importante tener presente en la práctica
cuáles son las principales vías que invalidan o ponen en riesgo de credibilidad a los estudios
teóricamente basados en cuasiexperiment os.
Por una parte tenemos las amenazas que ponen en tela de juicio la adecuada configuración
del cuasiexperimento. Los cuasiexperimentos se fundamentan en la diferencias en las circuns-
tancias individuales, cambios legales, políticos , sucesos repentinos no previstos, etcétera, para
generar una asignación del tratamiento «como si fuera» aleatoria. En caso de que la asignación
hecha por este tipo de sucesos no diera lugar a una asignación del tratamiento compatible con
la aleatoriedad , entonces el estimador MCO y el MC2E no sería sesgado ni consistente.
La ausencia de asignación aleatoria en el tratamiento puede comprobarse observando si
existen diferencias «sistemáticas» entre los grupos de control y de tratamiento. Una posiblidad
es hacer una regresión de la variable indicativa del tratamiento X sobre las características
Tema 12 447
individuales W, y contrastar la hipótesis de que los coeficientes de las W son nulos. Esto nos
dará una pista sobre si el cuasiexperimento origina o no una asignación aleatoria. Aun así, es
posible que existan otros hechos distintos del tratamiento X que ocurran entre observaciones
antes y después del tratamiento y que ofrezcan explicaciones alternativas para los resultados.
Esto es, es posible que X esté relacionada con factores no observables e incorporados en el
término error. Respecto a estos factores no observables no podemos contrastar la validez de
la hipótesis de asignación cuasialeatoria, solo el conocimiento experto de cada caso concreto
puede servir de guía de evaluación.
Otro elemento que distorsiona la hipótesis de administración del tratamiento de forma
«como si fuera aleatoria» es que la asignación solo influye, pero no determina el tratamiento.
En ese caso la estiación MCO no es insesgada, pero la estimación con variables instrumentales
mediante un instrumento Z puede hacer que sea consistente.
Aparte de estos posibles problemas potenciales relacionados con los mecanismos de selec-
ción, caben destacar otros, si bien no son lo únicos. Destacamos en particular los derivados de
la existencia de variables resultado con tendencia, es decir, procesos dentro de las unidades
de análisis que varían con el paso del tiempo per se, por ejemplo, la edad, la inflación, el
crecimiento, entre otros.
Estimador DID
En esta sección vamos a comprobar que en el modelo (12.3.2), el estimador MCO de {31
es el estimador (12.3.1), esto es /3f'1ºº = /:JfID.
Sabemos que el estimador MCO de /31 en (12.3.2) es el correspondiente a un modelo de
regresión lineal simple f:JMCO = (l /n) L:Xib.Y;-XY donde ~y; = (ydespu és - yantes) i =
1 (l/n) 4:Xf-X2 ' i i i '
1, ... , n, n = nr +ne . Si desarrollamos las expresiones del numerador y denominador teniendo

en consideración que la variable Xi toma valor 1 en caso de que el sujeto sea tratado, y O en
caso de ser control, tenemos que
1~ - - l nr l n
- ~Xi ~Yi-XY - L~Yi- nr - L~Yi
n i=l
n n n
i=l i=l
l nr l n
- L ~Yi - nr - L (Xi~Yi + (1 - Xi) ~Yi)
n i=l n n i=l
Por otro lado el denominador
(1/n) L Xl - X 2
n: -(n:r
: (1- 7).
A partir de las expresiones del numerador y del denominador, y considerando que el término
( 1 - ~) = ~, tenemos que el estimador Y1 CO es
ln [(l _!?X)
n "'nr
úi=l
6,Y;t _!?X
n "'ne
úi=l
6.Y;]
t (1/n) (1 - qf) 2::~1 t.Yi
~ (1- qf) ~ (1- ~)
(1/n)qf 2::~~1 6.Yi
n n
¿~~1 6.Yi ¿~~1 6Yi
nr ne
6. y tratamiento _ 6. y control .
Estimador de Wald para VI

A partir del modelo (12.3.8) que ahora reescribimos para facilitar su lectura,
sabemos que el estimador MC2E de VI es
~MC2E = ~ (Zi . Yi)

(Zi. X i)
COY
donde zi, Yi y xi son, respectivamente, una variable instrumental binaria, la variable de-
pendiente de la segunda fase y una variable binaria explicativa endógena. Z, Y y X son sus
respectivas medias aritméticas.
Si desarrollamos las sumas de la expresión del siguiente modo,
n n
L ZiYi = niY1; L zixi = niX1
i=l i=l
n n n
¿ zi = ni;LXi = nX;LYi = nY,
i=l i=l i=l
donde n 1 es el número de individuos afectados por la característica Z , esto es, Zi = l; Y1 es

la media aritmética de Yi, pero solo sobre la parte de la muestra afectada por Zi = 1; y X1 es
la media aritmética de Xi, pero solo de la parte de la muestra afectada por la característica
Zi = l. Sustituyendo estas expresiones en el estimador MC2E tendremos
~Mc 2 E = (l /n)n1Y1 - (l/n)n1Y = Y1 - Y.

(l/n)n1X1 - (l/n)n1X X1 - X
Tema 12 449
Si expresamos Y y X en función de las medias aritméticas parciales, y por tanto de la

parte de la muestra para la que zi = 1, tendremos
donde análogamente Yo ,Xo son las medias muestrales (promedios) de la parte de la muestra
con Zi = O. Entonces se tiene
X1 - n1x1
n
- n-n1xo
n
nY1 - n1Y1 - (n - ni) Yo
nX1 - n1X1 - (n - n1) Xo
(n - n1) (Y1 - Yo)
(n - n1) (X1 - Xo) ·
Por tanto
A
(3
MC2E (Y1 - Yo)
----
- (X1 - Xo).
EJERCICIOS
l. Considere un estudio que evalúa el efecto en las calificaciones de los estudiantes univer-
sitarios de las conexiones a internet en sus respectivas habitaciones. En un dormitorio
grande, la mitad de las habitaciones están preparadas con conexiones de alta velocidad
(grupo de tratamiento). Se recopilan las notas finales de todos los residentes. Algunas
de las siguientes circunstancias pueden poner en tela de juicio la fiabilidad del estudio.
Diga cuáles y por qué:
a) A mediados de año un grupo de alumnos varones abandonan el estudio, y por tanto

no tienen calificaciones finales.
b) Los estudiantes de ingeniería asignados al grupo de control montan una red de área
local por lo que pueden compartir un acceso inalámbrico privado a internet que se
paga conjuntamente entre todos.
e) Los estudiantes de arte del grupo de tratamiento no saben cómo acceder a sus
cuentas de internet.
d) Los estudiantes de economía del grupo de tratamiento facilitan el acceso a sus
conexiones de internet a los del grupo de control, a cambio de que les paguen una
tarifa.
2. En un experimento aleatorizado controlado sobre el efecto de un curso monográfico de

preparación de un curso de acceso a la universidad sobre las calificaciones en el examen
selectivo se obtienen los siguientes resultados:
Tabla 12.1: Tratamiento y control

Grupo de tratamiento Grupo de control
Calificación media en examen 1241 1201
Desviación típica de las calificaciones 93 ,2 97,1
Número de hombres 55 45
Número de mujeres 45 55
a) Estime el efecto promedio del tratamiento en las calificaciones obtenidas.

b) ¿Hay evidencia de asignación no aleatoria? ¿Por qué?
Parte 111
SERIES TEMPORALES:
PREDICCIÓN Y REGRESIÓN
451
Introducción
Esta última parte se concentra específicamente en exponer herramientas que se han esta-
blecido sólidamente en la literatura siendo especialmente útiles cuando los datos con los que
trabajamos han sido registrados para una única entidad individual y para varios momentos
del tiempo, es decir, cuando nuestros datos son del t ipo de serie temporal. Las herramientas
obviamente serán útiles en función del tipo de preguntas que permitan responder. De hecho
hay ciertas preguntas para las que los datos de sección cruzada o transversales son subóp-
timas. De modo genérico, podríamos considerar dos tipos cuestiones para las que los datos
temporales pueden ofrecer una respuesta sólida. Uno de estos tipos vendría representado por
preguntas como ¿cuál es el efecto «causal» sobre Y, de una variación temporal en la variable
X? Otro tipo de pregunta de especial interés es ¿cuál es la mejor predicción de la variable Y
para el próximo periodo?
Las herramientas expuestas en la Parte I y en la Parte II de este libro responden a pre-
guntas de otro estilo y no enteramente desligadas de las anteriores. El análisis de regresión,
que ha sido el eje central del libro, se expone a fin de dar una respuesta a preguntas, en
último término, de tipo causal. En este sentido, las técnicas que se presentan en los próximos
temas están también centradas en la causalidad, entendida como causalidad en términos di-
námicos, para lo cual la dimensión temporal de las variables resulta imprescindible. Esto es
especialmente obvio en los Temas16, 19 y 20.
Paralela y complementariamente, hemos visto que el análisis de regresión también puede
ser utilizado para realizar predicciones o proyecciones sobre el valor futuro de la variable
estudiada. Tiene lógica científica considerar que el mejor conocimiento de las causas y de la
ponderación de las mismas sobre la variable objetivo permita realizar previsiones adecuadas
del futuro de la variable de interés. Desde esta perspectiva, podemos decir que la predicción
se trata de un ejercicio o una aplicación de la regresión. Sin embargo, la predicción en sí
es algo muy diferente de la estimación de efectos causales, que como hemos subrayadado
en múltiples ocasiones y desde distintos marcos, es lo propio y sustantivo de la regresión. De
hecho, presentaremos en los Temas 13, 14, 15 y 17 modelos que son extraordinariamente útiles
para realizar predicciones, pese a que no tienen una interpretación causal. En parte por este
motivo se presenta con cierta extensión esta metodología.
La capacidad predictiva de los modelos que presentamos en los Temas 13, 14, 15 y 17 se
basa fundamentalmente en la idea de que el futuro será esencialmente como fue el pasado. Si
esto no se cumple, las predicciones basadas en modelos de este tipo son muy cuestionables.
El Tema 17 trata precisamente del caso de series que tienen movimientos persistentes a largo
453
454
plazo , es decir , series que presentan tendencias. Este caso es muy relevante dado que aparece
reiteradamente en las series de datos económicos.
Sin duda uno de los intereses de la predicción es modelizar (autorregresivamente) la media
de un proceso con la intención de dar una óptima predicción para el valor esperado de la
variable estudiada (Temas 13, 14, 15 y 17); sin embargo, muchos datos económicos presentan
regularidades en la varianza (volatilidad), de modo que la varianza cambia a lo largo del
tiempo. Por varios motivos, que expondremos en el Tema 18, esto hace que sea especialmente
útil y económicamente rentable modelizar la varianza condicionada.
Finalmente los dos últimos temas platean herramientas y metodologías útiles cuando que-
remos predecir o estudiar dos o más variables. Piénsese por ejemplo en la tasa de inflación y
la tasa de desempleo. El Tema 19 presenta un modelo , vectores autorregresivos , para predecir
más de una variable a partir de los retardos de ambas variables. Es de especial relevancia
y atractivo el hecho de que de este tipo de modelos es posible extraer conclusiones causales
entre las variables consideradas. El Tema 20 completa el análisis multivariante considerando
y explicando qué significa y qué sucede cuando dos o más series comparten una tendencia
(estocástica).
Tema 13
MODELOS ESTACIONARIOS DE SERIES

TEMPORALES
Los modelos que vamos a estudiar en este tema son modelos univariantes porque estudian
el comportamiento de una serie temporal basándose únicamente en el análisis de su propia
historia. Los pronósticos se fundamentan en la hipótesis de que las condiciones futuras serán
análogas a las pasadas y son especialmente adecuados para la predicción a corto plazo. De
hecho estos modelos, considerados como herramienta de predicción, son una alternativa al
enfoque causal estudiado hasta ahora.
Aunque el análisis univariante de series temporales es muy extenso, nosotros solo trata-
remos en este tema los modelos ARIMA, puesto que históricamente se han establecido como
una herramienta potente para la predicción de series temporales y también son un camino
convergente con los modelos dinámicos que estudiaremos en temas posteriores.
El análisis de series temporales es un campo de especialización de la estadística, sin em-
bargo las series temporales que habitualmente observamos en las ciencias sociales, y en la
economía y empresa en particular, presentan unos hechos singulares que han propiciado que
se estudien con mayor detalle por los académicos de la econometría. No en vano, la acade-
mia ha distinguido con el Premio Nobel las investigaciones de varios economistas (entre ellos,
Robert Engle y Clive Granger) por sus aportaciones al análisis de series temporales cuyas con-
tribuciones revolucionaron la manera en la que se usaba la econometría con datos en forma
de serie temporal.
El análisis de series temporales es fundamental para el estudio del comportamiento de
la economía (en su conjunto) tanto a nivel nacional como internacional. Así por ejemplo
si necesitamos hacer una predicción del crecimiento PIB o el de la inflación , miramos el
comportamiento de algunos indicadores económicos y consideramos su comportamiento en el
pasado reciente. De manera similar, podemos analizar la evolución reciente de una industria
determinada para pronosticar el potencial de vent as de una empresa perteneciente a dicha
industria. Ni que decir tiene que muchas de las decisiones de inversión financiera (ya se a
corto, medio o largo plazo) se toman considerando la evolución de la cotización de uno o
varios valores bursátiles, así como de la evolución de tipos de cambio, o de la senda trazada
por los tipos de interés, entre otros. En cada uno de estos casos, necesitamos analizar series
455
456 MODELOS ESTACIONARIOS DE SERIES TEMPORALES
temporales.
Algunas características de las series económicas es que suelen ser relativamente cortas (en
comparación con las disponibles en otros dominios científicos), por lo que las herramientas de
análisis deben estar adecuados a esta realidad. Suelen presentar tendencias, y el tratamiento
de las mismas es fundamental tanto desde el punto de vista analítico, como desde el punto de
vista económico. Igualmente pasa con la existencia de ciclos estacionales, consustanciales a la
realidad estudiada a través de la serie.
Dos elementos adicionales singulares de las series a analizar son, por un lado , que la
teoría económica juega un papel central, en el sentido de que es realmente interesante integrar
las técnicas y procedimientos de análisis basados (solo) en su propia historia con los análisis
basados en una estructura teórica, lo cual es razonable por varios motivos, entre ellos porque el
agente estudiado tiene acceso al análisis de la propia serie lo cual le puede reportar beneficio
económico. Y por otro lado, que hay series mucho más largas (nos referimos a las series
financieras) donde lo que tiene interés económico es modelizar la volatilidad, y en donde la
no linealidad desempeña un papel relevante.
13.1. PROCESOS ESTOCÁSTICOS
Cuando observamos una serie temporal vamos a entender que esta serie es una realización
de un proceso estocástico. Por tanto, el contenido fundamental de este tema se refiere a la
modelización de una serie temporal considerada como un proceso estocástico. Podemos definir
un proceso estocástico «Z » como un conjunto de «T » variables aleatorias «Zt » en momentos
de tiempo sucesivos. Cada una de estas «T» variables se comporta como lo hacen las variables
aleatorias usuales. Analíticamente se puede expresar como
Z = {Z1, Z2, .. ., ZT} ; Z {Z (s, t); s ES, t ET}, (13.1.1)

donde «s» representa el comportamiento en el estado de los sucesos aleatorios y «t» el com-
portamiento en la dimensión temporal. Es en este contexto en el que cabe interpretar las series
de tiempo como realizaciones de un proceso estocástico, es decir, dado (realizado) un suceso
determinado, so (del espacio de sucesos), observamos la serie Z(so , t) a lo largo del tiempo
(ordenada cronológicamente) 1 . Bajo ciertas condiciones de estabilidad temporal, los datos que
observamos (fruto de una realización) pueden permitir caracterizar al proceso generador de
datos.
Lógicamente un proceso estocástico tiene que tener una función de distribución conjunta,
del tipo habitual,
(13.1.2)
pero normalmente en un proceso estocástico solo conocemos un valor de cada una de las «T»
variables que componen el proceso (o punto muestra), y en consecuencia no podemos conocer
su función de distribución conjunta, que puede ser muy compleja.
1
La función real Z(s, t) es un proceso estocástico que depende del tiempo y del suceso. Si fijamos el tiempo,
Z(s, to ) define una variable aleatoria, si fijamos tiempo y suceso, Z(so, to) define un número real.
Tema 13 457
Figura 13.1.1: 10.000 observaciones del proceso estocástico de un dado con dependencia
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
....
N
o
N
00
....
0 .00 0.25 0 . 50 0 . 75 1.00
Afortunadamente Kolgomorov demostró que si se cumplen las condiciones de simetría

fcuando la permutación temporal de las variables del proceso no afecta a su distribución
conjunta) y compatibilidad (cuando el proceso estocástico se puede reducir mediante mar-
ginalización al análisis de un conjunto finito de elementos), entonces no es necesario conocer la
función de distribución conjunta para poder hacer inferencia estadística. Ambas condiciones
e cumplen si el proceso estocástico es estacionario, un concepto que definiremos inmediata-
mente.
Un ejemplo sencillo de proceso estocástico lo define la sucesión de variables aleatorias
formada por los números enteros (del 1 al 6) que resulta de tirar un dado. Otro ejemplo es
la sucesión de números reales que nos proporcionaría un ordenador si le pidiéramos que nos
proporcionara una realización de una distribución, por ejemplo (de la distribución) normal.
En ambos casos las observaciones serían independientes, y por tanto su estructura temporal
tendría escaso interés.
Consideremos una variante del ejemplo del lanzamiento del dado. Ahora el proceso esto-
cástico consiste en lanzar el dado y anotar su valor (p. ej., el número de puntos en la cara
uperior del dado) , pero cada vez que salga el número 6, la siguiente tirada contabiliza el do-
ble, y si se obtiene de nuevo otro 6, entonces cuenta el triple, y así sucesivamente. Ahora este
proceso estocástico tiene - por construcción- estructura o dependencia temporal. La Figura
13.1.1 es una realización del mismo a lo largo de 10.000 puntos temporales. Se puede observar
que, por ejemplo, las cien primeras observaciones parecen muy similares a las cien siguientes,
y así sucesivamente.
Para analizar teóricamente los procesos estocásticos definimos los siguientes momentos de
las distribuciones marginales:
JE (Zt) = µt , para t = 1, 2, .. ., T, (13.1.3)

que no es más que la esperanza no condicionada de las variables aleatorias (o esperanza

marginal) de que consta el proceso.
La varianza marginal es,
var (Zt) = at, para t = 1, 2, ... , T. (13.1.4)

La dependencia entre las variables aleatorias del proceso estocástico se representa por
las funcion es de covarianza y correlación entre dos variables del proceso en dos instantes
cualesquiera:
'Y (t, t +u) = COV (Zt, Zt+u) =JE [(Zt - µt) (Zt+u - µt+u)] (13.1.5)
es la covarianza, que denominaremos función de autocovarianza, puesto que se refiere a
la covarianza de dos variables cualesquiera del proceso en distintos momentos de tiempo. u
representa el retardo (o adelanto en el tiempo) respecto de Zt. Si el desfase es nulo, u= O, y
entonces obtenemos de nuevo la varianza del proceso.
El coeficiente de correlación, que denominaremos función de autocorrelación, mide la
correlación entre dos variables del proceso en distintos momentos de tiempo,
cov (Zt, Zt+u) 'Y (t, t +u)

p (t t+u ) - - -1 - - -1 - ---- (13.1.6)
' - ªtªt+u - "1 / (t, t) "1 / 2 (t +u, t +u)'
2
y como cualquier correlación su valor está acotado entre 1 y -1.
13.1.1. Procesos estocásticos estacionarios

Un proceso estocástico es estacionario , en sentido estricto , si las funciones de distribución
de las variables aleatorias que lo componen son idénticas, es decir, si
(13.1.7)
donde las funciones de distribución marginal (o de cada una de las variables del proceso) son
iguales , lo que permite considerarlo de hecho, como si fuera una única variable aleatoria con
«T » repeticiones.
El conocimiento de las funciones de distribución de las variables que componen el proceso
resulta inalcanzable si, como es habitual, solo tenemos una realización de cada una de las
variables. Para solventar este problema suele recurrirse al concepto de proceso estocástico
estacionario en sentido débil.
Definición 10. Un proceso es estacionario en sentido débil si
l.ª µt =µpara todo t,

ª
2. at = a 2 para todo t, (13.1.8)
3.ª 'Y (t, t +u) = 'Y (t, t - u)= "fu= 'Y-u·
Tema 13 459
Es decir que un proceso estocástico es estacionario en sentido débil si tiene media y varianza
constantes para todo t y la función de autocovarianza solo depende del desfase temporal u.
Esta última condición también se puede escribir como Pu = P-u· A estos procesos también se
les conoce como procesos estacionarios en covarianza.
El ejemplo del proceso estocástico con estructura temporal del dado (ver Figura 13.l.l) ,
las 100 primeras observaciones se parecen a las siguientes 100, por lo que lo mismo daría
comenzar a observar la realización de un proceso en un momento o en otro. Esto es así porque
su media no ha cambiado, y tampoco lo han hecho su varianza y covarianzas. Se trata, por
tanto, de un proceso estocástico, que teniendo estructura temporal, es estacionario en sentido
débil o estacionario en covarianza.
En numerosas ocasiones las variables económicas no presentan estas características (es
decir, no son estacionarias), de manera que para poder aplicar la modelización univariante
que presentamos en este tema es muchas veces imprescindible convertir primero las series
económicas en estacionarias. Si bien, como veremos en otros temas, esto no siempre es así.
A continuación examinamos los principales procesos estocásticos empleados dentro esta
aproximación metodológica.
13.1.2. Proceso ruido blanco

Un proceso estocástico de gran importancia es el denominado proceso de ruido blanco.
Responde a la siguiente expresión analítica
(13.l.9)
y puede ser escrito en desviaciones a las medias sin pérdida de generalidad, es decir que
expresado de esta forma , el proceso ruido blanco sería:
Ruido blanco
Zt = Et, (13.1.10)
y satisface
l. a JE (Zt) = 0, t = 1, 2, .. ·
2.ª var (zt) = rJ¡, t = 1, 2, ... (13.1. 11)
3.ª COY (zt, Zt+u) =/u= 0 para todo U/- 0.
Consiste, por tanto, en una secuencia de variables aleatorias con media nula y varianza cons-
tante. La tercera condición también se puede escribir como: Pu = O, para todo u 1- O. Intuiti-
vamente, y de forma menos precisa, podemos decir que en un proceso de ruido blanco, conocer
los valores pasados no proporciona ninguna información sobre los valores futuros. El proceso
no tiene memoria. Por tanto, es evidente que el ruido blanco es un proceso estacionario débil.
Si reemplazáramos la tercera condición por la siguiente:
Zt, Zt+u son independientes para u 1- O

entonces diríamos que es un proceso de ruido blanco independiente o ruido blanco estricto.
En los casos en los que ét se acomoda a la distribución normal N(O, o- 2 ) decimos que se
trata de ruido blanco gausiano.
A modo ilustrativo consideremos, por ejemplo, un proceso que consiste en empezar en
un zo cualquiera. Si observamos que Zt > O, entonces Zt+l lo extraemos de una distribución
normal N(O, l) ; pero si observamos que Zt < O, entonces Zt+l lo extraemos de una distribución
uniforme U (-1/V3, 1/V3). Este proceso estocástico es estacionario, aunque temporalmente
no es independiente. También se puede comprobar fácilmente que es un proceso de ruido
blanco: su media es nula, la varianza es constante, y las covarianzas son nulas. Por tanto,
como es ruido blanco, la distribución es la misma a lo largo del t iempo y el proceso es
temporalmente independiente, entonces el proceso sería ruido blanco independiente, que se
corresponde con las siglas i.i.d, que hemos utilizado en otros temas.
13.2. ESTIMACIÓN DE LOS MOMENTOS DE PROCESOS ESTACIO-

NARIOS
Supongamos, como es habitual, que contamos con una única realización de un proceso
estocástico estacionario, con mediaµ= JE (Zt), varianza a-;= /O = var (Zt) y autocovarianzas
/u = COV (Zt, Zt-u)·
En estas condiciones un estimador del primer momento, es decir, de la media poblacional,
es la media muestra!: que será una media temporal,
(13.2.1)
Una forma alternativa de estimar la media (esperanza) del proceso sería obtener diferentes
realizaciones del proceso y ensamblar entonces la media a partir de las mismas. Esto , sin
embargo, supondría repetir la historia más de una vez, lo cual no es posible con los datos
económicos. En consecuencia, aspiramos a poder estimar la media poblacional a partir de la
media muestra! temporal.
Consideremos que tenemos datos independientes, en ese caso la varianza de la media mues-
tra! es var (.Z) = a- 2 /T, y por tanto al aumentar el tamaño de la muestra, el error cuadrático
2
medio JE ( Z - µ) de la estimación tiende a cero, lo cual es deseable. Desafortunadamente,
esta convergencia no está garantizada para todo proceso estacionario. Por ejemplo, un pro-
ceso con media cero y varianza o- 2 tan simple como Z1 = Z2 = Z3 = ... , es estacionario
sin embargo, pese a que la esperanza JE (Z) = O, cuando tengamos una única realización
Z1 = Z2 = Z3 = ... = Zr , la varianza de la media muestra! (temporal), es decir,
var (.Z) ; , var (t z,)

1
T 2 [var (Z1)+ ... + var (Zr) + 2cov (Z1, Z2) + 2cov (Z1, Z3)
+... + 2cov (Z1, Zy) + 2cov (Z2, Z3) + ... + 2cov (Z2, Zr) +
+... + 2cov (Zr-1, Zr)],
Tema 13 461
no será asintóticamente nula. La correlación entre una observación y la siguiente, que es idén-
tica por la definición del proceso, es unitaria y por tanto las covarianzas de la expresión serán
constantes a lo largo del tiempo. Lo fundamental es percatarse de que en este proceso en
particular cada nueva observación, al ser idéntica a la anterior, no proporciona nueva infor-
mación, es decir, tiene una dependencia muy fuerte respecto de la anterior, y esta dependencia
no se atenúa con el paso del tiempo. Este tipo de dependencias entre las observaciones no
permite que la media muestral colapse asintóticamente con la esperanza o media poblacional,
µ, incluso si el proceso es estacionario, cuya media poblacional es por definición constante.
Estas situaciones han de ser descartadas porque nos conducen a estimaciones erróneas del
primer momento (media poblacional).
Para garantizar la convergencia, es necesaria una condición más: que el proceso sea ergó-
dico. Si el proceso es ergódico la media muestral temporal nos conduce asintóticamente a la
media poblacional.
Decimos que un proceso es ergódico para la estimación de la media

cuando se cumple que
lím JE (.Z - µ)2 -+ O, (13.2.2)

T-+oo
Esta es una propiedad importante porque garantiza que la diferencia entre el estimador
de la media Z y su verdadero valorµ tiende a cero cuando T aumenta, es decir, var (.Z) -+O.
Nos interesa por tanto conocer bajo qué condiciones el proceso estacionario es ergódico para
la media.
Ya hemos visto que cuando las observaciones son independientes en un proceso estacio-
nario, el error cuadrático medio tiende a cero cuando T aumenta, sin embargo cuando las
observaciones del proceso estacionario no son independientes, para calcular el error cuadráti-
co medio debemos tener en cuenta las funciones de covarianza, es decir que
var (.Z) =JE (.Z - µ) =~JE [I:i'=i (Zt -

2
u)r
=~JE [L:i'= 1 JE(Zt - u) + 2¿[= 1 I:f=i+lJE((zi - µ) (zJ
2
- µ))] (13.2.3)
= ~JE [17 + 2 ¿[=1 ( 1 - ,¡,) 'Yi J ,

2 1
de manera que la condición para que la varianza tienda a cero al aumentar la muestra es que
el sumatorio de la última expresión converja hacia una constante. La condición suficiente (no
necesaria) para que esto suceda es que
lím "fu-+ O, (13.2.4)

u-+oo
lo que se denomina dependencia débil en covarianza e implica que cuando aumenta el

desfase la covarianza tiende a cero. En consecuencia, para que el proceso sea ergódico es
condición suficiente que exista dependencia débil en covarianza.
Por tanto podemos decir que la dependencia serial en el proceso es admisible siempre que
tienda a desaparecer con el tiempo. Esta observación está en cercana sintonía con lo previsto
para el comportamiento de la covarianza en la versión de la Ley de los Grandes Número
dada en la Proposición 2. Adicionalmente, conviene tener presente que para cualquier función
medible f , la sucesión {f(Zi)} es ergódica siempre que lo sea el proceso Zi, por lo que si un
proceso es estacionario y ergódico, entonces cualquiera de sus momentos (si existen) se podrá
estimar consistentemente a partir del correspondiente momento muestral.
En términos más generales, un proceso es ergódico respecto a un parámetro ~ cuando el
estimador {r calculado sobre una serie temporal converge en media cuadrática a un estimador
~ análogo definido sobre una muestra de réplicas independientes del proceso . La ergodicidad
es una restricción sobre la memoria del proceso necesaria para poder estimar consistentemente
las características del mismo a partir de una única realización.
La estacionariedad no garantiza la ergodicidad. Hemos visto que la memoria de un proceso
se mide por la covarianza entre dos variables distanciadas u periodos. En cambio la condición
de estacionariedad no implica una restricción de memoria, obsérvese que solamente afecta
a la homogeneidad temporal: todas las variables distanciadas u periodos tienen una misma
covarianza, /u, para cualquier u.
A modo de resumen, y para cerrar la cuestión de la ergodicidad, y evitar así una exposición
más técnica, que excede el nivel diseñado para este manual, cabe indicar lo siguiente respecto
a los requisitos de ergodicidad y estacionariedad. La estacionariedad la pensamos en término
de restricción sobre la heterogeneidad temporal del proceso, mientras que la ergodicidad limita
su memoria. Se pueden concebir procesos estacionarios no ergódicos y procesos ergódicos no
estacionarios, aunque, en general, la ergodicidad no suele definirse para procesos no estacio-
narios. El requerimiento conjunto de estacionariedad y ergodicidad asegura que con una única
serie temporal se pueden obtener estimadores consistentes de los momentos poblacionales. De
ambos requisitos el más fuerte es el relat ivo a la estacionariedad. Sería posible técnicamente
relajar la estacionariedad requiriendo condiones más fuertes que la ergodicidad. No obstante
estas vías no se explican en este libro. Todos los procesos presentados en este tema serán
lineales y estocásticos, lo cual garantiza la ergodicidad, y por tanto no nos preocuparemos por
ella.
Un elemento de enorme utilidad en un proceso estocástico estacionario y ergódico, es que
la función de densidad conjunta de un subconjunto de T variables de dicho proceso, condi-
cional en unos valores iniciales dados, coincide con el producto de las funciones de densidad
condicionales escalares (individuales) con un número finito de parámetros constantes. Jus-
tamente esta propiedad es la que permite realizar inferencias sin la necesidad de conocer la
función de distribución conjunta. De lo contrario sería casi imposible.
13.2.1. Inferencia de la función de autocorrelación

A partir de la función de autocovarianza definida anteriormente, bajo el supuesto de
estacionariedad se tiene
/u = ¡ (t, t +u) = cov (Zt, Zt+u) =JE [(Zt - µ) (Zt+u - µ)].

Tema 13 463
Del mismo modo la función de autocorrelación será ahora

cov (Zt, Zt+u) / (t, t +u) /u
Pu = p (t, t + u ) = = ¡ 1/ 2 (t, t) ¡ 1/2 (t +u, t +u)
O"to"t+u /O
Donde observamos que la diferencia entre la función de autocorrelación y la de autocovarianza

viene dada solo por el factor inverso de la varianza (constante) del proceso estacionario en
cuestión. En caso de u= O se tiene que Po = 10/":fo = l.
Por tanto , ambas funciones reflejan la misma información. Así pues comparten propiedades
importantes para los procesos estacionarios. Una propiedad es que los procesos estacionarios
de variable real satisfacen Pu = P-u , o equivalentemente /u =/-u· Si formáramos la sucesión
o secuencia de {Po, PI, p2, ... } tendríamos una sucesión de número reales que caracterizarían un
proceso estacionario. Sin embargo, no es posible cualquier combinación de números para esa
secuencia para un proceso estacionario. Algo que intuitivamente comprobaremos más adelante
cuando analicemos varios procesos típicos.
La función de autocovarianza, la varianza y la media caracterizan totalmente a un proceso
estacionario débil o en covarianza. Por este motivo es importante poder estimarlas y realizar
inferencia sobre sus versiones poblaciones.
Ya hemos visto que la media del proceso se estima simplemente, por tanto podemos cons-
truir el estimador de la función de autocovarianza:
T
:Yu = ~ L (Zt - z) (Zt-u - z). (13.2.5)
t=u+l
Y a partir de la ecuación anterior, el estimador de la función de autocorrelación sería:
~ iu (13.2.6)
Pu= -:---,
'º
donde el denominador es la varianza del proceso calculado a partir de la función de autoco-
varianza sin desfase i o.
De hecho si la serie presenta dependencia débil en covarianza, en el sentido de que las
autocovarianzas decrecen rápidamente con el aumento del desfase, también lo hará la función
de autocorrelación puesto que esta no es más que el cociente entre la autocovarianza y la
varianza del proceso, Pu = :Yu / %. Es decir, la función de autocorrelación contiene la misma
información que la función de autocovarianza, pero tiene la ventaja de no depender de las
unidades de medida.
Denominamos correlograma a la representación gráfica de la función de autocorrelación,
para los sucesivos desfases, u= 1, 2, ... , k .
Para determinar si un valor concreto Pu de los k estimados es significativamente distinto
de cero, se toma como referencia un proceso ruido blanco independiente -es decir, se compara
con el proceso que no tiene ninguna estructura temporal ni memoria- . Los sucesivos valores
de Pu para u = 1, 2, ... para un ruido blanco tendrían las siguientes característica:
JE (Pu) =o
var (Pu)=~ (13.2.7)
cov (Pu , Pu+h) = O para todo h i= O.
464 MODELOS ESTACION ARIOS DE SERIES TEMPORALES
De hecho la sucesión de Pu para u = 1, 2, .. . estaría formada por valores que serían aproxi-
madamente independientes y normalmente distribuidos 2 . P or tanto, tras escalar por el factor
correspondiente, obtendríamos una distribución asintóntica normal estándar que nos faci lita
poder contrastar la hipótesis nula de que un Pu concreto es nulo (Ho : Pu= O). P ara ello rea-
lizamos el contraste de hipótesis nula usual , y rechazamos la hipótesis nula con el 95 % de
confianza si
Pu -o 1 I~ I 1, 96 (13.2 .8)
1
l/ VT > 1, 96 ; Pu > ..fJ',
es decir que si un valor concreto de Pu est á fuera del intervalo ± 1, 96 / ..ff' entonces podemos
afirmar que Pu es distinto de cero. Veamos un ejemplo para repasar todo lo visto hasta ahora.
Ejemplo 37. Proceso de ruido blanco

Generamos por ordenador un proceso de ruido blanco con 200 observaciones cuyo gráfico se
reproduce en la Figura 13.2.1.
Figura 13.2.1: Proceso ruido blanco
~ 1! A 1 ~
r~~ ~
11
~
·1
·2
·3
25 50 75 100 125 150 175 200
Los valores presentan un nivel estable alrededor de su media , y la variabilidad de la serie se

mantiene aproximadamente constante a lo la rgo de todo el proceso , de manera que en principio
el gráfico muestra un proceso estocástico con media y varianza constantes, es decir, un proceso
estacionario.
Algunos datos de la serie se reproduce n en la Tabla 13.1.
2
La demostración excede ligeramente el nivel del libro de texto.
Tema 13 465
Tabla 13.1: Ruido blanco

1 obs 1 RB 1
1 0,397622
2 -0,853086
3 0,944001
... .. .
198 -1,206685
199 -1,104331
200 -1,851134
La media es
-E O, 397622 - O, 853086 + .. . - 1, 104331 - 1, 851134 O O O

R = = - 1 16 6.
200 '
La varianza
2 2
var (RE) = (O, 397622 +O, 101606) + ... + (-1, 851134 +O, 101606) = .
1 057522
200 '
La autocovarianza con un desfase es
A
/'1 = 2?10 2.::t=
200 (
2 REt -
- ) (
RE - )
REt-1 - RE
= 200 {[(-0, 853086+O,101606) (O, 397622 +O, 101606) + ... ]}=O, 01269,
y su autocorrelación
~ = i'1 = o, 01269 = o 012

Pl i'o 1, 057522 ' .
La autocovarianza con dos desfases es
A
/'2 = 2?10 2.::t=
200(
3 REt -
-)(
RE RBt-2 - R-E)
= 200 {[(O, 944001+O,101606) (O, 397622+O,101606) + ... ]}=O, 01163 ,
y su autocorrelación
~ i'2 0,01163
p2 = i'o = 1, 057522 =O, Ol l.
De forma sucesiva podemos calcular la función de autocorrelación para desfases sucesivos

(correlograma). Los valores así calculados serán significativamente distintos de cero si su valor está
466 MODELOS ESTAC IONARIOS DE SERIES TEMPORALES
fuera del intervalo ±1 , 96 / v'205 = ± 0, 139, de manera que los dos primeros valores calculados
O, 012 y O, 011 no son significativamente distintos de cero.
El correlograma (función de autocorrel ación) para k = 20 , se reproduce en la Figura 13.2.2 .
Figura 13.2.2: Corre ~gr~ma - f~ n ción de autocorrelación de ruido blanco
1 2 3 4 5 6 7 8 9 W 11 12 13 M 15 16 17 IB 19 W
Desfases
Como podemos observar, el corre lograma presenta valores en todos los desfases dentro del
intervalo ± 0 , 139 que se representan en el gráfi co mediante sendas líneas paralelas al eje de abscisas.
En definitiva , puesto que el gráfico de la serie presenta media y varianza constantes y además
el correlograma observa desfases incorrelacionados conclu imos que la serie RE refleja la imagen
empírica de un proceso puramente aleatorio o ruido blanco .
También sería posible calcular y dibujar el correlograma del ejemplo del dado, que hemo
citado anteriormente. La Figura 13.2.3 representa el correlograma de los datos representado
en la Figura 13.1.1. Las bandas en torno al cero representan el intervalo de confianza asin-
tótico al 95 % donde deberían estar los coeficientes de autocorrelación estimados si la serie
hubiera sido generada por un proceso de ruido blanco. Se aprecia que no es el caso , tal y
como esperábamos puesto que no se trata de un proceso de ruido blanco, sino de un proceso
con dependencia temporal por construcción. Resulta interesante detenernos un momento en
este proceso denominado "del dado" para observar que sería posible reproducir fácilmente el
correlograma con un proceso estocástico sencillo. Y en este sentido podríamos decir que ambos
son equivalentes, o bien que dicho proceso teórico representa al proceso estocástico del dado.
Lo cual es indicativo de algo que ya habíamos sugerido: dada una media y una varianza, todo
lo que importa o caracteriza el proceso está en la función de autocorrelación . Lógicamente
habrá diferencias entre el proceso teórico que podríamos generar para emular la función de
autocorrelación de proceso estocástico que genera los números observados en el caso del dado
y el propio proceso generador de la dinámica del dado, pero esas diferencias no son percibibles.
13.3. PROCESOS INTEGRADOS

Las series económicas generalmente no son estacionarias. En general un proceso puede no
ser estacionario en media, en varianza o en autococarianza. Cuando el nivel de la serie no es
Tema 13 467
Figura 13.2.3: Correlograma de realizaciones del ejemplo del dado
~ -
~ -
d -
~ -
---• -----
- - - -- - - .--. - - --
--
- -
-
----- -
- - - --
- illr'- - - -- -
- - - - -- - - --
- -- - - - - - ---
o 2 4 6 8 10
estable en el tiempo, presentando tendencias crecientes o decrecientes, decimos que la serie

no es estacionaria en media. Cuando la variabilidad se modifica con el tiempo decimos que la
serie no es estacionaria en varianza.
La pregunta es evidente: ¿por qué estudiar o preocuparse de los procesos estacionarios
cuando en las ciencias económicas y sociales, en general , los datos no lo son? El motivo prin-
cipal es que queremos garantizar una correcta inferencia estadística, y por tanto es preferible
acomodar la serie para que cumpla los supuestos que garantizan la inferencia (es decir , que
sea factible la estacionariedad). La acomodación es posible realizarla simplemente por trans-
formaciones en la serie a estudiar que la conviertan en estacionaria. Obviamente no toda
transformación es factible. De hecho solo las transformaciones monótonas permiten recuperar
siempre (y fácilmente) la serie original. Si estudiamos una serie transformada adecuadamen-
te, será exactamente igual a estudiar la serie original. Por ejemplo, es equivalente hacer una
predicción del nivel PIB , de su logaritmo, o de su tasa de crecimiento. Si somos capaces
de predecir uno, seremos capaces de predecir los restantes. Generalmente no predecimos los
precios o el nivel de producción, sino sus tasas de crecimiento. Veremos a continuación las
transformaciones más habituales.
Los procesos no estacionarios generalmente decimos que son procesos integrados en el
sentido de que al diferenciarlos se obtienen procesos estacionarios. Iremos viendo que frecuen-
temente las series en diferencias relativas, o las diferencias cuando medimos las variables en
logaritmos, son estacionarias.
En general diremos que un proceso es integrado de orden d, denominado I (d), si para
obtener un proceso estacionario debemos realizar d diferencias sucesivas (o regulares). Un
proceso es integrado de orden cero, I (O), si es estacionario sin necesidad de someterlo a
ninguna transformación.
A estos efectos resulta de gran utilidad definir un operador de diferencias ~ de la siguiente
forma: 6.Xt = Xt - Xt-1 . Decimos operador puesto que podemos realizar operaciones con el
mismo sobre un proceso: ~~Xt = Li 2 Xt = d[d(Xt)] = d(Xt - Xt-1) = Xt - 2Xt-1 + Xt-2 y
de forma similar podemos definir Lii.
Los modelos univariantes en muchas ocasiones presentan observaciones con periodicidad
menores al año (semanal, mensual, trimest ral o semestral), tal y como vimos en la Sección 7.4 .
Por ejemplo, si los datos fueran trimestrales, entonces podría resultar útil hacer una diferencia
estacional para estudiar la variable Xt definida con esta diferencia estacional: Xt = Xt - Xt-4.
que denotamos, en general, por ~i siendo i el número de periodos a considerar dentro , en este
caso, del año. Esta transformación en una nueva variable Xt contempla (y remedia) la poten-
cial ausencia de estacionariedad en la dimensión estacional. Aplicar diferencias estacionales
para conseguir series estacionarias en la dimensión estacional se consigue haciendo diferencias
estacionales. Tenemos entonces dos dimensiones (regular y estacional) en las que se puede
resolver la no estacionariedad con las respectivas diferencias regulares y/ o estacionales.
En definitiva, podemos generalizar los procesos integrados si tenemos en cuenta tanto
la dimensión regular, diferencias sucesivas, como la estacional, diferencias estacionales. Un
proceso será integrado de orden d regular y orden D estacional, I (d, D) , si para ser estacionario
se requieren d diferencias sucesivas y D diferencias estacionales. En general se suelen conseguir
series estacionarias con un orden de integración reducido, d + D :::; 3.
En general diferenciando conseguimos procesos estacionarios en media pero en ocasiones
la varianza no es, pese a la diferenciación, constante en el tiempo. En muchos de estos casos.
pero no siempre, se consiguen series con variabilidad constante transformando previamente
mediante la aplicación de logaritmos. La familia de transformaciones sugeridas por Box y
Cox (1964) es más general e incluye la t ransformación en logaritmos como caso particular.
La transformación de Box-Cox se puede escribir de la siguiente forma:
y;_ X{-1
t - >. , (13.3.1)
y si >.~O obtenemos la transformación logarítmica.

Una forma práctica de estimar >. es hacer grupos de observaciones consecutivas de la
serie original Xt (si la serie es anual se toman grupos de 5 o 6 observaciones y para series
estacionales de periodo s conviene hacer grupos de ese tamaño). Calculamos las respectivas
medias y desviaciones típicas de los grupos, Xi y Sxi. El parámetro>. lo podemos calcular a
partir de la pendiente de la regresión por MCO,
(13.3.2)
y una vez calculado el parámetro >. realizamos la transformación sobre los datos originales
utilizando la expresión (13.3.1) para obtener yt , donde la variabilidad de la serie no depende
del nivel de la misma.
Veamos un ejemplo para ver cómo podemos obtener a partir de una serie integrada una
serie estacionaria.
Ejemplo 38. Matriculaciones de vehículos

Las matriculaciones ordinarias de vehículos son un buen indicador de la coyuntura económica
de un país. Al tratarse (el coche) de un bien de consumo duradero, sus movimientos son sensibles
a las modificaciones de la riqueza y de la perspectiva económica.
La Figura 13.3.1 muestra la serie original de matriculaciones en España entre enero de 1960 y
diciembre de 2011.
Tema 13 469
Figura 13.3.1: Matriculaciones en España 1960 - 2011

200,000
160.000
120000
80000
40000
O +.-.,~~~~~~~~~~~~
~ ~ ro 7S 00 ~ 00 ~ 00 ~ 10
Los valores van variando con el tiempo, es decir que las matriculaciones no parecen estacionarias
en media; además la variabilidad también va aumenta ndo a medida que transcurre el tiempo .
El correlograma , con 48 retardos, se reproduce en la Figura 13.3.2. Todas las autocorrela-
ciones son positivas y significativas; la línea paral ela al eje de abscisas muestra el valor crítico
v'624
( 1, 96 / = O, 078) . Desde luego la serie no prese nta dependencia débil en covarianza , puesto
que la función de autocorrelación debe acercarse a cero rápidamente a medida que aumenta el
desfase , lo que no ocurre en este caso como puede apreciarse en la Figura 13.3 .2.
Figura 13.3.2: Matriculaciones - función de autocorrelación
0,9
0,8
0,7
0,6
o.s
0,4
º"
º"
0,1
13579UUUD~llD~V~llD~n~uuoo
Podemos suponer que la serie es integrada de orden uno I (1) y, en consecuencia , calcular una
primera diferencia de la serie en niveles, es decir,
d (matt) = 6matt = matt - matt-1·

La Figura 13 .3.3 reproduce el gráfico de la seri e de las primeras diferencias de las matricula-
ciones.
Figura 13.3.3: Matriculaciones en primeras diferencias

60000
•0000
20000
-20 000
'30.000
-80000
.100_000 ..........~~~~~~~~~~~~
oo ~ ro ~ ~ § oo ~ oo ~ 10
Ahora parece que la serie es estaciona ri a en media pero su variabilidad va aumentando con
el tiempo ; por tanto la serie puede que sea estacionaria en media, pero desde luego no lo es en
varianza. En muchas ocasiones la no estaciona ridad en varianza se soluciona aplicando logaritmos
a la serie.
Para ver si es así [y recordando que si >. '.: :'. O en la transformación de Box-Cox, expresión
(13.3.1 ) , entonces la transformación en logaritmos es correcta para conseguir variabilidad constante
con independencia del nivel de la serie] , aproximamos el parámetro >. estimado de la expresión
13.3.2 , cuyo resultado es
lnSMATi = e + (1 - >.) ln MAT i = 2, 6 + 1, 05lnMATi, ( 13. 3.3)
donde S MATi y MAT i son , respectivamente , la desviación típica de las matriculaciones y su

media considerand o grupos anuales o de 12 observaciones. El parámetro >. , en consecuencia , es
-0 ,05 (1 - 1, 05) que podemos considerar suficientemente cercano a cero como para aceptar que
la transformaci ón logarítmica basta para conseguir variabilidad aproximadamente constante a lo
largo de la serie de matriculaciones.
Por consiguie nt e suponemos que las mat ric ulaciones en logaritmos son integradas de orden uno
I ( 1) . Es decir que consideramos la siguient e transformación
d [ln (matt)] =6 ln (matt) = ln (matt) - ln (matt-1),
cuyo gráfico se reproduce en la Figura ( 13.3.4) .

Tema 13 471
Figura 13.3.4: Primeras diferencias del logaritmo de las matriculaciones
Ahora parece que media y varianza son constantes. No obstante , se aprecia una fuerte estacio-
nalidad, de manera que debemos comprobar también que la serie es estacionaria en la dimensión
estacional, es decir, debemos comprobar que la serie presenta dependencia débi l en covarianza en
el orden estacional. Puesto que la serie es mensual, los retardos estacionales (12, 24, 36, 48 , ... )
deben también decrecer rápidamente a medida que aumenta el desfase estacional. La Figura 13.3.5
muestra la función de autocorrelación de las matricu laciones en logaritmos en primeras diferencias
d [ln (matt)].
Figura 13.3.5: Primera diferencia de las matriculaciones en logaritmos - función de autocorrelación
º·ª
o.6
o.•
0,2
·0,2
.Q,4
1 3 s 7 9 1113 15 17 19 21 23 25 27 29 3133 35 37 39 4143 45 47
Observamos que la función de autocorrelación decrece lentamente en el orden estacional (re-

tardos 12, 24 , 36 y 48 , destacados mediante barras con fondo negro). Por tanto debemos corregir
la no dependencia débil en covarianza en el orden estacional. Suponemos en consecuencia que las
matriculaciones en logaritmos son una serie integrada de orden uno regular y estacional J(l , 1), de
manera que calculamos una diferencia estacional ad icional ,
Dd [ln (matt)] = .612 ln (matt) = d [ln (matt)] - d [ln (matt-12)]

= [ln (matt) - ln (matt-1)] - [ln (matt-12) - ln (matt-13)],
donde la D (.6 12) significa la aplicación de una diferencia estacional y d (.6) una diferencia regular
o primera diferencia .
472 MODELOS ESTACIO NARIOS DE SERIES TEMPORA LES
La diferencia regular y estacional de las ma t riculaciones en logaritmos se reproduce en la Figura

13.3.6.
Figura 13.3.6 : Primeras diferencias regular y estacional del log de matriculaciones

06
04
02
00
-O 2
-O 4
-06
-08
- 1.O ;-,-.,.......,_,....,-.,...,....,-r-r.,...,-,c--r-.-T"T".-T""T,..,....rTT-r-r-,.,.,.-.-..-m..,-,-m-.-.-r.-.-rr.,..,..,-
60 65 70 75 80 85 90 95 00 05 10
Aparentemente la serie es ahora estacionaria en media y varianza y parece haber desaparecido el

fuerte componente estacional. Para verifica rlo recurrimos de nuevo a la función de autocorrelación
( correlograma) utilizando 48 retardos cuyo gráfico reproducimos en la Figura 13.3.6.
Figura 13.3.7 : Funciones de autocorrelación de la primera diferencia regular y estacional de los

logaritmos de las matriculaciones
r
º"
0,1
1 o
-0,1
. -0,l
l -0, l
-0,4
-O,>
Ahora el correlograma presenta una imagen más clara . En el orden regular es claramente
significativo el primer retardo y en el orden estacional el retardo de orden 12 y quizás también
el de 24 meses (destacados mediante barras con fondo negro). Tanto en el orden regular como
en el orden estacional las funciones de autocorrelación decrecen rápidamente de manera que son
débilmente dependientes en covarianza . Debemos añadir que al aplicar una diferencia regular hemos
perdido una observación y al aplicar una diferencia estacional hemos perdido otras 12, de manera
Tema 13 473
que ahora disponemos de 611 observaciones (624 - 1 - 12 = 611), y en consecuencia los valores
críticos son ±0,08 (1 , 96/J6IT = 0,079), valores que se reproducen en el grá fi co mediante dos
líneas paralelas al eje de abscisas.
En definitiva podemos conclui r que las matricul aci ones en logaritmos son una serie integrada
de orden uno regular y estacional J (l, 1), es decir qu e aplicando una diferencia regular y otra esta-
cional a las mat riculaciones en logaritmos obtenemos un proceso estacionario. Ahora , tras realizar
estas transformaciones monótonas, que siempre perm ite n recuperar la serie original , estamos en
condiciones de poder aproximar la serie transformada a t ravés de una serie de modelos estacionarios
que veremos a continuación.
En resumen, hay una serie de desviaciones de la estacionariedad (tendencias y fenómenos

estacionales) que podrían ser tratadas sencillamente mediante transformaciones basadas en
diferencias. Otras desviaciones pueden ser más problemáticas, y ahora enunciamos un par de
ellos que serán tratados más adelante en otros temas. Nos referimos a los denominados cambios
estructurales o cambios en la volatilidad. U na vez la serie es adecuadamente transformada
podemos caracterizarla mediante la función de autocorrelación correspondiente a dicha serie.
El objetivo ahora sería encontrar un modelo estocást ico operativo y sencillo que reproduzca
la misma función de autocorrelación. Existen resultados teóricos (Teorema de Wold) que
garantizan que cualquier proceso estacionario débil puede ser perfectamente aproximado por
algunos de los modelos que expondremos a continuación.
13.4. PROCESOS AUTORREGRESIVOS
En general un proceso estocástico estacionario se denomina proceso autorregresivo de

orden p [también denominado AR (p)] si el valor actual de la serie (Zt) depende de la propia
variable en retardos sucesivos desde 1 hasta p. Analíticamente un AR (p) presenta la forma
siguiente:
Zt =</>o+ </>1Zt-1 + </>2Zt-2 + .. . + </>pZt- p +et , (13.4.1)

donde et es ruido blanco [IE (et) = O, var (et) = a: y "fu =O, u-=/= O]. Los parámetros </>i se
estiman por M CO.
13.4.1. Proceso autorregresivo de primer orden AR(l)

El proceso autorregresivo más simple es el proceso AR (1). Diremos que un proceso es un
proceso autorregresivo de primer orden si ha sido generado a partir de la siguiente expresión:
(13.4.2)
donde </>o y <f> 1 son valores a determinar y et ruido blanco.

Supongamos que el proceso así establecido comienza a partir de un valor cualquiera, que
denominaremos por ejemplo I , de manera que el primer valor es Zo = I , el segundo valor
474 Y!ODELOS ESTACIO!\ARIOS DE SERIES TEMPORALES
será Z1 =<Po+ <P1 I +el, el siguiente, Z2 =<Po+ </J1Z1 + e2 =<Po+ </>1 (<Po+ <P1I +el)+ e2, y
sustituyendo así sucesivamente tenemos que
Z1 = <Po + <P1I + e1
Z2 = <Po (1 + </>1) +<Pi I + </>1e1 + e2
Z2 =<Po (1 + </>1 +<Pi)+ <P1I + <Pie1 + </J1e2 + e3 (13.4.3)
Zt = </Jo 2::~:6 (<Pi) +<Pi I + 2::~:6 <Pi et-i·

Y como la JE (et) = O, la esperanza del proceso es
t-1
JE (Zt) =<Po L (<Pi)+ <Pif. (13.4.4)
i=O
Para que el proceso sea estacionario en media necesitamos que el primer término converja
a una constante y que el segundo se anule, lo que se consigue solo si l</> 11 < l. En efecto.
el primer término <Po ¿~:6 (<Pi) = <Po (1 + </>1 + <Pi + ... + <Pi- 1) es la suma de una progresión
geométrica de razón </>1 cuya suma converge a <Po/ (1 - </>1), y el segundo <Pi tiende a cero a
medida que t aumenta. En definitiva si 1</>11 < 1, la JE (Zt) converge en media rápidamente a
<Po/ (1 - <jJ 1 ) con independencia de las condiciones iniciales.
Al mismo resultado llegamos si partimos de la expresión (13.4.2). Para que la media sea
constante en todo el proceso se tiene que cumplir que JE (Zt) =JE (Zt-1) = ... =µy como la
JE (et) =O, y aplicando esperanzas a la expresión (13.4.2) obtenemos que
µ = <Po + rf>iµ;
(13 .4.5)
µ -- _<lsL_
1-</>1'
es decir que la media marginal es constante para todo el periodo si se cumple la expresión
anterior.
Igual que hicimos con el proceso ruido blanco, normalmente los procesos AR (1) se expre-
san, sin pérdida de generalidad, en desviaciones a las medias
(13.4 .6)
donde perdemos el término constante y las variables, Zt y Zt-1, aparecen en minúsculas indi-
cando que son variables centradas o en diferencias a las medias.
También es usual utilizar el operador de retardos cuya definición 3 es
BPzt = Zt-p, (13.4.7)

por lo que el proceso AR (1) utilizando el operador de retardos es
Zt = <P1Bzt +et; (13.4.8)

(1 - <P1 B) Zt =et,
3
En este punto se recomienda leer el apéndice correspondiente en el que se describen algunas propiedades
de este operador.
Tema 13 475
es decir, una serie centrada (o en desviaciones a las medias) sigue un proceso AR (1) con
parámetro </> 1 si al aplicarle el operador (1 - <f> 1B) se obtiene un proceso ruido blanco. Si
consideramos el operador como una ecuación en B , el coeficiente </>1 se denomina factor de
la ecuación, y también podemos llegar a la condición de estacionaridad utilizando la raíz de
la ecuación. Es decir, igualando el operador a cero y resolviendo la ecuación con B como
incógnita tenemos la ecuación y la solución (raíz)
1 - </>1B =O;
(13.4.9)
B =.l.
t/>1'
y el proceso será estacionario si B está fuera del círculo unidad, es decir, si IBI > 1
IBI = IJ1I > 1; (13.4.10)

l</>11 < l.
Un proceso AR (1) y en general los procesos AR se pueden expresar también como la suma
ponderada de procesos ruido blanco (denominado procesos de medias móviles como veremos
más adelante). En efecto, retardando un periodo la expresión (13.4.6) tenemos
Zt-l = </>1Zt-2 + Et-l, (13.4.11)

y sustituyendo en (13.4.6)
Zt = </>1Zt- l +Et= </>1 (</>1Zt-2 + Et-1) + Et= <f>izt-2 + </> 1Et-l +Et· (13.4.12)
Aplicando este procedimiento sucesivamente llegamos a
(13.4.13)
y bajo el supuesto de que t es grande, </>t será a efectos prácticos cero, es decir que un proceso
AR (1) (y en general cualquier proceso AR) se puede representar como la suma de ruido
blanco ponderada por una constante que decrece geométricamente, y suponiendo que la serie
comienza en el pasado lejano ( -oo) , podemos expresar los procesos AR como la suma infinita
siguiente:
00
Zt = L </>1Et-i· (13.4.14)
i=O
Aunque la esperanza del proceso (13.4.2) es </>o/ (1 - </> 1) , si utilizamos la expresión (13.4.6),
entonces el proceso AR (1) centrado (o en desviaciones a la media, </>o = O) tiene esperanza
nula
(13.4.15)
Sabiendo que el proceso centrado tiene media nula, tras elevar al cuadrado la expresión
(13.4.6), si aplicamos esperanzas obtenemos la varianza incondicional o incondicionada
JE ( zl) = JE (</> f z;_ 1 + 2zt-lét + e;) . (13.4.16)

Si denominamos a la varianza del proceso por O';, tenemos que
(13.4.17)
de manera que
2
2 O'é
O' z = ----;:?.
1 - 'f'l
. (13.4.18)
Lo cual nuevamente nos permite comprobar que para que la varianza sea positiva se hace
necesario el cumplimiento de la condición de estacionaridad, l</>11 < l.
Para calcular las funciones de autocorrelación partimos de la expresión (13.4.14). Multi-
plicando por Zt+u y aplicando esperanzas.
'Yu = JE (ZtZt+u) = JE ( L~o <Pi Et-i LÍ=o </>{ Et+u-j ) (13.4.19)

""00 ""00
= Di=O Dj=O </>1i </>J1JE (Et-iEt+u-j) ·
Encontramos que las esperanzas solo serán distintas de cero cuando los subíndices entre pa-
réntesis coincidan (puesto que el proceso ruido blanco está incorrelacionado), es decir, cuando
t - i = t - j + u, lo que ocurre cuando j = u + i, y sustituyendo j por u + i en la expresión
anterior tenemos que
"fu = JE (ZtZt+u ) = ""oo ,¡,i ,¡,u+iJE ( 2 )

D i=O lf'l 'f'l
2 ""oo ,¡,2i+u
'2Et-i = O'é Di=O 'f'l
1
= O'é2,¡,u ""oo ,¡,2i
'f'l D i=O 'f'l
(13.4.20)
= 0''1</>Y (1 + <Pr + <Pt + ... ) = ~~:~,
donde el único valor que cambia con el desfase temporal es </>f, que decrece geométricamente
si se cumple la condición de estacionaridad l</>11 < l.
La función de autocorrelación es
a2,i..u
~
Pu = "fu = 1-:1 = </>f, (13.4.21)
/O ~
1-</>1
de manera que la función de autocorrelación de un proceso AR (1) decrece de forma geométrica

en valor absoluto. Si el valor del parámetro </> 1 es negativo lo hará de igual forma, pero
cambiando de signo en desfases sucesivos.
13.4.2. Función de autocorrelación parcial (FAP)

La función de autocorrelación ayuda a caracterizar a los procesos AR: en general, si decrece
rápidamente nos encontraremos, como veremos posteriormente, ante un proceso AR.
Sin embargo la función de autocorrelación no nos informa del orden del proceso autorre-
gresivo. Para determinarlo, es decir para identificar el orden p de un proceso AR (p) debemos
recurrir a la función de autocorrelación parcial (FAP).
Tema 13 477
La a u to correlación parcial con k desfases, que denominaremos rf>kk, mide la influencia de

Zt-k sobre Zt descontada la influencia de los k-l valores anteriores de z: Zt-1, Zt-2, ... Zt-k-1· Es
decir, la autocorrelación parcial de orden k se refiere a la correlación entre Zt, Zt-k condicionada
a Zt-1, Zt-2, ... Zt-k-1·
Esta correlación vendrá dada por un coeficiente. rf>kk, que irá definiendo la función de
autocorrelación parcial para los desfases temporales 1 a k de cualquier proceso estacionario.
El coeficiente (poblacional) será el último coeficiente de los siguientes modelos que crecen
secuencialmente en orden (k = 1, 2, ... ),y que pueden ser fácilmente estimados por MCO:
Zt = r/>1Zt-1; donde r/>1 = r/>11

Zt = 'PlZt-1 + tp2Zt-2; donde 'P2 = r/>22 (13.4.22)
De esta manera la función de autocorrelacción parcial (FAP) vendrá dada (poblacional-

mente) por la sucesión {r/>11, r/>22, ... , r/>uu, ... , r/>kk}· Hay que distinguir esta función de la función
de correlación {p1 , p2, ... , Pu , ... , pk}, y para ello denominaremos a esta última función de au-
tocorrelación total (FAT).
Para estimar estos coeficientes FAP usaríamos la técnica MCO sobre modelos secuenciales
Zt = r/>1Zt-1 + EF); donde r/>1 = r/>11

Zt = 'PIZt-1 + i.p2Zt-2 + €?); donde 'P2 = r/>22
(13.4.23)
Donde E~u) hace referencia a los errores para cada uno de los modelos secuenciales. En
caso de que el proceso fuera un AR(l) , el error €?) sería ruido blanco (por definición de
AR(l)) , y el coeficiente poblacional r/>11 -=/- O, de lo contrario no sería un AR(l), y el coeficiente
muestra! estimado Ju
convergería asintóticamente al verdadero (a un valor distinto de cero).
Pensemos ahora cómo sería el último coeficiente de una de las ecuaciones siguientes, es decir
u > l. En estos casos, dado que el proceso es AR(l) y por tanto solo es relevante el valor
que toma la serie en el momento justamente anterior, una vez que dicho valor ya ha sido
considerado, pues la regresión u-ésima contiene el efecto en cuestión, tendríamos que rf>uu =O,
y por tanto su contrapartida muestra! Juu convergería a cero. Hemos comprobado que los
procesos autorregresivos de primer orden se caracterizan por tener una FAP en la que solo el
primer retardo es estadísticamente distinto de cero , mientras que los siguientes desfases son
estadísticamente nulos.
Para determinar si un valor concreto rf>uu de los k estimados en la FAP es significativamente
distinto de cero consideramos el proceso ruido blanco, es decir, consideramos que los valores
sucesivos de rf>uu para uu = 1, 2, ... son independientes y se distribuyen como una normal de
media cero y varianza unitaria. En estas condiciones, cada rf>uu se distribuye de la siguiente
forma:
E (<Puu) =O
Var (<Puu) = ~ (13.4.24)
Cov (<Puu, <Puu+h) =O para h ~ 1,
de manera que para contrastar la hipótesis nula de que un <Puu concreto es nulo (Ho : <Puu =O)
realizamos el contraste de hipótesis usual, y rechazamos la hipótesis nula con el 95 % de
confianza si
<Puu - O1 I 1, 96 (13.4.25)
l/ ,/f' > 1, 96; <Puul > ,/f' ,
1
es decir que si un valor concreto de <Puu está fuera del intervalo ± 1, 96 / ,/f' entonces podemos
afirmar que <PmL es distinto de cero con el 95 % de confianza.
Un proceso AR (l) presentará una F AP en la que solo el valor del primer desfase temporal
</>11 será distinto de cero y todos los demás serán nulos (<Puu =O, para uu > 1). Un AR (2)
presentará los dos primeros desfases de su F AP distintos de cero </¡ 11 y </>22 y el resto nulos y
así sucesivamente. De manera que el orden del proceso AR lo determina la FAP.
Llamamos correlograma completo a la representación gráfica de las funciones de autocorre-
lación total (FAT) y parcial (FAP) de desfases sucesivos de un proceso estocástico estacionario.
El correlograma completo de un proceso AR (l) en consecuencia mostrará una función de
autocorrelación total que decrece de forma geométrica a medida que se incrementa el desfase
temporal y una función de autocorrelación parcial con un solo valor significativo, el de orden
uno.
Figura 13.4.1: Correlogramas de un AR ( 1)

</>1 > o 4>1 <o
FAT FAT
1
11 1• • - - - - -
1
7 • '
:;-~ 1
2 3 .. 5 6 7 8 9 10
FAP FAP
i 3 4 5 6 7 8 9 10 2 l 4 5 6 7 8 9 10
La Figura 13.4.1 muestra el correlograma completo de dos procesos AR (l). Los dos gráficos
Tema 13 479
de la izquierda muestran la FAT y la FAP de un proceso AR (1) con parámetro positivo

</J1 > O, la FAT (gráfico superior izquierdo) decrece geométricamente mientras que la FAP
(gráfico inferior izquierdo) presenta un solo valor distinto de cero en el primer desfase. Los
gráficos de la derecha muestran el correlograma de un proceso AR (l) con parámetro negativo
</J1 < O , la FAT (gráfico superior derecho) decrece rápidamente pero cambiando de signo en
desfases sucesivos, la FAP (gráfico inferior derecho) muestra un solo desfase distinto de cero,
el del primer desfase, con signo negativo.
Una forma alternativa y teóricamente muy atractiva de llegar a los valores de la autoco-
rrelación parcial (FAP) es a partir de los valores de la función de autocorrelación total (FAT)
Pu, utilizando para ello las denominadas ecuaciones de Yule- Walker. En efecto, partiendo de
(13.4.6), multiplicando ambos lados de la ecuación por Zt-1 y aplicando esperanzas, tenemos
JE (ZtZt-1) = <P1JE (zl-1) +JE (zt-lét);

(13.4.26)
í'l = <P1 'º'
puesto que JE (zt-lét) =O y dividiendo ambas partes por la varianza 10, llegamos a
(13.4.27)
es decir que la función de autocorrelación total con un desfase P1 es igual a la función de
autocorrelación parcial con un desfase </Jn en cualquier proceso estacionario.
En general podemos calcular FAP para un desfase cualquiera u. Partiendo de un modelo
AR (p) en desviaciones a las medias
Zt = </J1Zt-l + </J2Zt-2 + ··· + </JpZt-p +Et, (13.4.28)

y multiplicando ambas partes de la ecuación por Zt-u, aplicando esperanzas y dividiendo por
la varianza 10 llegamos a la expresión de la ecuación de Yule- Walker para u desfases
Pu = </J1Pu-l + </J2Pu-2 + ·· · + </JpPu-p· (13.4.29)

Teniendo en cuenta el carácter par de la FAP Pu= P-u, dando valores a u, y recordando que
l( l
estamos interesados solo en el último coeficiente denominado <Puu = </Jp, se obtiene
</J1
</J2 Po
P1 P1
Po .· ·. .· Pu-1
Pu-2 i -l ( P1
P2
.. ' (13.4.30)
.. ... ..
( . . .
<Puu Pu-1 Pu-2 Po Pu
que permite calcular las funciones de autocorrelación parcial de orden u de forma sucesiva a
partir de la función de autocorrelación total de cualquier proceso estacionario.
Por ejemplo, en el caso de un AR(l) la expresión sería
<Pn = Pi/ Po = P1
480 MODELOS ESTACIO!\ARIOS DE SERIES TEMPORALES
que resolviendo y teniendo en cuenta que es un proceso AR(l), como hemos visto, p2 = PI ,
se llega fácilmente a que 4>22 = 0/(1 - pi) = O. Lo mismo sucede si operamos para calcular
cp33, que será nulo, y así sucesivamente para cualquier retardo distinto de primero.
13.4.3. Procesos autorregresivos de segundo orden AR(2)

Si el valor presente de un proceso estacionario Zt depende no solo del valor retardado un
periodo Zt-l sino también del valor retardado dos periodos Zt-2, entonces nos encontramos
ante un proceso autorregresivo de segundo orden o un AR (2), analíticamente tiene la forma
siguiente:
(13.4.31)
donde representamos las variables en minúsculas para indicar que están en desviaciones a las
medias.
Utilizando el operador de retardos B podemos escribir el modelo de la siguiente forma:
Zt = <P1 B zt + <P2B 2zt +Et; (13.4.32)

(1 - <P1B - ef;2 B 2) Zt =Et.
Igualando el operador a cero y resolviendo la ecuación con B como incógnita tenemos
1 - <P1B - ef;2B 2 =O;

B- - 4>1±~ (13.4.33)
t - -24>2 '
y el proceso será estacionario si las raíces Bi están fuera del círculo unidad, es decir, si 1Bi1 > 1,
IBI = 1 4>1±~1
-24>2 > l·' (13.4.34)
lo que se cumple, en caso de raíces reales . si -1 < ef; 2 < 1; ef; 1 + 4>2 < 1; ef; 2 - ef; 1 < 1; mientras
que si las raíces fueran complejas, analizaríamos el módulo de las mismas4.
A la misma conclusión se llega analizando los momentos del proceso.
Un proceso AR(2) en niveles tiene la forma
(13.4.35)
Para que el proceso sea estacionario debe tener media constante en todo el proceso, es decir ,
que se debe cumplir que JE (Zt) =JE (Zt- l) =JE (Zt- 2) = µ. Por tanto, aplicando esperanzas
a la expresión (13.4.35) se cumple
µ = <Po
_ po
+ 4>1µ + 4>2µ; (13.4.36)
µ - 1-4>1 -4>2'
que es la media del proceso AR (2) estacionario. De esta expresión también deducimos que
cuando expresamos el modelo centrado o en desviaciones a las medias su esperanza (del modelo
4
Ver Apéndice de este tema.
Tema 13 481
centrado) es nula JE (zt) =O, puesto que cuando el modelo está en desviaciones a las medias
se anula el término constante </>o lo que hace que la expresión anterior también se anule.
Elevando al cuadrado la expresión (13.4.31) y aplicando esperanzas se llega a la expresión
de la varianza
2
JE (zl) =JE (</>1Zt-l + r/>2Zt-2 + Et) ;
(13.4.37)
'Yo = ri>ho + r!>ho + <7; + 24>1 r/>211.
Multiplicando la expresión(13.4.31) por Zt-u a ambos lados de la ecuación y tomando
esperanzas tenemos
(13.4.38)
y para u 2: 1 obtenemos la expresión de la autocovarianza para u retardos de un proceso
AR(2),
/u = rf>nu-1 + 4>2/u-2· (13.4.39)

Para u= 1 tenemos que 11 = r/>no+r/>211ydespejando11obtenemos11 = r/>no/ (1 - r/>2).
Sustituyendo esta expresión en (13.4.37) tenemos que la varianza marginal del proceso la
podemos expresar como
2 (1 - r/>2) <7;
<7 =/O= (13.4.40)
z (l + r/>2) (1 - r/>1 - </>2) (1 + r/>1 - </>2)'
donde podemos comprobar que para que la expresión sea positiva se deben cumplir las condi-
ciones de estacionaridad ya anteriormente aludidas: -1 < r/>2 < 1; r/>1 + r/>2 < 1; r/>2 - rp 1 < l.
Dividiendo por la varianza la expresión (13.4.39) obtenemos la relación entre los coeficien-
tes de autocorrelación Pu, lo cual es equivalente a la ecuación de Yule-Walker para un proceso
AR(2)
Pu = rf>1Pu-l + rf>2Pu-2 para U 2'. l. (13.4.41)

Para u = 1 tenemos que la función de autocorrelación de orden uno es
</>1
P1 = 1 - r/>2 • (13.4.42)
y para u = 2 se obtiene p2
,.¡,2
- '+'l ,.¡, (13.4.43)
P2 - l _ r/> + '+'2 ·
2
Para u 2: 3 podemos calcular las autocorrelaciones de forma recursiva a partir de la
ecuación en diferencias 13.4.41.
Un proceso AR (2) presenta dos raíces B1 y B2, expresión (13.4.34), por lo que podemos
factorizar fácilmente y escribirlo de forma compacta como
(13.4.44)
donde Ri = B11, R2 = B:¡ 1 . Conviene observar un par de cuestiones. La primera es que el

polinomio de retardos opera sobre Zt, en el mismo sentido que B operaba sobre Zt. La segunda
consiste en observar que
o alternativamente
El polinomio de retardos se anula lógicamente en sus raíces B = Bi, mientras que (y por
lo tanto) el polinomio se puede factorizar para los valores de R = B¡ 1 , i = 1, 2. Esta última
expresión nos facilita invertir el proceso y expresarlo del siguiente modo:
Zt = (1 - R1B)- 1 (1 - R2B)-l Zt = (1 + R1B + Ri B 2 + ... ) (1 + R2B + R~B 2 + ... ) ét,

(13.4.45)
expresión que nos lleva a poder expresar (entender) un AR(2) como la suma ponderada de
variables de ruido blanco del proceso:
Zt = ét + tp1ét-l + tp2ét-2 + ... , (13.4.46)

cuyos coeficientes IPi presentan valores no idénticos5 a los de la función de autocorrelación Pu·
Las raíces de los procesos AR (2) de la expresión (13.4.33) pueden ser reales o complejas.
La Figura 13.4.2 muestra los correlogramas de los procesos AR(2) con raíces reales.
Como podemos apreciar la FAT se comporta de forma parecida a la de los procesos AR (l).
decreciendo rápidamente de forma geométrica o cambiando de signo sucesivamente. En este
último caso, representamos la situación en la que la raíz negativa domina a la positiva, y por
tanto empieza desde un valor negativo.
En los mismos términos en los que razonábamos con los AR(l) en relación con la FAP,
podemos también razonar ahora: Un proceso AR (2) presentará una FAP en la que solo los
dos primeros desfases temporales </Ju, </J22 serán distintos de cero y todos los demás serán nulos
(<Puu =O, para uu > 2). Para verlo intuitivamente podemos volver a la expresión (13.4.23) y
particularizar para el AR(2). El error é~ ) sería ruido blanco (por definición de AR(2)). Tam-
2
bién por definición los coeficientes poblacionales serían: </Ju -=/= O y </J22 -=/= O, y los coeficientes
muestrales estimados ~11 y ~22 convergerían asintóticamente a los verdaderos (distintos de
cero). En un AR(l) y en un AR(2) hay relación o el efecto de Zt-2 sobre Zt, si bien en uno
y otro caso el efecto es diferente. En el AR(2) el efecto de Zt-2 es directo sobre Zt, mientras
que en el AR(l) el efecto es indirecto pues es un efecto con Zt que llega solo a través de Zt-l ·
Por tanto en el AR(l), una vez considerado el valor que tome Zt-l, a los efectos de saber qué
valor toma Zt no sirve para nada conocer el valor de Zt-2· En cambio, en un AR(2) el valor
de Zt-2 tiene un efecto indirecto sobre Zt (a través de Zt-1) y otro directo sobre Zt (a través
5
El ejercicio teórico 6 indica los pasos para obtener estos coeficientes autorregresivos. Es muy recomendable
seguirlos y resolver el ejercicio.
Tema 13 483
Figura 13.4.2: Correlogramas de un AR (2), raíces reales

</>1 > o, </>2 > o </>1 < o, </>2 > o
FAT FAT
' 10
FAP FAP
¡--------
'
' 10 ' 10
de el mismo). Así en un AR(2) nunca podría ser suficiente para pronosticar Zt con considerar
solo el efeto indirecto, sino que sería imprescindible incorporar el efecto directo.
Estas consideraciones nos permiten ahora evaluar cómo sería el último coeficiente de las
ecuaciones (13.4.23) para u = 3. En estos casos, dado que el proceso es AR(2) y por tanto
solo son directamente relevantes los valores que toma la serie en los dos momentos anterio-
res, una vez que dichos valores ya han sido considerados (recuérdese que la regresión tercera
de (13.4.23) ya contieneA ambos efectos directos) tendríamos que <f>33 = O, y por tanto su
contrapartida muestral <f>33 convergería a cero. Por tanto comprobamos que los procesos au-
torregresivos de segundo orden se caracterizan por tener una FAP en la que solo el primer y
el segundo retardo son estadísticamente distintos de cero, mientras que los siguientes desfases
son estadísticamente nulos. Lo cual nos sirve para identificar, a partir de la FAT y la FAP,
qué tipo de modelo podría ser 6 .
Cuando las raíces de la expresión (13.4.33) son complejas los correlogramas de los procesos
AR (2) son de la forma que se reproduce en la Figura 13.4.3.
Es decir que cuando las raíces son imaginarias el correlograma muestra una FAT que
decrece rápidamente pero de forma sinusoidal. La FAP determina el orden del proceso, con
los dos primeros desfases distintos de cero.
13.4.4. Proceso autorregresivo de orden p, AR(p)

Aunque ya los hemos mencionado anteriormente, podemos generalizar los procesos auto-
rregresivos a cualquier orden p, p 2: l. Analíticamente un proceso autorregresivo de orden p,
6
En los ejercicios teórico se pide justamente que se compruebe que <J>33 = O.
Figura 13.4.3: Correlograma de un AR (2) , raíces complejas

efJ1 > o, efJ2 < o efJ1 < o, efJ2 < o
FAT FAT
1•-. 11 • 1 • • •
.•t..-. .----
1
1 ¡ l . s
' 7
• • 10 1 1
' . s • 7
• • 10
FAP FAP
11 1fl
' . ' ' 7
• • 10
1 1 ¡
' . s • ' •- ' -10
como vimos, se puede expresar en desviaciones a las medias de la siguiente forma
Zt = </J1Zt-l + </J2Zt -2 + ... + </JpZt-p + Eti (13.4.4 7)

y utilizando el operador de retardos B , t ambién podemos escribirlo de la siguiente forma:
(13.4.48)
llamando al polinomio de retardos AR (B) = 1 - BefJ1 - B2efJ2 - ... - BPefJp obtenemos la
expresión general o compacta de un proceso autorregresivo estacionario,
AR (B) Zt = Et· (13.4.49)

La ecuación característica del proceso es entonces
(13.4.50)
que considerada como una función de B tiene p raíces, y tiene como factores sus inversas
respectivas, Ri = Bi- 1 , i = 1, 2, ... ,p
p
AR(B ) = II (1- !4B). (13.4.51)

i =l
El proceso es estacionario si IBi l > 1 o lo que es equivalente, si 1!41 < 1 para todo i.
También podemos expresar un proceso AR (p) como la suma ponderada de procesos ruido
blanco [también denominado proceso MA (oo)J de la forma
Tema 13 485
Figura 13.4.4: PIB español entre 1954 y 2010

900.000
800.000
700,000
600,000
500.000
400.000
300.000
200 000
100.000
Zt = Et + <p1Et-l + <p2 Et-2 + ... (13.4.52)
para lo cual basta con invertir el polinomio AR(B)
Zt = AR(B) -1 Et = (1 - B</>1 - B 2 6 2 - ... - BP<f>p )-1 Et,
y esta inversa tiene la forma
que nos permite 7 precisamente recuperar la expresion MA(oo).

Un proceso AR (p) se identifica a partir de su correlograma. Su FAT determina la natura-
leza del proceso AR que decrece rápidamente de forma geométrica o sinusoidal pero que no
se anula en desfases sucesivos; la FAP determina el orden del proceso AR, con los p primeros
desfases distintos de cero y el resto nulos. Y los mot ivos son los mismos que en el proceso
AR(2), y por tanto no los vamos a repetir. En todo caso, para obtener los valores de la FAP
podemos utilizar la expresión de la ecuaciones de Yule-Walker.
Que la función de autocorrelación Pu no se anule en retardos sucesivos implica que los
procesos AR tienen memoria relativamente larga, aunque dicha dependencia es débil puesto
que decrece rápidamente cuando aumenta el desfase.
Veamos un ejemplo que ilustre el proceso que indicamos a cominezo de la sección.
Ejemplo 39. El PIB

La Figura 13.4.4 muestra el PIB español entre 1954 y 2010 en euros constantes de 2000.
Resulta evidente que la serie no es estacionaria en media , de manera que la transformamos

aplicando logaritmos y una primera diferencia (lo que equivale a calcular tasas de variación en
tanto por uno). La Figura 13.4.5 muestra la serie transformada.
El gráfico muestra una serie que en principio puede interpretarse como estacionaria en media
y varianza; para comprobarlo estimamos su correlograma completo , (Figura 13.4.6) .
486 MODELOS ESTAC IOl\ARIOS DE SERIES TEMPORALES
Figura 13.4.5: PI B españ ol primeras diferencias de los logaritmos
Figura 13.4.6: Correlograma de las primeras diferencias del PI B en logaritmos

Sample: 1954 2010
lnduded observations. 56
Autocorretation Partial Correlation AC PAC
1 0.602 0.602
2 0.247 -0.181
3 0.166 0.162
4 0.150 0.004
5 0.179 0.127
6 0.101 -0.120
7 0106 0163
8 0.105 -0.074
9 -0.039 -0.149
10 -0.010 0.1 57
11 0.090 0.049
12 0.011 -0.189
13 -0.054 0.044
14 -0.085 -0.025
15 -0.005 0.068
16 0.079 0.041
17 0.006 -0 .044
18 -0.063 -0.120
19 -0.154 -0.123
20 -0.185 0.048
21 -0.154 -0.1 12
22 -0.112 0.038
23 -O 095 -0.052
24 -0.045 0.135
Tema 13 487
Figura 13.4.7: Correlograma de los residuos estimad os a partir de un AR ( 1) del logaritmo del
PIB en diferencias
Autocorrelation Partial Correlation AC PAC
1 0.072 0.072
2 -0.161 -O 167
3 -0.004 0.022
4 0.025 -0.004
5 0.136 0.142
6 -0.107 -0.134
7 0.026 0.102
8 0.159 0.107
9 -0.173 -0.191
10 -0.072 -0.011
11 0.184 0.190
12 -0.010 -0.110
13 -0.068 -0.043
14 -0.158 -0.076
15 0.011 -0.016
16 0.171 0.075
17 -O 040 0.048
18 0.024 0.031
19 -0.078 -0.151
20 -0.073 0.019
21 -0.052 -0.095
22 -0.001 0.011
23 -0.049 -0.135
24 -0.038 0.002
La primera columna muestra el gráfico de la FAT , la segunda el gráfico de la FAP, la tercera los
retardos , la cuarta los valores numéricos de la funci ón de autocorrelación total ( FAT) y la última
los valores de la FAP. Las líneas discontinuas paral el as indican el valor a partir del cual podemos
considerar que son sign ificativamente distintos de cero ( ±1, 96/ v'56). La FAT decrece rápidamente
con un único valor significativo en el primer desfase. La FAP tiene un solo valor significativo en
el primer desfase. En definitiva , el correlograma muest ra que la serie es débilmente dependiente
en covarianza puesto que solo un valor es significativo en la FAT , de manera que el correlograma
indica que la serie del PI B en logaritmos y primeras diferencias es estacionario . Además y puesto
que la FAT decrece rápidamente y la FAP solo tiene un valor significativo , el correlograma de la
Figura 13.4.6 parece ind icar que el proceso tiene la forma de un AR(l) y su estimación es
6 ln (PI Bt) = O, 035 +O, 6236 ln (P I Bt-1) + ft, (13.4.53)

(0,008) (0,110)
cuyos parámetros son significativos incluso al 1 %. En la ecuación suponemos que ft es un pro-

ceso ruido blanco . Para verificarlo calculamos el correlograma de los residuos de (13.4 .53) que
reproducimos en la Figura 13.4.7 .
Como vemos la FAT no presenta ningún valor significativo . En defin itiva , concluimos que
los residuos de la expresión (13.4.53) son la imagen empírica de un proceso ruido blanco y en
7
Esta.mos considerando, por simplicidad. que las raíces son distintas y reales .
Figura 13.4.8: PI B español primeras diferencias transformación Box-Cox
" ~ ~ 70 ~ M 85 ~ 95 00 05 10
consecuencia el modelo (13.4.53) parece estar bien especificado.

No obstante, si nos fijamos más detalladamente en la variabilidad del gráfico de la serie del
PIB transformada de la Figura 13.4.5 parece apreciarse mayor variabilidad en el periodo que va
de 1954 a 1975 (crisis del petróleo) respecto del periodo 1976 a 2010. Por consiguiente , podemos
sospechar que la transformación en logaritmos no ha sido la adecuada para conseguir variabilidad
constante en todo el periodo. Para aproximar el valor >. de la transformación de Box-Cox ( 13.3. l ) y
conseguir variabilidades constantes con independencia del nivel de la serie, estimamos la ecuación
(13.3.2) formando grupos de 5 años, cuyo resultado es
ln Sp¡ Bi = e+ ( 1 - >.) ln P l B i = 1, 6 +O, 63· ln PI B i,
es decir que>.= O, 37 (1 - O, 63), valor mu y alejado del valor nulo equivalente a la transformación
logarítmica utilizada. En consecuencia , transformamos la serie en niveles del PI B utilizando la
transformación de Box-Cox (13.3.1), es dec ir que,
PIE (BC) = PIBf'37 - 1 (13.4.54)

t o 37 '
'
cuyas primeras diferencias se reproducen en la Figura 13.4.8.
Ahora la serie presenta una variabilidad aproximadamente constante a lo largo del tiempo. Su
correlograma lo podemos visualizar en la Figura 13.4.9.
La FAP presenta un solo valor significativo y la FAT decrece rápidamente, de manera que
podemos considerar que el correlograma responde a un modelo AR (1).
El modelo estimado es
D.Pf Bt (BC) = 3, 755 +O, 5936.PIBt-l (BC) + ft, (13.4.55)

(0,760) (0,114)
Tema 13 489
Figura 13.4.9: Correlograma de las primeras diferencias del PIB , transformación Box-Cox
Sample. 1954 2010
lnciuded observat1ons : 56
Autocorrelation Partial Correlafion AC PAC
1 0.570 0.570
2 0.163 -0.239
3 0043 0101
4 -0.000 -0.061
5 -0.037 -0 .018
6 -0.115 -0.121
7 -0.084 0.080
8 -0.079 -0.114
9 -0.194 -0.167
10 -0.151 0.099
11 -0.040 -0.006
12 -0.085 -0.170
13 -0.117 0.023
14 -0.117 -0.074
15 -0.005 0.085
16 0.117 0.087
17 0.048 -0.124
18 -0.032 -0.082
19 -0.155 -0.191
20 -0.204 -0.013
21 -0.186 -0139
22 -0.136 0.015
23 -0.084 -0.095
24 -o 019 0.053
cuyos parámetros son significativos. El correlograma de los residuos se muestra en la Figura 13.4.10
y es la imagen empírica de un proceso ruido blanco , por tanto el modelo estimado en (13.4.55) lo
podemos considerar adecuado.
En resumen , la transformación Box- Cox es más adecuada que la logarítmica puesto que su
diferencias presentan una variabilidad constante (Figura 13.4.8) mientras que las diferencias de
la transformación logarítmica (Figura 13.4.5) presenta una variabilidad decreciente con el tiempo.
No obstante ambas transformaciones presentan dependencia débil en covarianza (Figuras 13.4.6
y 13.4.9) estimaciones parecidas, expresiones (13.4.53) y (13.4.55), y sus residuos se pueden
considerar la imagen empírica de procesos ruido blanco (Figuras 13.4.7 y 13.4.10) por consiguiente
tampoco podemos afirmar que la estimación del proceso AR(l ) de las diferencias en logaritmos
del PIB, expresión (13.4.53), sea inadecuada.
13.5. PROCESOS DE MEDIAS MÓVILES
Un proceso estacionario de media móvil de orden q, denominado usualmente M A (q),

analít icamente obedece a la siguiente expresión
Zt =e + et - B1ct-1 - B2ct-2 - .. . - Oqct-q, (13.5.1 )

Figura 13.4.10: Correlograma de los residuos estimados a partir de un AR (1) del PIB , transfor-
mación Box-Cox
Autocorrelabon Partial Correlation AC PAC
1 0.107 0.107
2 -0.147 -0.160
3 -0.027 0.009
4 -0.011 -0.033
5 o020 0.023
6 -0.130 -0.147
7 -0.001 0.042
8 o084 0.038
9 -0.184 -0.206
10 -0.093 -0.033
11 0.117 0.094
12 -0.045 -0.127
13 -0.069 -0.040
14 -0.141 -0131
15 -0.010 -0.041
16 0.199 0.147
17 o003 -0.003
18 o061 0.056
19 -0.087 -0.166
20 -0.105 -O 039
21 -0.073 -0.127
22 -0.042 -0.025
23 -0.040 -o 128
24 -0.050 -0.098
donde ét es un proceso ruido blanco centrado o en desviaciones a la media8 . El signo negativo

de los parámetros ()i es una mera convención y, de hecho, estos pueden ser tanto negativos
como positivos. La media del proceso es el término constante.
Los procesos AR se pueden escribir como procesos MA (oo), mientras que los procesos
M A dependen solo de un número finito de retardos p, en este sentido los procesos M A t ienen
memoria más corta que los procesos AR.
Los modelos M A (q) se pueden escribir. sin pérdida de generalidad, en diferencias a las
medias
(13.5.2)
donde desaparece el término constante e y la variable Zt la mostramos en minúscula para
indicar que es una variable centrada o en diferencias a las medias.
13.5.1. Proceso de media móvil d e orden uno, MA(l)

Podemos entender el modelo MA(l) como la construcción (más simple) de un modelo con
dependencia temporal tomando como punto de partida el ruido blanco. El proceso generador
obedece a la siguiente expresión en desviaciones a las medias
(13.5.3)
8
IE (ét) =O , Var (ét) = ~; y Pv. =O para todo u 2: l.
Tema 13 491
Utilizando el operador de retardos B podemos escribir
(13.5.4)
de manera que el proceso es la suma de dos procesos estacionarios Et y 81Et, y en consecuencia
el proceso M A (1) es por construcción estacionario.
Retardando un periodo la expresión (13.5.3), tenemos,
Zt-1 = Et-1 - 81Et -2;

(13 .5 .5)
Et-1 = Zt-1 + 81Et -2,
y sustituyendo en (13.5.3) obtenemos
Zt = Et - 81Et-1 = Et - 81 (z t-1 - 81Et-2)

(13.5.6)
=Et - 81Zt-l + 8iEt-2·
Realizando el proceso iterativamente llegamos a
t-1
~
Zt =Et - " " 8 i1zt-i - 8t1t:o, (13.5.7)
i=l
que es un proceso autorregresivo. Esta expresión nos permite divisar el escaso sentido que
tendría que el parámetro 81 fuera superior a la unidad, pues en tal circunstancia el efecto del
pasado de Zt tiene mayor incidencia para explicar el valor actual de Zt cuanto más lejano está
en el tiempo. Es decir, contemplamos casos en los que el efecto (los efectos) van disminuyendo a
medida que aumentan los retardos, para lo cual debemos imponer la condición 1811 < 1, en cuyo
caso decimos que el proceso M A es invertible en un proceso autorregresivo AR. Además esta
restricción es perfectamente compatible con el hecho de ser un proceso débilmente dependiente.
Por otra parte, también observamos que 8i converge a cero a medida que t aumenta. En estas
condiciones si el proceso comienza en el pasado lejano, tan lejano como queramos (-oo), lo
podemos escribir como
00
zt =Et - L 8Ízt-i· (13.5.8)

i=l
Por tanto un proceso M A (1) se puede escribir como un AR (oo ). En general todos los procesos
M A invertibles son los que se pueden escribir como un proceso AR (oo).
Aplicando esperanzas a la expresión (13.5.3) llegamos a la conclusión de que el proceso
MA (1) centrado tiene media nula
(13.5.9)
La varianza es
(13 .5.10)
492 MODELOS ESTACIOJ\ARIOS DE SERIES TEMPORALES
La función de autocovarianza de orden u la obtenemos multiplicando a ambos lados de la

ecuación (13.5.3) por Zt-u y aplicando esperanzas,
TU= JE (ztZt-u) =JE (EtZt-u) - JE (01Et-1Zt-u) · (13.5.11 )

Para u = 1 tenemos
Tl =JE (ztZt-1) =JE (EtZt-1) - JE (01Et-1Zt-1) = -ew: , (13.5.12)

puesto que JE (EtZt-1) =JE h (Et-1 - 01E1-2 )] =O y 01JE [Et-1 (Et-1 - 01Et-2)] = 01a;.
Para u= 2,
T2 =JE (ztZt-2) = JE (EtZt-2) - JE (01Et-1Zt-2) = Ü, (13.5.13)

y para u > 2 obtenemos también funciones de autocovarianza nulas (Tu = O, para u > 1).
La función de autocorrelación con un retardo es
Tl -ew;
P1 = - = (13.5.14
TÜ at (1 + ei)
y para u> 1 las funciones de autocorrelación son cero (Pu =O).
Por consiguiente, la función de autocorrelación de un M A (l) presentará un solo valor
distinto de cero, en el primer desfase. Es decir que el orden del proceso lo determina la
función de autocorrelación total (FAT) . Por tanto la FAT de un MA(l) tiene la misma
interpretación, determinar el orden del proceso que tenía la FAP para un proceso AR (1).
Esta misma dualidad se presenta también en la FAP de un MA (l) puesto que este proceso
se puede escribir como un AR (oo), que tiene una FAP que registra el efecto directo de Zt-u
sobre Zt de magnitud Of, por lo que la FAP de un M A (l) decrecerá rápidamente en u, siendo
todos poblacionalmente no nulos. Por tanto esta característica nos servirá para determinar el
orden del proceso M A. La Figura 13.5.1 muestra el correlograma de un proceso M A (1).
13.5.2. Proceso de medias móviles de orden q, MA(q)

Como ya sabemos, un proceso M A (q) analíticamente presenta la siguiente forma:
q
zt =Et - e1Et-1 - e2Et-2 - ... - eqEt-q =Et - ¿ eiEt-i· (13.5.15)
i=l
Utilizando el operador de retardos B podemos escribirlo también como
(13.5.16)
donde el operador de retardos M A (B) = 1 - 01B - 02B 2 - ... - OqBq opera sobre Et, y nos
permite llegar a la notación general compacta de un modelo MA (q)
Zt = MA(B)Et;
(13.5.17)
M A (B)- 1 Zt =Et·
Tema 13 493
Figura 13.5.1: Correlogramas de un M A ( 1)

fh <o (Ji> o
FAT FAT
1 2 l ' s 6 7 8 9 10 ' 5 6 1 8 9 10
FAP FAP
11 • - -
l r··· ·--·-- - - -
1 2 ) • s 6 7 1 9 10 1 2 3 4 s 6 1 8 9 10
Esta última expresión permite expresar el modelo M A (q) como un AR (oo)
(13.5.18)
Los coeficientes 'r/i se obtienen imponiendo la condición MA (B)- 1 MA (B) = 1; los procesos
M A deben ser invertibles, lo que se cumplirá si las raíces de la ecuación M A (B) = O caen
fuera del círculo unidad y la serie M A (B)- 1 será convergente y podremos escribir el proceso
MA como
00
Zt = L 'r/iZt-i + Et, (13.5.19)

i=l
que es un proceso AR (oo) y, por consiguiente, la FAP de un proceso M A (q) tiene la misma
estructura que la FAT de un proceso AR del mismo orden. Es decir, la FAP de un proceso
M A (q) decrece rápidamente de forma geométrica o sinusoidal y determina la naturaleza del
proceso.
Multiplicando (13.5.15) por Zt+u para u 2 O y tomando esperanzas, obtenemos la autoco-
varianza del proceso
JE (ztZt-u) = JE [¿,¡~g (OiE:t-i) ¿,3:~ (ejE:t+u-j)] (13.5.20)

= "L,{~g ¿,3:~ OiOjJE (E:t -iE:t+u-j) .
Teniendo en cuenta que JE (E:t-iE:t+u-j) = a; solo cuando los subíndices coinciden y cero en
caso contrario, podemos igualar ambos subíndices t - i = t +u - j, lo que implica que cuando
j i + u, ambos subíndices son iguales y la esperanza es distinta de cero. Por tanto, la

expresión anterior se puede escribir también de la siguiente forma:
q-u
/u = lE (ztZt-u) = L BiBi+ulE (cLi) · (13 .5.21)
i=O
Para u = O tenemos que la varianza del proceso es
a;= /o= a; (1 + Bi + ... + B~). (13 .5.22)

Para u= 1, 2... ., q obtenemos las autocovarianzas del proceso distintas de cero
q
/u= a; L BiBi+u para u= 1, 2, .., q. (13.5.23)
í=O
Para u> q, los subíndices no coinciden en ningún momento y, por tanto
/u = O para u > q. (13.5.24)

La funciones de autocorrelación son
_ a~ Lf=O OiOi+u _ Lf=O OiOi+u 1 2

Pu - a~ Lf=O o'f - L:'f=o o'f para u = ' ' .., q (13.5.25)
Pu = O para u > q,
de manera que la función de autocorrelación total determina el orden del proceso. Un proceso
M A (q) presenta los q primeros desfases distintos de cero y el resto nulos. La Figura 13.5.2
muestra los correlogramas de un proceso M A (2) .
En buena medida la importancia de los procesos MA reside en el denominado Teorema
de Descomposición de Wold que establece que todo proceso estacionario débil (ya sea lineal
o no) puede ser aproximado tanto como deseemos (en términos de precisión) por un proceso
MA, con un orden q largo, más una parte determinista (por ejemplo, una constante o una
fución trigonométrica con dependencia temporal)
00
Zt = Ót +L 'l/Jjªt-j
j=O
donde la parte determinista está en el primer sumando, mientras que el segundo es una suma
ponderada de ruido blanco formado por combinaciones lineales de z 8 , s < t. Este último
sumando contiene o representa una suma ponderada de errores de predicción generados al
intentar predecir Zt a partir de combinaciones lineales de Zs.
Los parámetros de los procesos M A no se pueden estimar por MCO puesto que la suma
cuadrática de las discrepancias no son una función lineal de los parámetros a estimar y se
suelen utilizar procedimientos como el de máxima verosimilitud condicional o exacta. Afortu-
nadamente los programas especializados incorporan estos algoritmos y calculan los parámetros
de los modelos Al A de forma rutinaria. Vemos un ejemplo de proceso de medias móviles.
Tema 13 495
Figura 13.5.2: Correlogramas de un M A (2)

a) B1 <O , B2 <O b) B1 >O, B2 >O
FAT
---- - --
FAT
1
1
.r1
1
_L ~~~ - ~¡,:
2 3 4 5 6 7 8 9 10 1 2 l 4 5 6 7 8 ' 10
FAP FAP
l., p
1 2 l • 5
l._
6
1 •
7 8
•
9
•
10 l 2 l 4 5 6 7 8 9 JO
e) B1 <O, B2 >O d) B1 > O, B2 < O

FAT FAT
1 2 ' 7 8 9 10
:r'·
L 2 z 1 • s 6 1 s 9 io
FAP FAP
1 l 'J 1 • 111 • .- •
l 2 l 4 s 6 1 8 9 10 l l 2 l • 5 6 1 8 9 10
Figura 13.5.3: Tipos de interés interbancario a un año
Figura 13.5.4: Tipos de interés interbancario a un año, primeras diferencias

24
'º
1.0
12
08
oo-tf!M~:ftllrtrHlbH1/-IH-'t!t:tthmf'\irthl\ll>-F'-"-Wt.........
--O •
--08
., 2
.,. ...,_.,..~~~m~m~~m~m~
80 82 8" 86 88 gr 92 94 96 98 00 02 OA 06 OS 10
Ejemplo 40. Los tipos de interés interbancario a un año

La Figura 13.5.3 muestra los tipos de interés interbancario a un año entre enero de 1980 y
diciembre de 2011.
Los tipos de interés muestran una cla ra t endencia decreciente, de manera que la serie no
es estacionaria en media. La Figura 13.5.4 muestra la serie del tipo de interés interbancario en
primeras diferencias .
Ahora parece que la serie es estacionaria en media . Sin embargo, tenemos dudas de que la
serie sea también estacionaria en varianza puesto que la variabilidad parece ser menor a partir de
1996. No obstante, calculamos su correlograma que reproducimos en la Figura 13.5.5. mostrando
una FAT con un solo valor significativo y una FAP que decrece rápidamente, de manera que el
correlograma parece indicar que las diferencias de los tipos interbancarios se comportan como un
proceso M A (l).
La estimación de un proceso M A (l) para las diferencias de los tipos interbancarios es
6interbancariot = - 0, 035 - O, 39fft-1 + ft, (13.5.26)

(0,028) (0,047)
Tema 13 497
Figura 13.5.5: Correlograma de los tipos de interés interbancarios en diferencias

Sampte: 1980M01 2011M12
lnciuded observabons. 383
Autocorretat1on ParbaJ Correlation AC PAC
1 -0.350 -0.350
1 1 2 0.012 -0.127
1 1 1 1 3 0.022 -o 020
1 1 1 1 4 0.023 0031
1 1 1 1 5 0.025 0.056
1 1 1 1 6 -0.005 0.031
1 1 1 1 7 -O 006 0.005
1 1 1 1 8 0.005 -O 000
1 1 1 1 9 -0.017 -o 023
1 1 10 -0.070 -O 101
1 1 11 -0015 -0094
1 1 12 -0.010 -0.065
1 1 13 0.018 -0.004
1 1 14 -0.026 -O 008
1 1 15 -0.026 -0.026
1 1 16 -0.018 -0.039
1 1 1 1 17 -0.024 -0.056
1 1 1 1 18 -0.003 -0.043
1 1 1 1 19 -0.018 -0.048
1 1 1 1 20 o 004 -0.032
donde el parámetro del proceso MA (1) es muy signifi cativo . El correlograma de los errores esti-
mados en el modelo (13.5.26) se reproduce en la Figura 13.5.6.
todos los valores de la FAT son no significativos, de manera que el correlograma de los residuos
estimados en la expresión (13.5.26) muestra la imagen empírica de un proceso ruido blanco, así
que el modelo (13.5.26) parece ser correcto.
13.6. PROCESOS ARMA

Los procesos que combinan los modelos AR y AJ A conjuntamente se denominan proce-
os ARMA. El correlograma de un proceso ARMA es bastante más complejo que los que
hemos visto hasta ahora. La parte AR se puede escribir como un M A (oo) pero con pau-
tas de decrecimiento geométrico; la parte M A tiene pocos parámetros pero irrestrictos. Por
consiguiente, los procesos ARMA se pueden aproximar a un modelo M A (oo) en el que los
primeros desfases no tienen restricciones pero, a partir de un determinado desfase, decrecen
de forma geométrica.
Precisamente el mencionado Teorema de Descomposición de Wold prevé la existencia de
un polinomio infinito
00
L 1/Jjªt-j = \J!(B)at
j=O
que podría ser obtenido por el cociente de dos polinomios de retardos finitos (digamos, p, q).
Figura 13.5.6: Correlograma de los errores estimados a partir de un modelo M A (1) de las
diferencias de los tipos de interés interbancario
AutocorrelaUon Partial Correlabon AC PAC
1 -0.012 -0.012
2 0041 0041
1 1 3 0.055 o 056
1 1 1 1 4 0.057 o057
1 1 1 1 5 o047 o044
1 1 1 1 6 o007 o001
1 1 1 1 7-0011-0021
1 1 8 -0.020 -0.030
~ 1 9 -0.063 -O 069
[ 1 [ 1 10 -O 114 -O 117
~ 1 11 -O 066 -O 064
12 -O 037 -O 023
1 1 1 1 13 -O 012 o 014
1 1 14 -0.051 -O 022
1 1 1 1 15 -O 062 -0.042
1 1 111 16 -O 057 -O 049
111 17 -O 054 -O 054
18 -O 029 -O 032
1 1 1 1 19 -O 024 -O 029
1 1 1 1 20 0013 0007
Es decir
MA (B )
Zt = 'I!(B)at = AR(B ) at , y AR(B)zt = M A(B)at,
que observamos combinan polinomios de retardos p, q.
13.6.1. Proceso ARMA (1, 1)

El proceso más sencillo es el proceso ARMA ( 1, 1),
(13.6.1)
donde las variables están en diferencias a las medias y Et es ruido blanco. Utilizando el operador
de retardos B tenemos
(13.6.2)
Para que el proceso sea invertible se debe cumplir que IB1I < 1, y para que sea estacionario
que l<Pil < l. En tal caso podemos expresar un ARMA(l ,1) tanto como un AR, como un
MA, ambos de orden infinito y serán útiles para caracterizar los correlogramas de este tipo
de procesos.
En primer lugar vamos a invertir9 la parte AR
Zt = (1 - <P1 B)- 1 (1 - B1B) Et= (1 + <P1 B + <Pi B 2 + ... ) (1 - B1B) Et
Zt = ( Et+ cP1Et-l + <PiEt-2 + ... ) - (B1Et-l + cfa1 B1 Et-2 + <Pi B1Et-3 + ... )
Zt = Et+ (<P1 - B1) Et-1 + <P1 (<P1 - B1 ) Et-2 + <Pi (<P1 - B1) Et-3 + ...
9
Es aconsejable que el lector que experimente alguna dificultad técnica en la inversión revise el apéndice
de este tema.
Tema 13 499
Figura 13.6.1: Correlogramas de un ARMA (l, 1)

</>1 >o, fh <o
FAT FAP
' 1••. -. -- -
11. 11 ·-· -.~- -'
</>1 <o, fh <o
FAT FAP
111 •• - - ·- -
</>1 <o, (}i <o

FAT FAP
111 • • - - - - 111 •• - - ---

</>1 < O. B1 > O
FAT FAP
111 1 1 • • - - -
111 • • - - - -
</>1 > O, B1 > O, </> 1 < B1

FAT FAP
1111 1 • • - - - 1111 1 • • - - -
</>1 > O, B1 > O, </>1 > B1

FAT FAP
1
111 •.. ____ ¡ IJ1i...... --.-

¡ 1 l • ~ • - ~ IU j L 1 1 1 - • ~ ' 1 1 9 1
Esta representación en términos de un MA (oo) es consecuencia de la inversión de la

parte AR (1), y nos facilita observar que los parámetros que decrecen de forma geométrica
en potencias sucesivas de <Pi· Así pues la parte AR(l) del ARMA(l,1) facilitará una FAT de
similar trayectoria a un AR( 1).
En segundo lugar, el proceso ARMA (l,1) también se puede escribir como una AR(oo)
puesto que la parte del proceso MA es invertible
Et= (1 - <PiB) (1 - fhB)-i zt = (1 + fhB + orB 2 + ... ) (1 - <PiB) zt
que tras operar y despejar, podemos expresar del siguiente modo
Zt = (</Ji - 8i) Zt-i + Oi (</Ji - Oi ) Zt-2 + 8r (</Ji - Oi) Zt-3 + ... +Et·
Esta última expresión nos permite ver que el efecto directo de Zt-u sobre Zt decrece geo-
métricamente en potencias de 8i, es decir. Of. Es de esperar por lo tanto que la FAP presente
un decrecimiento geométrico como consecuencia de la influencia de la parte MA en el proceso
ARMA (1, 1).
A modo de resumen, podemos decir que la FAP y FAT de este tipo de procesos tendrán una
descripción estructural muy parecida: El primer valor depende de la diferencia paramétrica
(<Pi - Oi); los siguientes valores de la FAP y FAT irán decreciendo a una tasa determinada
por 8i y <Pi, respectivamente. La Figura 13.6.1 contempla distintos escenarios en función del
valor y signos de dichos parámetros.
A los efectos de determinar el valor preciso de los coeficientes relevantes, procedemos ini-
cialmente elevando al cuadrado la expresión (13.6.1), aplicando ahora esperanzas, obtenemos
la varianza del proceso
(13.6.3)
Multiplicando también (13.6.1) por Zt-u y aplicando esperanzas obtenemos las funciones
de autocovarianza del proceso
(13.6.4)
Esta expresión nos facilita comprobar que para u= 1 se tiene que
'Yi = <Pno - 8io-;. (13.6.5)

Así pues podemos obtener el primer coeficiente de autocorrelación
donde la última igualdad se obtiene tras sustituir y simplicar.

De modo similar, para u> 1 la función de autocovarianza es
Tema 13 501
"!u= rf>l'Yu-l , (13.6.6)

que podemos calcular recursivamente. Por tanto,
Pu = r/>1Pu-l
y la F AT decrecerá también de forma geométrica como consecuencia de la influencia de la
parte AR (1) del proceso ARMA (l, 1).
En todo caso los correlogramas reales de los procesos ARMA (1, 1) pueden diferir de los
teóricos representados en la Figura 13.6.1. Cuanto mayor sea el peso de la parte AR respecto
de la parte M A , el correlograma del proceso ARMA será más parecido al correlograma teórico
de un modelo AR. Por el contrario, si la parte M A pesa más, su correlograma se acercará al
teórico de un modelo M A.
Por último, la expresión de p 1 nos permite considerar el caso particular de (Ji = r/>1, ya
que en tal situación Pl = O, y por tanto también serán nulos los siguientes retardos, es decir,
Pu = O, u = 1, 2, 3, ... , que es justamente el correlograma del ruido blanco. El motivo por el
que sucede esto es porque el polinomio de la parte MA y el de la parte AR comparten, en ese
caso, una raíz común, por lo que podríamos reducir la expresión (1 - r/>1B) Zt = (1 - B1B) Et
simplemente multiplicando ambos miembros por el factor (1 - rp 1B)- 1 = (1 - B1B)-1, lo que
significaría que Zt = Et, o lo que es lo mismo que el proceso sería ruido blanco.
13.6.2. Proceso ARMA (p, q)

Un proceso ARMA (p, q) combina los procesos AR (p) y M A (q), y analíticamente tiene
la forma siguiente:
(13.6.7)
Utilizando el operador de retardos B podemos escribir el proceso como sigue
(13.6.8)
o, en notación compacta 10
AR(B)zt = MA (B)Et· (13.6.9)

El proceso será invertible si las raíces de MA(B) = O están fuera del círculo unidad y
estacionario si ocurre lo mismo con las raíces de los retardos autorregresivos AR (B) = O.
Además hemos de suponer que no hay raíces comunes entre ambas partes. Al igual que con el
modelo ARMA(l,l), podemos expresar cualquier modelo ARMA(p,q) como un MA de orden
infinito y como un AR de orden infinito.
10
Es evidente que las expresión AR(B) o MA(B) son referentes a los polinomios en B relativos a cada una
de las partes AR y MA. En el tratamiento que a estos efectos damos en el Apéndice Técnico a este tema,
dichos polinomios se denotan de forma diferente.
502 MODELOS ESTACIOl\ARIOS DE SERIES TEMPORALES
Figura 13.6.2 : Inversió n en España entre 1954 y 2010
B0.000
40.000
De igual modo a como hemos procedido con los modelos anteriores, podemos obtener las
autocovarianzas simplemente multiplicando por Zt-u
y tomando a continuación esperanzas
Considerando que para u> q la parte de la derecha se anula, tendremos, tras dividir entre
/O
Pu - Pl í'u-1 - P2/u-2 - ··· - Pp/u-p = O
La forma típica de la FAT de un modelo ARMA (p, q) es geométricamente decreciente,

AR del proceso; sin embargo este decrecimiento puede
y esto es así dado debido a la parte
estar atenuado por el componente M A. Lo mismo puede decirse de la FAP pero a la inversa.
En consecuencia puede resultar complejo ident ificar el orden del proceso A R M A (p, q) en la
práctica. Veamos un ejemplo.
Ejemplo 41. La gastos de inversión

La Figura 13 .6.2 reproduce los gastos en formación bruta de capital fijo de la contabilidad
española entre 1954 y 2010 en euros constantes de 2000 .
El gráfico muestra una tendencia crecient e y, por tanto, las inversiones no son estacionarias
en media. La aproximación al parámetro >. de la transformación Box-Cox, a partir de la expresión
(13 .3.2), es
ln S1NV; =e+ (1 - >.) lnINVi = -2, 1+O,95· ln I NVi,

es dec ir que >. = -0, 05 (1 - O, 95), valor cercano al nulo de manera que podemos concluir que la
transformación logarítmica es adecuada para consegu ir variabilidad constante.
Por tanto , podemos probar si la difere ncia del logaritmo de las inversiones es estacionaria. La
Figura 13.6.3 muestra la serie , cuyo gráfico parece mostrar que las diferencias en logaritmos de las
inversiones son aproximadamente estacion arias en media y varianza. Para verificarlo mostramos su
Tema 13 503
Figura 13.6.3: Diferencias de las inversiones en logaritmos
correlograma en la Figura 13.6.4, correlograma que muestra cómo la FAT y la FAP decrecen de
forma geométrica con un solo valor significativo en ambas funciones (FAT y FAP), por tanto parece
que el correlograma se corresponde con un modelo A R MA (l, 1), cuya estimación se reproduce a
continuación :
6 ln (inversiónt) =O, 040 +O, 4436 ln (inversiónt-1) +O, 364ft-1 +Et, (13.u.10)
(0,017) (0,193)
.
(0,364)
donde todos los parámetros son significativos al 5 % excepto el parámetro M A que solo lo es al
10 %. El correlograma de los errores estimados en el modelo (13.6.10) se reproduce en la Figura
13.6.5, donde la FAT no presenta ningún valor signifi cativo por lo que podemos considerar que los
errores estimados en el modelo (13.6.10) son la imagen empírica de un proceso ruido blanco, y en
consecuencia el modelo (13.6.10) estimado parece correcto.
Como vemos la elección del orden AR y del orden MA, es decir de p, q, no es fácil. Una
forma especialmente útil de seleccionar modelos ARMA es utilizar criterios basados en teoría
de la información, que habitualmente de denominan criterios de información, y que ya nos
hemos referido a ellos en algún momento. A partir de un modelo ARMA(p, q) estimado,
podemos calcular la estimación de la varianza de los errores, que ahora denominamos <J;(p, q).
Entonces definimos algunos criterios de información
AIC(p, q) = logCT¡(p, q)
A
+ T2 (p + q)
logT
BIC(p, q) = logCTc2 (p, q) + T(p + q)
A
-l (
H e( p, q) - ogCTe2 p, q
A )
+ 2(p+q)log(log(T))
T
504 MODELOS ESTACIOKARIOS DE SERIES TEMPORALES
Figura 13.6.4: Correlograma de las diferencias en logaritmos de la inversión

Sample 19542010
lnduded observabons : 56
Autocorrelation Part1al Correlation AC PAC
1 0.619 o619
2 o217 -0.268
3 0.081 0.133
4 0.042 -0.045
5 -0.070 -0.147
6 -0 140 -O 003
7 -0.103 0.017
8 0.048 0.165
9 0.013 -0.212
10 -0.155 -0.135
11 -O 206 -0 008
12 -0.066 0.114
13 -0.045 -O 125
14 -0.108 -0.024
15 -O 058 0.091
16 o 114 0.086
17 o 142 -0.075
18 0.004 -0.087
19 -0.161 -0.134
20 -O 233 -0.186
21 -O 169 0.104
22 -0.074 0.116
23 -0.094 -0.152
24 -0.026 0.014
Figura 13.6.5: Correlograma de los errores estimados del modelo de la inversión

Autocorrelation PartiaJ Correlation AC PAC
1 0.007 0.007
2 -O 013 -0.013
3 -0.046 -0.046
4 0.145 o 146
5 -0112 -0.119
6 -0.076 -0.073
7 -O 160 -0.153
8 o 171 0.152
9 0.056 0.078
10 -0111 -0.124
11 -0.248 -0.232
12 0.122 0.060
13 0.001 0.004
14 -O 103 -0.083
15 -0.127 -0.056
16 o179 0.107
17 0.073 o012
18 0.041 0.020
19 -0.095 0.004
20 -0.118 -0.215
21 -0.094 -0.201
22 0.103 0.144
23 -0.104 0.062
24 -0.123 -0.229
Tema 13 505
Estos criterios añaden un término de penalización al logaritmo de la verosimilitud, que es

negativo. Este logaritmo tiende a aumentar si el modelo es más complejo (mayores valores
para p, q), en el sentido de alejarse de ser un modelo sencillo o parsimonioso. Esta penalización
por tanto nos previene de ser innecesariamente complejos. De hecho estos criterios tienen
siempre la forma
IC = logfr;(p, q) + penalización(T, número de parámetros).

La regla de selección consiste en localizar aquella combinación de parámetros que minimi-
za cualquiera 11 de los IC . Utilizando esta regla es relativamente sencillo implementar un
algoritmo de selección. En general, todo algoritmo de este tipo tiene los siguientes pasos:
l. Estimar varios ARMA(p,q) para todo un rango de combianaciones razonables: O :::; p :::;
p y o:::; q:::; Q.
2. Comparar todos los modelos, es decir, (P + l )(Q + 1), utilizando criterios IC, y selec-
cionar el que menores valores arroje.
3. Someter al modelo elegido a contrastes de especifición , algo que veremos más adelante
pero que básicamente consiste en utilizar procedimientos para comprobar que el mo-
delo está bien especificado. A estos efectos entenderemos que el modelo ARMA está
correctamente especificado si los residuos del modelo son compatibles con ruido blanco.
13.7. PROCESOS ARIMA

Hemos visto anteriormente que un proceso es integrado de orden d, I (d) si obtenemos un
proceso estacionario al aplicar d diferencias sucesivas.
Supongamos que denominamos Wt a la serie original I (1) y Zt a la serie estacionaria
consecuencia de aplicar una diferencia. En estas condiciones podemos escribir
(13.7.1)
que es un proceso autorregresivo de parámetro unitario y cuya primera diferencia es estacio-
naria. Utilizando el operador de retardos B tenemos que
(13.7.2)
Los modelos AR!M A incorporan esta posibilidad, es decir, permiten incorporar un proceso
autorregresivo de parámetro unitario previo a la aplicación de los procesos ARMA.
Un proceso AR!M A (p, d, q) es un proceso integrado de orden d [I (d)] que combina ade-
más una parte autorregresiva de orden p [AR (p)] y una parte de medias móviles de orden
q [M A (q)]. Ya hemos visto ejemplos de estos modelos, en el Ejemplo 39 el logaritmo del
PIB en primeras diferencias es un AR(l) pero el logaritmo del PIB (sin diferencias) es un
11
AIC tiende a seleccionar órdenes ligeramente superiores que BIC. La bondad de BIC esencial reside en
que asintóticamente y bajo ciertas condiciones es un criterio de selección consistente, es decir, asintóticamente
selecciona los verdaderos p, q. Para tamaños muestrales discretos, AIC o HC son preferibles.
modelo ARI M A (l, 1, O) . En el Ejemplo 40 los tipos interbancarios responden a un proceso

ARIMA (O, 1, 1). Y en el Ejemplo 41 la inversión muestra un proceso ARIMA (l, 1, 1).
Así en el proceso ARI M A (l, 1, 1) , el primer dígito indica el orden del componente AR,
el segundo el grado de integración y el tercero el orden del componente M A. Utilizando el
operador de retardos, un ARIMA(l,l,l) puede escribirse como
(1 - </>1 B) (1 - B) Wt =e+ (1 - ()iB) Et· (13.7.3)

Análogamente un proceso es integrado de orden dos, I (2), si aplicando dos diferencias
sucesivas obtenemos un proceso estacionario ,
d 2Wt = 6 2Wt = (1 - B) Wt = Zt.

2
(13.7.4)
desarrollando el paréntesis al cuadrado obtenemos
2
(1 - B) Wt = (1 + B 2 - 2B ) Wt = Wt + Wt -2 - 2Wt-1 = Zt.
En general, un modelo ARI M A (p, d, q) se escribe como
13.8. PROCESOS ARIMA ESTACIONALES
Cuando las observaciones de una serie tienen una periodicidad inferior al año, el compo-
nente estacional s puede ser muy importante 12 . En general, los procesos ARIM A se pueden
generalizar a los procesos SARIMA (o simplemente modelos ARIMA estacionales) sin más
que sustituir los desfases regulares i = 1, 2, 3, ... por los estacionales s = s, 2s, 3s, ... Además
los modelos estacionales presentan los mismos correlogramas que los modelos ARI M A no
estacionales pero considerando solo los retardos o desfases estacionales.
Así un modelo SAR (l) o un modelo AR (l) estacional tiene la forma Zt = 1 Zt-s +Et·
Un SAR (2)se escribe como Zt = 1 Zt-s + 2zt-2s +Et. Por lo tanto estos modelos tendrán
los mismos momentos y correlogramas que los AR (l) y AR (2) regulares, pero considerando
solo los retardos estacionales. Los procesos SAR presentan una FAT que decrece rápidamente
en los retardos estacionales de forma exponencial o sinusoidal indicando la naturaleza del
proceso. La FAP indica el orden del proceso SAR: un SAR (l) tiene un solo valor distinto de
cero en el primer retardo estacional s. Un SAR (2) tiene solo dos valores distintos de cero, s
y 2s, el resto serán nulos.
Lo mismo podemos decir del modelo SM A (l) o un modelo M A (l) estacional, que tiene
la forma Zt = 81Et-s + Et· Un SM A (2) se escribe como Zt = 81Et-s + 82 Et-2s + Et · Tienen
también los mismos momentos y correlogramas que los MA(l) y MA(2) pero considerando
solo los retardos estacionales. Los procesos SM A presentan una FAP que decrece rápidamente
en los retardos estacionales de forma exponencial o sinusoidal indicando la naturaleza del
12
Su valor es s = 2 cuando la serie es semestral; s = 4 si es trimestral; s = 12 si es mensual; s = 52 si es
semanal; y s = 365 si la serie tiene observaciones diarias.
Tema 13 507
proceso. La FAT indica el orden del proceso S M A: un S M A ( 1) tiene un solo valor distinto
de cero en el primer retardo estacional s. Un S M A (2) tiene solo dos valores distintos de
cero s y 2s, el restos serán nulos. Los procesos SARM A presentan también la misma forma
funcional y los mismos correlogramas que los procesos ARMA pero considerando solo los
desfases estacionales.
El modelo SARI M A (P, D , Q) es un proceso integrado de orden D estacional que se
combina con un proceso SAR(P) y un proceso SMA(Q).
Un modelo SARIMA (1, 1, 1) analíticamente es
(13 .8.1 )
Los modelos ARI M A regulares y los modelos SARI M A estacionales se pueden combinar
en modelos generales del tipo S ARI M A (p, d, q) (P. D, Q) 8 donde el componente d y D in-
dica el orden de integración regular y estacional I (d, D) , incluyendo también el componente
autorregresivo regular AR (p) y estacional SAR (P) y el componente medias móviles regular
MA(q) y estacional SMA(Q) .
Por ejemplo, un modelo SARI M A (1, 1, 1) (1, 1, 1) 8 analíticamente es
(13.8.2)
que presentará el correlograma típico de un proceso ARMA (1, 1) en el orden regular y un

correlograma similar en el orden estacional S ARMA (1, 1) s.
El modelo anterior presenta una variable Wt integrada de orden uno regular y estacional
I (1, 1), es decir que realizando una diferencia regular y una estacional obtenemos una serie
estacionaria Zt; esto lo podemos escribir como
(13.8.3)
desarrollando el paréntesis tenemos que
(1 - B) (1 - B 8 ) Wt = (1 - B 8 - B + ss+l) Wt
(13.8.4)
= Wt - Wt -s - Wt-1 + Wt-s-1 = Zt.
13.9. IDENTIFICACIÓN Y VALIDACIÓN
Normalmente el procedimiento para ajustar los modelos SARI M A a una serie real consiste
en:
l. Transformación de la serie en estacionaria. Es decir, decidir la transformación a aplicar

para convertir la serie real en estacionaria.
2. Identificación. Determinar el modelo ARMA (p, q) , es decir , determinar los órdenes de

p y q en los desfases regulares, y también en los estacionales [SARM A (P. Q)] P y Q,
comparando los correlogramas estimados con los teóricos.
3. Estimación del modelo SARI M A (p, d, q) (P, D, Q) 8 seleccionado.
4. Validación del modelo.
Ya hemos visto la forma de transformar una serie en estacionaria mediante el procedimiento

de aplicar diferencias y quizás también la aplicación de logaritmos o incluso la transformación
de Box-Cox. El segundo punto lo tratamos a continuación.
13.9.1. Identificación
En principio la identificación del proceso la podemos realizar comparando el correlograma
estimado (o muestral) con los correlogramas teóricos de los procesos ARMA en el orden
regular y estacional como hemos visto anteriormente. Sin embargo la tarea de identificar
el orden del proceso a partir del correlograma muestral es difícil. Por tanto, cuando no es
suficiente el análisis de correlograma para determinar el orden exacto del proceso (lo que
es habitual) , estimaremos sucesivamente distintas especificaciones y seleccionaremos
la que mejor ajuste, utilizando los criterios de Akaike (AIC) y / o de Schwarz (BIC) ya
comentados anteriormente, eligiendo aquel que presente un valor menor.
En general los modelos posibles suelen estar en el subconjunto p ~ 3, q ~ 2, P ~ 3, Q ~ 2.
También debemos determinar si la serie estacionaria Zt tiene media distinta de cero.
Para ello calculamos su media muestra! Z = r- 1 ¿f=
1 Zt y su desviación típica que puede
aproximarse por S (Z) e-::~ (1+2{Ji + 2fJ2 + ... + +2fJk) 112, donde Sz es la desviación típica
de la serie estacionaria, y donde estamos considerando que los retardos significativos son los
k primeros. Si IZI ;: :
28 (z), es decir si está alejada más de dos desviaciones típicas, entonces
la media del proceso estacionario se admitirá que es distinta de cero, y entonces debemos
incluir en la estimación de los procesos un término constante. Si por el contrario podemos
considerar que la media del proceso estacionario es nula entonces realizaremos la estimación
sin constante.
La estimación de los modelos ARMA regular y estacional se realiza por el método de
máxima verosimilitud exacta o condicionada que los programas especializados llevan a cabo
de forma rutinaria 13 .
13.9.2. Validación
Un modelo es validado cuando los residuos ft sean la imagen empírica de un proceso
ruido blanco. Concretamente ya dijimos que esto significa que el modelo está correctamente
especificado. Contamos con varias herramientas para realizar este diagnóstico. A parte del
contraste individual (uno a uno) de los valores estimados de la función de autocorrelación
total para desfases sucesivos en el sentido ya estudiado de que todos los valores deben ser no
significativos l.Dul < j;,
que ya hemos utilizado en otras fases , contamos con un contraste
global sobre los primeros k desfases de la función de autocorrelación total.
Es necesario este tipo de contraste porque cuando estamos contrastando un grupo elevado
de autocorrelaciones, algunas superarán el umbral anterior por puro azar a pesar de que los
13
No obstante en el apéndice del tema se ofrecen nociones mínimas de estimación.
Tema 13 509
verdaderos valores fueran nulos. El contraste global que nos permite evaluar que todos ellos
son nulos es el denominado estadístico Q de Ljung-Box. La lógica del contraste reside en que
si los residuos son ruido blanco, los coeficientes de autocorrelación total son asintóticamente
normales, con media mula y varianza (T - k)/T(T- 2) e::'. 1/T y esto permite derivar que
k ~2
Q (k) = T (T + 2) L TP:_ i, (13.9.1)

i =l
que, bajo la hipótesis nula, Q se distribuye como una x2 con k - n grados de libertad, siendo
n igual al número de parámetros estimados. Es decir, n = p + q + P + Q + 1 si tiene término
constante o n = p + q + P + Q si no lo tiene. Si el valor muestral de Q excede al valor
crítico de la correspondiente x2 , entonces al menos un valor de la función de autocorrelación
considerada es estadísticamente distinto de cero.
Una limitación práctica y teórica de este popular contraste de diagnóstico de los residuos
es que está limitado a rastrear únicamente estructuras lineales en los residuos. Esto es así
puesto que utiliza o se basa en funciones de autocorrelación, que por definición son lineales.
Existen varias alternativas que resultan eficaces tanto para estructuras lineales como no linea-
les. Concretamente el estadístico BDS de Brock et al. (1996), basado en el concepto de integral
de correlación, y el estadístico X de Matilla-García (2007) o el G de Matilla-García y Ruiz
(2008), basados en la entropía de permutación, son posiblemente los contrastes alternativos
más potentes actualmente registrados.
13.10. PREDICCIÓN
Una vez validado el modelo satisfactoriamente podemos realizar predicciones utilizando la

información conocida. Definimos el predictor puntual como la esperanza de Zt+h condicionada
a la información conocida Z1, ... , Zr, E1, ... , Ey, r/>1, .. ., r/>p y e1, ... , eq que consideramos constante
a efectos de predicción. Para simplificar denominaremos a toda la información conocida ZT.
De esta manera la predicción es
(13.10.1)
como el error de predicción es una variable aleatoria, el objetivo que nos plantemos es mini-
mizar el error esperado.
El cálculo de la predicción lo podemos obtener de forma iterativa a partir de un proceso
general ARMA (p, q)
Zt =e+ r/>1 Zt-l + ... + r/>pZt-p +Et - e1 Et-l - ... - eqEt-q, (13.10.2)
donde Zt expresa la serie Wt original en niveles, transformada en estacionaria mediante la

aplicación de diferencias
(13.10.3)
La predicción para el periodo t + 1 se obtiene simplemente adelantando un periodo la

expresión (13.10.2), es decir que
JE (zt+ 1 ZT)
zt+ 1 = 1
=JE (e+ <P1Zt + ... + </>pZt-p+I + Et+l - B1Et - ... - BqEt-q+1) (13.10.4)
=e+ <P1Zt + ... + </>pZt-p+1 - B1Et - ... - BqEt-q+l,
donde JE (Et+1) =O.
La predicción en el horizonte t + 2 es ,
Zt+2 = JE (Zt+2 ZT ) 1
= JE (e+ </>1Zt+1 + ... + </>pZt-p+2 + Et+2 - B1Et+1 - B2Et - ... - BqEt-q+2) (13.10.5)
=e+ </>1Zt+l + ... + </>pZt-p+2 - B2Et - ... - BqEt-q+2 ,
donde perdemos el componente Et+2 - B1Et+l al sustituir los valores desconocidos de Et+2 y
Et+i por sus valores esperados nulos. Por consiguiente para un horizonte de predicción h > q
se pierde el componente de medias móviles,
(13.10.6)
U na vez que disponemos d~la predicción de la serie estacionaria podemos calcular la
predicción de la serie en niveles Wt+h deshaciendo los cambios, es decir , si la serie es integrada
de orden 2 y hemos obtenido las predicciones Zt+h, .. ., Zt+l de forma iterativa, tenemos que
la predicción en niveles es
(13.10.7)
donde -
wt+h-1 y -
wt+h-2 los hemos calculado previamente.
13.10.1. Predicción de los modelos AR{1}

La predicción de un modelo AR (1) Zt =e+ </>1Zt-1 +Et, en el horizonte t + 1, es
El error de la predicción es la diferencia entre el verdadero valor y su estimación,
error (et+1) = Zt+1 - Zt+1

=(e+ </>1Zt + Et+i) - (e+ </>1Zt) = Et+1,
cuya varianza es
Tema 13 511
Var (ft+i) =a;,

de manera que podemos establecer un intervalo de confianza para la predicción puntual Zt+l ±
1, 96·(Ji; con el 95 % de confianza.
La predicción para t + 2 es
zt+2 =JE (Zt+2 1 ZT ) =JE (e+ <P1Zt+l + ft+2)

= JE [e+ 4>1 (e+ 4>1 Zt + ft+1) + Et+2] = e (1 + 4>1) +<PI Zt,
el error de la predicción es
error ( et+2) = Zt+2 - Zt+2

= [c(1+4>1)+</>fZt+4>1ft+1+ft+2]- [c(l+</>1)+</>IZt]
= </>1ft+l + ft+2,
cuya varianza es
Var (</>1ft+1 + ft+2) =a; (<Pf + 1),

~ 1/2
y el intervalo de confianza es Zt+2 ± 1, 96·(}e ( </>f + 1) .
La predicción en general de t + h para h 2 1 es
=JE [e ( 1 + 4>1 + ... + 4>~-l) + <P? Zt + ( Et+h + </>1ft+h-1 + ... + 4>~- 1 ft+l) J
= e ( 1 + </>1 + ... + </>~- l) + <t>? Zt;
el error de la predicción
cuya varianza es
Var (Et+h + </>1ft+h-l + ... + 4>~- 1 Et+1) = (}; (1 + </>f + ... + <Pi·(h-l)),
~ ( 1 + </>1Et+h-l
2 12
y el intervalo de confianza, Zt+h ± 1, 96·(}¡; + ... + </>12·(h-1) ) / ·
De esta manera la predicción para h 2 1 es Zt+h = e ( 1 + </>1 + ... + <Dq) + <P? Zt. A medida
que el horizonte de predicción aumenta <P? Zt converge a cero por la condición de estacionaridad
l4>1I < 1ye(1+ 4>1 + ... + <t>?) es una progresión geométrica que converge a e/ (1 - 4>1), que
es la media del proceso Z. En definitiva, cuando h---+ oo, la predicción es la media del proceso
estacionario. La varianza del error de predicción también converge, por las mismas razones, a
(}; / ( 1 - <t>f) .
13.10.2. Predicción de los modelos MA ( 1)

La predicción de un modelo M A (1) Z t = Z- e1 Et-1 + Et, en el horizonte t + 1, es
el error de la predicción es la diferencia entre el verdadero valor y su estimación,
error (et+l) = Zt+l - Zt+ 1

= (z - e1Et + Et+1) - (z - e1Et) = Et+1,
cuya varianza es
Var (Et+1) =a:,

de manera que podemos establecer como intervalo de confianza para la predicción puntual
zt+l ± 1, 96·ac con el 95 3 de confianza.
En cuanto a la predicción para t + 2 tenemos que
Zt+2 =JE (Zt+2 1 zT ) =JE (z - e1Et+i + Et+2) = z,

donde ha desaparecido el componente de media móvil, y el error de predicción es
error (et+2) = Zt+2 - Zt+2

= (z -
e1Et+i + Et+2) - z
= -e1Et+1 + Et+2,
cuya varianza es
Var (-e1 Et+1 + Et+2) =a: ( + 1) '

er
l~
~ 1, 96·ae ( er + 1)
-
y el intervalo de confianza es Zt+2 .
En general la predicción para Zt+h para h > 1 es la media del proceso y la varianza del
error es a;
(1 +en .
13.10.3. Predicción de los mode los ARMA ( 1, 1)

La predicción de un modelo ARMA (1, 1) Zt = e + <f; 1 Zt-l - e1 Et-l + Et, en el horizonte
t + 1, es
el error de la predicción es la diferencia entre el verdadero valor y su estimación,
error (et+1) = zt+1 - Zt+i

= (e+ <P1Zt - e1Et + Et+i) - (e+ <P1Zt - e1Et) = Ct+l,
cuya varianza es
Tema 13 513
Var (Et+1) = <T:,

de manera que podemos establecer como intervalo de confianza para la predicción puntual
Zt+1 ± 1, 96·<T€ con el 95 3 de confianza.
En cuanto a la predicción para t + 2, tenemos que
Zt+2 =JE (Zt+2 1 ZT ) = lE (e+ </>1Zt+1 - 01Et+1 + Et+2)

=JE [e+ </>1 (e+ </J1Zt - 01Et + Et+i) - 01Et+1 + Et+2] =e (1 + </>1) +<Pi Zt - </J101Et,
cuyo componente de medias móviles es muy pequeño.
El error de la predicción es
error (et+2) = zt+2 - zt+2

= [c(l + </J1) + </JiZt - </J101Et + </J1Et+l - 01Et+l + Et+2]
- [c(l + </J1) + </JiZt - </J101Et]
= </J1Et+l - 01Et+l + Et+2,
cuya varianza es
~
y el intervalo de confianza es Zt+2 ± 1, 96·<T€ [1 + (</>1 - 01) 2] 1/2.
La predicción en general de t + h para h 2: 1 es
= JE[c ( 1 + </>1 + ... + </J~- 1 ) + <P? Zt - 01 ( Et+h-1 + </>1Et+h-2 + ... + <P~- 1 Et)
+ (Et+h + </J1Et+h-1 + ... + </J~-lét)l
=e ( 1 + </>1 + ... + </J~-l) + <P? Zt - 01</Jh-lEt·
En el límite h --+ oo los sumandos fuera del paréntesis son nulos si tenemos en cuenta la
condición de estacionaridad l</>11 < 1 y de invertibilidad I011 < 1 y la suma entre paréntesis
converge a la media e/ (1 - </>1).
El error de la predicción es
error ( et+h) = Zt+h - Zt+h

= Et+h + </J1Et+h-1 + ... + </J~-lét+l - 01 (Et+h-1 + </J1Et+h-2 + ... + </J~- 2 Et+l)
= Et+h + (</J1 - 01) Et+h-1 +(</Ji - 01</J1) Et+h-2 + ... + ( </J~-l - 01</J~- 2 ) Et+I,
cuya varianza es
2
(}'€2 [1 + ( </>1 - fh )2 + ( </> 21 - B1</>1 )2 + ... + ( </> 1h-1 - B1cp h-2)
1 ] ,
y sus valores entre paréntesis disminuyen de forma geométrica, de manera que en el límite
h --+ oo la varianza converge a una constante.
Afortunadamente las predicciones así como los intervalos de confianza de los modelos
ARI M A en general los calculan de forma rutinaria los programas especializados.
Veamos unos ejemplos para repasar todo lo analizado en el tema.
Ejemplo 42. El paro registrado en España

En general , para identificar, estimar, va lidar y predecir un modelo ARIMA se deben seguir los
pasos que se muestran en la Figura 13.10.1
Figura 13.10.1: Proceso de ARIMA
si
¿Es estaciona ria?
no
si
Restaurar la no estacionaridad
no
si
Aceptación del modelo
Analizaremos las variables del paro en España durante los últimos 27 años (hasta diciembre de
2009, es decir, estimaremos el modelo ARIMA entre enero 1982 y diciembre de 2009 y haremos una
Tema 13 515
Figura 13 .10.2: Paro registrado 1982 - 2009
Figura 13 .10.3 : Paro registrado 1982 - 2009 , primera diferencia regular y estacional
predicción para 2010) . La actualidad del tema es evidente , la coyuntura económica muestra una
actividad económica caracterizada por una grave crisis del sector financiero internacional que en
España se ha manifestado esencialmente en una fuerte crisis de liquidez. El panorama nacional se
agrava con el fuerte endeudamiento de las familias y las empresas y del Estado . Tradicionalmente
se ha utilizado el paro y el empleo registrado . Pero act ual mente se utiliza la Encuesta de Población
Activa (EPA) por su mayor cal idad . Aquí utilizaremos no obstante las fuentes de la Seguridad Social
(paro registrado en la Seguridad Social) que tienen la ventaja de tener periodicidad mensual.
La Figura 13.10.2 muestra el paro registrado entre enero de 1982 y diciembre de 2009 , donde
podemos apreciar ciclos como el crecimiento del paro en la primera mitad de los ochenta (crisis
del petróleo) , la crisis del 93 y la actual. Vemos que la serie no es estacionaria en media puesto
que no se mantiene estable en el tiempo. También se aprecia un comportamiento estacional. En
consecuencia probamos si la diferencia regular y estacional es estacionaria en media y en varianza
(6.6. 12 paro). La serie transformada se muestra en la Figura 13 .10.3.
El gráfico muestra una serie estacionaria en med ia y aparentemente también con variabilidad
constante. Aparecen dos observaciones atípicas, en enero de 1996 y enero de 1997, valores que
516 MODELOS ESTACIO!\ARIOS DE SERIES TEMPORALES
Figura 13.10.4: Correlograma del paro en primeras diferencias regulares y estacionales

Sampte 1982M01 2009M 12
lncluded observations · 323
Autocorrelat1on PartJal Correlabon AC PAC 0-Stat Prob
1 o188 o188 11467 0.001

2 0.164 0.134 20 290 o000
3 0059 0.007 21 .415 0000
4 0.064 o034 22.784 0000
5 o108 0088 26.618 0000
6 o104 o063 30 202 0000
7 O027 -O 029 30445 0.000
8 0058 0.032 31 .572 o000
9 o 029 0.008 31857 o000
10 -o 019 -0.053 31.984 0.000
11 -0.028 -O 040 32.254 o001
12 -O 404 -0.421 87 341 0000
13 -0.036 o 109 87.no 0000
1 1 14 -0.064 0031 89.175 0000
1 1 15 -0.027 -O019 89 429 0000
1 1 16 -O 031 0016 89.751 0000
1 1 17 -0.034 o055 90 152 0000
1 1 18 -O 097 -O 029 93 378 0000
1 1 19 -0.069 -0.062 95013 o000
1 1 1 1 20 -O 023 0.071 95.196 0000
1 1 1 1 21 -o 014 o016 95266 0000
1 1 1 1 22 -O 039 -O 065 95788 o000
1 1 1 1 23 -O 043 -0.030 96.440 0000
1 1 24 -0.034 -0.219 96837 0000
1 1 25 -O 017 0.088 96 938 0000
1 1 1 1 26 0.012 0.035 96988 0000
1 1 1 1 27 o010 0.005 97 021 0000
1 1 1 1 28 o003 0.020 97025 0000
1 1 1 1 29 -O 017 0017 97.133 0000
1 1 1 1 30 o041 0022 97 721 0000
1 1 31 0088 o049 10048 o000
1 1 1 1 32 o 016 o031 10058 o000
1 1 1 1 33 o014 -0.006 100 65 o 000
1 1 1 1 34 o043 -O 003 101 33 oººº
1 1 1 1 35 o 043 0.008 102.00 0000
1 1 36 0011 -0.179 102 04 0000
podemos considerar errores de muestreo . La aproximación al parámetro >. de la transformación de

Box-Cox es
ln SPARO; = e + (1 - >.) ln P A ROi = - 17, 3 + 1, 95- lnPAROi,

es decir que >. = -0 , 95 (1 - 1, 95), valor cercano a 1 en términos absolutos; en consecuencia ,
la serie del paro presenta una variabilidad aproximadamente constante en niveles (para determinar
la variabilidad lo importante del parámetro >. es su valor absoluto: si está cercano a 1 no hace
falta transformación para obtener variabil ida d constante ; si es cercano a cero , la transformación
en logaritmos es la adecuada y cuando se presentan valores intermedios, lo mejor es aplicar la
transformación de Box-Cox).
El número total de observaciones utilizadas para la estimación es de 336 y como consecuencia
de la diferencia regular y estacional hemos perdido 13 datos, uno por la diferencia regular y 12 por
la diferencia estacional. El correlograma del paro en di ferencias regulares y estaciona les lo podemos
observar en la Figura 13.10.4.
La parte estacional (desfases 12, 24 y 36) reproduce el correlograma teórico de un MA (1)

Tema 13 517
Figura 13.10.5: Correlograma de los residuos paro , SARI M A (2, 1, O) (O, 1, 1)

Autocorrelabon Part1al Correlat1on AC PAC Q-stat Prob
1 1 1 1 1 -O 022 -0.022 o1582

1 1 1 1 2 -O 063 -O 064 1.4630
1 1 1 1 3 0031 o029 1.7856
4 o107 0.105 55517 0.018
5 o 104 o 115 9 0977 0.011
6 0037 0058 9 5575 0.023
7 o040 o051 10.074 0.039
8 o 154 o150 17 902 o003
9 o078 0.076 19.920 0003
11 1 1 10 0025 0032 20.127 0005
11 11 11 o014 o002 20.197 o010
12 o 105 0.069 23.896 0.004
1 1 1 1 13 o025 -o 017 24103 0007
1 1 1 1 14 -0 003 -O 030 24106 o012
1 1 1 1 15 O030 -O 004 24 415 0.018
1 1 11 16 o069 0.019 26 044 o017
1 1 1 1 17 o026 -o 012 26273 o024
18 -o 086 -o 110 28.825 0.017
1 1 1 1 19 o019 -0.010 28.952 o024
1 1 20 o 101 0.052 32484 0.013
1 1 1 1 21 o025 0.012 32.701 0.018
1 1 1 1 22 -O 021 -O 002 32.850 o025
1 1 1 1 23 -O 027 -O 019 33.096 0.033
1 1 1 1 24 O008 -O 022 33.120 0045
11 1 1 25 -O 004 -O 031 33.126 0060
11 1 1 26 0004 0018 33.132 0079
1 1 1 1 27 o029 o039 33431 0095
1 1 1 1 28 o032 0.024 33804 0.112
1 1 1 1 29 -O 027 -O 029 34.061 o 133
1 1 1 1 30 -o 044 -o 031 34.757 o145
31 o084 0.085 37.299 o 112
1 1 1 1 32 o028 0.019 37.585 0.132
1 1 1 1 33 -O 027 -O 009 37 857 o 153
1 1 1 1 34 o 010 o029 37.896 0.184
1 1 1 1 35 O005 -O 005 37 907 o218
1 1 1 1 36 -o 028 -0.069 38.182 0.246
estacional. La parte regular (primeros 11 retardos) resulta difícil de interpretar y después de es-
timar iterativamente distintos modelos elegimos el que mejor ajusta según el criterio de Akaike
(el que presenta menor valor) . Finalmente elegimos el modelo SARI M A (2, 1, O) (O, 1, l)i 2 cuya
estimación es
66 12 parot =O, 237 66 12parOt-1+O,217 66 12 parot-2 - O, 934ft-12 +Et

0,055 0,055 0,014
*** ..... (13.10.8)
n = 321, R 2 =O, 4162, R2 =O, 4125, Akaike = 24, 23,
donde todos lo parámetros son significativos . Para validar el modelo reproducimos el correlograma
de los residuos de la estimación en la Figura 13.10.5.
Las dos últimas columnas del correlograma muestran el valor del estadístico Ljung-Box y su
p-valor. Para 36 desfases el p-valor del contraste es 0,246, de manera que no podemos rechazar la
hipótesis de ruido blanco a los niveles usuales. Concluimos en consecuencia que los residuos son la
imagen empírica de un proceso ruido blanco y el modelo queda validado.
La predicción la podemos calcular iterativamente a partir de la expresión (13.10.8) . La Figura
518 MODELOS ESTACIO NA RIOS DE SERIES TEMPORALES
Figura 13.10.6: Predicción desempleo registrado del año 2010 , SARIM A (2, 1, 0) (0, 1, l )i 2
4 600 000
1-- •2SE 1
4 400 000
4 200 000 .• ~··

...... -·
4 000 000
3 800 000 ··........

···...
·-- ·····..
3 600 000 1---~---~~
--·_;.
··- ~__,,-=·;;....
--- --~--·-
· ··_-_---~
Ml M2 MJ M4 M5 M6 M7 MB M9 M10 M11 M1 2
2010
Figura 13.10.7: Predicción del paro y paro realmente registrado en 2010

4 200 000
- piro realmerte registrad>
- - - predicción
4 150 000
4 100 000
4 050 000
4 000 000
3 950 000 ··.....
M1 M2 MJ M4 M5 M6 M7 MB M9 M10 Ml 1 M12
2010
13.10.6 muestra la predicción del paro para 2010 y sus respectivos intervalos de confianza , con un
nivel de paro aproxi madamente estable en torno a los cuatro millones de parados.
La Figura 13.10.7 muestra el gráfico de la predicción del paro y el paro realmente registrado
en 2010.
Observamos qu e la predicción subestima el paro realmente registrado en 2010. Una medida

usual para medi r la capacidad predictiva del modelo es calcular la U de Theil. Su valor es,
12 (Y:º - ~º) 2
y/ 12- 1 .._...
L.. t = l t t
u = ---~---------,====== =o, 0081,
J 12- 1 ¿;:l (~º) + 12- 1 ¿;:1 (~0 )2
2
cuyo máximo es la unidad e implica independencia entre la predicción ~o y la serie real ~o y el

valor mínimo es ce ro lo que significa predicción perfecta . La predicción en consecuencia , con un
valor U= O, 008 1, la podemos calificar de más que aceptable.
Tema 13 519
13.11. MODELOS AUTORREGRESIVOS CON PREDICTORES ADI-

CIONALES
En ocasiones es posible que incorporando otras variables a la autorregresión se puedan

lograr mejores predicciones de la variable de interés, lo cual hace bastante útil contemplar
esta posibilidad. Un tipo de modelo que incorpora varios predictores aparte de los valores
retardados de la variable de interés es el modelo autorregresivo de retardos distribuidos (ARD).
En términos generales el modelo ARD(p,q) es
donde JE (et IYí:- 1 , Yí:-2, ... , Xt_ 1 , Xt-2 , ... ) = O. Esto último indica que las longitudes de los
retardos p y q son las verdaderas longitudes, y que los coeficientes de retardos adicionales
son poblacionalmente nulos. Es decir, ningún otro retardo de los especificados pertenece al
modelo ARD.
El modelo ARD(p,q) tiene una parte autorregresiva de orden p, e incorpora para mejorar la
predicción una variable predictora X retardada de orden q. Sin embargo podríamos incorporar
más variables predictoras. En tal caso el modelo general sería el que denominamos modelo de
regresión de series temporales con varios predictores.
La interpretación de los supuestos es la siguiente y la hacemos en relación con las supo-
siciones que configuran los supuestos del modelo clásico de regresión previsto en la sección
6.1. El primer supuesto ya lo hemos explicado anteriormente en esta Sección, no obstante
subrayamos ahora que la esperanza condicionada nula indica que el mejor predictor es el que
propiamente indica el modelo de regresión planteado. Si comparamos la suposiciones 2 y 3
con la Expresión (4.1.7) y especialmente con la versión adaptada para series temporales (ver
Sección 4.1 , supuesto 3), podemos comprobar que por un lado se requiere que la distribución
conjunta de las variables, incluyendo retardos, no cambie con el tiempo, y por otro que las
variables tiendan a comportarse como si fueran independientemente distribuidas cuando están
bastante separadas en el tiempo. El cuarto y quinto supuestos son similares a sus homólogos
de sección cruzada y series temporales.
En caso de que no se cumpliera la condición 2, es decir, si las variables fueran no esta-
cionarias, entonces la regresión de series temporales con varios predictores podría dar una
predicción sesgada e incluso ineficiente y la inferencia estadística basada en la estimación
MCO convencional podría resultar engañosa. Este último aspecto sería fácilmente superable
utilizando los errores estándar HAC que hemos presentado en temas anteriores.
Modelo de regresión de series temporales con varios predictores
Este modelo incorpora k predictores adicionales, de modo que para cada

uno de ellos se especifica su correspondiente retardo qk:
Yt f3o + f31Yt-1 + f32Yt-2 + ··· + {3prt-p

+óuXit- 1 + ... + ó1q 1 Xit-q 1
+ó21X2t- 1 + ... + ó2q 2 X2t-q2
(13.11.1)
donde se mantienen estos supuestos:
i. JE (Et IYt-1, Yt-2, ... , Xit-1, Xit-2, ... , xkt-1, xkt-2, ... ) =o.
2. Las variables aleatorias (Yt, Xit, ... , Xkt) presentan una distribución
estacionaria.
3. (Yt, Xit, ... , Xkt) y (rt-j, Xit-j, ... , Xkt-j) se hacen independientes a
medida que j aumenta.
4. Las variables yt, Xit, ... , X kt tienen momentos de orden cuatro finitos
y distintos de cero.
5. No existe multicolinealidad perfecta.
Procesos estacionarios ergódicos
Definición 11. Proceso estacionario. Sea G1 la función de distribución

conjunta de la sucesión {Z1 , Z 2 , ... },y GH 7 la función de distribución con-
junta de la sucesión {Z7 +i, Z 7 +2 , ... }. La sucesión {Zt} es estacionaria si
G1 = GT+l, para T 2 l.
Es decir, una sucesión es estacionaria si la distribución conjunta de las variables en la

sucesión es idéntica, sin importar la fecha de la primera observación.
Consideremos el caso de la sucesión { Zt} generada a partir de variables iid N (O, 1). El
hecho de que los elementos de la sucesión estén idénticamente distribuidos y que además
sean independientes hace posible que el proceso sea estacionario. Si los elementos fueran solo
idénticamente distribuidos según una N(O, 1), la sucesión no sería necesariamente estacionaria,
Tema 13 521
porque sería posible construir distribuciones conjuntas diferentes de tal manera que todas ellas
tuvieran distribuciones marginales normales. Si hacemos que estas distribuciones construidas
vayan cambiando con t, entonces la condición de estacionaridad no se preservaría, pese a que
la normalidad marginal sí lo haría.
Este ejemplo pone de manifiesto que la estacionaridad al aplicarse a la distribución con-
junta, y no solo a las marginales, es una condición más fuerte que la de distribución idéntica.
Por otra parte, la estacionaridad es más débil que el supuesto iid, dado que las sucesiones iid
son estacionarias, pero las sucesiones estacionarias no necesitan ser independientes.
Las leyes de los grandes números utilizan, en algunos casos, el supuesto de muestreo
aleatorio simple por lo que la condición de iid está garantizada. Sin embargo, esto no sucede
para procesos temporales en los que iid no se puede garantizar. En este marco cabe la pregunta
de si es posible sustituir la condición de iid por la condición de estacionaridad.
El siguiente ejemplo muestra que desafortunadamente esto no es posible en general. Consi-
deremos la sucesión {lt} formada a partir de observaciones del proceso yt = Z +ut donde Z es
N(O, 1), y Ut es una sucesión iid de variables aleatorias uniformemente [0,1] distribuidas e in-
dependientes de Z. En este caso, el proceso es estacionario. La esperanza (media poblacional)
del proceso es 1/ 2, pero la media muestra! (temporal),
es una variable aleatoria y no una constante. Esto sucede porque hay mucha dependencia en
la sucesión. La dependencia procede del gran peso que tiene el valor inicial Y1 en la evaluación
del proceso, como resultado del componente común Z. Esto hace que la correlación entre Y1
e yt sea muy fuerte (para una realización) con independencia de lo lejano que pueda estar t.
Para conseguir que la media muestra! (temporal) converja hacia la esperanza del proceso es
necesario eliminar dependencia del proceso. Eso es justamente lo que se logra con la condición
que hemos expuesto anteriormente de ergodicidad. Esto es, si el proceso (serie o sucesión)
es estacionario y ergódico entonces la Ley de los grandes números, conocida por teorema
ergódico, para procesos de series temporales es la siguiente:
Teorema 42. Sea { Zt} una serie (sucesión) estacionaria y ergódica con
JE ( Zt) < oo. Entonces Zt ~· JE (Zt).
Este teorema ergódico para que se pueda aplicar requiere saber cuándo una serie es er-
gódica y saber si transformaciones (funciones) habituales de un serie preservan el resultado.
Respecto a lo primero, cabe decir que las condiciones para que sea ergódico en media ya
han sido expuestas en la Ecuación (13.2.4). En particular, los procesos ARMA satisfacen la
condición necesaria para la ergodicidad
00
L ll'Ji <OO.
j=l
Respecto a lo segundo, hay que señalar que siempre que la función sea medible , concepto que
transciende el nivel de este libro, entonces una transformación de este tipo preserva la ergo-
dicidad. En particular, las transformaciones a las que habitualmente sometemos a las serie
son funciones medibles. Más incluso , estos resultados son aplicables inmediatamente al caso
vectorial. De esta manera, cuando al aplicar los métodos de MCO y VI (MC2E) estudiamo
propiedades estadísticas, necesariamente incorporamos vectores de series temporales, Xt de
orden k x 1, tenemos garantizado que las transformaciones {Xtxa,{Xtet},{Ztxa,{Ztet}, y
{Ztza formadas a partir de una serie {Z~, Xt, et} estacionaria y ergódica, son realmente esta-
cionarias y ergódicas, y por tanto podemos aplicar los resultados que se fundamentaban en las
leyes de grandes números también ahora para observaciones dependientes, pero idénticamente
distribuidas.
Notación de los modelos dinámicos utilizando el operador de retardos, L

En este último apartado se presentan los modelos uniecuacionales dinámicos expuestos en
las secciones anteriores utilizando ahora el operador retardo 14 , L. En ocasiones puede resultar
de utilidad para apreciar algunos aspect os de este tipo de modelos así como de otros que
ya hemos presentado en temas previos. Además de estas propiedades, el uso del operador
facilita la exposición de los modelos de series temporales. En primer lugar introducimos sus
propiedades en cuanto a operador lineal.
Propiedades de retardos L como operador lineal

La idea fundamental del operador de retardos, L, es que transforma una variable en ella
misma retardada un periodo:
Lyt = Yt- 1·
Podemos manipular algebraicamente el operador:
Le= e
LPyt = Yt-p,
Lº -- 1'
L -1 Yt = Yt+l·
Podemos operar con L como si de cualquier otra cantidad algebraica se tratara:
Yt-Yt-1 = (1-L)yt,
14
Habitualmente este operador se denota con la letra L, que proviene del inglés Lag. También es posible que
se denote con la letra B, que a su vez proviene también del término anglosajón Backwards. Efectivamente, en
la exposición principal que hemos hecho anteriormente hemos utilizado la expresión en B, mientras que ahora
lo haremos con la L. Igualmente, en este apénd ice vamos a referirnos al proceso dinámico por Yt, sugiriendo
con ello que las propiedades de los operadores presentados son aplicables a todo proceso dinámico, y no solo
a los referidos en la exposición principal.
Tema 13 523
2
Yt - Yt-1 - Yt-2 = (1 - L - L ) Yt·
Si consideramos, por ejemplo, una constante, a , el operador funciona algebraicamente
como esperamos
Yt - ªYt-1 = (1 - a L) Yt,
Por otra parte recordemos que un resultado básico de las progresiones geométricas es que para
lal < 1, la suma de infinitos términos
1
(l+aL+a 2 L 2 +a3 L 3 + ... ) = - - (13.12.1)
1- aL'
y por tanto
o alternativamente
Yt f
J=Ü
1
aj L j = Yt ( l _ aL) ·
Si a partir de estas últimas expresiones, que son correctas para !al < 1, operamos tenemos
que nos permite pensar en que la suma infinita (1 + a L + a 2 L 2 + a 3 L 3 + ... ) aproxima (tanto
como deseemos) la inversa del operador (1 - aL) cuando este es aplicado sobre una sucesión
{yt}. Esto es
(1 - aL)- 1 (1 - aL) = 1
( 1 + aL + a 2 L 2 + a 3 L 3 + ... ) (1 - aL) = 1, (13.12.2)
que para un operador en forma de polinomio en términos del operador retardo, a(L ), significa
la existencia de un polinomio de grado infinito, a(L)- 1 , tal que
Cuando dicho polinomio, a(L)- 1 , existe, decimos que el polinomio a(L) es invertible. En el
caso particular del polinomio a(L) = (1 - aL), siempre que lal < 1, entonces será invertible.
Podemos observar también que como polinomio de primer grado de la forma ( 1 - az), tiene
una raíz que es z = z 1 = 1/a, y por tanto, será un polinomio invertible siempre que la raíz
z1 = 1/a sea mayor a la unidad, lo cual es equivalente a decir que lal < l.
Estas propiedades del operador L son lógicamente aplicables a ecuaciones en diferencias
de orden 2. Consideremos Yt = a1Yt-1 + a2Yt-2 que se reescribe con el operador retardo del
siguiente modo
Esta expresión contiene un polinomio de segundo grado en términos del operador retardo
L, a(L) = (1 - a1L - a2L 2). Podemos factorizar dicho polinomio
siendo >.1 y >.2 las raíces del polinomio de segundo grado. Si comparamos los lados derecho e
izquierdo de esta expresión, tenemos que
Para saber las raíces de un polinomio en términos del operador retardo , L, podemos
considerar un polinomio en términos de un escalar, z, en lugar de estar en términos de un
operador:
(1 - a1z - a2z 2) = (1 - >.1z) (1 - >.2z).
Es evidente que los valores z = 1/>. 1 o z = l/>.2 son raíces del polinomio (1- a1z - a2z 2),
es decir, valores que toma z y que hacen cero el valor de la función polinómica. Por tanto,
cuando z = z1 = 1/ >.1 o z = z2 = 1/ >.2, podemos obtener los valores de >.i, >.2 simplemente
aplicando la fórmula de las ecuaciones de segundo grado (en este caso):
y despejando, Ai = 1/ Zi.
La factorización del polinomio a(L) = (1 - a1L - a2L 2) nos facilita, al igual que anterior-
mente con el polinomio de grado 1, estudiar cuándo éste es invertible. Para comprobarlo sim-
plemente multiplicamos la ecuación a(L) = (1 - a1L - a2L 2) por (1 - >.1L)- 1 (1 - >.2L) - 1:
de donde comprobamos que a (L)- 1 = (1 - >.1L)- 1 (1 - .A2L)- 1. Para que este polinomio esté
bien definido es necesario verificar que las inversas (las sumas infinitas):
están correctamente definidas, es decir, que sean finitas. En concreto, operando se tiene
(1 - .A1L)- 1 (1 - .A2L)- 1 (1 + .A1L + .AiL2 + ... ) (1 + .A2L + .A~L 2 + ... )

1 + (>.1 + .A.2) L + (.Ai + >.~ + .A.1>.2) L2 + .. .
~ ~ (t.AÍA;-;) Lk
Tema 13 525
Como hemos visto en (13.12.1), cada una de estas sumas es convergente si l..\11 < 1 y
l..\21 < 1, o lo que es lo mismo si las raíces del polinomio a(L) = (1 - a1L - a2L 2) son
mayores a la unidad, lz11 > 1, lz2I > 1, toda vez que z1 = 1/ ..\1 y z2 = 1/ ..\2 . Por tanto,
podemos concluir que la invertibilidad del polinomio require que las raíces sean mayores, en
valor absoluto, a la unidad.
Estos resultados se pueden ampliar para polinomios de grado superior a dos, representa-
tivos de ecuaciones en diferencias de orden superior. Así, el polinomio característico de orden
p factoriza del siguiente modo:
y es invertible cuando l..\il < 1, o lo que es lo mismo, cuando las raíces de

(1 - a1z - a2z 2 - ... - apzP) =O
son mayores, en términos absolutos, a la unidad. Recordemos que algunas de las raíces de un
polinomio pueden ser complejas, ZiE e, es decir, pueden ser de la forma
z =a+ bi.
En tal caso, el requisito de invertibilidad es que
llzll = Ja 2 + b2 > 1,
que geométricamente implica que la raíz Zi tenga un módulo mayor a la circunferencia de
radio 1, por lo que en muchas ocasiones decimos que la raíces del polinomio retardo deben
estar fuera del círculo unidad.
Operador de retardos L aplicado a modelos AR y MA

El modelo AR(l) que ya expusimos lo podemos t ratar ahora en términos del operador L:
Yt = <f>Yt-l + ~t
</>(L)Yt = ét .
donde ét es un ruido blanco con media cero y varianza constante, y </>(L) = 1 - <f>L es el
polinomio retardo y como hemos visto anteriormente será invertible si 11/</>I > 1, o de forma
equivalente si l</>I < 1.
A partir de la expresión </>(L)Yt = Et , siempre que el polinomio </>(L) sea invertible, es
decir esté bien definido </>( L )- 1 , y utilizando las propiedades de la sección anterior, podemos
reescribir el modelo AR(l) de la siguiente manera
Yt = </>(L)- 1 et= ( 1) Et= ~··

l _ </>L f' Vct-j,
L_¿
J=Ü
esto es:
que es un MA(oo), y podremos decir que hemos invertido un modelo AR(l) en un MA(oo).
La equivalencia entre un AR(l) y un MA(oo), que combina linealmente las variables
obtenidas de un proceso de ruido blanco, nos permite comprobar que el modelo AR(l) es
estacionario siempre que la variable ét sea estacionaria (el ruido blanco lo es) y el polinomio
sea invertible.
¿Qué sucedería si e/> = 1 o e/> = -1? En cualquiera de estos dos casos sucede que la raíz
del polinomio es la unidad (raíz unitaria) , y la suma infinita no convergería. Estos casos son
especialmente relevantes hasta el punto de que ha generado lo que se denomina comúnmente
econometría de las raíces unitarias, y por tanto su tratamiento se hará dentro de otro contexto
más adelante.
Finalmente podemos observar que la suma tampoco es convergente si [e/>[ > l. Además.
en este caso particular, los efectos de los shocks irían acumulándose y cuanto más lejano
estuvieran en el pasado mayor peso tendrían para explicar el presente, lo que sin duda no
guarda lógica dentro de procesos económicos, como ya hemos indicado anteriormente en el
texto.
Observemos también algo relacionado con el comentario previo. Siempre podemos expresar
el modelo de la manera siguiente
1 1
Yt = cf>Yt-1 +Et {:=:::} Yt-1 = ;j;Yt - ;j;E:t·
En esta nueva expresión (reparametrizada) del modelo podemos invertir la expresión repara-
metrizada AR(l) utilizando el operador adelantado (inverso al operador retardo) F = L- 1 :
1 1
Yt 1 = -yt - -t:t
- e/> e/>
1 1
Yt-1 = ;j; FYt-1 - ;j;E:t
(1- ~F) Yt-1 =-~Et,

cuya inversa está bien definida pues ahora [1/c/>I < 1, por lo que
Yt = - ( 1 - ;j; F
1 )-l 1
;j;Et+l
y tras varias operaciones sencillas se tiene

00
Yt = - Lcf>-í t:t+í·
j=l
Donde se observa que el modelo es un MA de orden infinito, pero que nos indica que los
valores de Yt dependen (son causados) de (por) los shocks o innovaciones futuras , lo cual
Tema 13 527
no es lógico ni operativo pues siempre serán desconocidos. En ocasiones se dice que estos
modelos autorregresivos con l</>I > 1 son, por estos motivos y dentro del contexto de las series
temporales, no-causales. En la modelización econométrica estamos, sin embargo, interesados
en modelos que guarden lógica y por ello nos interesan los modelos en los que los shocks
pasados expliquen el presente, es decir, en este caso modelos AR(l) con l</>I < l.
Del mismo modo que sucede con el modelo AR(l), ocurre con el modelo AR(p):
donde q)(L) = 1 - </>1L - </>2L 2 - ... - q)pLP. Ahora el proceso lo podremos escribir como
siempre que el operador inverso de q)(L) esté definido. Tal y como vimos en el apartado anterior
esto sucede cuando las raíces del polinomio </>( L) están fuera del círculo unidad.
Tenemos por tanto condiciones que nos permiten invertir un modelo AR(p) en un MA
de orden infinito , por lo que podemos representar un mismo modelo de más de una forma.
En ocasiones será más conveniente una que otra. La representación en términos de un MA
hace hincapié en los shocks externos, Et-j a los que se vio sometido el proceso estudiado,
mientras que la representación AR enfatiza que el nivel de la variable Yt viene en buena
medida determinado por lo que pasó en periodos anteriores relativamente cercanos a t. Estas
observaciones nos conducen a realizarnos la pregunta inversa siguiente: ¿podremos también
encontrar una representación en términos de AR de un MA(q)?, esto es ¿podremos invertir
un MA en un AR? Sabemos que la respuesta es positiva (como hemos visto en la exposición
principal del tema), sin embargo abundaremos más sobre esta relevante cuestión.
Para ello consideremos un MA(1) 15
Yt = Et + 0Et-1
Yt = (1 + OL) Et
Yt =o (L) Et,
donde de nuevo recordemos que estamos combinando linealmente dos procesos estacionarios,
y por tanto será siempre estacionario, siendo un hecho claramente diferenciador respecto de
un proceso AR.
El proceso MA(l) es invertible a un proceso AR(oo) si existiera un polinomio (1 + OL)- 1
tal que
A partir de (13.12.2) se tiene
(1 + OL)- 1 = (1 - (-0) L)- 1 = 1 + (-0) L + (-0) 2 L2 + (-0) 3 L3 + ... ,

15
Sin pérdida de generalidad hemos cambiado el signo del parámetro porque precisamente representa el
mismo proceso, y hacemos el desarrollo con el signo cambiado para mostrar que no se producen cambios en
los resultados finales.
que está correctamente definido siempre que el parámetro JBI < l. Por este motivo para que
un MA(l) sea invertible es necesario que el parámetro satisfaga la restricción señalada.
Ahora es fácil comprobar que un MA(l) se puede expresar también como un AR(oo):
00
L (-B)Í LÍYt-j =Et·

j=O
La condición de invertibilidad de un MA (l) , JBI < 1, implica que los shocks (innovaciones
pasados tienen menos peso en la formación del valor actual de la variable, Yt, que el shock
(innovación) presente, Et, y lo podemos observar simplemente a partir de Yt = Et + BEt- 1
Igualmente, la invertibilidad implica que en los modelos invertibles el peso de los valores
pasados que tome la variable y decrece a medida que nos alejamos en el tiempo si pretendemo
explicar o conocer el valor de Et (no-observable) a partir de valores pasados (observables) de
y, pues (1 - BL + 82 L 2 - () 3L 3 + ... ) Yt·
En general, un MA(q)
Yt = () (L) Et,
Yt = (1 + B1L + B2L 2 + ... + BqLª) Et,
será invertible si las raíces del polinomio asociado
están fuera del círculo unidad, y por tant o podremos representar el modelo MA( q) como un
AR(oo)
(1 + r¡1L + r¡2L 2 + r¡3L 3 + ... ) Yt =Et,
() (L)- 1 Yt = Et ·
Finalmente, un proceso ARMA(p,q) se puede reescribir, de manera equivalente a como
vimos en el tema dedicado a estos modelos y utilizando como operador de retardos L , que es
idéntico por definición a usar B:
</J (L) Yt = () (L) Et
donde() (L) = (1 + B1L + B2L 2 + ... + BqLª) y <jJ(L) = (1 - </J1L - </J2L 2 - ... - </JpLP).
El proceso será invertible si podemos reescribirlo como
Yt = </J (L )- 1 () ( L) Et
Yt = 1/J (L) Et,

de modo que apreciamos que
1/J (L) = </J (L)- 1 () (L)
y por tanto
B(L ) =</J(L) 1f;(L),
Tema 13 529
lo cual nos permite recuperar los elementos de '!/; mediante recursión.

Por ejemplo, si consideramos un ARMA(l ,1) , tendremos
l+OL (l-c/JL)'l/;(L)
(1- c/JL) ('!/Jo+ 'l/;1L + 'l/;2L 2 + ... )
= '!/Jo + ('l/;1 - c/J'l/Jo) L + ('l/;2 - c/J'l/;1) L 2 + .. .,
comparando los coeficientes a ambos lados del igual, se tiene
o= ('l/;1 - c/J'l/Jo)
o= ('l/;j - c/J'l/Jj-1) ,j ~ 2.
Resolviendo estas ecuaciones se tiene
La notación en términos de los polinomios de retardos nos previene de potenciales redun-

dancias en la parametrización. Para observalo consideremos un proceso de ruido blanco
Yt = E:t ·
Supongamos que multiplicamos ambos lados por el polinomio (1 - aL):
(1 - aL)yt = (1 - aL) Et,
que es un ARMA(l ,1) con cfJ 1 =a, 01 =-a. Lógicamente sería redundante y confuso estimar
a cuando en realidad se trata de un proceso de ruido blanco. Además esto nos sugiere que
si estamos estimando un ARMA(l,1) y los valores de los coeficientes estimados son tales que
-c/J 1 está cerca de 01 (es decir, las raíces de los polinomios son prácticamente iguales), tal
vez sea una buena idea considerar que se trate de ruido blanco. Observemos también que en
el caso particular que estamos viendo, los polinomios c/J(L) y cfJ( L) están compartiendo una
misma raíz (la única, digamos, >.), y podríamos obviamente dividir ambos polinomios cfJ(L)
y cfJ (L) factorizados por el factor (1 - >.L) y resultaría un polinomio de un grado menor (al
compartir una raíz), en este caso, de orden cero.
En términos más generales se tiene que si los polinomios cfJ(L) y cfJ(L) asociados a una re-
presentación ARMA(p,q) comparten una raíz (tienen una raíz común), el proceso se simplifica
en un ARMA(p-l ,q-1).
Hemos visto en esta sección que en la medida en que los procesos son invertibles podemos
aproximar con bastante precisión muchos procesos estacionarios tanto con modelos ARMA ,
MA y AR. Es posible que en algunos casos necesitemos un número elevado de retardos, incluso
infinitos, especialmente si se trata de MA o de AR, pero en todo caso podríamos realizar la
aproximación de tal manera que una función de autocovarianza determinada fuera aproximada
por la función de autocovarianza de uno de estos procesos.
Estimación de modelos ARMA

Habitualmente en los libros de texto clásicos de econometría se solían dedicar algunos
apartados, e incluso temas, a la descripción de algoritmos para la estimación de los modelos
ARMA. El software econométrico-estadístico especializado ya incorpora algoritmos suficien-
temente contrastados para realizar dichas estimaciones de forma garantista para el usuario
final. Fundamentalmente por este motivo ya no es común encontrar apartados dedicados a la
estimación en los manuales introductorios a la materia. En este manual nuestra exposición
está en este apéndice de modo que no interrumpa demasiado la lectura del texto.
Prácticamente todos los algoritmos son alternativas entre mínimos cuadrados (MC) y
máxima verosimilitud exacta (MVE). Inicialmente, y en general, se asume que los errores se
distribuyen de acuerdo a una ley normal, pero afortunadamente los estimadores siguen siendo
consistentes incluso si el supuesto o restricción de normalidad no se cumple. En estos casos
la función de verosimilitud estaría mal especificada (pues estimamos suponiendo normalidad ,
cuando el proceso verdadero no lo es) mientras que el procedimiento seguiría siendo el mismo
técnicamente. Para diferenciar una vía de otra, la literatura se refiere a métodos de quasi-
máxima verosimilitud cuando existen potenciales problemas de especificación. Por otra parte,
sea cual sea el procedimiento, la insesgadez para muestras finitas no se consigue con ningún
procedimiento.
En el caso de los estimadores mínimo cuadráticos se minimiza la suma de los cuadrados de
los residuos. Por tanto para modelos AR la estimación habitual se puede utilizar. En cambio
los modelos ~IA y ARMA requieren técnicas de iteración recursiva o optimización no lineal,
puesto que en estos modelos los regresores contendrían valores no observados Et-j (a diferencia
de los AR) cuyos coeficientes asociados deben ser estimados. El estimador MC habitual (es
decir el MCO) sería incluso inconsistente para la parte AR del ARMA.
El estimador MVE maximiza la función de verosimilitud gausiana bajo el supuesto de
que los valores iniciales siguen un proceso estacionario de acuerdo con el modelo . MVE tiene
una implementación mucho más compleja que realiza automáticamente el software disponi-
ble. Tanto MC como MVE tienen problemas de estimación serios cuando el proceso no es
estacionario, y muchas de sus propiedades asintóticas se pierden.
A meros efectos ilustrativos, si quisiéramos estimar un MA(l) yt = e+ fht-l +Et , los
residuos deberían obtenerse de manera recursiva como función de los parámetros del modelo
MA(l). Esto es
donde o bien podemos considerar que Eo = O, o alternativamente podríamos relajar esta

condición a cambio de suponer que la primera observación proviene de una distribución in-
variante del tipo normal. La técnica MV consistiría en maximizar la función de verosimilitud
con respecto a los parámetros e, ().
Tema 13 531
EJERCICIOS
Teóricos
1. Calcule la varianza de la media muestra! temporal Z donde el proceso estocástico es
Z 1 = Z2 = Z3 = ... = Zr siendo Zt una variable aleatoria de media poblacional nula,
varianza constante y covarianza 'Yn ='YO· ¿Se t rata de un proceso ergódico, estacionario,
o ambas cosas?
2. Considere el proceso AR(2) dado por Yt = Yt-1 - 0,5Yt-2 + Ut, ¿es este un proceso
estacionario? Si lo es, ¿cuál es la función de autocorrelación?
3. Sea el proceso Yt = -0,2Yt-l + 0,24Yt-2 + Ut + 0,2Ut-l - 0,48ut-2:
a) ¿Qué tipo de proceso es?

b) ¿Es estacionario? ¿Es invertible?
e) ¿Puede considerarse un modelo parsimonioso?
4. Escriba el ARMA(l,l) Yt = 0,75Yt-l + Ut - 0 ,6Ut-l como un MA de orden infinito.
5. Determine las funciones de autocorrelación total y parcial del proceso estocástico del
ejercicio anterior.
6. Considere el proceso Zt = 0,6zt-l - 0,08zt-2 +Et:
a) Exprese el polinomio retardos asociado al mismo, y obtenga sus raíces.

b) A partir de las raíces obtenidas, factorice el polinomio retardos.
e) Invierta ahora el polinomio factorizado, desarrolle, saque factor común de las su-
cesivas potencias del operador retardos a fin de obtener los coeficientes (basta con
los tres primeros) que permiten expresar el proceso como un M A (oo), esto es,
Zt = Et + </'lEt-1 + </'2Et-2 + </'3Et-3 + ···
7. Utilice la expresión (13.4.30) para comprobar que en un proceso AR(2) el coeficiente

FAP del mismo es nulo.
Prácticos
8. A partir de muestras de 100 observaciones se han obtenido los correlogramas que se
muestran en la Tabla 13.2. Indique cuál es el PGD más probable en cada uno de los
casos.
9. Los valores del índice Standard and Poors 500 correspondientes al periodo 1990m01-
2003ml2 se recogen en la tabla ET13 1, expresados en logaritmos .
a) Represente gráficamente dicha serie e indique el orden de integración de la misma.

Analice la estacionalidad.
Tabla 13.2: Correlogramas

Proceso 1 Proceso 2 Proceso 3 Proceso 4
fat fap fat fap fat fap fat fap
1 -0,08 -0,08 0,459 0,459 0,859 0,859 0,677 0,677
2 0,033 0,026 -0,084 -0.374 0,63 -0,41 0,471 0,023
3 -0,14 -0,136 -0,108 0,173 0,459 0,219 0,288 -0,073
4 0,05 0,029 -0,05 -0,145 0,346 -0,064 0,226 0,095
5 -0,058 -0,047 0,001 0,102 0,267 0,028 0,15 -0,037
6 0,083 0,057 0,018 -0,064 0,205 -0,017 0,136 0,054
7 -0,067 -0,047 0,006 0,039 0,143 -0,052 0,07 -0,069
8 0,057 0,034 0,035 0,033 0,089 0,012 0,06 0,035
9 0,006 0,036 0,042 -0,001 0,024 -0,132 0,004 -0,062
10 0,012 -0,008 0,021 0,022 -0,051 -0,046 -0,052 -0,083
b) Trate de encontrar el posible PGD.

e) En los manuales de economía financiera se afirma a veces que la bolsa sigue un
paseo aleatorio. A la vista de los resultados obtenidos en b), ¿qué puede decir de
esta afirmación?
10. La tabla ET13 2 contiene los datos de pasajeros de líneas aéreas por meses.
a) Compruebe que dicha serie muestra una fuerte estacionalidad y utilice algún pro-
cedimiento para obtener una serie desestacionalizada.
b) Sobre cada una de las dos series anteriores lleve a cabo un contraste de raíces
unitarias. ¿Puede alguna de ellas considerarse estacionaria en base a los resultados
de este contraste?
e) En función de los resultados del apartado anterior, emplee las transformaciones
necesarias para obtener series que sean estacionarias.
d) Utilice el periodo 1988m01-1996m06 y trate de identificar, estimar y validar un
modelo apropiado tanto para la serie desestacionalizada como para la original.
e) Utilice los modelos anteriores para llevar a cabo pronósticos sobre la evolución de
los pasajeros en los seis meses siguientes y compárelos con los resultados verdade-
ramente observados.
11. Utilice el ordenador para simular una serie mensual para el periodo 1980q01-2010q04
que responda al siguiente modelo ARIMA
(1 - 0,5B).6.6 4 Yt = (1 + 0,4B)Et
con var(Et) = 4.
a) Use el periodo 1982ql-2009q4 para estimar un modelo ARIMA apropiado para y.

Tema 13 533
b) Utilizando el modelo estimado, pronostique por punto y por intervalo los valores
de y para el año siguiente.
e) Compare los pronósticos con los valores conocidos y evalúe los errores.
12. La tabla ET13 _ 3 contiene algunas de las principales series macroeconómicas referidas
a la economía española. Utilice la metodología ARIMA para analizarlas.
Tema 14
COMPONENTES TEMPORALES Y
ALISADO EXPONENCIAL
Dentro del análisis univariante de series temporales podemos distinguir dos grandes apro-
ximaciones metodológicas: los modelos de componentes no observados y los modelos ARIMA.
Los modelos ARIMA los vimos en el tema anterior. Son modelos paramétricos en los que
se obtiene la representación de la variable en términos de su interrelación temporal. El instru-
mento básico, como vimos, es el coeficiente de autocorrelación que mide el grado de asociación
lineal entre observaciones en distintos momentos de tiempo. Además la comprensión de los
modelos ARI MA resulta útil para entender mejor los modelos dinámicos que estudiaremos en
temas posteriores.
Los modelos de componentes inobservables se basan en la idea de que una serie temporal
se puede considerar como la superposición de componentes no observables. Dentro de los
modelos de componentes no observados se encuentra el suavizado o alisado exponencial que
abordaremos en este tema y el análisis espectral que trataremos en un tema posterior.
14.1. DESCOMPOSICIÓN DE SERIES TEMPORALES
Los métodos de descomposición de series históricas tratan de analizar las regularidades o

patrones en el comportamiento de las series temporales. Dichas regularidades se basan en la
idea de que la concreción de un determinado valor en un determinado periodo temporal es
consecuencia de la actuación de componentes o regularidades que actúan simultáneamente.
Los componentes principales de una serie temporal los podemos definir de la siguiente manera:
• Tendencia (T). En general diremos que existe tendencia cuando hay un aumento o
disminución a largo plazo en los datos de la serie temporal. La tendencia puede ser
lineal o no. También el componente tendencia! puede cambiar de dirección pasando de
creciente a decreciente (o viceversa) en una misma serie de tiempo.
• Estacional (S). Decimos que existe un patrón estacional cuando en una serie de tiempo ,
con periodicidad inferior al año, intervienen factores estacionales (es decir, la influencia
535
536 COMPONENTES TE!\IPORALES Y ALISADO EXPONENCIAL
de factores climatológicos o culturales: como las estaciones del año, las fiestas navideñas,
las vacaciones, los horarios comerciales. etc.). La estacionalidad es siempre de periodo
fijo y conocido (se repite cada año).
• Cíclico ( C). Existe un componente cíclico cuando las oscilaciones (elevaciones y caídas)
de las observaciones no son de duración determinada, como ocurre con las variaciones
estacionales. La duración de estas fluctuaciones son usualmente superiores al año. En
ocasiones se confunde el comportamiento cíclico con el estacional; si las fl.uctuacione
no son de periodo fijo, entonces el componente es cíclico; si el periodo es inmutable y
se asocia con algún aspecto del calendario, entonces el patrón es estacional. En general.
la longitud promedio del ciclo es de mayor longitud que en el patrón estacional, y
la magnitud de los ciclos tiende a ser más variable que la magnitud de los patrones
estacionales.
• Residuo (E). También denominadas variaciones accidentales, irregulares o errática

Como su propio nombre indica, recoge las variaciones que no podemos atribuir a ninguno
de los otros componentes (por ello a veces también se denomina resto). Recoge las
variaciones imprevisibles y no predecibles del modelo.
Nosotros simplificaremos los componentes cíclico C y de tendencia T en uno solo y lo deno-

minaremos genéricamente como tendencia.
En estas condiciones podemos representar cualquier serie de tiempo yt como la suma ~
producto de los tres componentes (el componente estacional St, tendencia! Tt y residual E t
Si adoptamos el esquema aditivo, la serie la escribimos como
(14.1.:
y si el esquema es multiplicativo lo expresamos como
(14.l.~
La forma aditiva es más adecuada cuando la variación alrededor de los componentes te -

dencial y estacional no varía con el nivel de la serie histórica. Cuando la variación de 1
componentes es proporcional al nivel de la serie, entonces es mejor utilizar el esquema mul
plicativo, este esquema multiplicativo es muy común cuando nos referimos a series económic~
Cuando utilizamos el modelo multiplicativo, en ocasiones se realiza la transformaciL-
logarítmica, es decir se aplica el esquema aditivo para la serie transformada en logaritmos. E:.:
efecto, aplicando logaritmos a (14.1.2) tenemos que
ln (yt) = ln (St·Tt'Et) =In (St) + ln (Tt) + ln (Et), (14.1

de manera que utilizar el esquema multiplicativo de la expresión (14.1.2) es equivalente
utilizar el esquema aditivo a la serie transformada en logaritmos, expresión (14.1.3).
Los componentes no observados los podemos especificar de forma determinística, coc
funciones del tiempo. Estos métodos imponen un patrón fijo e inmutable en el compor. --
miento del componente inobservable. Por ejemplo, en el Tema 2, ejemplo 6, estimábamos~
Tema 14 537
tendencia lineal y otra exponencial del PI B español. Y en el Tema 7, analizábamos el com-

ponente estacional utilizando variables binarias estacionales de las pernoctaciones hoteleras.
Ambos son buenos ejemplos de especificación determinista de componentes inobservables.
Aunque estos métodos pueden ser adecuados en muchas ocasiones también podemos for-
mular métodos más flexibles, en los que ni la tendencia ni el componente estacional son
funciones fijas e inmutables en el tiempo, sino que pueden variar suavemente recogiendo los
posibles cambios de estructura. Veremos en este Tema como podemos especificar este tipo de
comportamiento. Además estos métodos tienen la ventaja de recoger, como caso particular,
el comportamiento determinista, ver apartado 14.4.1 del Apéndice.
A continuación veremos, de forma rápida, el método de descomposición clásico, haremos
mención de los métodos X-12 ARIMA y TRAMO-SEATS, y finalizaremos este apartado con
el filtro de Hodrick-Prescott.
14.1.1. Descomposición clásica
Los métodos de descomposición de series temporales utilizados hoy en día se fundamentan

en el modelo clásico de descomposición, por consiguiente la comprensión del método clásico
permite entender mejor los métodos actuales.
En la descomposición clásica asumimos tanto el esquema aditivo, expresión (14.1.1), como
multiplicativo, expresión (14.1.2).
Para estimar el componente tendencia! utilizamos el método del promedio móvil centrado.
14.1.1.1. Media móvil centrada
Su expresión de cálculo, utilizando m valores , es
k
' = -1 """
Tt L.,, Yt+i, donde m = 2k + 1. (14.1.4)
m
i=-k
Es decir, la estimación de la tendencia en el momento t la obtenemos promediando los valores

de la serie de tiempo, utilizando k desfases hacia atrás y k valores adelante de su periodo
central, t. Este promedio elimina en gran parte la aleatoriedad de la serie, dejando un compo-
nente de tendencia suavizado. Denominaremos al promedio móvil centrado de orden m como
m - M A. Por ejemplo , la Tabla 14.1 muestra el volumen de producción de cemento anual en
miles de TM en España desde 1980 hasta 2005 y su media móvil centrada de 3 y 9 años. Los
gráficos de la Figura 14.1.1 muestran la comparativa entre la serie original y la media móvil
centrada de 3 y 9 años respectivamente.
El primer valor de la columna denominada 3 - M A de la Tabla 14.1 se calcula de la
siguiente forma: 18914 = (19724 + 18487 + 18531) / 3, y el primero de la columna 9 - MA ,
18732, 7444 = (19724+ 18487+18531+17926+ 16238+ 16544+ 18237, 4+20237 +22670, 3)/9.
538 COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL
Tabla 14.1: Producción de cemento. Media móvil centrada

IV!Jos Cemento 3-MA 9-MA
1980 19724,00000
1981 18487,00000 18914,00000
1982 18531 ,00000 18314,66667
1983 17926,00000 17565,00000
1984 16238,00000 16902,66667 18732,74444
1985 16544,00000 17006,46667 19432,91778
1986 18237,40000 18339,46667 20553,42444
1987 20237 ,00000 20381 ,56667 21694 ,11667
1988 22670,30000 22977 ,62000 22596 ,89556
1989 26025,56000 25755,80667 23319,45444
1990 28571,56000 27798,11667 24152 ,09778
1991 28797 ,23000 27806 ,60000 24954 ,42333
1992 26051 ,01000 25863,09000 25453 ,30778
1993 22741 ,03000 24276 ,61000 25911 ,56333
1994 24037 ,79000 24079,05000 26463 ,17778
1995 25458,33000 24741 ,02667 27136 ,00222
1996 24726 ,96000 25659 ,96333 28207 ,27000
1997 26794,60000 27503 ,88333 29996 ,11111
1998 30990,09000 30803,89000 32371,53222
1999 34626,98000 34685,23667 34836,58222
2000 38438,64000 38405,40000 37341 ,55778
2001 42150,58000 41569,68000 40317.41111
2002 44119,82000 44164 ,54667
2003 46223 ,24000 46115,39000
2004 48003,1 1000 48578 ,66333
2005 51509,64000
Figura 14.1.1: Producción de cemento. Media móvil centrada de 3 y 9 años

55.000 55.000
¡- cementos j ¡ -e.me o~ 1
50.000 --- 3-MA 50.000 --- 9-MA
45.000 45.000
40.000 ::r: 40.000

~
>-
~ 35.000 i 35.000
.i ~
~ 30.000
" 30.000
25.000
25.000
00 ~ M ~ ~ 00 ~ M 00 00 00 ~ ~
"""'' Aa>os
Observamos en los gráficos cómo la tendencia (en trazo discontinuo) es más suave que
la serie original y captura el movimiento principal de la serie, sin las fluctuaciones de menor
importancia. Con el método del promedio móvil centrado perdemos datos en los extremos de
la serie. Más adelante veremos que hay métodos más sofisticados que nos permiten estimarla
sin perder información.
El orden de la media móvil, m, determina la suavidad de la estimación. En general, un
orden mayor implica una curva más suave. En el gráfico se ve cómo la media móvil de nueve
años es más suavizada que la de tres.
Los promedios móviles simples son de orden impar. De esta forma conseguimos que sean
simétricos en su punto medio t: en un promedio móvil de orden impar m = 2k + 1, hay k
observaciones anteriores, y k posteriores a la observación que se promedia, t. Pero si m fuera
par, la media ya no sería simétrica como hemos visto anteriormente.
Para realizar medias móviles centradas de orden par tenemos que aplicar una media móvil
a la media móvil centrada. Por ejemplo, en la Tabla 14.2 mostramos el procedimiento para la
Tema 14 539
serie de personas ocupadas en España (en miles), con periodicidad trimestral. Realizamos un
promedio móvil centrado de orden 4 y aplicamos otro promedio móvil de orden 2 a la media
móvil calculada en el paso anterior.
Tabla 14.2: Personas ocupadas en España. Media móvil de la media móvil

Trimestres Ocupados 4-MA 2x4-MA
200801 20620.00000
200802 20646. 90000 20469,65000
200803 20556,40000 20135,75000 20302 ,70000
200804 20055,30000 19762,57500 19949,16250
200901 19284.40000 19398,07500 19580,32500
200902 19154,20000 19106,85000 19252 .46250
200903 19098,40000 18948,97500 19027,91250
200904 18890,40000 18848 ,20000 18898,58750
201001 18652,90000 18778,35000 18813,27500
201002 18751 ,10000 18724,47500 18751 ,41250
201003 18819,00000 18667 ,80000 18696,13750
201004 18674,90000 18635.52500 18651 ,66250
201101 18426,20000 18551 ,90000 18593,71250
201102 18622,00000 18421 ,42500 18486,66250
201103 18484,50000 18256,15000 18338,78750
201104 18153,00000 18040,27500 18148,21250
201201 17765,10000 17836,07500 17938,17500
201202 17758,50000 17632,67500 17734.37500
201203 17667,70000 17448,95000 17540,81250
201204 17339,40000 17299.47500 17374,21250
201301 17030 ,20000 17190,05000 17244,76250
201302 17160,60000 17139,00000 17164,52500
201303 17230,00000
201304 17135,20000
La notación 2 x 4 - M A de la última columna se calcula aplicando un 2 - M A al 4 - M A

de la columna anterior. Por ejemplo, los primeros dos valores en la columna 4 - M A son
20469,65 = (20620 + 20646 ,9 + 20556,4 + 20055,3) / 4 y 20135 ,75 = (20646,9 + 20556,4
+ 20055,3 + 19284,4) / 4. El primer valor de la columna 2 x 4 - M A es la media de estos
dos: 20302,7 = (20469,65 + 20135,75) / 2. Cuando realizamos un 2-MA a una media móvil
de orden par (por ejemplo , 4) , la denominamos media móvil centrada de orden par (en este
caso 4) porque sus resultados son simétricos. En efecto, podemos escribir el 2 x 4 - M A de la
siguiente manera:
11 1
+ rt-1 + rt + rt+1) + 4(rt-1 + Yt + Yt+1 + Yt+2)].
A
Tt = 2[4(Yt-2 (14.1.5)
= iYt- 2 + iYt-1 + iYt + iYt+1 + !Yt+2,
que es un promedio ponderado de las observaciones y, sobre todo, simétrico. También se
pueden utilizar otras combinaciones de medias móviles. Por ejemplo, un 3 x 3 - M A se utiliza
con bastante frecuencia, y se compone de un promedio móvil de orden 3 seguido de otro
promedio móvil de orden 3. Generalmente la segunda M A la incluimos para que el promedio
sea simétrico.
El uso más frecuente de medias móviles centradas en la estimación de tendencias , se refiere
a series históricas con estacionalidad, como hacemos en la Tabla 14.2 para datos trimestrales.
La variación estacional está promediada y los valores resultantes de Tt eliminan el componente
estacional de la serie. En general, un 2 x m-M A es equivalente a un promedio móvil ponderado
de orden m + 1 con las observaciones ponderadas con peso 1/m, excepto el primer y último
término , con ponderación 1/(2m). Así que si el periodo estacional es par y de orden m , usamos
un 2 x m- M A para estimar la tendencia y eliminar la estacionalidad, y si es impar utilizamos

un m - M A. En particular, un 2 x 12 - M A lo usamos para estimar la tendencia de series
con observaciones mensuales y un 7 - Af A para estimar la tendencia de series diarias. Si
utilizamos otras opciones en estos casos estacionales , obtendremos estimaciones tendenciales
contaminadas del efecto estacional.
Una ventaja importante de los promedios móviles ponderados con diferentes pesos, como
los 2 x m- M A, 3 x m-M A, etc ., es que obtenemos una estimación más suave de tendencia:
en lugar entrar y salir las observaciones promediadas con el mismo peso, como ocurre con los
m - M A, sus pesos aumentan lentamente y luego disminuyen lentamente obteniendo como
resultado una curva más suavizada.
Es muy usual utilizar medias móviles ponderadas y asignar distintas ponderaciones a los
distintos desfases, su forma general es
k
tt = ¿ ªiYt+i, (14.1.6)
i=-k
con k = (m - 1) / 2 y ponderaciones o pesos dados por (a-k, ... , ak), con suma unitaria
( 2:::7=-k ak = 1)
y simétricos, es decir, con ª-i = ªi· Algunas de las ponderaciones más
ampliamente utilizadas las reproducimos en la Tabla 14.3.
Tabla 14.3: Ponderaciones más usuales. Medias móviles centradas

Nombre 3o 31 3z 33 34 3s 36 37 3s 39 3 10 3 11
3-MA 0,333 0,333

5MA 0,200 0,200 0,200
2x12-MA 0,083 0,083 0,083 0,083 0,083 0,083 0,042
3x3-MA 0,333 0,222 0,111
3x5-MA 0,200 0,200 0,133 0,067
515-MA 0,231 0,209 0,144 0,066 0,009 -0,016 -0,019 -0,009
521-MA 0,171 0,163 0,134 0,037 0,051 0,017 -0,006 -0,014 -0,014 -0,009 -0,003
H5-MA 0,558 0,294 -0,073
H9-MA 0,330 0,267 0,119 -0,010 -0,041
H13-MA 0,240 0,214 0,147 0,066 0,000 -0,028 -0,019
H23-MA 0,148 0,138 0,122 0,097 0,068 0,039 0,013 -0,005 -0,015 -0,016 -0,011 -0,004
S = Promedio móvil ponderado de Spencer

H = Promedio móvil ponderado de H enderson
En la descomposición clásica suponemos que el componente estacional es constante año a

año. En consecuencia, elaboramos un índice estacional de m elementos (por ejemplo, m = 4
para datos trimestrales, m = 12 para datos mensuales y m = 7 para datos diarios) .
Describimos a continuación cómo se realiza la descomposición clásica utilizando el esquema
aditivo o multiplicativo.
Para la descomposición aditiva seguimos los siguientes pasos:
Tema 14 541
l. Si m es par, calculamos el componente de tendencia utilizando un 2 x m - M A para

obtener 'Í't. Si m es impar, calculamos el componente de tendencia utilizando un m- M A.
2. Calculamos la serie sin tendencia: yt - 'Í't.
3. Estimamos el componente estacional (trimestre, mes o día), promediando los valores sin
tendencia de cada estación. Por ejemplo, el índice estacional de enero es el promedio de
todos los valores de enero de la serie libre de t endencia. Estos índices estacionales los
ajustamos posteriormente para garantizar que la suma de los m elementos sea nula. El
componente estacional St lo obtenemos encadenando todos los índices estacionales para
todos los años.
4. El componente residual lo calculamos restando de la serie los componentes estacional y

de tendencia estimados anteriormente: Et = yt - 'Í't - St.
La descomposición multiplicativa es similar:
1. Si m es par, calculamos el componente de tendencia utilizando un 2 x m - M A para
obtener 'Í't. Si m es impar, calculamos un m - M A.
2. Estimamos la serie sin tendencia: yt/'Í't.
3. Estimamos el componente estacional (trimestre, mes o día), promediando los valores sin
tendencia de cada estación. Por ejemplo , el índice estacional de enero es el promedio
de todos los valores de enero de la serie libre de tendencia. Estos índices estacionales se
ajustan posteriormente para garantizar que suman m. El componente estacional St lo
obtenemos encadenando todos los índices estacionales para todos los años de la serie.
4. El componente restante o residual lo calculamos dividiendo la serie por los componentes

estacional y de tendencia estimados anteriormente: Et = Yt/ ('Í't·St).
14.1.1.2. Críticas a la descomposición clásica

La descomposición clásica presenta graves problemas y por ello en la actualidad se utiliza
de forma marginal. Algunos de ellos son los siguientes:
l. La estimación de tendencia elimina observaciones al principio y final de la serie. Por
ejemplo, para m = 12, se pierden las seis primeras y últimas observaciones. En conse-
cuencia, tampoco tenemos estimación del resto de componentes para esas observaciones.
2. El método de descomposición clásico asume que el componente estacional se repite año

tras año. Para muchas series, esto es una suposición razonable , pero para algunas series
largas no lo es. En ocasiones, los patrones estacionales van cambiando con el tiem-
po. Los métodos clásicos de descomposición no son capaces de capturar estos cambios
estacionales en el tiempo.
3. A veces, algunos valores de la serie temporal pueden ser particularmente inusuales (por
ejemplo, cuando ocurren conflictos laborales en las series de producción). El método
clásico no es robusto a este tipo de valores inusuales.
14.1.2. Descomposición X-12 ARIMA

Uno de los métodos de descomposición más usuales para datos trimestrales y mensuales
es el X - 12 - AR!M A, tiene sus orígenes en los métodos desarrollados por la US Bureau of
the Census. Este método es ampliamente utilizado por instituciones de todo el mundo. Las
versiones anteriores fueron el X - 11 y X - 11 - AR!M A. El método X - 13 - AR!M A está
en desarrollo actualmente.
El método se basa en la descomposición clásica, pero con muchas características y pa-
sos adicionales para superar los inconvenientes discutidos anteriormente. En particular, la
estimación de tendencia incluye todas las observaciones de la serie, también permite que el
componente estacional pueda variar lentamente con el tiempo. Finalmente es relativamente
robusto a las observaciones inusuales. Utiliza tanto efectos aditivos como multiplicativos , pero
solo permite datos trimestrales y mensuales.
La parte AR! M A del X - 12 - ARI M A se refiere a la utilización de un modelo ARI M A
(véase el Tema anterior) para proporcionar previsiones de la serie hacia adelante y hacia atrás
en el tiempo. En consecuencia, cuando se aplica una media móvil para obtener la estimación
de tendencia, no hay pérdida de observaciones al comienzo y final de la serie.
El algoritmo comienza de una manera similar a la descomposición clásica, y posteriormente
los componentes se refinan a través de varias iteraciones (utilizando prácticamente todas las
medias ponderadas de la Tabla 14.3). También utiliza métodos sofisticados para manejar los
efectos de vacaciones y los efectos de predictores conocidos. Para una discusión completa del
método ver Ladiray y Quenneville (2001).
El procedimiento de cálculo es muy laborioso, pero afortunadamente la mayoría de los
programas especializados reproducen la descomposición X -12-ARI M A de forma rutinaria.
14.1.3. Descomposición TRAMO-SEATS

El Banco de España ha desarrollado los algoritmos de TRAMO y SEATS como método
de descomposición de series temporales, procedimiento cada vez más usado por instituciones
internacionales para la descomposición de series temporales.
El método se fundamenta en la metodología ARIMA. Primero, el algoritmo TRAMO, revi-
sa la serie y la corrige de valores atípicos, etc. Ulteriormente estima el modelo SARI M A(p, d, q)
(P, D, Q) s más adecuado de la serie.
En segundo lugar y partiendo de la serie corregida e identificada por TRAMO, el algoritmo
SEATS descompone la serie a partir de la forma reducida del modelo estructural calculado
por TRAMO, ver el apartado 14.4.1 del Apéndice, y aplicando la denominada descomposición
canónica. Para una discusión completa sobre el método ver Maravall (1987) y para una
explicación sobre el uso del algoritmo TRAMO-SEATS ver Gomez y Maravall (1996).
Igual que con el procedimiento X12-ARIMA la mayoría de los programas especializados
reproducen la descomposición TRAMO-SEATS también de forma rutinaria.
Para la realización de pronósticos con TRAMO-SEATS usualmente se utiliza el modelo
ARIMA subyacente, es decir, en este caso el pronóstico se reduce a lo que vimos en el tema
13.
Tema 14 543
14.1.4. La predicción utilizando modelos de descomposición

Los métodos de descomposición son principalmente útiles para el estudio de las series de
tiempo, y el análisis de los cambios históricos, pero también se utilizan para pronosticar o
predecir.
Asumiendo una descomposición aditiva, la serie de t iempo descompuesta se puede escribir
como yt = St + At donde At = 'Í't + Et es la serie desestacionalizada. O si utilizamos una
descomposición multiplicativa, Yt = St·At donde At = 'Í't·Et.
P ara predecir una serie de t iempo descompuesta, pronosticamos por separado el compo-
nente estacional, St, y el componente desestacionalizado At. Se asume generalmente que el
componente estacional es inmutable, o que cambia muy lentamente, por lo que la predicción
simplemente toma el índice estacional del último año.
P ara pronosticar el componente desestacionalizado, podemos utilizar cualquier método de
pronóstico no estacional. Por ejemplo, un camino aleatorio con deriva, el método de Holt
(discutido en el apartado siguiente), o un modelo ARIM A regular.
Veamos un ejemplo de descomposición de series temporales.
Ejemplo 43. Producción de electricidad en E spaña

La producción eléctrica española entre el primer trimestre de 1977 y el último de 2010, en mi-
llones de kilovatios hora, se reproduce en el gráfico de la Figura 14.1.2. Observamos una tendencia
creciente hasta la crisis actual y una fuerte estacionalidad con máximos en el primer trimestre del
año y mínimos en el segundo .
Descompodremos la serie utilizando los métodos clásico, X12-ARIMA y TRAMO-SEAT, y
finalmente realizaremos previsiones para los años 2011-13.
Figura 14.1.2: Producción de electricidad en España entre 1977 y 2010
e
2 60.000
.
]
>
.2
50.000
,,.
:2
.e
40.000
.2 30.000
~
20.000
1980 1985 1990 1995 2000 2005 2010
Trimestres
En las Figuras 14.1.3, 14.1.4 y 14.1.5 mostramos los gráficos de los distintos componentes de
la serie utilizando los tres métodos de descomposición vi stos, descomposición clásica, X12-ARIMA
y TRAMO-SEATS .
544 COMPONENTES TEM PO R ALES Y ALISADO EXPONENCI AL
Figura 14.1.3: Producción de electricidad , descomposición clásica

Tendencia Media por trimestres
·::.~ 1~ f~
00000
70000
00000
.. ooo
~
.. ooo
---
30000
20000
O• ·
'"" '"° º' Q3
Componente estacional Componente irregular
'"
'"' '"'
"'
'" '"
'"" º·"
º" º·"
"' "'
º" 1~ 1995 2000 2005 2010 º"º ,.., 1990 1995 2000 2005 2010
""'
Figura 14.1.4: Producción de electricidad , descomposición X12-ARIMA

Tendencia
...,,
'·" '"'
1,CIS
'"' ""
, ,0 1
'·"°
'"
º·" º·"
U2 º·"
0.81
,,.,
Tema 14 545
Figura 14.1.5: Producción de electricidad, descomposición TRAMO-SEATS

Tendencia
1990 11185 1990 1919 2000 2005 2010
•.04
'·" 1,03
::""l'Jíl
1,04
""'
•1
::1~~~~~~~~~~~ lll90 1995 2000 20011 2010
::: ~
'"'1
0,111
198.1 1985 1980 1"5 2000 2005 2010
Con los tres métodos obtenemos tendencias sim ilares, pero en la descomposición clásica per-
demos la información de las dos primeras y últimas observaciones.
El componente estacional , sin embargo, muestra una clara diferencia entre la descomposición
clásica y los otros métodos; el método clásico genera un patrón estacional constante para todo el
periodo ; el X12-ARIMA y TRAMO-SEATS , además de calcular el componente estacional sin pér-
dida de información, muestra una reducc ión del componente hasta la segunda mitad del qu inquenio
1995-2000 y un moderado crecimiento posterior.
En definitiva, la descomposición clásica presenta los problemas que ya hemos comentado ante-
riormente, reducción de información en los extremos de los componentes y estacionalidad constante
a lo largo de toda la serie. Los procedimientos X12-ARIMA y TRAMO-SEATS muestran , en gene-
ral , descomposiciones similares y adecuadas a las características de las series observadas, y por ello
son los métodos más utilizados para descomponer series de tiempo. Además el método TRAMO-
SEATS presenta la ventaja de establecer de forma cla ra el proceso generador de los datos de la serie
al estimar el modelo ARIMA subyacente de forma automática , lo que sin duda es una información
relevante para el usuario no experto y un buen punto de part ida para los más experimentados.
Multiplicando los componentes de tendencia y resid ual obtenemos las respectivas series deses-
tacionalizadas, At = Tt ·Et. Series que utilizamos para predecir, excepto en el caso TRAMO-SEATS
cuya predicción la realizaremos directamente sobre el modelo ARIMA subyacente de la serie original.
En la Figura 14.1.6 se observan los gráficos de las tres series desestacionalizadas.
546 COMPONENTES TEMPORALES Y ALISA DO EXPO E CIAL
Figura 14.1.6: Electricidad , series desestacionalizadas

Descomposición clásica X12-ARIMA
80000 80.000
70000 70000
00.000 00000
50000 50000
40000 40000
30000 30000
2<1.000 2<1.000
19'IO 1985 1990 1095 2000 2005 2<110 19'IO 1.. 5 1990 1995 2000 2005 2010
TRAMO-SEATS
80.000
70000
80000
50000
40000
30000
2<1000
1990
""" 1915 1995 2000
""" 2010
Observamos dos diferencias fundamen tales. Por un lado a la serie clásica le faltan los dos
últimos trimestres de 2010 (y los dos primeros de 1977) , esto no t iene solución y tendremos que
predecir a partir del tercer trimestre de 2010. Por otro , si nos fijamos en la serie clásica vemos
que el componente estacional no ha desaparecido del todo ; la razón se encuentra en que con este
método el componente estacional se supone constante, y como apreciamos claramente, en este
caso este supuesto carece de fundamento . Estas son dos de las razones , sin duda importantes,
por las que el método de descomposición clásico prácticamente se ha dejado de util izar. Las series
desestacionalizadas con los métodos Xl2-A RIMA y TRAMO-SEATS son muy similares.
Para realizar los pronósticos de las series ut ilizamos modelos ARIMA. En el caso de la descom-
posición clásica, y por las razones aludidas en el párrafo anterior, permitiremos la incorporación
de componentes estacionales, lo que solucion ará , al menos en parte , el problema de considerar la
estacionalidad constante en todo el periodo. La estimación para la serie desestacionalizada por el
método clásico es
6 ln (elecfª) = O, 0079 +O, 58036 ln ( elecf-_~) - O, 6507ft-1 + ft, (14.1.7)

(0,0021) (0,0709) (0,0681)
donde elecfª es la serie desestacionalizada por el método clásico. El modelo presenta un fuerte
componente estacional [AR( 4)]. lo que prueba que el componente estacional sigue presente en la
serie presuntamente desestacionalizada . Todas las variables son significativas, incluso al 99 % de
Tema 14 547
confianza . El correlograma de los residuos muestra la imagen empírica de un proceso puramente

aleatorio (ruido blanco) , de manera que damos el modelo por validado .
El modelo para el método X12-ARIMA es
6 ln (elecfX 12 ) = O, 0090 - O, 38276 ln (elecf-_-'P 2 ) + Et, (14.1.8)

(0,0013) (0,0804)
donde elecf X 12 es la serie desestacionalizada por el método X12-ARIMA. El modelo presenta

solo componentes regulares, de manera que el método X12-ARIMA parece eliminar correctamente
el patrón estacional. Todos los parámetros son significativos, incluso al 99 % de confianza , y los
residuos se comportan como ruido blanco , por consigu iente el modelo lo damos por correcto.
Utilizamos los modelos estimados para ambas seri es desestacionalizadas para predecir sus va-
lores en el periodo 2011 - 2013 (en el caso de descomposición clásica también para los dos últimos
trimestres de 2010).
En el caso del método TRAMO-SEATS el pron óstico lo realizaremos a partir del modelo
subyacente SARI M A (p,d,q)( P , D , Q )s identificado por el algoritmo TRAMO (es decir, en este
caso la previsión no se hace usualmente sobre la serie desestacionalizada sino sobre la serie original) .
El método presenta la ventaja para el usuario inexperto de que el propio algoritmo nos indica
de forma automática el modelo subyacente , en este caso un SARIMA( O, 1, 1)(0, 1, 1)4, cuya
estimación es
!:::.!:::. 4 ln (elect) = -0, 4442Et-l - O, 5455Et-4 +Et, (14.1.9)

(0,0561) (0,0569 )
donde elect es la serie de producción de energía eléct rica original , de manera que el pronóstico
con TRAMO-SEATS, se reduce a la estimación del modelo ARIMA tal y como vimos en el tema
13. Todos los parámetros son significativos, incluso al 99 % de confianza , y los errores estimados
muestran un correlograma compatible con ruido blanco.
Para la previsión del componente estacional de los métodos clásico y X12-ARIMA, repetimos
el patrón estacional del último año est imado. Es deci r, utilizamos los valores del componente
estacional del año 2010 para la predicción de los años 2011 a 2013 .
la Tabla 14.4 muestra las previsiones por los tres métodos así como los componentes estacio-
nales y las series desestacionalizadas mediante la descomposición clásica y X12-ARIMA. También
mostramos la producción de electricidad observada en esos años y en la última fila indicamos el
porcentaje del error medio absoluto como medida de bondad del ajuste de la previsión realizada.
Tabla 14.4: Producción de electricidad. Previsión 2011-13

Descomposición clásica X12-ARIMA
obs. TRAMO-SEA TS Original
Deses. C. Estacional Previsión Deses. C. Estacional Previsión
201101 71.355,24 1,0575 75.458,16 75.640,27 1,0486 79.319,94 77.941,22 75.914,80
201102 71.975,44 0,9525 68.556,61 76. 299,15 0,9414 71.824,45 70.646,68 67.968,40
201103 74.122,88 0,9675 71.713,88 76.996,73 1,0104 77.796,88 77.258,40 72.600,70
201104 72.861,23 1,0225 74.500,61 77.687,96 0,9993 77.637,01 77.357,49 70.767,60
201201 72.933,95 1,0575 77.127,66 78. 390,31 1,0486 82.203,75 80.547,85 77.575,40
201202 73.545,12 0,9525 70.051,73 79.097,11 0,9414 74.458,31 73.009,35 69.987,10
201203 75.059,56 0,9675 72.620,12 79.811,02 1,0104 80.640,40 79.842,19 72.843,60
201204 74.562,89 1,0225 76.240,55 80. 531,08 0,9993 80.478,26 79.944,60 71.704,80
201301 74.854,39 1,0575 79.158,52 81. 257,75 1,0486 85.210,69 83 .241,66 73 .143,00
201302 75.468,10 0,9525 71.883,37 81.990,94 0,9414 77.182,43 75.451,05 65.604,40
201303 76.620,20 0,9675 74.130,04 82. 730,76 1,0104 83.590,49 82.512,40 71.305,90
201304 76.579,64 1,0225 78.302,68 83.477,25 0,9993 83.422,50 82.618,23 70.781,70
PEMA 0,0397 0,0744 0,0588
Las previsiones definitivas las calculamos multiplicando el componente estacional y la previsión

de la serie desestacionalizada para los métodos clásico y X12-ARIMA. Para TRAMO-SEATS uti-
lizamos directamente los resultados de la expresión (14.1.9). La Figura 14.1.7 muestra el gráfico
de las predicciones junto con la serie origina l.
Figura 14.1.7: Previsión electricidad. 2011 - 2013
84.000
- Eledricided
82.000 ----- D. Clasice //\
--- X12_ARIMA //'\ \ _____ _
1
80.000 \\ --- TRAM O-SEATS /, , \ /¡-----·
78.000
//:,;/ \\ /'
\\ 1;::==-1/' \ \ //
76.000
\'\\\,\
\ /¡
1/// ,/
,// ' "' \ \\\";/
\ I;/
'
74.000
\\ 1¡ / \
\\/, ,/
72.000 \•/ /
V ,/
70.000
68.000
66.000 -+-----~--~----------~
111 IV 111 IV
2011 2012
El pronóstico del método clásico es mejor (con error medio del 0,04 %), la razón se encuentra
en que al eliminar las dos últimas observaciones de la serie desestacionalizada , gráfico derecho de
la Figura 14.1.6, la serie no muestra claramente la incipiente recuperación posterior a la crisis de
2008 y lógicamente la proyección del modelo ARIMA predice una recuperación menor que en los
casos de descomposición X12-ARIMA y TRAMO-SEATS donde sí se ve claramente la incipiente
recuperación posterior a la crisis, ver la Figura 14.1.6. En consecuencia la descomposición X12-
Tema 14 549
ARIMA y TRAMO-SEATS proyectan una mayor recuperación, recuperación que finalmente no se

consolidó en los años siguientes. En todo caso, el gráfico también muestra que la previsión del
componente estacional de la serie se reproduce mejor en las series obtenidas mediante el método
X12-ARIMA y TRAMO-SEATS . La comparativa entre X12-ARIMA y TRAMO-SEATS muestra
series muy similares con movimientos prácticamente paralelos; el pronóstico es mejor en el caso
del método TRAMO-SEATS (con un error medio absoluto del 0,059%), es decir, aquel en cuya
previsión no hemos utilizado la descomposición por componentes.
14.1.5. El filtro de Hodrick-Prescott (HP)

En este tema consideramos los componentes de tendencia T y ciclo C de forma conjunta,
esto es así en todo el tema excepto en este apartado, donde analizaremos el filtro de Hodrick
y Prescott cuya utilidad es precisamente, separar el ciclo de la tendencia.
El mayor problema para separar el ciclo de la tendencia se encuentra en la propia defini-
ción de ciclo económico, no exenta de subjetividad, y por ello lo normal es mantener ambos
componentes conjuntamente, denominándolos como ciclo-tendencia o simplemente tendencia,
como hacemos nosotros en el resto del tema.
En ocasiones el análisis económico, especialmente el macroeconómico , requiere la utili-
zación de alguno de los dos componentes separadamente, el ciclo o la tendencia, y por ello
dedicamos este epígrafe a analizar el filtro más extendido para la descomposición de series
temporales en tendencia y ciclo.
Aunque no hay un consenso definitivo sobre la definición del ciclo económico, el NBER, a
partir de Burns y Mitchel, define el ciclo económico de la siguiente manera:
«Los ciclos económicos son un tipo de fluct uaciones encontradas en la actividad
económica agregada de las naciones que organizan su funcionamiento en empre-
sas comerciales. Un ciclo consiste en expansiones que ocurren aproximadamente
al mismo tiempo en muchas actividades económicas, seguidas generalmente de re-
cesiones, contracciones y reactivaciones que se conectan con la fase de expansión
del ciclo siguiente, esta secuencia es recurrente pero no periódica, la duración de
los ciclos económicos varía entre más de un año y hasta diez o doce años, no son
divisibles en ciclos más cortos.
El filtro de Hodrick y Prescott (1980) es el más extendido en la literatura para separar los
componentes de ciclo y tendencia. Su empleo se justifica por su linealidad, por estar bien
definido independientemente de la serie a la que se aplica, exento de juicios subjetivos y fácil
de replicar. La metodología de Hodrick y Prescott consiste en el filtrado del logaritmo de la
serie extrayendo la tendencia y adquiriendo el componente cíclico, como la diferencia entre la
serie y su componente permanente o tendencia. Para lograr tal separación, Hodrick y Prescott
propusieron como medida de la variabilidad de la tendencia, la suma de los cuadrados de sus
segundas diferencias, con el fin de minimizar la variabilidad de la tasa de crecimiento del
componente permanente. El filtro parte de la idea de que cualquier serie de tiempo, Yt , en
logaritmos y sin componente estacional, se puede escribir como la suma de la tendencia, Tt,
y el ciclo, Ct. Es decir, que
550 COMPONENTES TEMPORALES Y ALISADO EXPO'.'JENCIAL
t=l, ... ,T. (14.1.10)

Motivados por el criterio de variabilidad, Hodrick y Prescott propusieron el siguiente
problema de minimización para encontrar la tendencia de una serie.
t = 1, 2, ... , T (14.1.11)
donde el primer componente de la ecuación (14.1.11) corresponde a las diferencias entre la

serie original y la tendencia (es decir, el ciclo) elevada al cuadrado mientras el segundo com-
ponente, que se multiplica por ). , es la medida de suavizado de la serie, elevando al cuadrado
la aceleración de la tendencia. A este respecto. ). es un número predeterminado, conocido
como parámetro de suavización, cuya función principal en el problema de minimización es
penalizar la suma de las segundas diferencias del componente permanente. Cuanto menor sea
el parámetro, el componente permanente puede fluctuar más, y cuanto mayor sea éste, más
se penalizan las fluctuaciones de la tendencia. Por lo tanto, cuanto mayor sea )., la tenden-
cia debe ser más suave. Cuando ). -t oo, la tendencia se aproxima a su forma determinista
Tt = To + a.t, para una constante positiva a.. Esta situación corresponde al caso en que la
tendencia crece a una tasa constante (tendencia exponencial), en concordancia con la teoría
neoclásica. Cuando ). = O, no se penalizan las variaciones y por lo tanto la tendencia es la
misma serie. Tal y como apuntan Hodrick y Prescott , si se cumple que:
Ct rv N(O, ai)
(14.1.12)
(Tt+1 - Tt) - (Tt - Tt_i) "'N(O, a~).
Es decir, si ciclo y segunda diferencia de la tendencia fueran variables normales e indepen-
dientemente distribuidas, la solución al problema (14.1.11) correspondería al valor esperado
de Tt dadas las observaciones, si y solo si ). = (ai)/(a~). Sin embargo normalmente el ciclo
y la segunda diferencia de la tendencia no se comportan de esta forma y el valor de ). es, sin
duda, la cuestión fundamental a la hora de aplicar el filtro HP.
Hay dos aspectos más a tomar en cuenta a la hora de aplicar el filtro. En primer lugar, el
filtro HP debe ser aplicado a series desestacionalizadas para que el componente cíclico no sea
contaminado con variaciones estacionales. En segundo lugar, la tendencia estimada adolece de
ser muy sensible a shocks transitorios al final de la muestra. Para aminorar este inconveniente
Maravall y Kaiser (2002) recomiendan hacer proyecciones de uno o dos años a partir de la
serie original antes de calcular la tendencia aplicando el filtro HP.
Hodrick y Prescott para escoger los valores de ). argumentan de la siguiente forma:
«Nuestro conocimiento previo es que un componente cíclico de 5 % es modera-

damente grande, así como lo es 1/8 del cambio de 1 % en la tasa de crecimiento
en un trimestre. Esto nos permite seleccionar./').= 5/ (i) = 40 o).= 1600. »
Sin embargo, a pesar de que el valor escogido por estos autores produce resultados razonables
para los datos de Estados Unidos no existe ninguna garantía de que el mismo valor de ).
proporcione resultados similares para otros países. Los valores estándar de ). para el caso de
Tema 14 551
Estados Unidos son respectivamente 14400, 1600 y 100 para datos mensuales , trimestrales y
anuales.
A pesar de la popularidad del método propuesto por Hodrick y Prescott , este ha sido objeto
de numerosas críticas. Por ejemplo, Maravall y del Río observan que el filtro HP no preserva
las tendencias estimadas bajo agregación o desagregación temporal de las series utilizando
los valores estándar de >.; es decir, aplicar el filtro HP a series agregadas no resulta ser
equivalente a aplicar el filtro a series desagregadas y luego agregarlas. Estos autores proponen
tomar como punto de referencia las estimaciones realizadas para las series trimestrales para
evaluar la consistencia de las estimaciones de los componentes para las mismas series en
distintas frecuencias (debido a que internacionalmente existe mayor coincidencia entre los
investigadores sobre el uso de un ,\ = 1600 para series trimestrales que sobre los valores de ,\
para datos en otras frecuencias). Estiman para el caso español los valores de ,\ = 6, 65 para
series anuales y,\= 129119 para series mensuales al compararlos con los valores del parámetro
trimestral de 1600. Para profundizar más en esta cuestión ver Maravall y del Río (2001) y
Marcet y Ravn (2003).
Los programas especializados usualmente presentan rutinas que permiten descomponer la
serie en tendencia y ciclo utilizando el filtro HP. Veamos un ejemplo.
Ejemplo 44. Los ciclos del PIB español utilizando el filtro de HP.
Utilizando la serie del PIB español en millones de euros constantes de 2005 (serie desestacio-
nalizada) entre el primer trimestre de 1970 y el último de 2013. La descomposición de la serie en
logaritmos, en tendencia y ciclo utilizando el filtro HP, con parámetro ,\ = 1600, la reproducimos
en el gráfico de la Figura 14.1.8.
Figura 14.1.8: PIB trimestral desestacionalizado , millones de euros de 2005
,...------------------------,..12,8
--Ln(PIB )
----- Tendencia H P
- - - Ciclo HP
12,0
0,04 11,6
--11
~
!\
/ 1
0,02 I 1 ~ {\ / 1 11,2
I 1 rl V\ / 1
I 1
I 1 r r'\ ,/ \ f"\ / 1
0,00
I 1 I
" 1
1 1 11
lJ \ /.... \
\ I
1
11 /J
"
"-v'1 \,"VI/ 1 / \/
1 1 J 1I
VI 1
-0,02
V V V "'
-0,04
1970 1975 1980 1985 1990 1995 2000 2005 2010
Donde podemos observar el ciclo en la parte inferior del gráfico.

14.2. ALISADO EXPONENCIAL
Los pronósticos obtenidos utilizando los métodos de suavización exponencial se basan en

el uso de promedios ponderados de las observaciones pasadas. Las ponderaciones aumentan
rápidamente a medida que las observaciones se acercan temporalmente, es decir , la ponde-
ración de la observación más reciente tiene mayor peso asociado que las observaciones más
alejadas temporalmente. Este método proporciona una predicción fiable y rápida para un am-
plio espectro de series temporales, lo que es una gran ventaja para realizar previsiones en el
ámbito de la industria y los negocios.
El análisis de los alisados exponenciales lo dividimos en dos partes. En la primera presen-
tamos en detalle la mecánica del alisado exponencial en sus diferentes versiones y su aplicación
en el pronóstico en función de sus diferentes características. Esto es importante para enten-
der intuitivamente la metodología, en este sentido la selección y el uso de diferentes alisado
puede parecer un método ad-hoc según las características de la serie a analizar. La selección
del alisado se basa en el reconocimiento de sus componentes fundamentales (la tendencia y la
estacionalidad fundamentalmente) y cómo lo aplicamos (esquema aditivo o multiplicativo).
En la segunda parte presentamos los modelos estadísticos que sustentan los métodos de
suavizado exponencial. Estos modelos generan predicciones puntuales idénticas a los método
descritos en la primera parte de este apartado, pero podemos construir intervalos de predic-
ción. Además, el marco estadístico permite la selección objetiva del modelo más adecuado
entre las distintas opciones posibles.
14.2.1. Alisado exponencial simple (AES)

El suavizado exponencial simple (AES) es el método más sencillo y adecuado cuando las
series no presentan tendencia ni estacionalidad.
El modelo más ingenuo que podemos imaginar (camino aleatorio) es aquel en que la mejor
previsión es
Yt+h!T = Yt para h = 1, 2, ...
Donde asumimos que la observación más reciente es la única importante y todas las ob-
servaciones anteriores no proporcionan información relevante para el futuro. Este modelo se
puede entender también como una media ponderada en la que damos todo el peso a la última
observación.
Alternativamente también podemos pensar en un modelo en el que todas las observaciones
tienen la misma importancia, en este caso el mejor pronóstico es
1 T
Y°t+hlT = T l:t=l Yt para h = 1, 2, ...
A
Que es la media del proceso y también una media ponderada donde damos la misma
importancia a todas las observaciones.
Tema 14 553
Normalmente la importancia de las observaciones estará entre ambos extremos y parece

razonable fijar ponderaciones mayores a las observaciones más recientes y menores al pasa-
do remoto. Este es exactamente el concepto del alisado exponencial. Formalmente podemos
expresarlo de la siguiente manera
2
+ .. .,
A
Y't+11r = ayt +a (1 - a) Yt-1 +a (1 - a) Yt-2 (14.2.1)

donde O ::; a ::; 1 es el parámetro de suavizado. El pronóstico para un periodo es un promedio
ponderado de todas las observaciones de la serie Y1, . .. , Yr. La velocidad a la que disminuyen
las ponderaciones se controla mediante el parámetro a. Si a es pequeño, se da más peso a
las observaciones del pasado lejano. Si a es grande, se da más peso a las observaciones más
recientes. En el caso extremo a= 1, Yt+llT = Yr , el pronóstico es igual al modelo ingenuo.
Usualmente se utilizan expresiones alternativas a la ecuación de pronóstico anterior (14.2.1),
nosotros veremos tres formas alternativas.
Es útil expresar (14.2.1) como una media ponderada de la previsión anterior. La previsión
en el tiempo t + 1 es igual a la media ponderada entre la observación más reciente yt y el
último pronóstico Yt1t-l' es decir la expresión (14.2.1) también se puede escribir como
Yct+l lT) = ayt + (1 - o:)Y(tlt-1), (14.2.2)

o expresión del AES en su forma de media ponderada. En efecto, para t = 1, ... , T , donde
O ::; a ::; 1 es el parámetro de suavización y considerando el momento inicial Yo tenemos que
Yc211) = ctY1 + (1 - a)Yo

}(3¡2) = ctY2 + (1 - o:)Í(2¡1)
Yc4 13) = ctY3 + (1 - o:)Y(312)
Yct+l lt) = ayt + (1 - o:)Í(tlt-1),

y sustituyendo cada ecuación en la siguiente, obtenemos
Í(3¡2) = ctY2 + (1 - a) [ctY1 + (1 - o:)Yo]

2
= ctY2 + ct(l - o:)Y1 + (1 - o:) Yo
Y(413) = ctY3 + (1 - a) [aY2 + a(l - o:)Y1 + (1 - o:) 2Y0 J
= ctY3 + a(l - o:)Y2 + ct(l - o:) 2Y1 + (1 - o:) 3Y0
(14.2.3)
T-1 i T
A
Y(T+ilT) = L.:i=O a(l - a) Yr -i + (1 - a) Yo,
por lo que las expresiones (14.2.1) y (14.2.2) son equivalentes siempre que T sea suficiente-
mente grande. En esta expresión se aprecia con claridad que las condiciones iniciales 1 pueden
influir en el pronóstico o predicción. Normalmente se aproxima Yo a la primera observación
conocida, y en general el procedimiento será correcto siempre que la serie sea suficientemente
1
La serie temporal se considera, desde el punto de vista estadístico , que tiene infinitas observaciones de la
que nosotros solo conocemos una muestra de T elementos.
grande puesto que (1 - a)T tiende a cero de forma exponencial (en todo caso en ocasiones
puede ser necesario realizar un proceso de optimización para el valor inicial cuando la serie es
corta o cuando a es especialmente pequeño respecto del tamaño de la muestra).
Es muy usual también expresar los alisados exponenciales por componentes (expresión por
componentes). En esta forma de expresar los alisados se incluye la ecuación de pronóstico, en
la que se indican los componentes inobservables utilizados en el alisado, y una ecuación para
cada uno de los mencionados componentes inobservables. En el AES el único componente
incluido es el suavizado, nt. En consecuencia la expresión por componente del AES es:
Ecuación de pronóstico Yt+1 1r = nt

(14.2.4)
Ecuación de suavizado o nivel nt = ayt + (1 - a) nt-1,
donde nt es el nivel de la serie en el momento t. La ecuación de pronóstico muestra que el valor

previsto en el momento t + 1 es el nivel estimado en el tiempo t. La ecuación de suavizado
(normalmente se conoce como ecuación de nivel) obtiene el nivel previsto o estimado de la
serie en cada periodo t. Aplicando la ecuación de pronóstico para el tiempo nr (es decir
considerando todas las observaciones) llegamos al pronóstico, Yr+llT = nr. Si reemplazamos
en la ecuación de suavizado nt por Y(t+llt) y nt-1 por f(tlt-l), recuperamos la expresión de
media ponderada del alisado (14.2.2).
Finalmente también es útil presentar la ecuación de nivel en su forma de corrección de
errores, cuya expresión es:
nt = nt-1 +a (yt - nt-1)

(14.2.5)
= nt-1 + aet,
donde et= yt - nt-1 = yt - Yt¡t-l para t = 1, ... , T. Es decir , et es el error de predicción en
el periodo anterior y se utilizará para ajustar la siguiente observación. Por tanto la expresión
(14.2.5) indica que los errores de predicción del periodo anterior se utilizan para ajustar o
corregir la previsión el periodo siguiente. Si el error en el periodo t es negativo , entonces
Yt1t-1 > yt, y el nivel (predicción) en el momento t - 1 sobreestima su verdadero valor, y esta
sobreestimación se utilizará en el momento siguiente para ajustar o corregir el nuevo nivel
o predicción en la siguiente previsión. La proporción del ajuste respecto al error del periodo
anterior lo determina el parámetro a. Cuanto más cerca esté a de 1, más duro será el ajuste
del nivel en el siguiente periodo , y más suave será cuanto menor sea a.
Hasta ahora hemos mostrado pronósticos para un solo periodo, t + l. El AES tiene una
función de previsión constante para periodos sucesivos, por lo tanto el horizonte de predicción
del AES es solo de un periodo, ya que
Yr+hlT = ... = Yr+21r = Yr+i lT = nr. (14.2.6)
Los métodos de alisado requieren elegir el valor de los parámetros que mejor se ajusten
a las observaciones de la serie. En el caso del AES, solo hay un parámetro, a, pero para
los alisados con más componentes, será necesario estimar más parámetros. La forma más
adecuada para obtenerlos requiere elegir los coeficientes del modelo que minimizan la suma
Tema 14 555
cuadrática de los errores (SCR). Se trata de un problema no lineal de optimización que los
programas especializados suelen incorporar de forma rutinaria.
Veamos un ejemplo sencillo para ilustrar el AES.
Ejemplo 45. La producción de vehículos tur ismos en España

La Figura 14.2.1 muestra la producción anual de vehículos turismos en España entre 1995 y
2009. No se aprecia una tendencia clara 2 ; la producción crece hasta 2004 y desciende con posterio-
ridad. Además, como las observaciones son anuales, la variable observada carece de estacionalidad.
Figura 14.2.1: Producción de turismos en España entre 1995 y 2009

"'2.500 ~-------------------------·- ---
~
':Eª 2.400 + - - - - - - - - - - - - - - - - - - . ,- - . - -- - - - - -
1.900
1.800 + - - - - - - - - - - - - - - - - - - · - - - - - - - - - - -·- -
1.700 +--~-~-~-~-~-~-~-~-~-~-~-~- -~-~
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Con el único objetivo de mostrar la forma de cálculo , estimamos y predecimos para los próximos
3 años (2010-12) ensayando tres valores de o: (0 ,3, 0,6 y 0,968). La tabla de datos junto con su
gráfico se reproduce en en la Tabla 14.5.
2
Aunque tal y como definimos el componente de tendencia (o de ciclo-tendencia para ser más precisos) en el
epígrafe anterior la serie de producción de turismos presenta t endencia o al menos componente cíclico, no obstante
consideraremos aquí que la serie no tiene componente de tendencia solo a efectos didácticos.
556 COMPONENTES TEMPORA L ES Y ALISADO EXPONENCI AL
Tabla 14.5: Producci ón de turismos en España . AES

Datos Gráfico
valor de a
aflos Tunsmos t
0.300 0,600 0,968
o 1 958.717 1.958.717 1.958.717
1995 1.958 .717 1 1.958.717 1.958.717 1.958.717
1996 1.938 .324 2 1.952 .599 1.946.481 1.938 .977
1997 2.010 .232 3 1.969.889 1.984.732 2.007.952
1998 2.216 .386 4 2.043838 2.123.724 2.209.716
1999 2.208.707 5 2.093.299 2.174.71 4 2.208.739
2000 2.366.334 6 2 175.209 2.289.686 2.361 .291
2001 2.210 432 7 2.185.776 2.242 .134 2.215.259
2002 2.266.902 8 2.210.11 4 2.256.995 2.265.249
2003 2.399.374 9 2.266.892 2.342 .422 2.395.082
2004 2.402.501 10 2.307.575 2.378.470 2.402.264
2005 2 098.168 11 2.244.753 2.210.289 2.107.899
~~· - \
2006 2.078 .639 12 2.194.919 2.131 .299 2.079.575
2007 2.195 780 13 2.195.177 2.169.988 2.192.061
2008 1.943.049 14 2.119.539 2.033.824 1.951 .017
2009 1.812 .688 15 2.027 .483 1.901 .143 1.817.115 --
SCR 1 I
4,574E+11 3,333E+11 I 3,052E+11 600
ob s. . ºón
Dr8 VfSf
2010 1.913.512 2.027.483 1.901.1 43 1.817.115 • 400
2011 1.836.125 2.027.483 1.901.1 43 1 817.115 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
2012 1.460.580 2.027.483 1.901.1 43 1.817.115
- Turismos - · 0,300 - - 0,600 ....... 0,968
2013 2.027.483 1.901 .143 1.817 .115
La Tabla de la izquierda muestra los datos primarios y las tres estimaciones realizadas [a partir
de la expresión (14.2.4)] . Hemos tomado como condiciones iniciales, Yo, la primera observación de
la muestra , Y1 .
Al tratarse de un alisado de un solo parámetro resulta sencillo visualizar, en el gráfico, las
consecuencias de incrementar el valor de a. Cuando el parámetro es bajo (a = O, 3, serie punto-
guión) el movim iento de la serie estimada es más suave , reaccionando en menor medida a los
valores de la última observación conocida . Por el contrario , cuando el valor del parámetro es alto,
0,968 (serie de puntos) la estimación se aju sta rápidamente al último valor conocido , lo que da la
apariencia de que la estimación se ajusta a la serie original pero con una observación de retraso.
La previsión , expresión (14. 2.6), es const ant e para los tres periodos. La S C R menor se consi-
gue con el parámetro 0,968 (ver Tabla 14.2.1) , de manera que este es el AES que mejor ajusta
y el más adecuado para realizar previsiones . El parámetro es muy cercano a la unidad y la pre-
dicción , en consecuencia, muy similar al valor de la observación anterior, es decir el modelo se
acerca mucho a la estimación ingenua qu e ya comentamos anteriormente. En este caso con-
creto la previsión es de 1817 millares de vehículos producidos en los años 2010 , 2011 y 2012.
[Yr+ HIT = a.Yr + (1 - a) ·Yr¡r-i = 1812, 688·0, 986 + (1 - O, 986) ·1951 , 017 e:::: 1817, 11 5 J.
14.2.2. Alisado exponencial de Holt
14.2.2.1. Alisado con tendencia lineal
El alisado exponencial con tendencia lo planteó Holt (1957) partiendo del AES y aña-
diendo una tendencia lineal. Su ecuación por componentes es:
Tema 14 557
Pronóstico "fí+hlT = nt + h·bt

Nivel nt = cd't + (1 - a) (nt-1 + bt- 1) (14.2.7)
Tendencia bt = {3* (nt - nt- 1) + (1 - {3*) bt-1 ,
donde nt es la ecuación de nivel de la serie; bt la pendiente estimada de la tendencia; a el
parámetro de suavizado del nivel, O ~ a ~ 1; y {3* el parámetro de suavizado de la tendencia,
o~ {3* ~ l.
Al igual que el AES, la ecuación de nivel muest ra que nt es un promedio ponderado de
la observación yt y la estimación del valor anterior, en este caso, Yt1t-l = nt-1 + bt-1· La
ecuación de tendencia indica que bt es un promedio ponderado de la tendencia en el momento
t, nt - nt-1, y bt-1, la estimación de tendencia de la observación anterior.
La previsión ya no es constante, sino una tendencias lineal con bt como pendiente de la
recta de previsión y el nivel, nt, como ordenada en el origen (constante).
La ecuación de corrección de errores es:
nt = nt-1 + bt-1 + aetbt

= bt-1 + a{3*et, (14.2.8)
donde et = yt - (nt-1 + bt-1) = Yt - Yt¡t-1 ·
14.2.2.2. Alisado con tendencia exponencial

Una variante del método de Holt consiste en introducir los componentes, tendencia y nivel,
de forma multiplicativa (en vez de aditiva), la ecuación por componentes es:
Pronóstico
Nivel (14.2.9)
Tendencia
donde bt es la tasa de crecimiento constante de predicción (es decir, se considera el crecimiento

en términos relativos en vez de en términos absolutos). La tendencia ahora es exponencial en
vez de lineal.
La ecuación de corrección de error es:
nt = nt-1 ·bt-1 + aet

bt = bt-1 + a{3* __!l_ne
t-1
' (14.2.10)
donde et= yt - (nt-1·bt-1) = Yt-Ytit-1·
Veamos un ejemplo de suavizado con tendencia.
Ejemplo 46. Entrada de turistas en España

La Figura 14.2.2 muestra la entrada de turistas en España. La visualización de la serie sugiere
una tendencia creciente, al menos hasta la crisis internacional (2008-2009), pero parece que a
partir de 2010 vuelve a crecer .
Figura 14.2.2 : Entrada de tu ristas en España entre 1995 y 20 11
60.000
e"'e:
11>
w 55.000
1996 1998 2000 2002 2004 2006 2008 2010
Por consiguiente estimar un suavizado con t endencia parece lo más razonable . En la Tabla 14.6
reproducimos la estimación de dos alisados, uno con t endencia lineal y otro expon encial , ambas
estimaciones se ha n realizado , solo con fines il ust rativos , pa ra valores a = {3 = O, 9. Como valor
in icial hemos tomado la primera observación conocida , Yo =no = Y 1gg 5 . El coefici ente inicial de
la tendencia es bo = Y1996 - Y1995 pa ra la t en dencia li nea l, y bo = Y1995 / Y1995 para la tendencia
exponencia l.
Tabla 14.6: Entrada de t uristas en Espa ña. A lisado ex pon encial con tende ncia
Datos Gráfico
Turistas Tendencia lineal Tendencia exponen cial
años t
(miles) n, b, Y, n, b, Y,
65
o 34.920 1.301 34.920 1,04
/
1995 1 34.920 34.789 13 36.221 35.050 1,01 36.221 /¡
1996
1997
1998
2
3
4
36.221
39.553
43.396
36.077
39.089
42 .683
1.160
2.827
3.517
34.802
37 .236
41.916
36.129
39.313
43.311
1,03
1,08
1,10
35 298
37.155
42.543
60
fj-
1999 5 46.776 46.015 3.351 46.200 46.861 1,08 47.631
55
2000 6 47.898 47.375 1.559 49.366 48.187 1,03 50.786
2001 7 50.094 49 .666 2.218 48.933 50.066 1,04 49.817
2002 8 52 .327 51.839 2.178 51.884 52.293 1,04 51.992
2003 9 50.854 50.735 -776 54 .016 51.227 0,99 54.588 50
2004 10 52 .430 52 .338 1.365 49.958 52.238 1,02 50.512
2005 11 55.914 55 .420 2.910 53.703 55.632 1,06 53.093
2006 12 58.004 57.455 2.12 3 58.330 58.102 1,05 58.975 45
2007 13 58.666 58.332 1.002 59.578 58.876 1,02 60 772
2008 14 57.192 57.206 -914 59.334 57.458 0,98 59.853
2009 15 52.178 52 .772 -4.082 56.292 52.591 0,92 56.308 40
2010 16 52.677 53.095 -118 48.690 52.257 0,99 48.476
2011 17 56.177 55 .880 2.495 52.977 55.714 1,06 51.549
35
SCR 8,49E+o7 1,12E+08
obs. Previsión
2012 1 57.464 58.376 58.956
2013 2 60.648 60.871 62.387
2014 3 63.367 66.017
a= 0,9 y 8 = 0,9
Tema 14 559
En la Tabla vemos, además de la serie original y las dos estimaciones, los respectivos valores
de nt y bt que permiten reproducir los cálculos [utilizando las expresiones (14.2.7) y (14 .2.9)].
También mostramos las respectivas sumas cuadráticas de los errores y, al final , la previsión para
los años 2012, 2013 y 2014 .
El gráfico visualiza la serie original (línea continua) y las estimaciones junto con sus previsiones
(en línea de puntos, la tendencia exponencial y, con gu iones, la tendencia lineal).
Las previsiones muestran que la tendencia exponencial pronostica un mayor crecimiento que la
lineal. La estimación con tendencia lineal tiene una menor SCR , de manera que este es el modelo
que mejor se ajusta a los datos observados. En este caso la predicción también se comporta mejor
con el método lineal. En la Figura 14.2.3 podemos ver los los gráficos por componentes de ambos
métodos.
Figura 14.2.3: Componentes. Alisado de Holt (aditivo y multiplicativo)

S0.000
60000 Su...,aado de Holl (pendiente exponenc:~ I)
..... &i•v1Hdo de Holl (tendenc:11i ll!Mal)

"000
50000
50000
~
.$
j -45.000
•l 45.000
z 40000 .
<0000
"000
35000
30000 ~---------------
1.20
6000 1,1 5
e
~
•.000
2000
o
.
e
i
B
1,10
1.05
~
.
1.00
~
·2000
, 2012 ·"'4
o~ ~~-~-~~-~
95 ~ 97 ll8 SKI 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14
14.2.2.3. Alisado con tendencia lineal amortiguada

En muchas ocasiones los métodos de alisado exponencial con tendencia, lineal o exponen-
cial, tienden a sobreestimar las previsiones , especialmente a largo plazo, por ello Ladiray y
Quenneville (2001 ) introdujeron un parámetro que amortiguara la tendencia.
El método consiste en introducir el término, O .S </> .S 1, que amortigua la tendencia
hasta convertirlo en constante, es decir al incluir el término </; se amortigua la tendencia y la
previsión converge a nt + i11~~ cuando h--+ oo.
La ecuación por componentes aditivos es:
Pronóstico Y°t+h lT = nt + </> + </> 2+ · · . + </> h) bt

A (
Nivel nt = ayt + (1 - a) (nt-1 + <f> bt- 1) (14.2. 11 )

Tendencia bt = {3* (nt - n t-1) + (1 - {3*) </> bt-1·
560 COMPONENTES TEMPORALES Y AL ISADO EXPONENCI AL
Si </> = 1 el método es idéntico al lineal de Holt. P ara valores entre O y 1, </> amortigua
la tendencia hasta convert irse en una constante en el fut uro lejano. P or consiguiente las
previsiones a corto plazo presentan una tendencia amort iguada mientras que las previsiones
a largo o muy largo plazo son constantes. La ecuación de corrección de errores es:
nt = nt- l + <f>bt-1 + aet

(14.2.12)
bt = <f> bt-1 + a/3*et.
14.2.2.4. Alisado con tendencia expone ncial amortiguada
Cuando consideramos la introducción de los componentes de forma mult iplicativa, la forma

por componentes es:
P ronóstico
Nivel (14.2 .13)
Tendencia
La ecuación de corrección de errores es:
nt = nt-1 ·bf- 1 + aet

(14.2. 14)
bt = b<Pt-1 + a/3*~.
nt-1
Ejemplo 47. Producción mundial de p et róleo (miles de barriles diarios)

Reproducimos a continuación la producción anual de petróleo , medida en miles de barriles
diarios, entre 1965 y 2000.
Tabla 14.7 : Producción m undial de petróleo 1965 - 2000

Datos Gráfico
"'
~ 75
o
~ 70
años observaciones 65
1965 31 .798 34 .563 37.113 40.430 43 .627 60
58.460 58 .613 55
1970 48 .056 50 .839 53.662
50
1975 55 .822 60.410 62 .716 63 .338 66 .061
45
1980 62 .959 59 .547 57.312 56 .6 15 57.696
40
1985 57.459 60.435 60.745 63. 111 64.002
35
1990 65 .385 65.204 65.716 65.978 67.073
30
1995 67 .990 69.845 72.101 73.457 72.293 ~
~
00
~
M
~
~
~
~
~
0
00
M
~
~
00
~
00
N
~
~
~
00
~
~ m m m m m m m m m m m
M M M M M M M M M M M M
2000 74.955
Tema 14 561
Con el objetivo de repasar, hemos realizado la previsión de la serie para los años 2001 a 2012
utilizando todos los alisados vistos hasta ahora. Las previsiones así como los datos observados
durante el periodo de pronóstico los reproducimos en la Tabla (14.8) .
Tabla 14.8: Producción mundial de petróleo. Previsión mediante alisado simple y con tendencia
Datos Gráfico
ª~"" t AES Hoff E1m. Lm Amo. E1<n. Amo.
2001
2002
1
2
°''
75204
74946
74 955
74 955
76015
77 146
76072
77 396
75 866
76 721
75486
75956
2003 3 77 566 74 955 76 276 76 743 77526 76.372
2004
2005
4
5
60.966
82014
74.955
74 955
79.407
80.537
60. 114
61 508
76.282
76 993
76.740
77.065
.·
2006 6 82482 74 955 81 668 62926 79661 77.353
2007 7 62285 74 955 62 799 64 369 60 269 77606
2006 8 62932 74 955 83.929 65638 60 .679 77.631
2009 9 81.261 74.955 85.060 67.332 81 .434 76.026
2010 10 63272 74 .955 66.191 68 851 81 .956 78.203
2011 11 84 210 74 955 87 321 90 398 62 446 78356
2012 12 66152 74 955 66452 91 971 62 907 78492
a 1,00 0,96 0,90 1,00 1,00

fi 0,20 0,44 0,20 0,10
~ 0,94 0,86
n, 31 798 31 798 31 798 31 798 31 798
b,, 2.765 1.09 2 765 1,09
SCR 2 02E+08 1 52E+08 1 66E+08 1 41E+08 1i 39E+08 - Oll
2001-03
- - -AES
RECM 1 515 1-i13 1646 1 093 917 SO +---_,__ _ _ _ _ _ - - - ----l -------Holt
EMA 956 1.239 1.497 828 626
PEMA 1,24 1 64 196 110 1 09 •••••• Exp .
2001-06
RECM 4 992 1 370 1.248 2.156 3445
40 --------------1 - - - LlnealAmo.
EMA 3.911 1.261 1.049 1.634 2.799 -* -Exp . Amo.

PEMA 4 61 1 61 1 36 2 29 346
2001-12 30 ~rn~~.,_...,...,~.,...,_,
RECM
EMA
6 993
6154
2.050
1.787
3 677
2 .912
2072
1.796
4 546
4 032
~~~~~~~~~~#~~~~~~~ ##~~~~
PEMA 7 43 217 3,54 2,19 4 67
La tercera columna de la tabla de datos muestra las observaciones de producción de petróleo,

entre los años 2001 a 2012 , y a partir de la cuarta colum na, las predicciones de los distintos modelos
vistos hasta ahora . En el gráfico se observan los dat os en los que se ha basado la estimación de
los modelos (periodo 1965 - 2000) y las previsiones ju nto con los valores observados de la serie,
periodo 2001 a 2012.
Para valorar el grado de ajuste de la estimación (periodo 1965 - 2000) mostramos la SCR.
Los modelos con tendencia amortiguada son los que mejor ajustan, especialmente el exponencial,
con SCR de 1, 39·108 , en consecuencia deberíamos elegir este modelo para realizar la predicción.
El AES es el peor, con SCR de 2, 02·108 , esto parece lógico puesto que la serie histórica muestra
una clara tendencia y el AES está concebido para series sin ella.
Para valorar las predicciones realizadas, periodo 2001 - 2012 , hemos establecido tres escenarios:
2001 - 03 , 2001 - 06 y 2001 - 2012. Y utilizamos la raíz del error cuadrático medio - RECM -,
el error medio absoluto - EM A - y el porcentaje del error medio absoluto - P EM A - de cada
escenario para valorar la bondad del ajuste del pronóstico. Todas estas medidas ya las hemos visto
y analizado al final del Tema 4.
En el corto plazo (2001 - 03) las mejores previsiones son las tendencias amortiguadas, espe-
cialmente la exponencial , con un error medio absoluto del 1,09 %. A medio plazo (2001 - 06) las
tendencias no amortiguadas son las más ajustadas, especialmente la exponencial con un error medio
absoluto del 1,36 %. Y en el más largo plazo (2001 - 12) son las tendencias lineales, amortiguadas
o no, las que mejor lo hacen, la lineal no amortiguada tiene un error absoluto medio del 2,17%.
Los resultados contradictorios de este ti po son muy comunes. Las previsiones pueden variar por
muchas razones (longitud del horizonte de proyección, tamaño del conjunto de pruebas , medidas
de error de previsión , frecuencia de los datos, etc.), y es poco probable que un método sea mejor
que todos los demás en todos los escenarios posibles. Es importante, en consecuencia, realizar
evaluaciones ex post , como las realizadas en este ejercicio, con mucha frecuencia con el objetivo
de aprender de los errores y afinar los modelos de previsión constantemente.
14.2.3. Alisado estacional de Holt-Winters

Holt (1957); Winters (1960) extendieron el método de Holt para capturar el componente
estacional. El método estacional de Holt-Winters comprende la ecuación de pronóstico y tres
ecuaciones de componentes - de nivel nt, tendencia bt, y estacional St - , con parámetros de
suavizado o:, /3* y '"Y· Utilizamos m para denominar el número de periodos estacionales del
año. Por ejemplo , para datos trimestrales de m = 4, y para datos mensuales m = 12.
Hay dos variaciones del método que difieren en la naturaleza de la componente estacio-
nal. Nos referimos al método aditivo cuando las variaciones estacionales son más o menos
constantes en toda la serie, mientras que nos referiremos el método multiplicativo cuando las
variaciones estacionales cambian proporcionalmente con el nivel de la serie. Con el método
aditivo, el componente estacional se expresa en términos absolutos en la escala de la serie
observada, y en la ecuación de nivel de la serie se ajusta estacionalmente restando el compo-
nente estacional. Dentro de cada año, la suma de los m valores del componente estacional es
aproximadamente cero. Con el método multiplicativo, el componente estacional se expresa en
términos relativos (porcentajes) y la serie se ajusta estacionalmente dividiendo por el com-
ponente estacional. Dentro de cada año, la suma de los índices estacionales multiplicativos es
aproximadamente m.
14.2.3.1. Holt-Winters aditivo

La ecuación por componentes del método aditivo es:
Pronóstico ft+h lT = nt + h·bt + st-m+h;t

Nivel nt =o: (yt - St- m) + (1 - o:) (nt-1 + bt-1)
(14.2.15)
Tendencia bt = /3* (nt - nt-1) + (1 - /3*) bt-1
Estacionalidad St = "( (Yt - nt - 1 - bt-1) + (1 - "f) St-m,
donde h~ = l(h - 1) mod mJ + 1, garantiza que las estimaciones de los índices estacionales
utilizados para pronosticar provienen del último año muestra!. (La notación lu J indica el
entero más cercano y menor o igual que u). La ecuación de nivel es una media ponderada entre
la observación desestacionalizada (yt - St - m) y la previsión desestacionalizada (nt-1 + bt-1)
para el momento t. La ecuación de tendencia es la tendencia lineal de Holt. La ecuación de
estacionalidad es una media ponderada entre el actual índice de estacionalidad, (yt - nt-1 -
bt-1), y el índice de estacionalidad del año anterior (es decir, con m periodos de retardo).
Tema 14 563
La ecuación del componente estacional suele expresarse como:
St = / (yt - nt-1) + (1 - ¡) St-m · (14 .2.16)
Si sustituimos nt de la ecuación de suavizado para el nivel de la fórmula por componentes

anterior, obtenemos
St = / * (1 - o:) (yt - nt-1 - bt-1) + [1 - ¡ * (1 - o:)] St-m, (14.2.17)
que es idéntica a la ecuación de suavizado para el componente estacional que especificamos

aquí con ¡ = ¡* ( 1 - o:). La restricción de parámetro usual es que O ~ ¡* ~ 1, lo que se traduce
en que O ~ ¡ ~ 1 - o:.
La forma de corrección de error es:
nt = nt-1 + bt-1 + o:et

bt = bt-1 + o:f3*et,
(14.2.18)
St = St-m + ¡et
donde et = Yt - (nt-1 + bt-1 + St-m) = Yt - Yt1t-1 ·
14.2.3.2. Holt-Winters multiplicativo
La forma de componente para el método multiplicativo es:
Pronóstico Yt+h lT = ( nt + h·bt) ·st-m+h;h

Nivel nt =o: (st~'m ) + (1 - o:) (nt-1 + bt-1)
(14.2.19)
Tendencia bt = /3* (nt - nt-1) + (1 - /3*) bt-1
Estacionalidad St = / ( ne-i~bt- l) + (1 - ¡) St-m,
y la representación de corrección de errores:
nt = nt-1 + bt-1 + o: ___!:i_se

t-m
bt = bt-1 + o:/3* ___!:i_s
e
t-m
,
(14.2.20)
St = + 1 -nt--~1~.....,.b-t--1
St-m
donde et= yt - (nt-1 + bt-1) St -m = Yt - Ytit-1·
Veamos un ejemplo de series con componente estacional.
Ejemplo 48. Retribuciones salariales en España

La Figura 14.2.4 reproduce las retribuciones de los asalariados españoles en miles de millones
de euros entre el año 2000 y 2011 con periodicidad trimestral (Contabilidad Nacional Trimestral) .
564 COMPONENTES TEMPORALES Y ALISADO EXPONENCI AL
Figura 14.2.4: Retribuciones salariales en España , 2000-2009
150
140
130
(/)
e
:::J
120
Q)
Q)
"C
(/)
110
Q)
e:
~ 100
~
90
80
70
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
La serie presenta un claro patrón esta cional con picos en el segundo y cuarto trimestre de
cada año y una tendencia creciente hasta el últ imo trimestre de 2008, donde la crisis internacional
provoca la caída de las retribuciones salarial es. Por consiguiente parece que el modelo más adecuado
es el de Holt-Winters.
En la Tabla 14.9 hemos estimado los modelos aditivo y multiplicativo utilizando las observa-
ciones entre 2000 y 2009 y realizado pronósticos para los años 2010 y 2011 .
Los valores iniciales (no, bo y so ) así como los parámetros (o:, f3 y 1 ) elegidos están optimizados
usando un algoritmo informático (los programas especializados los calculan de forma rutinaria).
Los valores estimados y los pronósticos los hemos calculado utilizando las expresiones (14. 2.15) y
(14. 2.19) respectivamente .
El modelo aditivo ajusta mejor con una SCR de 52 ,357 . La predicción también es mejor con
un error medio absoluto del 0,62 % frente al 2,28 % del modelo multiplicativo. La Figura 14.2.5
muestra el componente estacional de ambos modelos.
Tema 14 565
Tabla 14.9: Retribuciones salariales de los españoles. Alisado Holt-Winters

Datos Gráfico
Holt Wmters aditivo HoJt Wint4!fl multimpJicatlvo
Obs. Salarios T n, b, ~ Est. Y, n, b, s, Esr. Y,
.3 -4,141 0,958
·2 1,230 1,020
·l -1,694 0,958
o 74,879 1,028 4,606 73,786 1,506 1,063 J50 r - - - -
2000Ql 72,166 1 76,291 l,314 -3,803 71,766 75,Z92 1,506 0,958 72,166 - SALARIOS
200Clll2 78,723 2 77,498 1,234 l,135 78,835 77,108 1,615 1,020 78,371
2000Q3 76,154 3 17,883 0,602 -2,440 77,037 79,418 usa a,958 75,413 .. ., .. Holt Winters aditivo
200004 84,977 4 80,296 1,951 6,197 83,091 80,070 1,436 1,063 86,402
2001Ql 71,716 81,549 1,431 -4,417 78,443 81,124 1,302 0,958 78,123
200102 84,126 '' 82,990 1.439 1,145 84,114 82,436 1.306 1,020 84,116
-~ Holt-Winters multiplicativo
2001Q3
200104
200201
81.615
91,352 8
82,409 9
7 84,070 1,171 -2,756
85,158 1,109 6,125
86,804 1,509 -3,946
81,990
91,438
suso
85,051
86,021
86,131
1,764 0,958
1,486
1,004
1,063
0,958
80,221
92,289
83,875
r•'
•'•'
200202 89,448 10 88,303 1,502 1,137 89,458 87,600 1,167 1,020 88,921
2002Q3 86,764 11 89,531 1.298 ·2,997 87,049 90,391 1,735 0,958 85,036
200204 97,194 12 91,060 1.469 6,327 96,954 91,498 1,516 1,063 97,935 •'
•'
200301
200302
88,686 13
95,336 14
92,628 1,54l -3,859
94,198 1,563 1,161
88.583
95,307
92,576
93,473
1,362
1,200
0,958
l,020
89,153
95,863
,_
'
1,624 0,958 1
200303 91,985 15 95,013 1.006 -3,655 92,765 95,886 90,694
200304
2rJ0.4Q1
103,266 16
9-4,28217
96,902 l,664 7,103
98,158 1.360 -4.217
102,346
94,707
97,177
98,397
1,508
1,407
1,063
0,958
103,&60
94,588
'
1
2004<U 101,163 18 99,9a2 1,706 1,570 100,679 99,199 1,195 1,020 101,849 1
2004QJ
200404
97,094 19
109.307 20
100,787 1,034 -4,448
102,188 1.308 7,427
98.034
108,924
101,258
102,816
1,498
1,519
0,958
1,063
96,174
109,236 ''
1'
,.'9
1
200501 100,026 21 104,214 l,842 -3,587 99,279 104,356 1,526 0,958 100,004 ~ m t
,,'
200502 109,375 22 107.735 3,093 3.046 107,625 107,049 1,935 1,020 108.051 i
~
'
"•
2005Q.3 104,366 23 108,895 l,653 -6,l.t8 106,381 108,949 1,923 0,958 104,403
.¡: ¡¡
200504 118,091 24 110,660 1.736 7,525 117,974 111.065 1,990 1,063 117,863
¡¡
200601
200602
200603
108.594 25
117,828 26
111,987 27
112,189 1,582 -3,769
114,741 2.304 3,899
118,092 3,084 -5,229
108,809
116,818
110,897
113,273
115,450
116,966
2,066
2,105
1,899
0,958
1,020
0,958
108,361
117,703
112,614
J
:¡¡
f 1
i 1
1
1'':1
1 1
' 1
1
200604 127,418 28 119,944 2,166 6,443 128,701 119,760 2,212 1,063 126,351 "' 1
1
200701 118,128 29 121,905 2,014 -3,949 118,342 123,117 2,613 0,958 116,909 1' 1 1
'
~ 1 '•'
2007Q2
2007Q3
127,522 30
120,975 31
123,635 1.802 3,649
126,173 2,350 -4,582
127,817
120.209
125,038
126,396
2,371
2,016
1,020
0,958
128,306
122,054 ~ 1 ,. 1
''•.,•'
200704 137,245 32 130,711 3,980 8,366 134,966 129,035 2,234 1.063 136,510
!1
., •'
200801
2008<U
128,6 33
137.671 34
132,635 2,448 -5,757
134,064 1.689 2,754
130,742
118,732
133,880
135,119
3,148
2.480
0,958
1,020
125,819
139,835
í 1
200BQ3 128,846 35 133,521 0.026 -6,545 131, 172 1.34,810 l,504 0,958 131,815
200804 142,474 36 134,085 0,427 8,839 141,914 134,252 0,782 1,063 144,909
200901 125,524 37 lll,410 -1,884 -8,484 128,755 Ul,368 -0,501 0.958 129,428
2009CU 134,31 38 131,475-0,432 4,467 132.280 131,539 -0,266 1,020 133,548
200903 124,914 39 131,442 -0,135 -6,194 124,498 1.30,483 -0,542 0,958 125,755
2009Q4 139,781 40 130,956 -0,396 8,531 140,147 131,335 -0,054 1,063 138,135
SCR 52,3571 68,973
20100.l 122,184 122,076 125,830

201002 132,389 134,631 133,914
2011Xl3 122.914 3 123.574 125,657
201004 137,301 137,902 ll9,385
201101 121,361 120,491 125,621
"'
2011Q2
201103
131,796
122,004
131,046
121,990
133,692
125,449
/'.i<Y .¡~ / ././././/'././/
201104 135,649 8 136,317 139,153 TrlmestrH
a .. 0,96; .., 0,745; y" 0,844 a::0,9· ~·0,35; •O.
-¡
st - modelo Holt·Winters multiplicativo de los salarios (y= O}.
1.080 ....... -
0,940 +. . . .
~~~@'<>:@'~@~~@~~@~#""'.,//~~,,,~~~~~~/../.,~/ 1
-----'
El parámetro 'Y = O del modelo multiplicativo implica un componente estacional St constante

a lo largo de toda la serie, sin embargo el parámetro del modelo aditivo 'Y = O, 844, proporciona
un componente estacional que varía lentamente con el transcurso del tiempo , la Figura 14.2.5
muestra el componente estacional de ambos modelos.
14.2.3.3. Holt-Winters amortiguado

En ocasiones el método de pronóstico más preciso para las series de tiempo estacionales
es el método de Holt-Winters con una tendencia amortiguada y estacionalidad multiplicativa,
su expresión por componentes es:
Pronóstico Y't+hlT
A
= + 2 + ... + </> h) ·st-m+h;l;,
(
nt
Nivel nt =a (st~tm) + (1 - a) (nt-1 + </Jbt-1)
(14.2.21)
Tendencia bt = /3* (nt - nt-1) + (1 - /3*) </Jbt-1
Estacionalidad St = 'Y ( nt-1 r~bt-1 ) + (1 - 'Y) St-m.
14.2.4. Taxonomía de los métodos de alisado exponencial

La lista completa de modelos con dos componentes, tendencia! y estacional (T, S), en los
que cada uno ellos pueden ser: aditivo, A, multiplicativo, M, o simplemente carecer de compo-
nente, N. Además la tendencia también puede ser aditiva amortiguada, Ad , y multiplicativa
amortiguada, Md·
Utilizando estas etiquetas y pares de valores donde el primero se refiere al componente
tendencia! y el segundo al estacional podemos establecer la lista completa de suavizados
exponenciales propuesta por Taylor (2003). Por ejemplo, un (Ad, M) es un modelo con
tendencia aditiva amortiguada y estacionalidad multiplicativa. La Tabla 14.10 muestra los 15
modelos de suavizado exponencial posibles.
Tabla 14.10: Taxonomía de alisados exponenciales

Estacionalidad
N A M
(Ninguna) (Aditiva) (Multiplicativa)
N (Ninguna) (N, N) (N,A) (N,M)
A (Aditiva) (A, N) (A,A) (A,M)
Ad (Aditiva amortiguada) (Ad, N) (Ad, A) (Ad, M)
M (Multiplicativa) (M,N) (M,A) (M,M)
Md (Multiplicativa amortiguada) (Md, N) (Md, A) (Md, M)

Tema 14 567
En la Tabla 14.11 se visualizan las expresiones por componentes de los quince modelos de
suavizado exponencial.
14.3. ALISADO EXPONENCIAL EN EL ESPACIO DE LOS ESTADOS
En este apartado analizamos los modelos estadísticos que sustentan los métodos de sua-
vizado exponencial que hemos considerado hasta ahora.
Los métodos de suavizado exponencial de la Tabla 14.11 son algoritmos que generan
predicciones puntuales. Los modelos estadísticos que analizamos ahora generan las mismas
predicciones puntuales, pero permiten construir intervalos de confianza de las previsiones.
Los alisados exponenciales interpretados como modelos estocásticos, muestran el proceso
generador de datos (PGD) de la serie temporal. Para ello debemos considerar los métodos de
suavizado como modelos estructurales de series temporales, ver la Sección 14.4.1 del Apéndice.
Este marco estadístico permite el uso de los criterios estadísticos que posibilitan la selección
del modelo más adecuado de forma objetiva.
Hasta ahora hemos considerado a los alisados como un método de ajuste (como el método
de MCO en la regresión) donde seleccionábamos aquel que tenía menor SCR sin hacer ninguna
consideración sobre el componente irregular. Ahora introducimos formalmente el componen-
te residual como una variable aleatoria, Et, con distribución normal e independientemente
distribuida (ruido blanco), es decir que
Et'"" NID (o,o-:), (14.3.1)

Los parámetros desconocidos -a, (3*, "f y las condiciones iniciales no, bo, So- de estos mo-
delos los estimamos por máxima verosimilitud, ver la Sección 14.4.7 del Apéndice, construyen-
do la función de verosimilitud mediante el método de la descomposición del error de predicción.
Este procedimiento requiere la representación del modelo en el espacio de los estados, ver la
Sección 14.4.2 del Apéndice. Lo que nos posibilita utilizar una serie de algoritmos basados en
el filtro de Kalman, ver la Sección 14.4.3 del Apéndice, y obtener la función de verosimilitud
de modelos complejos, bajo el supuesto de que las perturbaciones siguen una distribución nor-
mal e independientemente distribuida. Estimados los parámetros del modelo de esta forma
podemos obtener también estimaciones óptimas de los componentes no observados de interés
como tendencia, estacionalidad, etc. utilizando el denominado método de extracción de señales
del filtro de Kalman, ver la Sección 14.4.9 del Apéndice.
Cada modelo consta de una ecuación de medida que describe los datos observados y
ecuaciones de transición para los componentes no observados o estados que cambian con
el tiempo (nivel, tendencia y estacionalidad fundamentalmente). Por ello estos modelos se
conocen como modelos en el espacio de los estados (ETS).
Para cada método (Tabla 14.10), existen dos modelos ETS: uno con errores aditivos y
otro con errores multiplicativos. Los pronósticos producidos en este marco ET S son idénticos
si utilizamos los mismos valores de los parámetros de suavizado, sin embargo, los intervalos
de predicción cambian si los errores son aditivos o multiplicativos.
Para distinguir entre un modelo con errores adit ivos o multiplicativos añadimos una ter-
cera opción a la clasificación de la Tabla 14.10. Utilizaremos una etiqueta para cada modelo
Ci1
Ol
00
Tabla 14.11: Ecuaciones por componentes

Componente estacional
N A M
M
~~~--------- - - - - - - -- -- -- oo
Y,.+h[T = n¡,-8¡ _ 111 +¡,+
Y;+l>[T = n1 + st-m+h;';. $::
N Yi+1[T = nt
Tlt =O'. (Yi - St-m) + (1 - n) (ni-1) 1lt = Ó' c.~J + (1·~ <~) (n1 - 1) 'O
o
nt = aYt + (1 - a) n1-1 z
St = 1(Y, - n1-1) + (I - ¡) St-m 8¡ / ( ~ ) + (1 1) St m tI:l
z
Y,+h[T = (n1 + h·b1) ·Sl-m+h1;, +-3
Yi+h[T = nt + h·b1 + 81_ +I + tI:l
w
Yi+h[T = nt + h·b¡ ni= n (.,~ ... ) + (l - a) (rit- 1 + b1 - 1)
n1 =o: (Yi - Bt-m) + (1 :'. o\'(n1-l + b1_ 1) +-3
A nt = o:Yi + (l - ª ') (n1-1 + bi-1)
b1 = f3* (nt - 111-1) + (1 - (3*) b1 -1 bt = f3* (ni-n1 - 1) + (1-j3*)b 1_ 1 tI:l
b1 = f3* (nt - ni -1) + (1 - ¡3*) b,_ 1 $::
81 = l (Y, - r1.t-I - b1 -1) + (l -1) St-m Si 1 (,,, 1 ~¡,, + (1 1) St m · )
'O
-
1 o
;:o
Yi+hlT = (n1 + c/J + ... + c/J") · 8 1 >-
-111+ 1....
4
Yi+hlT = 11¡ + (rP + ... + cP") bt + 8¡ _ +I + ( )
Yi+h[T = nt +(et>+ r/>2 + ... +1>") bt (~ m 1..m
ni= a "'~"' + (1 - a) (nt-1 + c/Jbi-1)
L'
1lt =a t - St-rn) + (1 - a) (nt-1 + c/Jbi-il tI:l
w
Ad ni= o:Yt + (1 - a) (n,_1 + c!Jbi- i)
bt = /1* (nt - n1 - 1) + (1 - {3* ) c/Jbt- 1 bi = /3* (n, - nt-il + (1- /]*) c/Jbi - i -<
bt = fJ* (nt - ''lt -1 ) + (1 - f3*) c/Jbt-i
8t = 1 (Y, - 11,j_¡ - bt- J) + (l -1) 8i-m 8 i-1(ri,,~<)>b,,:)+(l 1)s1,,, I' >-
L'
Yi+h[T = 111 ·b:'·s 1_ +I + I, Cñ
Yi+i.¡r = n1 ·b:' + s 1_. + ' + >-
Yc+hlT = ni ·b:'
n1 =a (Yi - St-111) _;n( l ':o:) (nt-1 ·bt-1) n1 =a (.,,~ ..,)+(~'-';~) (11i-1·bi-1) tJ
o
M nt = aYi + (1- o) (n1-1·bt-i)
b1 = /3* ,,:'~, + (1 - /3*) bt -1 bt = /3* "~~' + (1 - /3*) bt.-1 tI:l
Cil b1. = {3* ,,7~, + (1 - (3*) bt-1 ><
·~ St ='Y (Yi - nt-1 ·bt-il + (l -1) St-m St 1 ( ri,\,· ) +(l l)Stm 'O
o
'"O
(<1>+<1>2+ ... +<1>'') <P+<P2+ ... +<1> ') z
.:: A
A
lt+n[T = 'fl1·b¡
,(
"~t +I + tI:l
Q.)
.µ
Y: Yi+h[T = n1 ·b1 + st-m+h7;, z
Q.)
.µ
.::Q.)
t+h[T = ni· t
b(<P+<P2+ .. +<P")
nt =o: (Yí, - St-m) + (1 - et) (nt _ 1·bf_ 1 ) 11t =O' ( .<;t-m _tL_) + (1 - a) ( n -mi"') 1,- J f-1
o
s;:
Md n1 = aY,, + (1 - a) n1_ 1·bf_ 1 b1 = /3* -1'.L. + (l - f3*) b<Pl - L'
.:: bt = /3* -,!!J-- + (1 - /3*) b'"t-1 1
o b, = (J*_&_ + (1 - /3*) [JcPt-1 Ht-1
Tlt - 1
P.. f'lt-1
E1
o
8t =1 (Yt - rLt-1 ·bf- 1) + (1 -1) St-m St = 1 (
ni
}:b<J>
l t 1
) + (1 - ¡) 8t m
o
Tema 14 569
en el espacio de los estados con la forma ETS(. , . , .), donde cada una de las opciones re-
presenta (Error, Tendencia, Estacionalidad). Utilizando la misma notación que en la Tabla
14.10, las posibilidades de cada componente son: Error{ A, M}, Tendencia{N, A, Ad, M, Md}
y Estacional{N , A, M}. Por lo tanto, en total hay 30 modelos ETS: 15 con errores aditivos y
15 con errores multiplicativos.
Veamos cómo se especifican algunos de los alisados en el marco de los modelos ETS.
14.3.1. ETS(A, N, N): alisado exponencial simple con errores aditivos

Como vimos anteriormente, la expresión de corrección de error del AES es
(14.3.2)
donde et = yt - nt-1 y Ytit-l nt-1· Por tanto, et yt - Yt¡t-l representa el error de

predicción a un solo periodo y podemos escribir yt = nt-1 +et. Para hacer esto en un ETS,
solo necesitamos especificar la distribución de probabilidad de los errores et. Para un modelo
con errores aditivos, los errores de pronóstico de un periodo et se distribuyen como un proceso
puramente aleatorio (ruido blanco), es decir que et = Et rv NI D (O, cr 2 ).
En consecuencia las ecuaciones del modelo también las podemos escribir como:
Ecuación de medida yt = nt-1 +Et (14.3.3)
Ecuación de estado n t = nt-1 + O:Et· (14.3.4)
Nos referimos a la expresión (14.3.3) como ecuación de medida (o de datos observados) y

a la expresión (14.3.4) como ecuación de estado (o de transición). Estas dos ecuaciones, junto
con la distribución estadística de los errores , forman un modelo estadístico completamente
especificado. En concreto, estas innovaciones constituyen el modelo en el espacio de los estados
subyacente al AES.
El término innovaciones viene del hecho de que todas las ecuaciones de este tipo de
especificación utilizan el mismo proceso de error aleatorio , Et, como única fuente de error y el
modelo lo utiliza como nueva información para la predicción del siguiente periodo.
La ecuación de medida (14.3.3) indica la relación entre las observaciones y los estados
(componentes) no observados. En este caso la observación yt es una función lineal del nivel
nt-1, la parte predecible de yt, y el error aleatorio Et , la parte impredecible de yt. Para otros
modelos de innovaciones en el espacio de los estados, esta relación puede no ser lineal. La
ecuación de transición (14.3.4) muestra la evolución de la situación en el tiempo. La influencia
del parámetro de suavizado a regula el grado de cambio en los niveles sucesivos. Cuanto más
alto sea el valor de a, más rápidos son los cambios de nivel, cuanto más bajo, más suaves son
los cambios. Si a = O el nivel de la serie no cambia con el tiempo. En el otro extremo, a = 1,
el modelo se reduce a un modelo de camino aleatorio , yt = Yt--:1 +Et.
570 COMPO ENTES TEMPORALES Y ALISADO EXPONENCIAL
14.3.2. ETS(M, N, N): AES con errores multiplicativos

De forma similar, se puede especificar modelos con errores multiplicativos escribiendo los
errores aleatorios de un solo paso como errores relativos:
yt - Yttt-1
Et= A '
(14.3.5)
Yltt-1
donde Et rv NI D(O, a 2). Sustituyendo "fttt-1 = tenemos yt = nt-l + nt-l . Et y et =

nt-l
yt - "fttt-l = nt-l · Et· En consecuencia podemos escribir la forma multiplicativa del modelo
en el espacio de los estados como:
Ecuación de medida yt = nt-l (1 +Et)

(14.3.6)
Ecuación de estado nt = nt-l (1 - O'.Et).
14.3.3. ETS(A, A, N): Holt lineal con errores aditivos

En este modelo, se supone que los errores de pronóstico de un solo periodo son Et
yt - nt-l - bt-l y se distribuyen como NI D(O, a 2 ) . Sustituyendo esto en las ecuaciones de
corrección de error para el método lineal de Holt obtenemos:
Ecuación de medida yt = nt-l + bt-l +Et

Ecuación de estado (nivel) nt = nt-l + bt-l + O'.Et (14.3.7)
Ecuación de estado (tendencia) bt = bt-l + a(3*Et = bt-l + f3Et,
donde en la última expresión hemos sustituido a(3* = (3 por simplicidad.
14.3.4. ETS(M, A , N): Holt lineal con errores multiplicativos

Especificamos los errores de pronóstico a un periodo con errores relativos tales que
Yt - "fttt-1 Yt - (nt-1 + bt-1) (14.3 .8)

Et= A
Y'ttt-l nt-l + bt-l

y siguiendo un enfoque similar al anterior, las innovaciones del modelo de espacio de los
estados subyacente al alisado lineal de Holt con errores multiplicativos se especifica como
E. de medida yt = (nt-l + bt-l) (1 +Et)

E. de estado (nivel) nt = (nt-1 + bt- 1) (1 + O'.Et)
E. de estado (tendencia) bt = bt-l + a(3* (nt-l + bt-1) Et = bt-l + (3 (nt-l + bt-1) Et,
(14.3.9)
donde Et se distribuye como N ID (O,<J 2 ) .
Tema 14 571
14.3.5. Resto de modelos ETS

De forma similar a la Tabla 14.11, podemos escribir las innovaciones de los modelos en el
espacio de los estados para cada uno de los métodos de suavización exponencial. Las Tablas
14.12 y 14.13 muestran las ecuaciones de todos los modelos en el marco ETS.
14.3 .6. Elección de modelo y pronósticos con modelos ETS

El marco ET S proporciona, en todos los casos, mediante del filtro de Kalman, la obten-
ción del predictor óptimo (en el sentido de SCR mínima) tanto de las observaciones futuras
como de los componentes integrantes en el modelo en el espacio de los estados (tendencia,
estacionalidad, etc.). Además si los errores son normales podemos construir la función de
verosimilitud. Todo ello permite realizar contrastes objetivos de diagnóstico y especificación.
Una vez estimados los 30 modelos ETS, Tablas 14.12 y 14.13, y garantizado (filtro de
Kalman) que los parámetros estimados y las condiciones iniciales son los óptimos para cada
suavizado (en el sentido de que con la información disponible y la especificación del suavizado
concreto esos son los predictores óptimos). Podemos realizar la elección objetiva del modelo
concreto. Para ello utilizamos los denominados criterios de información, que además de tener
en cuenta la SCR, penaliza el número de parámetros estimados (incluidas las condiciones
iniciales) como el de Akaike (AIC) que podemos definir en términos de la función de máxima
verosimilitud de la siguiente manera:
AIC = -2log (~) + 2;, (14.3.10)
donde L es la función de máxima verosimilitud y K el número de parámetros estimados,

incluyendo las condiciones iniciales. El modelo elegido es el que presenta menor AIC.
Alternativamente también se utilizan los criterios de Schwarz (SC) o el de Hanann-Quinn
(HQ) cuyas definiciones son:
se= -2log ( ~) + k 1 º~k) .

HQ = -2log (~) + 2klog(lf(T )) .
Los modelos con errores multiplicativos son útiles cuando los datos son estrictamente
positivos, pero no son numéricamente estables cuando los datos contienen ceros o valores
negativos. Por lo tanto, no consideraremos modelos con errores multiplicativos si la serie
temporal no es estrictamente positiva.
Las previsiones las obtenemos a partir de los modelos mediante la iteración de las ecuacio-
nes (Tablas 14.12 y 14.13), sustituyendo t = T+l, T + 2, ... , T+h y ajustando sus respectivos
Et= O para todo t >T. Por ejemplo , para el modelo de ETS {M, A , N).
Yr+1 = (nr + br) (l + cr+1). (14.3.11)

Por tanto ,
Yr+I IT = nr +by. (14.3.12)

c.n
-.;¡
tV
Tabla 14.12: Ecuaciones ETS con errores aditivos

1 11 N 11 A TI . -M -- - - -- 1 o
o
Yi = ni- 1St - m + Et $;:
yt = 11t - l + St - m + Et = n1 - i + a: -5i_
"O
= nt- 1 + nt = 1lt- 1 + O:Et
n1 S t-m o
Yt Et
St = St - m +¡~
z
Tl¡ = rLt-1 + O:E ¡ St = St - 111. +/'Et t:r.1
N z
r-3
Yf = 11t- 1 + bt - 1 + St- rn + Et
Yi = (111 - 1 + b1 - 1) St - m + é¡ t:r.1
en
111 = nt-1 + bi - 1 +a ~
yt = 11i- 1- b1 - 1 + Et 71¡ = n1 - L+ b1 - J + O'.Et r-3
bt = bt - 1 + {3--5.J_ > t -m t:r.1
ni = Ttt- 1+ bt- 1 + O:Et bt = bt- 1 + f3E t St-111
$;:
A bt = bt - 1 + /JEt , St = St - m + /E t St = St - 1n +( nt ie_;. bt 1 "O
o
;o
Yi = (11t- l + <f>b1 - 1) St - m +E¡ ;J:>
Yf = Tl t- 1 + </>bt - 1 + St - 111 + Et t"'
nt = n1- 1 + q>bt - 1 +a:- " '- t:r.1
Yi = n1 - 1 + <hb1 - 1 + E1 n1 = n1 - 1 + </>b1 - 1 + O:E1
bt = </>bt - 1 + fJ~ ·' t-m
en
rlt. = 'nt.- 1 + </>b1 - 1+ Cl'.E¡ bt. = <f>bt - 1 + f3E t li t - n i
-<
b1 = cf>bt - 1 + (JE ¡ S1. = St - m + /E t St = St - m + / n, ,~ <;?b, 1 ;J:>
Act t"'
yt = rlt - 1bt - 1St - m + ét
00
Yt = rlt - lbt - 1 + St -m + Et ;J:>
Yi = 111 - 1b1 - 1 + 11t = 1"/,¡-1b1 - 1 + .J!.sL o
Et T!t= T!1- 1b1- 1 + Cl'.Et 8 1-ni
o
ca·o n1 = n1- 1b1 - 1 + a e: 1 b, = b1 - 1 + f3__5_J___ bt = bt - 1 + /3 "'
rlt - 1~1. -m
t:r.1
1l.t - 1
¡:1
bt = b, _ ¡ + {3__5_J___ St = St - m +/ E t
St = 81 - rn + / e, ><
M 1lt - 1 nl ¡ St 11\
"O
Q)
'"O o
¡:1
.., z
Q)
Yf = 11t - 1bf_ ¡ + St - m + ét Yf = Tt1 - 1bf_ 1St - rn + Et t:r.1
Q)
n1 = n b_ + /3__5_J___ b1 = b f_ 1+ f3 ,, ;¡;:
o nt = H1.- 1bf_ 1 +ae:1 l l '11 /. - 1 Yt t -1 1::i t -m
t"'
o. = /¡f- 1 + {3-'-'- = + ')ét S ¡= S¡ _ ,,, +~
a
o Mct
b1 11 t - I
8t St - m 11t - lbt l
ü
M
t-
LC
Tabla 14.13: Ecuaciones ETS con errores multiplicativos

HN_____________ r _______nu-- A -------m-- u-·· _ _ M
11 1
Yt = (n1-l + St-m) (1 + ét) Yt = 11t-1S1-m (l + ét)
Y,= 111.-1 {l +é1) 11 , = ll t-l + n (n1-1 + s,_,,,) Et n, = T11 - 1 (1 + Oé1)
N n1 = 111-1 (l - c;,;t) Ht = St-ru + ""( (1i1-l + St-m) Et S1 = S¡_,,, (J + ')'é¡)
Y,= (111-1 + b1-1 + St-n.) {I +é1) )'1 = (n1-1 + bt-1) St-m ( l + €1)
Yi = {n1 - 1+b1_ ¡) (l +,; 1) 1lt = 1lt-I + /¡1 -1 + ü {1t1-l + b1-l + -'t-m) ft 111 = (111-1 + b1 -1) {l +oc,)
11 1 = (n1-1 +b1-il {l + Oét) b1 = b1-l + (J (nt-1 + 111-1 + S1-m) é1 b, =bi- 1 +8(11t-1 + b1 -1)c1
A b1 =b1-1+13(n1-1+b,_1)é1 81 = 81-m + 1' (111-I + b1-1 + S1-m) ft 81 = 81-m (l +~(é1)
""'
.--<
<.'O y¡ = (n1_ 1 +<pb,_ 1)( 1 +,; 1)
Y1 = (ll1 - 1 + bt-1 + St-m ) (1 +é1)
11, = n1 - 1 + <fib1 - 1 + a(n1-1 + </ib1- 1 + S1 - m) c1
Yi=(7lt -1 +<1>b1 1)81 m( l +i;i)
n, = (111-1 + </>b1-1) (1 + act)
s n 1 = (111-1 + <fib1-1) {l + n ,; 1) b, = <1>b1 - 1 + (J (n1-1 + <fib1-1 + s,_,,.) €1 b, = <Pb1-1 + .B (n,_ 1 + dib1- d"1
~ Ad b1 = <fi/Jt-1 + /3 (ni-1 + </Jli1 - 1)é1 s1 = S1- ... + 1' (n1-1 + <fib1-1 + s,_,,,) º' St = St-m ( l + (f,)
Yi = (n1-1h1-1 +s1-m)(l+1:1) Yi = 771-1b1-1S1 - m (l + E1)

Vi= "1 -1 b1 - l (l + €1) 711 = 7l1 - 1b1-1 + Cl (n1-1b1-1 + St-m) é1 n, = n1-1b1 - 1 (1 + ni: 1)
ca-¡3 n1 = n1-1b1-1 ( 1 + o,;t) b1 =b1- 1 +B(n1-1b1-1 +si-m)~ b, = b, _ , (1 + /Íét)
l>1 = l1,_1 ( J + ik1) St = S1-m +'Y (n1-1b1-l + St-m) f t St = St-m (l + ')'é¡)
¡::;
Q)
~I
]
Q)
.µ
Y1 = (111 - 1bf_ 1 + s1-m) (1 + é1)
Q)
111 = ''1 -1 bf_ 1 +a (n, _1l>t_ 1 +s,_,,. ) f 1 Yi = n1 - 1bf_ 1 + s,_,,, ( l + ,; 1)
tí
Y, = 111-1bf_ l (1 + €t)
~
Q)
¡::; b1 = bt- 1 +rJ(n1-1bf- 1 +81-m ) n, = 11,_1 bT_ 1 {1 + ni: 1)
o n, = n1-1 l1f_ 1 (1 + n.:,)
o.. b, = 1it1 (J + .&,)
so b1 = bT_ 1 (1+ 1-ié,) s1= ·~t-m + / (n1 -1 bf_ 1 + S1 - m) .:, S¡ = St-m (l + ')'é¡)
Md
ü
574 COMPONENTES TEMPORALES Y ALISADO EXPO\iENCIAL
Del mismo modo
Yr+2 = (nr+1 + br+1)(l + cr+2)

= {[(nr + br) (1 + acr+1)] + [br + .6 (nr + br) cr+1]} (1 + cr+2) (14.3. 13)
= nr + br + br = nr + 2br,
y así sucesivamente. Estas previsiones son idénticas a las previsiones del método lineal de Holt
y al modelo aditivo, ETS (A, A, N). Los intervalos de predicción serán diferentes entre los
modelos con errores aditivos y multiplicativos. Para algunos modelos, hay fórmulas exactas
que permiten calcular los intervalos de predicción, pero un enfoque más general, válido para
todos los modelos, condicionada a la última estimación de los estados, y obtener intervalos
de predicción a partir de percentiles simulados. Algunos programas especializados realizan
estos intervalos de forma rutinaria. Para profundizar más en los modelos ETS con alisados
exponenciales ver Hyndman et al. (2008) .
Vamos un ejemplo para ver la estimación y la previsión de alisados en el entorno ETS.
Ejemplo 49. El Índice de Producción Industrial en España

La Figura 14.3.1 reproduce el Índice de Producción Industrial entre enero de 1975 y diciembre
de 2011 (año 2010 = 100).
Figura 14.3.1: Índice de Producción Industrial, 1975-2 011
160
140
120
8......
11
o
......
o 100
N
m
ro
80
60
40 -t---,,..-,-..,-,--,-..,-,--,-..,-,-,-..,-,.-,-~,.-,-~~~~~~~~~~~~~
1975 1980 1985 1990 1995 2000 2005 2010
El gráfico muestra una producción industrial con tendencia creciente , al menos hasta la crisis
internacional de 2008 y un fuerte compone nte estacional.
Tema 14 575
El entorno ETS permite la estimación óptima de los parámetros, y de las condiciones iniciales,
de cada uno de los 30 suavizados posibles. La Tabla 14.14 muestra los valores obtenidos utilizando
el criterio de Akaike para cada uno de los posibles modelos.
textsf
Tabla 14.14: IPI. Comporativa Criterio . Aka ike y estimación de parámetros

ETS (M. Md, M)
a: 0,121841
~: 0,121841
y: 0 ,291854
.;: 0,731915
Pa rámetros iniciales
Nivel inicial: 66 ,85433

Tendencia inicial: 1,009806
Estación inicial 1: 1,023596
Estación iniclal 7: 1,019746
Estación inicial 11 : 1,003024
Estación inicial 12: 0 ,991472
Criterios de información
AIC 3883,266
se 3952,895
HQ 3910,725
SCR 0 ,656988
En el gráfico podemos observar los valores obten idos mediante el criterio de Akaike para cada
uno de los posibles suavizados ordenados de menor a mayor. El modelo ETS con los componentes de
error, tendencia amortiguada y estacionalidad multipl icat iva [ETS (M, MD, M)] es el que obtiene
mejor resultado . La Tabla de la derecha muestra los valores óptimos calculados de los parámetros,
a, f3 y </J, así como las cond iciones iniciales , n 0 , bo y 5 0 . Valores con los que podemos reproducir
la estimación así como los componentes y predicciones manualmente tal y como hicimos en el
apartado anterior.
En la Figura 14.3.2 podemos observar las gráf icas de los distintos componentes así como sus
respectivas previsiones para los año 2012 y 2013 .
576 CO MPO NENTES T E MPO RALES Y ALISADO EXPO NE NCIAL
Figura 14.3.2: IP I, descomposición ETS
"" ] "''
120 1.01
100
J "º]
100 ~
J º·"
"
º"
0,87
~+------------
1975 1MO 1oes 1990 1995 2000 2005 2010 1875 1lll0 11185 1990 1H5 2000 2005 2010
0,15
0.10
Hlll
()05
! 0.00
.....
.0.10
..
º·'
1975
.........._~~~-~----~
1980 1985 1'90 1995 2000 2005 2010
-o.1s+------------
1e1s 1900 19115 1990 1"5 2000 200s 2010
En ocasiones se utiliza la estimación por componentes para analizar la evolución histórica de

la serie, así en el gráfico del nivel se observan claramente las crisis del 93 y, sobre todo, la actual.
El componente estacional crece hasta el año 1987 y se reduce hasta la actual idad .
La Figura 14.3.3 muestra la previsión para los años 2012 y 2013.
Figura 14.3.3 : Índice de Pro ducción Industrial , Previsión 2012 y 2013
105
100
,\
'1
''
95
//
/'
90
85
80
75
70
111 IV 111 IV
2012 20 13
En linea continua mostramos la producción observada durante los años 20 12 y 2013 , en trazo
discontinuo el pronóstico para esos años ut ilizando en modelo ETS(M , Md , M). A simple vista
Tema 14 577
se aprecia que la prev1s1on es más que aceptable recogiendo con bastante exactitud tanto el
componente estacional como la tendencia y nivel de la serie, con un error medio absoluto del
0,04%.
14.4.1. Modelos estructurales de series temporales

Los modelos estructurales se expresan directamente en función de los componentes,
(14.4.1)
expres10n que nos sirve también para el esquema multiplicativo transformando la serie en
logaritmos. Los componentes se modelizan explícitamente.
Los modelos estructurales son estocásticos porque los componentes no son deterministas y
se introduce un elemento aleatorio. Veamos cómo se produce esto en los distintos componentes.
Tendencia
La forma de tendencia más sencilla es:
Tt =a+ bt, ( 14.4.2)

que es una tendencia determinista. Podemos escribir el modelo de forma recursiva:
Tt = Tt-1 + f3t-1 (14.4.3)

f3t = f3t-1,
donde f3t es la pendiente de la tendencia en el momento t, y los valores iniciales son To = a
y f3o = b. Pero este supuesto lo podemos rebajar permitiendo que el componente de tenden-
cia varíe con el tiempo. Esto lo podemos hacer introduciendo variables aleatorias en ambas
ecuaciones
Tt = Tt-1 + f3t-1 + (t (14.4.4)

f3t = f3t-1 + T/t,
donde (t y T/t son perturbaciones aleatorias con media nula y matriz de covarianzas Q que
suponemos incorrelacionadas, es decir que,
º2 ) ' (14.4.5)
(Tr¡
pero ahora en la expresión (14.4.4) la introducción de la variable aleatoria T/t implica que la
pendiente de tendencia ya no es determinista sino estocástica y su pendiente f3t cambia con
el tiempo. Si cr~ =O entonces la pendiente vuelve a ser fija pero no el término constante. Por
otro lado si cr~ = cr¿ =O , entonces volvemos al modelo de partida y la tendencia vuelve a ser
determinista. Por consiguiente la tendencia determinista es un caso particular de tendencia

estocástica.
Estacionalidad
Podemos partir del efecto estacional determinista (invariable en el tiempo) donde la suma
los efectos estacionales a lo largo del año es nulo:
s-1
L St-i =o, (14.4.6)
i=O
pero esta restricción de nuevo parece muy fuerte y parece razonable flexibilizar este comporta-
miento y permitir que el componente estacional evolucione con el tiempo. De nuevo podemos
especificar este comportamiento introduciendo una variable aleatoria en la restricción, en
efecto si introducimos una variable aleatoria tenemos que,
s-1
L St-i = Vt, (14.4.7)
i=Ü
donde suponemos que Vt sigue una distribución normal de media nula y constante de manera
que el componente estacional evolucione aleatoriamente en torno a cero.
Residuos
El componente irregular describe fuerzas aleatorias no predecibles y es estacionario por

naturaleza, de manera que lo podemos describir como ruido blanco.
Definidos los componentes inobservables podemos describir los principales modelos estruc-
turales.
Modelo estructural básico con tendencia En este contexto el modelo lo podemos es-
pecificar como
Yt = Tt +Et
Tt = Tt-1 + f3t-1 + (t (14.4.8)
f3t = f3t-l + r¡t,
donde Et, (t y r¡t son variables aleatorias incorreladas que se distribuyen conjuntamente como
normales de media nula y varianza constante
(14.4.9)
Tema 14 579
Modelo estructural básico con tendencia y estacionalidad

El modelo con tendencia y estacionalidad lo podemos escribir como
Yt = Tt + St + ét
Tt = Tt-1 + f3t-1 + (t
(14.4.10)
f3t = f3t-1 + T/t,
'°"s-1
St = - L..,,i=l St -i + Vt,
donde de nuevo las variables aleatorias están incorrelacionadas y se distribuyen como normales
de media nula y varianza constante, es decir que,
(14.4.11)
14.4.2. Modelos en el espacio de los estados

El caso más general en el que contamos con una serie temporal multivariante, Yt de N
elementos. El modelo en el espacio de los estados relaciona el vector de variables observa-
das, y de orden (N x 1) con el vector Ctt de orden (m x 1), llamado de estado, mediante la
denominada ecuación de medida:
y=Zat+d+E (t=l,2, ... ,T) (14.4.12)

donde d es un vector (N x 1), Z una matriz (N x m) y E un vector (N x 1) de variables
aleatorias serialmente incorreladas con media nula, JE (T/t) = O, y varianza constante, var (T/t) =
Ht.
Las variables del vector Ctt no son observables pero suponemos que están generadas por
un proceso autorregresivo de primer orden. La ecuación que describe la evolución temporal
del vector de estado Ctt se denomina ecuación de transición:
ªt = Ctªt-1 + gt + RtT/t (t = 1, 2, ... , T) (14.4.13)

donde Ct es una matriz (m x m), gt un vector (m x 1), Rt una matriz (m x e) y T/t un vector
(e x 1) de variables aleatorias serialmente incorreladas de media nula y varianza constante.
La inclusión de la matriz Rt es hasta cierto punto arbitraria puesto que el término de
perturbación siempre lo podríamos redefinir de forma que su matriz de covarianzas fuera
RtQtR~. No obstante, la expresión (14.4.13) es más adecuada cuando T/t se identifica con un
conjunto particular de perturbaciones del modelo.
Además incluimos los siguientes supuestos adicionales:
l. Los valores iniciales, vector ao, tienen media ao y matriz de covarianzas Po.
2. Las variables aleatorias Et y T/t están incorrelacionadas entre sí y con los valores iniciales
ªº·
Consideramos que las matrices y vectores Z, d , Ht , Ct , gt , Rt , Qt no son estocásticas de ma-

nera que el modelo es lineal. Si además imponemos que no cambien con el tiempo, entonces
el modelo en el espacio de los estados es además invariable en el tiempo. En estas condiciones
podemos escribir el modelo lineal invariable en el tiempo como:
y= Znt + d +E
(14.4.14)
Ot = C n t-1 + g + Rt77t ·
Por ejemplo, un modelo sencillo lineal e invariable, con componentes de nivel , tendencia
y estacionalidad aditivos. Además con una sola variable aleatoria, Et, y sin los vectores d y g
es:
Ecución de medida y = Z at+ ' = ( : ) ( : : : ) ( ~ ) + (:t)

Ecuaciones de estado Ot = Cnt-1 + r ct = ( ~: ) [ ~ ~ ~ ] ( ~:~~ ) +( ~) Et·
Sr O O 1 St-1 "I
(14.4.15)
La representación en el espacio de los estados la podemos escribir como:
yt = ZOt + d + Et
(14.4.16)
Ot = Cnt- 1 + g + Rtr¡t ,
donde Yt es un escalar, z un vector fila (1 x m) y var (Et) = H = 0' 2 .
Y la representación en el espacio de los estados del ejemplo anterior, ETS(A,A ,A), es:
Ecución de medida Y, = za, +" = ( 1 1 1 ) ( ~) + Et
Ecuaciones de estado Ot = C nt-1 + r ct = ( ~: ) [ ~ ~ ~ ] ( ~:~~ ) +( ~) ét·

Sr O O 1 St-1 "I
(14.4.17)
Los modelos que veremos están escritos en el espacio de los estados directamente, donde el
vector estado Ot contiene los componentes no observados como la tendencia, estacionalidad ,
etc.
14.4.3. Filtro de Kalman

El filtro de Kalman es un procedimiento recursivo cuyo objetivo es calcular estimadores óp-
timos del vector estado en un momento de tiempo t, utilizando toda la información disponible
hasta ese momento t. Es decir, conocidas las observaciones de la serie Yt hasta el momento t;
Tema 14 581
los valores de z , C , R , Q , o- 2 y los valores iniciales (a.o y P 0 ). El método o algoritmo recursivo

se puede dividir en dos grupos de ecuaciones:
1. Ecuaciones de predicción, que obtienen un predictor óptimo del vector estado y de la

próxima observación: dados los valores at y Pt obtenemos ªt+i lt ' Yt+1¡t, Pt+l lt·
2. Ecuaciones de actualización que incorporan la nueva observación Yt+ 1 en la estimación

del vector estado: dada la nueva observación Yt+ 1 obtenemos at+i, Pt+l·
Las ventajas del filtro son:
1. Permite actualizar la estimación del vector estado continuamente según vamos obte-
niendo nuevas observaciones.
2. Produce predictores óptimos, en el sentido de ECM mínimo.
3. El filtro tiene algoritmos además que permiten estimar los componentes, mediante la
denominada extracción de señales, utilizando todo la información de la muestra.
4. Cuando las perturbaciones se distribuyen normalmente, podemos construir su función de

verosimilitud, estimar los parámetros desconocidos y realizar contrastes de diagnóstico
y especificación.
14.4.4. Forma general del filtro de Kalman

Considerando el modelo invariable en el tiempo ya mencionado:
yt = ZO'.t + d + Et
at = Cat- 1 + g + Rt77t,
donde:
cov(Et, ªt-k)=O \fk ~o a0 ""' N (ao, Po )

JE (Et'fl;) = Ü JE (Eta;) =O JE (77ta;) =O \ft, s.
El conjunto de ecuaciones que forman el filtro se dividen en ecuaciones de predicción que
proporcionan el predictor óptimo para el vector estado ªt+l con toda la información hasta t,
y las ecuaciones de actualización que nos permiten incorporar la nueva información disponible
dentro del estimador del vector estado.
Sea ªt-l el estimador óptimo de üt-1' basado en todas las observaciones disponibles hasta
Yt-1· Denotemos Pt- 1 a la matriz de covarianzas del error de estimación del vector estado:
1
Pt-1 =JE [(at-1 - ªt-1) (at-1 - ªt - 1) ] •
Dados ªt-1 y Pt-1' el estimador óptimo de üt junto con su ECM viene dado por las
ecuaciones de predicción:
ªtlt-1 = Cat-1 +e 1 (14.4.18)

Ptlt-1 = CPtC + RQR'.
Dada esta estimación del vector estado en el momento t con información hasta el momento
t - 1, se puede obtener la predicción del valor futuro yt:
rtit- 1 = Zat it- 1 +d.

El error de predicción correspondiente es:
~t = Yt - Yi1t-1 = Yt - zatlt-1 - d = z' (at - ªt lt-1) +Et·
Estos errores de predicción se denominan innovaciones ya que representan la nueva infor-

mación contenida en la última observación.
Cuando llega la nueva observación, yt , el estimador de at, ªtlt-1' junto con su matriz de
ECM , se puede actualizar, mediante las ecuaciones de actualización:
(14.4.19)
donde:
Ít = zPt it- 1Z + (} 2 .
I
Se puede observar que las innovaciones tienen un papel fundamental en la actualización

del vector estado. Cuanto más alejado est é el error ~t del vector nulo, mayor será la corrección
en el vector estado. Además podemos observar también que ft no es más que la varianza del
error de predicción.
Las ecuaciones de predicción junto con las de actualización conforman el filtro. Este se
puede especificar también como un solo conjunto de recursiones:
ªt lt-1 =e [atlt-1 + Ptlt-1 Zft-l (Yt - Zatlt-1 - d)] +e

1 (14.4.20)
Ptlt-1 = C [Ptlt-1 - Pt lt- 1z'ft- zPt lt-1) e'+ RQR',
operando tenemos:
(14.4.21)
donde:
1
kt = CPt lt-1Zft- 1
es conocida como la ganacia de K alman. La ecuación de recursión para el vector estado se

puede escribir como una combinación lineal de la nueva observación y de la última estimación:
Tema 14 583
La recursión para la matriz de covarianzas del error de estimación se conoce como ecuación
de Ricatti.
Los valores iniciales del filtro se pueden especificar en términos de ao y Po y / o de a 11o
y P 1 10 . Dadas las condiciones iniciales, el filtro nos proporciona el estimador óptimo del
vector estado según va llegando cada nueva observación. Cuando se han procesado las T
observaciones, el filtro nos proporciona el estimador óptimo del vector estado en el momento
T , aT, y en el T + 1 basado en el conjunto de información completo, ªT+i lT· Este estimador
contiene toda la información necesaria para llevar a cabo predicciones óptimas de los valores
futuros tanto de Yt como del vector estado.
14.4.5 . Interpretación del filtro de Kalman

Bajo los supuestos de normalidad siguientes:
ao,..., N (ao, Po)
podemos derivar el filtro e interpretarlo. Para t = 1, tenemos:
donde a1 es normal multivariante porque es una combinación lineal de variables normales y

condicionado a Yo tenemos que la media de a1 es:
y su matriz de covarianzas:
I I
P110 = CPoC + RQR.

Con lo que la distribución condicionada es:
a1 1 Yo,..., N (a110, P1 10),

donde a 110 es la media de a 1 condicionada a la información disponible en el momento t = O.
Si conociéramos la distribución de a 1 en t = O, entonces los resultados anteriores son
redundantes y las condiciones iniciales vendrán dadas en términos de a 11o y P 11o· Para obtener
la distribución de a 1 condicionada a Y 1 , se hace lo siguiente
a1 = ª110 + (a1 - ª110)

Y1 = za1 10 + z (a1 - ª110) + E1.
El vector (a~ , Y 1) tiene una distribución normal con media ( a~ 1 0 za 1 1 o) y matriz de
covarianzas:
)·
Aplicando el siguiente lema:
:LxY )]
:Lyy
donde:
µx ¡Y = µx + :Lxx :LY~ (Y - µy)

:Lxx¡y = :Lx x - :LxY :LY~ :Lyx ,
se ve que la distribución condicionada de a 1 condicionada a Y 1 es
donde:
ªt =:E (at lY1 ,Y2 ... .,YT ) = lEt (at)

Pt = { [at -lEt-1 (at)] [at - lEt-1 (at)J'}.
Consideremos la media de la distribución de at condicionada a la información disponible
en el momento t, lEt (at)· La media condicionada es una estimación de at de Error Cuadrático
Medio Mínimo, en el sentido de que cualquier otra estimación tiene una matriz de ECM que
se puede escribir como:
V=Pt+A ,
donde A es una matriz semidefinida positiva.
Esta media condicionada se puede considerar también como un estimador de at. La di-
ferencia entre una estimación y un estimador es que la primera es un número mientras el
segundo es una regla. Es decir, la media condicionada como una estimación es una colección
de números asociados a una realización particular de observaciones; mientras que como esti-
mador es una expresión que se aplica a cualquier conjunto de observaciones. Con este cambio
de interpretación la media condicionada se convierte en un vector de variables aleatorias. Aho-
ra bien, se puede demostrar que este estimador minimiza el ECM cuando el valor medio se
toma sobre todas las variables del conjunto de información y no sobre un conjunto particular
de valores. En este sentido, lEt (at) es un estimador de ECM mínimo de ªt·
Como, en general, la cantidad que va a ser estimada, o sea el vector estado, es aleatorio,
no podemos hablar de matriz de covarianzas del estimador, ni de insesgadez del estimador,
etc. De la misma forma que cuando hablamos de insesgadez nos referimos a que el valor
medio del error de estimación es cero , también hablamos de matriz de covarianzas del error
de estimación que también denominamos matriz de ECM del estimador.
Tema 14 585
Cuando las perturbaciones del modelo en el espacio de los estados no se distribuyen normal-
mente ya no es cierto que, en general, el filtro de Kalman proporcione la media condicionada
del vector estado. Si restringimos a los estimadores lineales en las observaciones, entonces ªt
es el estimador que minimiza el ECM. Es decir, ªt es el estimador lineal de ECM mínimo de
ªt·
Todo lo dicho anteriormente se aplica a ªtlt-l y Ptlt-1' y a las predicciones de yt con
información hasta el momento t-1. Dada la estimación del vector estado ªtlt-l' la predicción
del valor futuro, yt es:
rtJt-1 = Zat Jt-1'

que son las predicciones de ECM mínimo si el modelo es normal, y si no lo es, Yt1t-l es el
predictor lineal de ECM mínimo de yt. Los errores de predicción son:
et= yt - Yt1t-l = z (at - ªtlt-1) + Et (t = 1, 2, ... , T)'

y se conocen como innovaciones, ya que representan la nueva información contenida en la
última observación.
En un modelo gaussiano el valor medio del error et
es cero , y en este sentido el predictor
es insesgado, y su varianza (o ECM de predicción un periodo hacia adelante) viene dada por:
Se puede demostrar que estos errores de predicción están incorrelados entre sí para dife-
rentes momentos de tiempo:
de forma que et es una variable con distribución normal e independientemente distribuida:

et"' NID (O, ft).
Si no hacemos el supuesto de normalidad en el modelo, la media del vector de innovaciones
sigue siendo cero, mientras que su matriz de covarianzas sigue siendo ft.
Es interesante hacer hincapié en que los resultados sobre la distribución de las innova-
ciones solo son exactos si las matrices del sistema son fijas y conocidas. No son, en general,
ciertos si estas matrices contienen algunos parámetros desconocidos que hay que sustituir por
estimaciones.
Los valores iniciales necesarios para comenzar las recursiones del filtro de Kalman se
pueden especificar en función de ao y Po o de a 1 ¡0 y P 1 ¡0 . Si existe información a priori de
este tipo, es decir, si la media y la matriz de covarianzas del vector estado inicial son conocidas,
entonces el filtro produce estimaciones óptimas del vector estado así como predicciones óptimas
de los valores de las futuras observaciones, basadas en toda la información disponible incluida
la observación actual.
14.4.6. Condiciones iniciales

Considérense las condiciones iniciales para un modelo en el espacio de los estados invariante
en el tiempo . En principio. los valores iniciales vendrán dados por la media y la matriz de
varianzas de la distribución no condicionada del vector estado. Las recursiones comienzan en
ao, Po o ª110, P 110· Dado que a 11o es la predicción de a1 basada en ninguna información
sobre Y o X. Por lo tanto, es simplemente la esperanza no condicionada de a1:
y su ECM asociado:
P110 =JE { [a1 - JE (a1)] [a1 - JE (a1)J'}.

El vector estado es estacionario si Ai ( C) > 1, es decir, si los valores propios de la matriz
C son todos menores que la unidad en valor absoluto. En este caso la media no condicionada
de a 1 se puede obtener a partir del propio modelo tomando esperanzas no condicionadas a
ambos lados:
Como at es estacionario en covarianza:
La matriz de covarianzas no condicionada de ai, Pi, se puede obtener también a través

del modelo , simplemente multiplicandolo por su traspuesta y tomando esperanzas:
JE [(at) (at) '] =JE [(Cat-1 + R77t) (Cat-1 + R77t)']

CJE [(a t- 1) (at-1 ) e'+ JE (R77t77~R')
1
= ]
¿ = c¿c' +RQR' ,
cuya solución general es:
vec (I::) = (1 - C0 c')-l vec (RQR 1

).
Por lo que la matriz de covarianzas no condicionada de a1 se obtiene resolviendo la ecua-

ción de Ricatti. Es decir, en general, si el vect or estado es estacionario, y como la distribución
no condicionada de a 1 es la misma que la distribución no condicionada de ao, las iteraciones
del filtro pueden comenzar por:
ªº=o
ª110 =o
Cuando el vector estado no es estacionario, su distribución no condicionada no está de-
finida. A no ser que tengamos información a priori, la distribución inicial de ao se puede
especificar como sigue:
Tema 14 587
• A priori difuso: Po = kl , k > O. El 'a priori' difuso se obtiene cuando k ~ oo, que
corresponde con P 01 . En este caso tenemos una distribución impropia en el sentido de
que no integra a l. Hay que señalar que también se puede aplicar el 'a priori' difuso a
0:1, con lo que Po= kl.
• Obtener las condiciones iniciales a partir de las primeras observaciones. Si d :::; m ele-
mentos del vector estado no son estacionarios. entonces utilizaremos las d primeras
observaciones para construir las condiciones iniciales y comenzaremos las recursiones a
partir de la observación d + 1.
Para modelos univariantes , se puede demostrar que el uso de un a priori difuso es equivalente a
construir las condiciones iniciales a partir de las m primeras observaciones dado que el modelo
es observable.
14.4. 7. Estimación por máxima verosimilitud

Supongamos que hemos de estimar el vector de parámetros fJ, en base a T conjuntos de
observaciones Y1 , Y2 , ... , Yr independiente e idénticamente distribuidas. La función de densidad
conjunta será:
T
L(Y;fJ) = IJp (yt ; fJ) , (14.4.22)
t=l
donde p (yt) es la función de densidad del t-ésimo conjunto de observaciones. Tomada la
muestra, L (Y; fJ) se puede reinterpretar como la función de verosimilitud y el estimador
máximo-verosimil será aquel que maximice la función (14.4.22) respecto de fJ.
Una de las características de las series temporales es que las T observaciones no son
independientes. Por lo tanto, no se puede utilizar (14.4.22) y se ha de definir la función como
sigue: 3
T
L (Y; fJ) = IT P(yt 1 yt_i)' (14.4.23)
t=l
donde p (yt 1 Yt-1) representa la distribución de yt condicionada al conjunto de información
disponible en el momento t - 1, es decir, Yt-1 = (Y1, ... , Yt-1). Para estimar la función de
verosimilitud necesitamos conocer la distribución p(yt 1 yt_i).
Si el modelo está escrito en la forma del espacio de los estados y si las perturbaciones y el
vector estado inicial del modelo se distribuyen como normales multivariantes, la distribución
de yt condicionada a Yt-1 será también normal. Además, como se ha señalado anteriormente:
3
Esta definición de la función de verosimilitud se obtiene a partir del conocido resultado:
p(A n B) = p(A 1 B)p(B).

La densidad conjunta de la muestra Yr = (Y1; Y2 , .. ., Yr) se puede escribir entonces de la siguiente manera:
p (Yr) = p (Yr , Yr-1) = p (Yr 1 Yr-1) p (Yr-1),

y aplicando sucesivamente el mismo resultado obtenemos la función de verosimilitud de (14.4.22) .
IEt-1 (yt) = z'at it-1 = Y't it- 1

ECMt-1 (yt) = IEt-1 { [yt - IEt-1 (Yi)] [yt - IEt-1 (yt)(} = var (~t) = ft,
obteniendo ambas mediante el filtro de Kalman.
Por lo tanto, la función de verosimilit ud se puede escribir como:
2
T ~ 1 ~ (yt - Y'tit-1)
lag (L) = - lag (27r) - L._¿ lag (ft) - L._¿ Ít
2 t=l
2 t=l
Como yt - Y't¡t-l = ~t, que puede ser interpretado como el vector de errores de predicción
un periodo hacia adelante, a esta expresión de la función de verosimilitud se le denomina
descomposición del error de predicción. Los estimadores máximo verosímil de (} se obten-
drán minimizando la función de verosimilitud mediante algún procedimiento de optimización
numérica.
14.4.8. Predicción
Una de las finalidades del análisis de series temporales es la predicción de futuras observa-
ciones. En el campo de los modelos estructurales de series temporales, una vez especificado el
modelo apropiado para la serie temporaL se puede obtener la función de predicción de las ob-
servaciones y de los componentes no observables del modelo, junto con sus errores cuadráticos
medios, mediante el filtro de Kalman.
En resumen, si conocemos los parámetros del modelo, la predicción de Yr+1 junto con su
error cuadrático medio vienen dados directamente por las ecuaciones de predicción del filtro
de Kalman. En el modelo gaussiano, el filt ro de Kalman proporciona aT , el estimador de ECM
mínimo de aT basado en todas las observaciones. Además, proporciona también la predicción
un periodo hacia adelante y su ECMP:
ªT+i lT = CaT
Yr+1 IT = zaT+l lT
ECM (Yr+i¡r) = zPT+l lTz' +a;.
Consideremos ahora el problema general de obtener predicciones de valores futuros de
YT+h, h = 1, 2, ... basadas en la información de la muestra, es decir, conocidos ªT y PT. En el
modelo gaussiano , la predicción óptima, en el sentido de minimizar el error cuadrático medio
de predicción, de Yr+h, Yr (h), es la esperanza condicionada:
donde:
aT+h T1 -- JE (a T+h Yr,Yr-1, .. .,Y1

1
) -- zaT+h ¡T>
y el error cuadrático medio de predicción viene dado por:
ECM (Yr+h¡r ) = z'PT+hlTz +a; (h = 1,2, ... )

Tema 14 589
La mejor forma de obtener ªT+hlT y PT+hlT es sustituir repetidamente en las ecuaciones

de predicción del filtro saltándose las de actualización (ya que no tenemos nuevas observacio-
nes):
(h = 2;3, ... )
Hay que tener en cuenta que las matrices de ECM, PT+hlT no tienen en cuenta los errores
que provienen de estimar cualquier parámetro desconocido en las matrices del sistema: e, z,
etc. Pero normalmente el modelo contiene un conjunt o de parámetros desconocidos, (), por lo
que la fórmula para el ECM(Yr+h jT) subestima el verdadero ECM porque no tiene en cuenta
la variación extra debida a la estimación de los parámetros.
14.4.9. Extracción de señales

Uno de los objetivos principales al analizar una serie temporal suele ser la estimación en
cada momento t de ciertos componentes no observables de la serie que tienen interés por sí
mismos y que tradicionalmente se denominan tendencia, estacionalidad, etc., lo que se conoce
como extracción de señales. Por ejemplo, si contamos con series mensuales que presentan
comportamiento estacional puede interesar estimar la estacionalidad en cada momento t con
el fin de obtener la serie desestacionalizada.
Los modelos estructurales univariantes de series temporales están especificados directa-
mente en función de los componentes no observados de tendencia, estacionalidad, etc. Por
otro lado, estos modelos se representan muy fácilmente en el espacio de los estados. Como
hemos visto, una vez estimados los parámetros desconocidos del modelo por máxima ve-
rosimilitud, las recursiones del filtro de Kalman proporcionan estimaciones óptimas de los
componentes no observados de la series que están incluidos en el vector estado O'.t, basadas
en las observaciones disponibles hasta el momento t . Sin embargo, será posible obtener una
estimación más eficiente de los componentes del vector estado O'.t si utilizáramos toda la in-
formación muestra! hasta el momento T, es decir, el objetivo es calcular JE (ar¡Y1 ,Y2 , ... ,Yr ). A
esta media condicional de O'.t se le denomina estimación suavizada y al filtro que la genera le
denominaremos algoritmo suavizador.
Es importante hacer la siguiente distinción. El objetivo del filtrado es encontrar el valor
esperado del vector estado O'.t, condicionado a la información disponible en el momento t, es
decir, JE((at¡yJ El objetivo del alisado (extracción de señales) es tener en cuenta también la
información después del momento t. La media de la distribución de O'.t, condicionada a toda
la muestra, se puede escribir como JE( (ªtlYt) y se conoce como estimador alisado. Como este
estimador se basa en más información que el estimador de filtrado, tendrá un ECM que será
en general menor (nunca puede ser mayor).
Si el modelo es gaussiano:
es el estimador de ECM mínimo de üt basado en toda la muestra. Si relajamos el supuesto

de normalidad, aún sigue siendo el estimador lineal de ECM mínimo.
Existen varios algoritmos de alisado de un modelo lineal. El más interesante en nuestro
caso es el algoritmo de intervalo fijo. Este algoritmo consiste en un conjunto de recursiones
que comienzan con las cantidades finales , aT y PT , dadas por el filtro y trabaja hacia atrás.
Las ecuaciones son:
ªtlT = ªt +Pi (at+l lT - Cat)

Pt¡T = Pt + P i (Pt+l lT - Pt+lJt) Pi ,
donde Pi= Ptc- 1 P~+l l t (t = T - 1, T- 2, .. ., 1) , con ªTIT = aT y PTIT = PT . Este algo-

ritmo requiere, por lo tanto, que üt y Pt se guarden para todo t. así como Pt+l lt·
Con estos algoritmos podemos estimar la senda seguida por parámetros que varían en el
tiempo, componentes no observados de las series como tendencias y estacionalidades, etc . Una
de las razones más conocidas por las que nos puede interesar la extracción de señales es para
obtener series desestacionalizadas.
Tema 15
ANÁLISIS ESPECTRAL
15.1. INTRODUCCIÓN
El análisis de series temporales puede llevarse a cabo indistintamente en el dominio del

tiempo utilizando los modelos ARIMA que vimos en un tema anterior, o en el dominio de
las frecuencias en cuyo caso emplearemos el análisis espectral. Este tema está dedicado a
presentar esta última posibilidad que, por razones no demasiado bien explicadas, ha merecido
una atención menor por parte de la profesión. Conviene desde el principio resaltar el hecho
de que ambas aproximaciones, la metodología Box Jenkins y el análisis espectral, son dos
formas complementarias, y estrechamente relacionadas, de analizar los datos. Cualquier pro-
ceso estacionario admite una representación en el dominio del tiempo y una representación
en el dominio de las frecuencias, y cualquier característica de los datos puede ser igualmente
descrita en uno u otro dominio.
El análisis en el dominio de las frecuencias centra su atención en el estudio de los movi-

mientos cíclicos de una serie temporal. Como en el caso de los modelos ARJMA, trataremos
de explicar estos movimientos con la información exclusiva de la propia serie en el pasado,
es decir sin relacionarla con otra u otras variables, siendo asimismo la predicción uno de los
objetivos de esta aproximación. La elección de uno u otro método suele hacerse en función de
cuáles sean las características de la serie que más nos interesen. Por lo demás, no es necesario
suponer que los ciclos son regulares, algo bastante inusual en economía, sino que existe una
tendencia hacia un movimiento cíclico centrado en una frecuencia particular.
En relación con el estudio de los ciclos, hay ocasiones en los que el periodo de los mismos
es conocido, como sucede en particular con el caso de los movimientos estacionales, pero en
general la situación es diferente y nos veremos enfrent ados al problema de tratar de averiguar
el periodo de oscilaciones cuya frecuencia es inferior a la propia del movimiento estacional.
En este sentido el análisis espectral es una herramienta poderosa al permitir detectar la es-
tructura interna de la serie en relación con sus componentes cíclicos. Aunque históricamente
la investigación es este campo tuvo como objetivo la búsqueda de las denominadas "periodi-
cidades ocultas", actualmente el análisis espectral trata de estimar el espectro, un concepto
análogo al de población, en el rango completo de frecuencias.
591
592 ANÁLISIS ESPECTRAL
En lo que sigue, trataremos de hacer una presentación rigurosa pero no excesivamente

formal con objeto de que pueda ser accesible a un mayor número de lectores.
El tema se estructura de la siguiente manera. El concepto de espectro se presenta en

la siguiente sección, mientras que en la tercera se calcula su expresión para algunos de los
principales procesos estudiados en el tema 13. Los epígrafes cuatro y cinco se ocupan del pe-
riodograma muestra!, considerado un estimador del espectro y de sus propiedades estadísticas.
Los procedimientos para obtener un estimador consistente del espectro son el objeto del sexto
epígrafe. En el último se ofrecen dos aplicaciones prácticas de esta metodología.
15.2. EL CONCEPTO DE ESPECTRO POBLACIONAL
Consideremos una serie de tiempo estacionaria Yt cuyo movimiento está causado por dis-
tintas oscilaciones o variaciones en distintas frecuencias, l. ... , j. Un modelo natural para
explicar su variación sería:
k
Yt = L Z1 cos(w1t + PJ) +et (15.2.1)
j=l
donde t es el tiempo, w es la frecuencia, Z la amplitud , p la fase y et es una perturbación

aleatoria con las características que hemos venido considerando habituales en los temas an-
teriores. Diferentes oscilaciones implican que hay diversas frecuencias relevantes a la hora de
explicar el movimiento de Yt.
Si Zj y PJ son constantes, el movimiento no sería estacionario puesto que E(yt) dependería
del tiempo, lo que impediría la aplicación de este método, pero este problema puede evitar-
se suponiendo que alguno de esos elementos son variables aleatorias con las características
apropiadas.
Por otra parte, dadas las propiedades de las relaciones trigonométricas , la expresión ante-
rior puede ser escrita de forma equivalente como:
k
Yt = L (aj cosw1t + b1sen w1t) +et (15.2.2)
j=l
Puesto que debemos contemplar todas las frecuencias, no tiene sentido restringir el sumatorio
anterior entre los límites 1 y k. Si en la expresión (2) hacemos tender k a infinito, puede
demostrarse que cualquier proceso estacionario discreto puede representarse por:
7r 7r
Yt = j coswtdu (w) + j senwtdv(w) (15.2.3)

o o
La expresión anterior es la representación espectral del proceso Yt siendo u( w) y v( w) sendos
procesos estocásticos estacionarios, incorrelados y con incrementos ortogonales. Aunque el
límite superior en las integrales anteriores debería ser oo, en el caso de procesos discretos
Tema 15 593
medidos a intervalos unitarios de tiempo como los que solemos manejar en economía, no hay
pérdida de generalidad en sustituirlo por 7r 1 .
De acuerdo con (15.2.3) cada frecuencia comprendida en el rango (O, 7r) puede contribuir a
explicar la variación del proceso. Sin embargo, las integrales anteriores son matemáticamente
complejas y difíciles de manejar, lo que unido al escaso interés práctico de los procesos u y
v,resta atractivo a esta expresión. En su lugar se emplea el resultado de un teorema según el
cual para todo proceso estocástico estacionario con función de autocovarianza "fk, existe una
función monótona creciente, F(w) tal que 2 :
J
7l"
/k = cos wkdF(w) (15.2.4)

o
La expresión anterior es la representación espectral de la función de autocovarianza que ya
conocemos de los temas anteriores. La función F( w) es la función de distribución espectral y
representa la contribución a la varianza de todas las frecuencias comprendidas en (O, 7r), es
decir tiene la interpretación de una típica función de distribución estadística. Puesto que no
hay variación para frecuencias negativas:
F(w ) = O para w< O
Y dado que la máxima frecuencia es 7r, se deduce que:
F(w) = var(yt), para w = 7r,
resultado este último que también puede derivarse directamente de (15.2.4):
j coswkdF(w) JdF(w)
7l" 7l"
'YO= = = F(7r)
o o
A veces, en lugar de F(w) , se emplea la función de distribución espectral normalizada, que
viene dada por:
F*(w) = F(w) (15.2.5)
(j 2
y
La derivada de la función de distribución espectral3 , es decir:
J(w) = dF(w) (15.2.6)

dw
1
Ver Chatfield (1996), p. 94.
2
Teorema de Wiener-Khintchine.
3
En los términos en los que está definida F(w) y para todos los casos relevantes desde el punto de vista
práctico, F(w) es diferenciable.
594 AN ÁLISIS ESPECTRAL
es la función de densidad espectral o simplemente el espectro. Su interpretación es la propia de

una función de densidad: f(w) representa la contribución a la varianza de Yt de las frecuencias
comprendidas en el rango (w, w+dw).
Combinando (15.2.5) y (15.2.6) se deduce que
1í
/k = j coswkf(w)d(w) (15.2.7)
o
La expresión anterior expresa la relación entre la función de autocovarianza y la función de
densidad espectral. Puede demostrarse que la relación inversa viene dada por 4 :
(15.2.8)
Ambas, es decir (15.2.7) y (15.2.8) ponen de relieve el hecho ya mencionado de que el es-
pectro y la función de autocovarianza son formas equivalentes de analizar una serie temporal
estacionaria.
Igual que sucedía con la función de distribución espectral, en ocasiones la función de

densidad espectral se emplea también en términos normalizados:
f * (w) = ~ [1+2 f Pk coswk] (15.2.9)

k=l
Para terminar conviene señalar que en la literatura pueden encontrarse otras definiciones
diferentes del espectro. La mayoría de ellas difieren de (15.2.8) por una constante multiplicativa
y/ o por el rango de definición de w. Por ejemplo , es muy frecuente encontrar:
No obstante a lo largo de este tema y mientras no se diga lo contrario, nos basaremos en

la ecuación (15.2.8).
15.3. EL ESPECTRO DE ALGUNOS PROCESOS IMPORTANTES
Utilizando la expresión (15.2.8), o eventualmente (15.2.9), podemos encontrar el espectro

de los procesos ARMA dado que conocemos las expresiones de sus funciones de autocovarianza
y autocorrelación. A continuación mostramos algunos de los más importantes.
4
Utilizando el teorema de Moivre el espectro puede escribirse también como f(w) =~ f:
j=-oo
"fje-iwi.
Tema 15 595
15.3.1. Esp ectro de un pro ceso ruido blanco

Si Yt es un proceso puramente aleatorio sabemos que 'Yk = O para todo k =f. O, de manera
utilizando (15 .2.8) obtenemos inmediatamente el espectro será
f(w) = ~K [10+2fo·coswk] ='Yo= a'}

K K
(15.3. l)
k=l
Es decir que en un proceso de ruido blanco, todas las frecuencias contribuyen por igual a la
explicación de la variación total de la serie, de manera que su representación gráfica será una
línea horizontal trazada a la altura 'Yo/ K, tal como se muestra en la Figura 15.3.1,
Figura 15.3.1: Espectro de un proceso ruido blanco
~w)
15.3.2. Esp ectro de un proceso MA(l)

Para derivar el espectro de un MA(l) utilizaremos la expresión (15.2.9), es decir el espectro
normalizado. Sabemos que en un MA(l) la función de autocorrelación es:
Pk = 8/( 1+82 ), si k = 1
O, si k > 1
de manera que:
f • (w) = ~ [1+2 Ep•coswk] = ~ [!+ 1!ªe, cosw] (15.3.2)
y f(w) = a;J * (w), donde a;= a'}(l + 82 ). Sustituyendo en (15.3.2):

82
f (w) =
1
a'} ( : ) [1 +
1
!()82 cos w] = ~ [1 + w
82 + 28 cos J (15.3.3)
Por tanto el trazado del espectro dependerá del valor del parámetro e.
Figura 15.3.2: Espectro de un proceso MA(l)
f(w) MA(l), 6 >0
MA(l), 0<0
Se comprueba que si el parámetro del proceso es mayor que cero, el espectro se concentra
en las frecuencias bajas y mientras que si es menor que cero, lo hace en las más altas.
15.3.3. Espectro de un proceso autorregresivo

En este caso, la función de autocovarianza (o la de autocorrelación) no se anulan para
00
ningún valor de k, por lo que normalmente el sumatorio ¿ 'Yk cos wk tomará valores distintos
k=l
de cero. Ello hace que el procedimiento para encontrar la expresión del espectro de estos
procesos sea más complicada. No obstante puede encontrarse que:
(l 2 1
(15 .3.4)
f(w) = : [1 - 2<;f>cosw + <;t>2]
Tema 15 597
De manera que, en este caso, el trazado del espectro depende también del parámetro del
proceso. Como sucedía con el MA(l), si este parámetro es mayor que cero, el espectro se
concentra en las frecuencias bajas y viceversa por lo que su representación gráfica no es muy
diferente de las de la figura 15.3.2. Por ejemplo, para un AR(l) con 4> = 0.8:
Figura 15.3.3: Espectro de un AR(l) con 4> = 0.8

AR (1), f = 0.8
f(w)
Para procesos mixtos y de órdenes más elevados, la expresión del espectro se complica
aún más 5 . En general, puede decirse que para éstos, es posible encontrar espectros de alta
frecuencia (concentrados en las frecuencias altas), de baja frecuencia (concentrados en las
frecuencias altas) o espectros caracterizados por la existencia de (varios) picos y valles. Por
ejemplo, para un AR(2):
Figura 15.3.4: Espectro de un AR(2) con 4>1 = 0.8 y 4>2 = -0.2
AR(2)
f(w)
lt
5
El espectro de un proceso general ARMA(p, q) puede verse por ejemplo en Hamilton (1994) .
15.4. EL PERIODOGRAMA MUESTRAL
En la práctica. como sucedía en el caso de los modelos ARIMA, hemos de estimar el

proceso generador de datos a partir de una muestra concreta. Un instrumento natural para
estimar el espectro poblacional es el peridograma muestra[, I (w). Puede demostrarse que el
periodograma está directamente relacionado con la función (muestral) de autocovarianza. Para
una serie de tamaño T:
(15.4.1)
Si disponemos de una muestra de T observaciones para la serie Yt , es posible ajustar una

función que pase por todos sus puntos. Describiremos el proceso para el supuesto de que el
número de observaciones Tes par , aunque puede emplearse un procedimiento similar para el
caso de que dispongamos de un número impar de observaciones.
Comenzamos definiendo el siguiente conjunto de frecuencias Wj, denominadas frecuencias
de Fourier6 :
27rj
Wj=T, j = 1, ... , T / 2 (15.4.2)
Por tanto , la frecuencia más alta que consideramos es w = 7r , también denominada frecuencia
de Nyquist y corresponde a un periodo 7 de dos unidades de tiempo (el periodo mínimo en el
análisis de ciclos).
El siguiente paso consiste en definir el par de términos trigonométricos cos(Wjt) y sen( Wjt)
para cada una de estas frecuencias , siendo t el tiempo, es decir t = 1, 2, ... , T. Entonces
puede demostrarse que:
T/ 2
Yt = ao+ L(aJCOSWJt+8Jsinwjt) (15.4.3)
j=l
donde ao es la media de Yt· La ecuación anterior puede interpretarse como una ecuac10n
de regresión múltiple en la que los términos cos(wjt) y sen(wjt) juegan el papel de variables
explicativas. La parte derecha de la ecuación explica completamente la variación de la serie Yt,
razón por la cual (15.4.3) no incluye término de error. No obstante, lo habitual es considerar,
no el conjunto completo de las frecuencias de Fourier, sino un subconjunto más reducido, en
cuyo caso se añadiría un término de error que supondremos tiene las características habituales.
Para la última frecuencia, la variable sen(Wjt) es nula para todos los valores de t, dado
que sen( 7r) = O y siendo t entero, también lo será sen( 7r· t). Teniendo en cuenta el resto
de los términos y la constante, ao , resulta que disponemos de T variables para explicar el
movimiento de Yt, cuyo tamaño es asimismo T. No tiene pues ningún mérito que con tantas
variables podamos explicar toda la variación.
6
Si Tes impar la diferencia consiste en que j varía entre 1 y (T-1) / 2. En este caso no se anula la serie de
seno correspondiente a último armónico.
7
El periodo es el inverso de la frecuencia.
Tema 15 599
Si escribimos el estimador MCO de la ecuación de regresión (16), en lenguaje matricial,

tenemos:
T O
O T/2
O
O
.
i-l X'Y (15.4.4)
(
O O T
Es decir que X'X es una matriz diagonal, lo que significa que los elementos cos(wJt) y sen( Wjt)
son independientes unos de otros. Por lo tanto podemos eliminar cualquier conjunto de varia-
bles de la expresión (15.4.3) sin que ello afecte al resto de los coeficientes de las variables que
permanecen. Es decir, podemos estimar de forma aislada el subconjunto de coeficientes que
nos interesen.
Es relativamente fácil comprobar (ver ejercicios) que:
(15.4.5)
2 T
Jj = T LYtSen(wJt) (15.4.6)
t=l
Por otra parte, la varianza de la serie Yt puede descomponerse en:
T l T/2
r-1 L (Yt - fJ)2 = 2 L (aj+ 8]) (15.4.7)
t=l j=l
Este resultado es el conocido teorema de Parseval y permite afirmar que la contribución a la

explicación de la varianza total de Yt del ciclo correspondiente a la frecuencia w j, viene dada
1 A2 A2
por 2 (aj + ój).
La representación gráfica de las frecuencias (en abscisas) junto con su correspondiente
contribución a la varianza (en ordenadas) recibe el nombre de periodograma. En este gráfico
la contribución a la varianza suele expresarse en términos proporcionales. La existencia de
picos en el periodograma, es decir valores de I (wJ) mayores que los adyacentes I(wJ_i) e
J(wJ+ 1 ), se interpreta como evidencia de que los ciclos en esa periodicidad son relevantes a la
hora de explicar la variación de la serie que estamos analizando. De manera que mediante este
instrumento podemos encontrar los componentes cíclicos de una serie de tiempo estacionaria.
Basta para ello observar en el periodograma, cuáles son las frecuencias que más contribuyen
a explicar la variación de nuestra serie.
Por ejemplo, supongamos que disponemos de 12 observaciones para la serie Xt:
4.5 -5 -8.75 -2.5 4 10 5 -4 -9 -4.75 3.5 9.25
La representación gráfica de esta serie es:

Figura 15.4.1: Representación gráfica de X
2 3 4 5 6 7 8 9 10 11 12
A simple vista se aprecia un ciclo de 6 periodos (es decir que se repite 2 veces en el
conjunto de las 12 observaciones). Esta no será la situación a la que normalmente nos veremos
enfrentados dado que lo habitual es que debamos descubrir mediante el cálculo de los distintos
coeficientes ª-J y ój, cuáles son los ciclos relevantes.
En este caso podemos calcular fácilmente ªí y Ój a partir de (15.4.5)y (15.4.6), para j =
2:
T
&2 = ~ 2: Yt cos(wjt) = 8,9375
t=l
A T
62 = ~ 2: YtSen( Wjt) = 0,0361.
t=l
Según el teorema de Parseval la contribución de este ciclo a la varianza total de la serie es:
Dado que la varianza de x es aproximadamente 40.5, esto representa el 98.62 % de la variación

total.
Los mismos resultados pueden obtenerse directamente por regresión una vez hayamos
definido las variables cos(2w2t) y sen(2w 2t) como puede verse en la Tabla 15.1.
De forma análoga, es decir por cualquiera de estas dos vías, se pueden calcular el resto de
los coeficientes. El periodograma resultante tiene el siguiente aspecto:
Tema 15 601
Tabla 15.1: Estimación de a2 y 82 obtenida por regresión

Variable Coefficient Std. Error t-Statistic Prob.
e 0.187500 0.249710 0.750870 0.4719
Cos(2wt) 8.937500 0.353144 25.30838 0.0000
Sen(2wt) 0.036084 0.353144 0.102180 0.9209
R-squared 0.986144 Nlean dependentvar 0.187500

Adjusted R-squared 0.983065 S.D . dependentvar 6.647047
S.E. of regression 0.865022 Akaikeinfocriterion 2.760195
Sum squaredresid 6.734375 Schwarzcriterion 2.881422
Log likelihood -13.56117 Hannan-Quinncri ter. 2.715313
F-statistic 320.2622 Durbin-Watson stat 2.226798
Figura 15.4.2: Periodograma de X
PERIODOGRAMA
1.4
1.2
0.99
1.0
o.a
0.6
0.4
02
004 0.02 o,. 0.01 0.02
o.o
2 3 4 5 6
De manera que el ciclo de 6 periodos explica la práctica totalidad de la variación de la

serie, confirmando lo que ya sabíamos por simple inspección visual de la representación gráfica
de la serie. En este caso diremos que en la segunda frecuencia se registra un pico, dado que el
valor de J( w2) es mayor que los dos adyacentes.
Las propiedades estadísticas de los coeficientes de Fourier pueden derivarse de la teoría

estándar de mínimos cuadrados. Los elementos de /3 se distribuyen de forma normal (dado
el supuesto de normalidad de Et) con media nula (se deduce de (15.4.5) y (15.4.6), dado que
todos los elementos de esos sumatorios tienen media nula) y varianza dada por8
(15.4.8)
Ello permite usar los procedimientos de inferencia estándar también en este caso.
En el ejemplo que acabamos de analizar, la varianza de cada uno de los tres elementos
del vector /:J se obtiene directamente la fórmula anterior. La matriz X'X es en este supuesto
una matriz 3x3 y los elementos de su diagonal principal son (T, T ¡ 2, T / 2). Todos los demás
son nulos. Por tanto la diagonal principal de (X'X)- 1 será (1 / T , 2/ T y 2/ T) y teniendo en
cuenta que la SCR = 6. 734375 , la varianza de los elementos de /:J es:
var(/31) = 0" 2 au = ·i~~ 3 i12 = 0,06235

6 3 75
var(/32) = 0" 2 a22 = 6 ·g~3J 5 122 = 0,12471

var(/33) = 0" 2a33 = ·I~~ 3 122 = 0,12471
6 3 75
Con estos resultados podemos contrastar la significatividad individual de cada uno de los
parámetros. En los contrastes conjuntos pueden usarse también las mismas técnicas que en la
teoría de la regresión mínimo cuadrática.
Dado que los estimadores se distribuyen de forma normal con media nula y varianza dada
por (15.4.8), se tiene que:
'2
ªJ + ój'2
----"---2-=-- -t X2
2
( 15 .4. 9)
(T
lo que permite contrastar la significatividad para cada una de las frecuencias. La hipótesis
nula (Ho : ªJ = Ój = O) significa que no existe un ciclo significativo en la frecuencia Wj. Por
supuesto en este ejemplo la hipótesis nula resulta rechazada, dado que el estadístico (15.4.9)
arroja un valor igual a 640.5 aproximadamente.
Puesto que la regresión solo tiene esas dos variables explicativas, la hipótesis nula anterior
equivale a contrastar la significatividad conjunta de la regresión, para lo que también puede
emplearse el contraste F. Dado el valor de R 2 éste será:
0,98614/ 2
F2,9 = (1 - 0,98614) /9 = 320,17
Es decir, el mismo valor que cuando empleamos la chi cuadrada, dividido entre el número de
grados de libertad.
15.5. EL PERIODOGRAMA COMO ESTIMADOR DEL ESP ECTRO
El hecho de emplear el conjunto de frecuencias de Fourier es conveniente pero arbitrario.

En efecto , en este modelo atribuimos toda la variación muestral de la serie a alguna de las T / 2
8
La matriz inversa. es decir (X'X)- 1 será también una matriz diagonal. Además, todos sus elementos
excepto el primero, correspondiente a la constante y el último, correspondiente a la frecuencia j = T / 2, tienen
el mismo valor, 2/ T, de manera que la varianza de todos estos coeficientes será también la misma, en cada
ecuación de regresión concreta. Para la constante y el coeficiente correspondiente a cos(nt) suponiendo que este
último estuviera incluido, el valor de la varianza será exactamente la mitad que la del resto de los coeficientes,
es decir 1/ T.
Tema 15 603
Figura 15.5.1: Área bajo el periodograma y varianza atribuible a los ciclos en las distintas
frecuencias
l(w)
2:t/ T
<E-->
O w1 w2 w
frecuencias de Fourier. Si parte de la variación fuese debida a ciclos con frecuencias distintas
de las consideradas en (15.4.2), dicha variación es automáticamente atribuida a alguna de esas
T / 2 frecuencias.
No habría ningún inconveniente en emplear un modelo como:
(aj cos wjt+c5j sin Wjt)

Yt = ao + L + et (15.5.1)
j
donde O < j::::; ?r, excepto que ahora los regresores ya no serían ortogonales. De hecho , es más
razonable suponer que las series económicas están caracterizadas por un espectro continuo
(más que discreto), de manera que en la ecuación anterior j-+ oo. Por lo tanto (&J + 8J)/2
no debería considerarse como la parte de la varianza de Yt debida a ciclos de frecuencia
exactamente igual a Wj, sino más bien como la parte de la variación atribuible a frecuencias
comprendidas entre Wj y Wj-l (o algún esquema similar). La Figura 15.5.l sirve para ilustrar
esta cuestión.
La interpretación habitual es que I(w 1 ) es la varianza atribuible a ciclos de frecuencia
w 1 = 27r / T (es decir ciclos de periodo T), I(w 2 ) a ciclos de frecuencia w 1 = 47r / T (ciclos
de periodo T /2), etc. Sin embargo podríamos considerar I (w1) como la variación debida a
frecuencias comprendidas entre (O, w1], I( w2) la variación de las frecuencias comprendidas
entre (w1, w2], etc. Según esta interpretación, I(w2) debería repartirse entre las 27r/ T fre-
cuencias comprendidas entre w1 y w2, y en general cada I(wj) sería la parte de la varianza
correspondiente a las frecuencias comprendidas entre Wj y Wj-1:
(15.5.2)
o lo que es lo mismo:
Veremos a continuación las propiedades de I (w) como estimador de J(w). Fuller (1976) esta-
bleció que, asintóticamente y para w -:f. O:
2I(w) 2
f(w) = X2 (15.5.3)
Teniendo en cuenta que la esperanza de una x§ es 2 (sus grados de libertad), se obtiene

inmediatamente que:
E[J(w)] = f(w)
Es decir que el peridograma es un estimador (asintóticamente) insesgado del espectro.

Sin embargo, su varianza no disminuye a medida que aumenta el tamaño de la muestra,
es decir es un estimador inconsistente. Ello puede deducirse fácilmente a partir de (15.5.2)
Por lo tanto:
(15.5.4)
Dado que <7 4 /7f 2 es constante, queda establecida la inconsistencia. En realidad de (15.5.3) se
deduce que el intervalo de confianza del 95 3 para el periodograma es (0.025, 3,7), es decir lo
suficientemente amplio para considerarlo insatisfactorio.
Por otra parte, puesto que que los parámetros a y f3 de la ecuación (15.4.3) son incorrelados
(independientes si consideramos la normalidad), se sigue que cov[I(wj), I(wi)] =O para i -:f. j,
con lo que el periodograma tendrá una representación bastante irregular.
Las Figuras 15.5.2 y 15.5.3 ilustran este problema. Empleando 1000 observaciones se ha
generado un proceso de ruido blanco y un AR(l) , con parámetro</;= 0,8. A continuación se
ha calculado el periodograma que se muestra en las figuras:
Tema 15 605
Figura 15.5.2: Periodograma de un proceso de ruido blanco
l(w)
Penodograma ruido blanco
o w
"
Figura 15.5.3: Periodograma del proceso AR(l), Xt = 0.8Xt-1 +Et

l(w
Periodograma de un AR(1)
La comparación de estos gráficos con sus correspondientes trazados teóricos (Figuras 15.3.1
y 15.3.3), ponen claramente de manifiesto los problemas del periodograma en cuanto estimador
del espectro.
15.6. ESTIMADOR CONSISTENTE DEL ESPECTRO
A la vista de los resultados anteriores, queda claro que el periodograma debe ser modificado
si queremos disponer de un estimador consistente del espectro poblacional. Una posibilidad
es suavizar el periodograma.
Observando la Figura 15.5.2 intuitivamente se ve que podríamos obtener una mejor apro-
ximación al espectro mediante un suavizado que consistiese en promediar cada valor de J( w1 )
con las frecuencias adyacentes. Por ejemplo, podríamos emplear:
(15.6.1)
con m = 2 m*+ 1. Siguiendo un razonamiento similar al empleado anteriormente, encontramos

que 9 :
2
A (} 2
f(w1) = - -x2m
47rm
Siendo la varianza de este estimador:
(15.6.2)
y aunque es también constante, una forma de conseguir que disminuya con T es hacer que m
dependa del tamaño muestra!. Si m = >..T, (obviamente>..< 1) , entonces:
(15.6.3)
que tiende a cero a medida que T crece, es decir, proporcionando un estimador consistente.
Aunque nos hemos basado en el proceso de ruido blanco para describir la idea, ésta puede
generalizarse inmediatamente.
En el proceso de suavizado descrito por la expresión (15. 6 .1) solo se tiene en cuenta un
subconjunto de valores del periodograma. Este grupo define lo que se conoce como ventana.
La anchura de la ventana o rango 10 , es precisamente el número de valores considerados, m.
La ponderación implícita en (15.6.1) otorga la misma importancia a cada uno de los m
valores contemplados, pero es natural considerar otros sistemas en los que el peso disminuya
con la distancia, es decir donde se otorgue más importancia a los valores de I próximos a la
frecuencia de interés. En general:
ffi*
f(w1) = L hiI(wj-i) (15.6.4)

i=-m*
donde la suma de los pesos hi es la unidad y m =2m*+l. La primera y última frecuencias, solo
tienen elementos adyacentes por uno de los lados, por lo que supondremos que el periodograma
es totalmente simétrico en esos puntos, asignando a los valores adyacentes exactamente el
doble del peso considerado en el resto de los casos.
En consecuencia hay que tomar dos decisiones: elegir el valor de m y además, el sistema de
ponderaciones. En cuanto a este último, en lugar de elegirse lo que se denomina una ventana
rectangular (que otorga la misma ponderación a todos los valores considerados), se opta por
9
La suma de m variables aleatorias independ ientes distribuidas como una x2 (2), es una x2 con 2m g.l.
10
También se emplea el concepto de ancho de banda (bandwidth) que es la anchura expresada en radianes.
Tema 15 607
una triangular (la ponderación disminuye con la distancia). Respecto al valor de m no hay
muchos consejos prácticos en la literatura, aunque algunos autores recomiendan probar con
diversos valores en el entorno de T / 40.
Esta elección se ve comprometida por el hecho de que procedimientos como los descritos
pueden proporcionar estimadores consistentes, pero al precio de introducir sesgo. En efecto,
teniendo en cuenta (15.5.3), se deduce el sesgo de (15.6.1):
(15.6.5)
que solo coincidirá con f (w) si el espectro es lineal en el intervalo considerado, algo que solo
garantiza el proceso de ruido blanco 11 . En general, cuanto mayor sea el valor de m , menor
será la varianza del estimador, pero mayor el sesgo int roducido (y viceversa).
Un sistema de ponderaciones utilizable en este contexto consiste en elegir los pesos de
acuerdo con:
I:
(m*+l-lil)
hi=
(m * +1)2
i=-m*
(15.6.6)
Por ejemplo , para el supuesto más simple, m* = 1 (h = 3), i toma los valores -1 , O y 1 y los
pesos son:
1+1-1 1 h2 = 1+1 - o 1 h3=1+1-1 1
h1 = (1+1)2 4' 4 2 y 4 4
Es decir, para cada Wj, f(wj) = 0,25l(wj-1) + 0,5l(wj) + 0,25l(wj+1). Para la primera
frecuencia no existe Wj-l de manera que f (w 1 ) = 0,51( Wj) + 0,51( Wj+i)· Análogamente, para
la última f(wn) = 0,5l(wj-l) + 0,5l(wj)·
La alternativa a la suavización del periodograma consiste en ponderar la función de auto-
covarianza. Tomando la expresión (15.4.1) como punto de partida y teniendo en cuenta que
la precisión de las Ck disminuye a medida que k aumenta, es razonable tener en cuenta este
hecho al elegir el procedimiento de ponderación. Podemos considerar entonces un estimador
como:
l(wi) = ~ (ho co + 2-f=hkckcoswik) (15.6 .7)

k=l
donde el punto de truncamiento M < T y hk es un conjunto de ponderaciones que se conoce
con el nombre de lagwindow. El primero determina hasta qué valor de k vamos a considerar
las autocovarianzas (las autocovarianzas para k > M simplemente no se tienen en cuenta), y
el segundo el peso que se otorga a las cada una de las M autocovarianzas consideradas. De
manera que también aquí hay que tomar dos decisiones y también hay un trade off entre el
tamaño de M y el valor del sesgo y la varianza.
Dos de los sistemas de ponderación más utilizados son la ventana de Tukey
hk = ~ ( 1 + cos ~) , k = O, 1, ... , M (15.6.8)
11
No obstante, el sesgo puede carecer de importancia en la medida en que f(w) sea una función razonable-
mente suavizada y m pequeño en relación a T.
y la ventana de Parzen:
2 3
hk= l-6(!) +6(t1 ) , 0$.k'S:_M/ 2
(15.6 .9)
2(1 - k / M) 3 , M / 2 < k $. M
En cuanto al punto de truncamiento no hay tampoco muchas recomendaciones sugiriéndose

2VT como valor aproximado.
15. 7. EJEMPLO DE APLICACIÓN DEL ANÁLISIS ESPECTRAL
En esta sección mostraremos cómo emplear el análisis espectral en la práctica, estudiando

dos ejemplos concretos.
15. 7.1. Balanza de pagos por servicios

Trataremos de encontrar los componentes cíclicos de la balanza de pagos por servicios
española. En la figura siguiente aparece esta serie en logaritmos, extraída de la base de datos
del Banco de España, donde la serie original viene expresada en miles de euros corrientes. La
serie es de frecuencia trimestral y el periodo de observación va desde el primer trimestre de
1990 hasta el primero de 2014. En total hay 97 observaciones.
Los gráficos y todos los cálculos están hechos con el programa Gretl.
Figura 15.7.1: Balanza de Pagos por Servicios. Logaritmos de la serie original expresada
en miles de euros corrientes
LY
90 92 94 96 98 00 02 04 06 08 10 12
Los dos movimientos básicos que dominan la serie son la tendencia y la estacionalidad. La
tendencia que parecía estabilizada a partir del año 2003 recupera la pendiente positiva con el
inicio de la crisis. No obstante, este movimiento habrá de ser eliminado para poder conseguir
Tema 15 609
la estacionaridad de la serie, requisito imprescindible antes de aplicar los métodos que hemos
visto en este tema.
Si no se hiciese así, es decir, si no eliminamos la tendencia, este movimiento se reflejaría
en el periodograma como un pico en la primera frecuencia.
Aunque el procedimiento empleado para eliminar la tendencia puede condicionar el resul-
tado del periodograma, en un ejemplo como este caracterizado por la fuerte estacionalidad
de la serie, no tendrá mucha trascendencia. Aquí emplearemos un filtro de Hodrick Prescott
que, aplicado a la serie original da como resultado las Figuras 15.7.2 y 15.7.3. En la primera
representamos la serie original junto con la tendencia estimada mediante el filtro HP. En la
segunda, la serie libre de tendencia obtenida por diferencia entre la serie original y la tendencia
estimada.
Figura 15.7.2: Balanza de pagos por servicios: serie original y tendencia (filtro HP)
17.0
-LY
----Filtro HP
16.5
16.0
15.5
15.0
14.5
140
90 92 94 96 98 00 02 04 06 08 1o 12
Figura 15.7.3: Balanza de pagos por servicios: serie libre de tendencia
.8
.6
.4
.2
.o
-.2
-.4
-.6
-.8
90 92 94 96 98 00 02 04 06 08 10 12
610 Al'\ÁLISIS ESPECTRAL
En esta última figura se ve cómo la estacionalidad es prácticamente el único movimiento

que queda tras eliminar la tendencia. Ello es lógico si tenemos en cuenta el fuerte componente
estacional del turismo en España, que domina claramente la balanza de pagos por servicios.
Con el objetivo de valorar la predicción y que el número de observaciones sea par, calcu-
laremos el periodograma de las primeras 92 observaciones, es decir restringimos la mues-
tra al periodo 1990ql-2012q4 (92 observaciones). Ya hemos visto en el texto cómo cal-
cular el periodograma, pero el programa Gretl dispone para ello de un comando específi-
co: Variable / Periodograma:
Figura 15.7.4: Periodograma de la serie representada en la Fig. 15.7.2
Periodograma
100
80
60
40
20
o
frecuencia
En ordenadas se muestra la contribución proporcional a la varianza de cada frecuencia y

en abscisas las frecuencias (eje inferior) y sus correspondientes periodos (eje superior).
El programa proporciona también una tabla con los valores del periodograma. Puede
apreciarse que el primer (y único) pico aparece en la frecuencia w = 23. De la exposición
que hemos visto en este tema se deduce que el periodo correspondiente a la frecuencia Wj es
27r/ wj, es decir T / j. Por tanto para w = 23 , el periodo es 92/ 23 = 4 trimestres, que es un
ciclo estacional. Este ciclo explica más del 90 % de la variación de la serie 12 . La contribución
correspondiente al resto de las frecuencias es despreciable. Los coeficientes correspondientes a
las dos ondas de este armónico pueden calcularse indistintamente a partir de las expresiones
(15.4.5) y (15.4.6), o por regresión entre las series libres de tendencia y las variables,w23,1 =
cos(23two) y w23,2 = sen(23two):
12
En este caso cualquier procedimiento de estimación consistente, seguiría dejando un elevadísimo porcentaje
de la varianza en el mismo armónico.
Tema 15 611
Tabla 15.2: MCO, usando las observaciones 1990:1-2012:4 (T = 92): Estimación del armónico
número 23
Coeficiente Desv. Típica Estadístico t Valor p
const 0.00178617 0.00974062 0.1834 0.85492
cos(23wt) -0.125054 0.0137753 -9.0781 <0.00001
sen(23wt) -0.465436 0.0137753 -33.7877 <0.00001
Media de la vble. dep. 0.001786 D.T. de la vble. dep. 0.354891

Suma de cuad. residuos 0.776875 D. T . de la regresión 0.093429
R-cuadrado 0.932217 R-cuadrado corregido 0.930694
F(2, 89) 612.0098 Valor p (de F) 9.66e-53
Lag-verosimilitud 89.07385 Criterio de Akaike -172.1477
Criterio de Schwarz -164.5823 Crit. de Hannan-Quinn -169.0942
rho -0.020081 Durbin-Watson 1.900754
Como puede comprobarse, ambas son estadísticamente significativas y el coeficiente de

determinación resultante es 0.93. La varianza de la serie libre de tendencia es 0.124308 y la
contribución de este armónico es, según (15.4.7):
~ [(-0,1250542 ) + (-0,465436 2 )] = 0,116134
es decir el 93 3 aproximadamente.
Para hacer una predicción no tenemos más que prolongar estas dos variables hacia adelante,
es decir calcular la estimación a partir de la ecuación anterior para t = 93 , 94, ... , 97 y obtener
el resultado de la predicción a partir de la ecuación de regresión.
Sumando la tendencia estimada a los valores anteriores, se obtiene la predicción que se
muestra en la Figura 15.7.5
15. 7.2. Índice de producción industrial

La segunda serie que vamos a analizar es el índice de producción industrial USA (2007= 100).
En www.economagic.com hemos obtenido una muestra para el periodo 1947-2013, es decir dis-
ponemos de 804 observaciones.
Estos mismos datos fueron analizados por Hamilton (1994) para el periodo comprendido
entre 1947.01 y 1989.11.
Dado que la serie no es estacionaria, hemos calculado la tasa de crecimiento mensual:
lOO[log(yt)-log(yt-1)]
La representación gráfica se muestra en la Figura 15.7.6 . En la Figura 15.7.7 presentamos

el espectro estimado a partir del periodograma, aplicando el sistema de ponderación 15.6.6 con
h = 4. El primer pico aparece en la frecuencia j = 29, lo que corresponde a un ciclo de 804/ 29
~ 28 meses, es decir en torno a dos años y medio que puede asociarse con lo que denominamos
Figura 15. 7.5: Predicción de la serie a partir de la tendencia y un ciclo estacional (serie
observada en trazo continuo)
90 92 94 96 98 00 02 04 06 08 10 12
businesscycle. Los picos en las frecuencias j = 66, 134, 201, 268 y 335, corresponden a ciclos
de 12, 6, 4, 3 y 2.4 meses, es decir son todos ellos picos estacionales 13 . Todos estos resultados
son prácticamente idénticos a los obtenidos por Hamilton.
Figura 15.7.6: Índice de producción industrial USA. Tasa de variación mensual, 1947-2013
IPI (tasa varia etón)
16
12
50 55 60 65 70 75 80 85 90 95 00 05 10
13
La frecuencia fundamental para recoger la conducta estacional en datos mensuales es w = 27r/ 12 que
obviamente corresponde a un periodo de 12 meses. El resto de los picos estacionales necesarios para dar
completa cuenta del movimiento estacional se obtienen de w i = 27rj / 12 con j = 2, 3, 4, 5 y 6 que corresponden
a ciclos de 6, 4, 4, 2.4 y 2 periodos (meses).
Tema 15 613
Figura 15. 7. 7: Espectro estimado de la serie del IPI (tasa de variación mensual)
5 J=268 j; 335
4
j• 201
j•134
¡• 29 ¡=e6 F.33
o l ~./V\.~ .~
o 40. 80 120 160 200 240 280 320 360 400
El pico en j = 83 puede deberse al distinto valor de h empleado en la ponderación o

también al hecho de que en nuestra muestra aparecen los años de la última crisis, al principio
de la cual el índice analizado se desploma como puede verse en la Figura 15.7.8.
Figura 15.7.8: Índice de producción industrial

1.m ~--------------------~
Indice producción industrial
'·°"'
t; Fiffi6Uc:l¡f!Sal@S;t1Si!:SS.1SSE!.:~c ;: ~!:::.!t: S éiSSi5Si • 8S 8 iRS;&iait 8 E:Se;S8!i !S R=o~
EJERCICIOS
l. Derive la expresión del espectro de un MA(l) utilizando directamente la fórmula (15.2.8).
2. Demuestre la equivalencia entre el periodograma y la función de autocovarianza.
3. Encuentre la expresión del espectro del proceso Yt =Et+ Et-1 + Et-2 .

4. Demuestre el teorema de Parseval .
5. Encuentre el periodograma y una estimación consistente del espectro de la serie del

ejercicio 13.7 (tabla ET13_1) correspondiente a los valores del índice S&P500.
Tema 16
EFECTOS CAUSALES DINÁMICOS
16.1. INTRODUCC IÓN
En este capítulo tratamos el tema de los efect os causales que se extienden a lo largo del
tiempo, una cuestión práctica y relevante dentro del análisis econométrico aplicado. Desde otro
punto de vista podemos decir que nos interesa conocer cómo se distribuye el efecto de una
causa a lo largo del tiempo. En economía se produce de manera casi natural que una causa,
digamos un cambio en el nivel de ingresos, produzca su correspondiente efecto después de que
transcurra cierto tiempo; de modo que el efecto no se materializa de una sola vez, sino que se
"distribuye" a lo largo del tiempo. De manera similar, cuando suben los impuestos sobre las
rentas (sobre los ingresos) , lo consumidores (los hogares) t ienen menor renta disponible, lo que
les lleva a reducir sus gastos en servicios y bienes, est o lleva a que se aminoren los beneficios
de los oferentes, y estos reduzcan su demanda de insumos, y en consecuencia los beneficios
de los productores de insumos, y así podríamos seguir hasta las últimas consecuencias. Por
procedimientos económicos de este estilo la literat ura ha convenido en llamar a este tipo de
procesos "modelos de retardos distribuidos", refiriéndose al hecho relevante del que el efecto
se prolonga a lo largo del tiempo, es decir, es como si el efecto de una causa fuera dinámico.
En todo caso , lo característico es que es preciso que pase el tiempo para poder observar los
efectos totales (dinámicos) de una determinada causa económica.
Los efectos simultáneos, a difirencia de los efectos distribuidos a lo largo del tiempo, son
menos evidentes en las decisiones económicas, ya sean éstas las del consumidor o las del
empresario; ya sean éstas de tipo microeconómico, o de tipo macroeconómico. Hay varios
motivos por los que los efectos se distribuyen a lo largo del tiempo: hay retardos (efectos
causales dinámicos) en la respuesta motivados en razones técnicas (pensemos simplemente
que el propio proceso productivo es inherentemente dinámico) ; hay retardos generados por
cuestiones propias del comportamiento del agente económico (necesariamente hay un desfase
entre que el individuo recibe una información, y luego actúa); otros retardos son producidos
como natural consecuencia de factores institucionales (los contratos, por ejemplo, establecen
ciertas rigideces en la inmediatez de pagos y cobros) .
Lógicamente al modelizar econométricamente deberíamos tener en consideración los efec-
tos dinámicos de la variables consideradas, por ejemplo: la toma de decisiones sobre consumo
615
616 EFECTOS CAUSALES DINÁMICOS
o inversión individuales que están sujetos en buena medida a hábitos del consumidor o a la
verosimilitud en la percepción de cambios, o bien permanentes o bien transitorios, en variables
económicas relevantes (pensemos en el nivel de ingresos o precios, que afecta a la toma de
decisiones por parte de los agentes económicos). También hay aspectos de tipo contractual por
los que compromisos contraídos no permiten cambiar instantáneamente ante acontecimientos
exteriores: es difícil que una empresa cambie con rapidez las condiciones de producción si se
encarece desorbitadamente una de las materias primas, o si la competencia explota una nueva
tecnología. El mero coste de la información: hay decisiones económicas para muchos tipos de
bienes o servicios en las que informarse consume un tiempo. Pensemos en algunos sectores
productivos realmente dinámicos, como por ejemplo el mercado de tabletas electrónicas ("ta-
blets"), que además se corresponde con un bien semi-duradero. En este tipo de sectores las
decisiones de los agentes no son instantáneas, máxime si por ejemplo hay un escenario de
presentación al mercado de un modelo más novedoso, lo que afecta a las expectativas sobre
el precio de las existentes.
Dado que como hemos visto los efectos de los cambios en las variables no son siempre ins-
tantáneos, el objetivo prioritario es cómo modelizar la naturaleza dinámica de las relaciones
económicas. Desde un punto vista de la realización de predicciones el considerar el modelo
dinámico abundará en potenciales y mejores predicciones. Otra forma complementaria de me-
jorar la capacidad predictiva será posible si podemos contemplar otras variables que covarían
a la largo del tiempo con la variable dependiente. En tales casos será preciso incluir otras
variables que denominamos "predictores adicionales". Ambos enfoques para la mejora de la
capacidad predictiva se pueden tratar homogéneamente si consideramos el marco analítico
que exponemos a lo largo de este tema.
16.2. MODELOS DE RETARDOS DISTRIBUIDOS (RD) Y MODELOS

AUTOREGRESIVOS CON RETARDOS (ARD)
La cuestión, en términos generales , es cómo especificar la relación dinámica que se establece
entre las variables del modelo. Hay varias posibilidades. Una forma de modelizar el impacto
de un cambio a lo largo de varios periodos es mediante el término error. En particular es
posible hacerlo, y de hecho ya lo vimos en el Tema 6, introducciendo autocorrelación en el
error. En efecto, la autocorrelación en el error introduce una relación de naturaleza dinámica
tal que el impacto de cualquier shock que afecte al término error tendrá efectos no solo en el
periodo t en el que tenga lugar el shock (impacto), sino también en futuros periodos:
yt = f (Xt) + ét = f (Xt) + g(Et-i)

lo que implica también que un cambio en el actual error ét afectará a Yt+1 a través de Et+i =
g(Et), y a Yt+2 vía g(ct+1), y así sucesivamente a lo largo de sucesivos periodos.
Una segunda forma de introducir la relación dinámica es especificando que la variable
dependiente es función tanto de valores contemporáneos como pasados de las variables expli-
cativas
yt = f(Xt, Xt-1, Xt-2, ... ) +Et.
Tema 16 617
Si la variable dependiente fuera la inflación y la explicativa fuera los tipos de interés, la

especificación del modelo está planteando que la act ual tasa de inflación depende del tipo
de interés actual y también de los tipos de interés mantenidos en periodos anteriores. Así
pues un cambio en los tipos de interés ahora impact ará sobre la inflación actual y sobre la
futura. Lógicamente los efectos de un cambio de tipos se van diseminando progresivamente
en la economía. A este tipo de modelos les denominaremos modelo de retardos distribuidos.
Una tercera vía para introducir efectos dinámicos y así caracterizar las propiedades diná-
micas de las relaciones entres la series temporales es mediante un modelo que considere a la
variable dependiente retardada como una variable explicativa. Por ejemplo
Siguiendo con el ejemplo de la tasa de inflación, este nuevo modelo plantea de la actual tasa de
inflación depende (entre otras cosas) de cuál fue la tasa de inflación en el periodo anterior. De
esta manera, y asumiendo que la relación entre las variables es positiva, los periodos de baja
inflación vendrán seguidos de periodos de bajas t asas de inflación. Lógicamente podríamos
mejorar fácilmente el modelo permitiendo covariar la variable dependiente también con valores
pasados de la variable explicativa X, lo que nos conduciría al modelo
que denominaremos modelo autorregresivo de retardos distribuidos.

Esta sección presenta la especificación concreta de la función f para las dos últimas vías
consideradas, que como es esperable serán funciones lineales. De hecho estas tres formas están
más relacionadas entre sí que lo que a priori puede considerar el lector.
16.2.1. Efectos dinámicos en el modelo de retardos distribuidos (RD)

En línea con lo que hemos concluido en el apartado anterior, en la Sección 13.11 intro-
dujimos los modelos ARD para mejorar la calidad de la predicción autorregresiva. En ese
tema el análisis causal econométrico con un modelo autorregresivo no era evidente, de modo
que incorporábamos eventualmente variables predictoras Xkt-j para las que no existía una
interpretación causal de sus coeficientes.
U na interpretación causal de los coeficientes del modelo de esperanza condicionada que
esté en línea con la que hemos realizado en las Partes I y II del libro, es decir, en términos
de un experimento aleatorizado controlado ideal (ver Sección 12.2), no es posible fundamen-
talmente porque no sería realizable dicho experimento. Por ejemplo , no podríamos realizar
un experimento sobre la economía española en su conjunto porque no podríamos tener una
economía española paralela para tomarla como control. El concepto de experimento lo po-
dríamos aproximar, no obstante, imaginando que sometemos a una misma entidad individual
(un país, por ejemplo) a distintos niveles de tratamiento (variaciones aleatorias no previstas
de los tipos de interés) en diferentes momentos del t iempo. En este caso, la misma entidad
individual es el grupo de control y de tratamiento, y por tanto a lo que podríamos aspirar
sería a estimar la senda temporal de los efectos del tratamiento sobre las variables de interés.
Esta senda temporal se puede interpretar como el efecto causal dinámico, que es especial-
mente útil cuando tenemos interés en conocer las consecuencias que una determinada acción
o circunstancia tiene a lo largo del tiempo sobre la variable dependiente. Tal es el caso de
cuestiones típicas de análisis de política económica: es importante saber cómo se ditribuyen
temporalmente los efectos de los impuestos sobre el desempleo y la inflación, o cómo lo hacen
los efectos de los cambios en los tipos de interés sobre las mismas variables.
Los efectos dinámicos suceden en el tiempo y esto hace necesario que el modelo economé-
trico que utilicemos para estimar efectos causales dinámicos incorpore retardos. El modelo
(16.2.1)
lo hace, ya que relaciona yt con la variable explicativa Xt y sus retardos. Este modelo se
conoce como modelo de retardos distribuidos.
El coeficiente {31 es el efecto contemporáneo de una variación unitaria en Xt sobre yt. El
coeficiente de Xt-1, es el efecto sobre yt de una variación unitaria en Xt-1 o, equivalentemente,
el efecto sobre Yt+i de una variación de X t. En general, el coeficiente Xt -k es el efecto de
una variación unitaria en X sobre Y en k periodos hacia adelante. Por tanto el efecto causal
dinámico es el efecto de una variación unitaria en Xt sobre yt, Yt+1, .. , Yt+k, y queda recogido
en la sucesión de coeficientes f31, f32, ... , f3k+ l ·
La ecuación (16.2.1) nos permite calcular teóricamente los efectos causales en un caso de
un cambio transitorio en la variable X y en el caso de un cambio permanente. Para verlo,
consideremos que inicialmente Xt = X es una constante y que en el momento t varía en una
unidad, X+ 1, pasando de nuevo al estado constante, X, en t + 1 y sucesivos periodos. Para
entender básicamente la dinámica, consideremos momentáneamente que los errores pobla-
cionales son nulos (obviamente esto es una simplificación que posteriormente eliminaremos) ,
entonces tendríamos:
Yt-1 = + f31X + f32X + ... + f3k+1X

f3o
yt f3o + f31(X + 1) + f32X + ... + f3k+1 X
Yt+i = f3o + f31 X + f32 (X+ 1) + ... + f3k+1 X
Yt+k = f3o + f31X + f32 X + ... + f3k+i (X+ 1)

Yt+k+l f3o + f31X + f32 X + ... + f3k+1X,
de manera que el cambio en Y producido a causa de la variación unitaria en X en el momento
t lo podríamos calcular fácilmente:
yt - Yt-1 = f31.
Igualmente, el cambio en Y un periodo después del cambio sería
y por tanto el cambio en Y tras k periodos después del cambio producido en t sería
Yt+k - Yt-1 = f3k+l·

Tema 16 619
A partir del siguiente periodo, es decir, en el perido k + 1 los efectos habrían desaparecido,
Yt+k+l -Yt-1 = O. A cada uno de estos efectos generados por una variación unitaria en X sobre
Y tras k periodos se les denomina multiplicador dinámico del periodo k correspondiente.
El gráfico de los retardos frente a los distintos coeficientes, multiplicadores dinámicos, nos
daría una visión de cómo se distribuye el efecto causal esperado sobre Y ante una variación
en el periodo t de X.
Alternativamente, si el cambio que se produce en el momento t es de carácter permanente,
entonces tendríamos
Yt-1 f3o + f31X + f32X + ... + f3k+1X

yt f3o + f31(X + 1) + f32X + .. . + f3k+1X
Yt+i f3o + f31(X+1) + f32 (X+ 1) + ... + f3k+ix
rt+k f3o + f31 (X+ 1) + f32 (X+ 1) + ... + f3k+1(X+ 1).
Ahora, después de un periodo desde el cambio, la variable Y ha variado
tras k periodos desde el cambio, la variable habrá cambiado

k+l
Yt+k - Yt-1 = f31 + f32 + ... + f3k+l = ¿ f3i,
i=l
que se denomina multiplicador dinámico acumulativo de largo plazo. Este multiplicador

puede utilizarse conjuntamente con el multiplicador dinámico, y conformar un multiplicador
dinámico estandarizado:
que nos indica la proporción de variación total imputable a primer periodo. Igualmente las su-
mas de sucesivos multiplicadores estandarizados nos informarían de la proporción del impacto
de largo plazo imputable a un número consecutivo de periodos.
Un problema habitual con este tipo de modelos es que es necesario establecer un retardo,
k, de truncamiento a partir del cual los efectos se diluyen. En la gran mayoría de ocasiones
el usuario no tiene mucha información sobre cómo determinar dicho truncamiento, si bien es
cierto que existen algunas técnicas disponibles para asesorar dicha decisión. Alternativamente,
puede ser más coherente asumir que el truncamiento se desconoce por lo que el modelo a priori
sería del tipo siguiente
(16.2.2)
si bien es necesario que los coeficientes de los retardos, f3k, deberían tender a cero cuando
k -7 oo, es decir el impacto de Xt-k sobre yt debe ser menor cuando k se aleja en el tiempo,
hasta el punto de que deje de tener efectos. Al fin y al cabo en la mayoría de las aplicaciones
económicas, la contribución de una variación a día de hoy sobre una variable Y dentro de
varios periodos (tantos como queramos) tendrá efectos inapreciables o mucho menores que los
que tiene en peridos más cercanos en el tiempo.
La interpretación de los coeficientes de la ecuación (16.2.2) en términos de multiplicadores
dinámicos y multiplicadores dinámicos acumulados de largo plazo sigue siendo válida. Co-
mo veremos posteriormente las técnicas y restricciones para estimar los modelos (16.2.1) y
(16.2.2), así como los supuestos sobre la relación entre los errores y las variables regresoras se-
rán diferentes. En particular, para que esta interpretación sea rigurosa es preciso que la X no
esté correlacionada con el término error. Veremos que esta cuestión relativa a la exogeneidad
juega un papel relevante para la estimación y la inferencia.
16.2.2. Modelos de retardos distribuidos y el modelo autorregresivo de

retardos distribuidos (ARD)
La existencia de autocorrelación en el error poblacional es algo intrínseco a los modelos

con series temporales: los factores omitidos en el modelo, ya sea (16.2.1) o (16.2.2), están
recogidos en el error, y estos factores es muy probable que estén autocorrelacionados consigo
mismos. Obviamente esto tendrá sus consecuencias a la hora de realizar inferencia sobre los
parámetros del modelo, que por otra parte MCO puede estimar consistente e insesgadamente.
Sin embargo, queremos llamar la atención sobre el hecho de que considerar autocorrelación
en el modelo nos conduce a considerar de manera natural modelos del tipo ARD.
Los modelos ARD no son nuevos para el lector, de hecho hemos visto en el modelo de regre-
sión con series temporales con varios predictores (ver Sección 13.11) que, de cara a mejorar
la predicción, un tipo de modelo competitivo es el que incorpora varios predictores aparte
de los valores retardados de la variable de interés: modelo autorregresivo de retardos
distribuidos (ARD).
En términos generales el modelo ARD (p ,q) es
que es prácticamente semejante al modelo (13.11.1), donde hicimos una serie de supuestos
sobre el modelo a fin de interpretar y estimar correctamente los coeficientes. Veremos que
estos supuestos son equivalentes a los que haremos en este tema con ciertas salvedades.
Consideremos ahora la autocorrelación dentro de un modelo RD. A partir de un modelo
del tipo (16.2.1) con un error serialmente correlacionado usamos dicho modelo para obtener
algunos estimadores:
(16.2.4)
E:t = </J1E:t-1 + ... + </JpE:t-p +Et,

Tema 16 621
con Et no correlacionado con et. Si por ejemplo p = 1 y desarrollamos la diferencia
f3o + f31Xt + f32Xt-1 + ... + f3k+1Xt-k +et

-1>1 ({Jo+ f31Xt-1 + f32Xt-2 + .. . + f3k+1Xt-k-1 + ét-1)
f3o + f31Xt + f32Xt-1 + ... + f3k+1Xt-k
-r/>1f30 - r/>1f31Xt-1 - r/>1f32Xt-2 - ... - r/>1f3k+iXt-k-l +Et (16.2.5)
f3o -1>1f30 + f31Xt + (f32Xt-1 - r/>1f31Xt-1)
+ ... + (fJk+iXt-k - r/>1f3kXt-k) + </>1f3k+iXt-k-1 +Et.
Por tanto
(16.2.6)
donde ao = f3o (1 -1>1), r.po = f31, r.p1 = f32 -1>1f31, 'Pk = f3k+ l -1>1/3k Y 'Pk+I = </>1f3k+1·
La ecuación (16.2.6) muestra que al considerar un simple proceso autorregresivo de orden
1 en el error, surge un modelo ARD(l, k+ l). Por este motivo, a dicha ecuación se denomina
representación ARD del modelo de retardos distribuidos con errores autorregresivos. La ecua-
ción nos permite ver que al incluir como regresares el retardo de Y y un retardo adicional de
X , entonces el término error está serialmente incorrelacionado, y por tanto se pueden utilizar
los estimadores MCO habituales, sin necesidad de preocuparse de los efectos que genera la
autocorrelación.
De forma equivalente, la ecuación (16.2.4) se puede reescribir de otro modo familiar y
también útil. Consideremos la expresión (16.2.5) y reagrupemos los términos sacando a los
coeficientes /3j como factores comunes. Es decir, /3j (Xt-j - </>jXt-j) para los diferentes j
c5msiderados. Si simr:lemente definimos las variables en causi-diferencias ft = yt - </>1 Yt-1 y
Xt = Xt - </>1Xt-1, Xt-1 = Xt-1 - </>1Xt-2, etcétera, se obtiene
(16.2.7)
donde lógicamente los errores son los mismos que los anteriores y, por tanto, no están tampoco
correlacionados serialmente.
En el siguiente apartado trataremos los supuestos que hacen posible estimaciones correctas
de los coeficientes de los parámetros así como los que garantizan una correcta inferencia y
construcción de intervalos de confianza para dichos coeficientes.
16.3. SUPUESTOS DE LOS MODELOS DE RETARDOS DISTRIBUIDOS
En los apartados precedentes ha quedado de manifiesto que nos interesa ser capaces de
medir el efecto causal dinámico. Como hemos dicho, una forma interesante y operativa de
entender el concepto de experimento con series temporales es considerar que a un mismo
sujeto lo sometemos a distintos niveles de tratamiento a lo largo del tiempo. Por ejemplo,
un experimento consistiría en someter a la Unión Europea (UE) a diferentes actuaciones por
parte del Banco Central Europeo (BCE) respecto a los tipos de interés. Ahora el sujeto es
la UE y es siempre el mismo , y por tanto hace las veces de grupo de control y de grupo de
tratamiento. El tratamiento es justamente los momentos temporales cuando el BCE varía de

repente los tipos de interés de referencia, mientras que el control es la UE cuando el BCE no
modifica el tipo. Si registramos la evolución del PIB de la UE tras una variación de los tipos,
podemos visualizar cuál es el efecto que tiene la variación de los tipos a lo largo del tiempo
sobre la producción. Obviamente, esperaríamos que no hubiera reacción simultánea, sino que
la reacción se desarrollara a lo largo de los sucesivos trimestres y en algún momento dejara
de tener efectos causales, situando a la economía de la UE en un nuevo equilibrio.
Justamente esos efectos dinámicos los podríamos capturar con los modelos de retardos
distribuidos de la sección anterior. Para ello sería, inicialmente, imprescindible que el efecto
causal que estamos intentando capturar no variara a lo largo del tiempo sobre la muestra de
la que tenemos los datos. Es decir, tiene que haber una estabilidad en el modelo poblacio-
nal, de lo contrario al estimar estaríamos capturando cualquier otra cosa. Esta estabilidad
poblacional queda garantizada con el supuesto habitual de estacionariedad conjunta de los
datos. La segunda condición, que es necesaria para poder capturar eventualmente el efecto
causal dinámico, es que la X no debe estar correlacionada con el error, es decir, la X debe
ser exógena. Sin embargo, el hecho de que estemos tratando con series temporales hace que
haya que matizar un poco más sobre la exogeneidad, tal y como ya anticipamos en el Tema
4 cuando presentamos el concepto de exogeneidad.
Consideramos entonces dos tipos de exogeneidad:
• Exogeneidad estricta (pasado, presente y futuro)
• Exogeneidad (pasado y presente)
La exogeneidad estricta ya la presentamos en la expresión (4.1.6). La diferencia entre una y

otra es que la estricta incluye valores futuros de X en la esperanza condicionada, mientras que
esto no es así en la exogeneidad respecto del pasado y presente. En el primer caso se asume
que Et no puede estar correlacionado con los valores actuales, pasados y futuros de la variable
X. Es decir bajo este tipo de supuesto, el modelo debe de ser teóricamente compatible con
una situación en la que Et, que incorpora los otros determinantes de yt que son distintos de X,
no esté relacionada con los valores que X tome en el futuro. Proponemos un par de ejemplos
para ilustrar este tipo de situaciones que son más comunes de lo que a priori uno podría
considerar.
Como primer ejemplo consideremos que estamos interesados en elaborar un modelo de
corte microeconómico que explique la producción de pimientos en una plantación. Para ello
consideramos que la cantidad producida y disponible depende de las semillas plantadas, del
número de trabajadores-recolectores, de la cantidad de tractores disponibles para el transporte
desde el campo, de las condiciones meteorológicas, y de otras posibles variables que estarán
recogidas en el término error, Et, y que afectan a la producción de pimientos , como pueden ser
por ejemplo, la infección de la plantación por un virus, un embargo por parte de un país, y
Tema 16 623
otras cualesquiera posibles. De las variables que no están en el error tenemos observaciones en
forma de serie temporal. ¿Son las variables regresaras estrictamente exógenas en este modelo?
La variable "condiciones meteorologicas" podemos considerarla como estrictamente exóge-
na, pues difícilmente el tiempo atmosférico está relacionado con las "otras" variables incluidas
en Et. El valor que en el futuro tomen estas otras variables (por embargos, virus, etc.) no es
previsible que se vea afectado por condiciones meteorológicas actuales (temperatura y lluvias,
principalmente). Hagamos este mismo análisis para la variable "semillas". La cantidad de semi-
lla utilizada en la plantación este año es esperable que no esté correlacionada con los shocks o
perturbaciones a las que este mismo año se verá expuesta la plantación. Pero ¿podemos decir
lo mismo con respecto de las perturbaciones de años futuros? En realidad no podemos decirlo
porque la cantidad de semillas disponibles para la próxima temporada es factible que dependa
de la cantidad de pimientos producida en la actual temporada, y esta cantidad sí depende de
las perturbaciones Et del periodo en curso. Es decir, JE (Et lsemillast+l) =/:- O. Eso hace que la
variable semillas no sea estríctamente exógena.
El segundo ejemplo es de corte macroeconómico. Pensemos de nuevo en las medidas de
política monetaria que implementa el BCE. El BCE t iene unos objetivos declarados de control
de la inflación, y para ello el BCE cuenta con la herramienta económica de actuar discrecio-
nalmente sobre los tipos de interés a corto. En tal caso sería muy interesante para la toma de
decisiones sobre los tipos estudiar el efecto causal dinámico sobre la inflación provocado por
una variación del tipo de interés.
El BCE para tomar la decisión sobre los tipos evalúa el estado actual y futuro de la
economía europea, para ello tiene en consideración otras variables económicas que le ayuden
a explicar la evolución de la inflación , así como a estimar el valor esperado de la inflación
futura en la zona Euro. Simultáneamente, la teoría macroeconómica nos indica que la inflación
depende inversamente del tipo de interés al alterar la demanda agregada.
En una regresión de inflación sobre tipos a corto, sabemos por una parte que hay una
serie de variables, que junto con el tipo de interés (pero distintas) afectan a la inflación (estas
variables estarían en Et)· Por otra parte pero simultáneamente, sabemos que al tratarse de
una variable de política monetaria, el tipo de interés fijado dependerá de la inflación actual,
de sus valores pasados y de la previsión de inflación en el momento actual (t) sobre el futuro
(esperado) de la misma. Esta bidireccionalidad se traduce, por ejemplo, en que si el BCE prevé
que va a haber un repunte de la inflación, entonces el BCE ajustará los tipos al alza, haciendo
justamente que los tipos de interés se determinen endógenamente, y por tanto esto nos lleva a
considerar que el modelo planteado no es compatible con el supuesto de exogeneidad estricta
(JE (Et linterest+1) =/:-O).
Estos ejemplos ilustran que es preciso reflexionar sobre la exogeneidad de las variables
explicativas dentro de un modelo de regresión. Es más, en el caso de series temporales ma-
tizamos entre exogeneidad y exogeneidad estricta. El motivo de hacer esta diferencia, como
veremos seguidamente, es que en función de si es aplicable uno u otro supuesto, las técnicas
de estimación varían.
Los supuestos del modelo de retardos distribuidos 1 (RD) son los siguientes:
1
El modelo de retardos distribuidos es fácilmente ampliable a casos en los que deseemos incorporar un
mayor número de regresares X s.
Modelo de retardos distribuidos
donde se mantienen estos supuestos:
l. X es exógena (pasado y presente): JE (e:t IXt , Xt-1, Xt-2, ... ) =O.
2. Las variables aleatorias Yi:, Xt presentan una distribución estaciona-

ria.
3. (Yi:, Xt) y (Yt-1, Xt -j) se hacen independientes a medida que j au-

menta.
4. Los valores extremos de Yi:, Xt son poco probables: tienen momentos

de orden ocho finitos y distintos de cero.
5. No existe multicolinealidad perfecta.
La interpretación de estos cinco supuestos es la siguiente, y la hacemos en relación con el

supuesto del modelo clásico de regresión (ver y leer en relación a lo expuesto en la Sección
6.1). El primer supuesto ya lo hemos explicado anteriormente, no obstante incidimos ahora
en un aspecto adicional. La esperanza condicionada nula implica que el mejor predictor es el
que propiamente indica el modelo de regresión planteado, con sus correspondientes retardos
y no otros. Si comparamos los supuestos 2 y 3 con la expresión (4.1. 7) y especialmente con
la versión adaptada para series temporales (ver la Suposición 3 en la página 101) , podemos
comprobar que se requiere que la distribución conjunta de las variables, incluyendo retardos,
no cambie con el tiempo, y además que las variables tiendan a comportarse como si fueran in-
dependientemente distribuidas cuando est án bastante separadas en el tiempo. A este supuesto
también se le denomina dependencia débil. El cuarto supuesto obviamente es más fuerte que
su contrapartida de la Sección 6.1. Es necesario hacer el supuesto de esta manera porque
se trata de un requisito que garantiza la consistencia2 del estimador de la varianza de los
coeficientes cuando utilizamos errores est ándar tipo HAC , según los definimos en la Sección
6.2.2. Por último, el quinto supuesto es similar a sus homólogos de sección cruzada y series
temporales, por lo que no requiere explicación adicional a la entonces presentada.
Es interesante observar que en los supuestos anteriores del modelo de retardos distribuidos ,
no aparece el requisito de "ausencia de autocorrelación" en el término ft. En estos modelos ,
efectivamente, el error puede estar correlacionado con sus valores retardados, algo que por
otra parte es la regla (más que la excepción) con los modelos econométricos que utilizan series
temporales, básicamente porque los factores omitidos es fácil que estén por sí solos serialmente
correlacionados.
Veamos ahora cómo afectan estos supuestos a los modelos comentados en la sección pre-
cedente. La ecuación (16.2.7) representa un modelo de retardos distribuidos que incluye las
2
Sin embargo esta demostración técnica no se desarrolla en este libro. El lector interesado puede consultarla
en Andrews (1991).
Tema 16 625
variables cuasi diferenciadas y por tanto satisface los supuestos indicados en el recuadro an-
terior. Recordemos que el modelo (16.2.7) es equivalente a la expresión del modelo (16.2.4).
En particular, el supuesto de exogeneidad de X (presente y pasada) requiere que:
JE (Et ¡xt, xt-1, xt-2, ... ) =o.

Condicionar a Xt y a todos sus retardos es equivalente a condicionar a Xt , y a todos
sus retardos, pues Xt = Xt - </> 1Xt-l· Así, la condición de que X es exógena, equivale a
JE (Et IXt, Xt-1, ... ) =O, y dado que Et - </>1Et-1 = Et, se tiene
JE (Et - </>1Et-1 IXt, Xt-1 , ... ) = O

JE (Et IXt, Xt-l, ... ) - </>1JE (Et-1 IX t, Xt-l, ... ) o,
que para que se satisfaga con independencia (para todo) </> 1, es preciso que JE (Et IXt, Xt-1, ... ) =
O y JE (Et-l IXt , Xt-1, ... ) =O. Esta última condición puede reescribirse del siguiente modo:
(16.3.1)
Si aplicamos la Ley de las Esperanzas Iteradas (ver Teorema (2) en la página 71) , se
tiene que la propia expresión (16.3.1) implica a su vez JE (Et IXt, Xt-1 , ... ) =O, por lo que las
expresiones como
JE (Et ¡xt,Xt-1,Xt-2, ... )=o
y la ecuación (16.3.1) son equivalentes. Esto nos permite comprobar que para que se satisfaga
la condición (16.3.1) es necesario, sin embargo, que Xt sea estrictamente exógena, y no solo
exógena. Recordemos ahora que los modelos (16.2.4) , junto con sus condicionantes paramé-
tricos, y (16.2.5) son dos expresiones del mismo modelo. Por este motivo los requisitos para
poder estimar uno y otro deben ser iguales, por lo que si para estimar por MCO el modelo
en cuasi diferencias es necesaria la condición de exogeneidad estricta contenida en (16.3.1),
también lo será para estimar un modelo ARD del tipo (16.2.4).
16.4. ESTIMACIÓN DE LOS MODELOS Y PREDICCIÓN
El objetivo último es estimar, realizar inferencias de los multiplicadores dinámicos causales,

y, en su caso, utilizarlos para realizar predicciones. Dados los supuestos de la sección anterior
podemos ahora analizar cuándo es posible utilizar la estimación MCO, qué limitaciones tiene
y evaluar la existencia de otros estimadores más eficientes.
El modelo de retardos distribuidos (RD), dados los supuestos enunciados, se puede estimar
por MCO. El supuesto de exogeneidad (pasada y presente), junto con los supestos 2 y 3,
garantizan la consistencia de los estimadores MCO de los coeficientes del modelo de RD .
Como ya hemos anticipado los supuestos del modelo permiten que tengamos autocorrelación
en el error. En el Tema 4 se explicó que la autocorrelación no afecta a la consistencia de
los estimadores de los coeficientes estimados por MCO, afectando sin embargo a los errores
estándar. De hecho los errores estándar calculados por MCO serán inconsistentes, y la forma
de remediar este problema es utilizando los errores estándar HAC. que introdujimos varios
temas atrás. Por tanto, serán estos errores los que usaremos para evitar realizar inferencias
estadísticas engañosas.
La estimación :VICO del modelo (16.2.1) nos permite. por tanto. obtener los estimadores
de los multiplicadores dinámicos; a partir de ellos podemos estimar el multiplicador dinámico
acumulativo o de largo plazo simplemente realizando la suma de los estimados. Sin embargo,
mientras que los errores estándar de los multiplicadores dinámicos (de impacto) los obtenemos
al usar errores estándar tipo HAC en la estimación del modelo (16.2.1), no podemos, desde
ese mismo modelo, rescatar el error estándar del multiplicador de largo plazo.
Si estamos interesados en los multiplicadores acumulativos, afortunadamente, para obte-
nerlos bastaría con reparametrizar el modelo de la siguiente manera:
(16.4.1)
donde óo = /30, Ó1 = /31, Ó2 = /31 + /32 , Ó3 = /31 + /32 + {33, Ók+l = /31 + /32 + f33 + ... + f3k+1,
y por tanto estimar por MCO esta ecuación permite estimar los multiplicadores dinámicos
acumulativos y sus respectivos errores estándar HAC.
La insesgadez, por su parte, es un tanto más delicada. Cuando demostramos la insesgadez
de los estimadores MCO, se requería exogeneidad estricta, sin embargo podría ser -posible
que el supuesto menos restrictivo de exogeneidad pasada y presente fuera suficiente ya que las
relaciones que plantea el modelo pueden ser tales que las variables explicativas no violen el su-
puesto de extricta exogeneidad. Sin embargo, el modelo que incorpore la variable dependiente
como explicativa, necesariamente violará el supuesto de exogeneidad estricta y por tanto la
estimación será sesgada si bien, como hemos dicho anteriormente, será consistente.
El ejemplo más claro y sencillo que tenemos para verlo es el modelo autorregresivo de
primer orden que ya presentamos en temas precedentes:
yt = /JYt-1 +Et , t = 1, 2, ... , T;

modelo que conocemos como AR(l). Se pueden observar varias cuestiones relevantes. En este
caso particular, donde el único regresor es la varible dependiente retardada, la condición de
exogeneidad (pasada y presente) se satisface: !E (Et IYt- 1) = O. En cambio la exogeneidad
estricta (pasada, presente y futura) no se sostiene puesto que del propio modelo se tiene que
yt es función de Et, por tanto el error en el periodo t va a estar correlacionado con los valores
futuros de Y, yt, Yt+1, ... , Yr, y por tanto la esperanza condicionada por estos valores presente
y futuros va a ser distinta de cero.
De acuerdo a la relación entre ortogonalidad y exogeneidad (ver expresión (5.1.6)), se tiene
como conclusión de la observación anterior que
JE (rt+j · Et) # Ü, j = Ü, 1, 2 ...
para j =O, resulta
JE (yt ·Et) =JE ((/Jrt-1 + Et) · Et) = /JJE (rt-1 ·Et)+ JE (E¡),
que no será nula pues la varianza del error es distinta de cero.
Tema 16 627
En algunas ocasiones, el tipo de relación económica estudiada nos puede permitir excluir
las relaciones entre Y y el futuro de X (esto es, si se cumple el criterio de exogeneidad
estricta). En esos casos sería posible obtener estimadores alternativos para los efectos causales
dinámicos. Estos estimadores alternativos presentan alguna ventaja respecto de los MCO que
hemos comentado para los modelos RD.
En particular, la forma de obtener otros estimadores lo posibilita el supuesto de exoge-
neidad estricta junto con un tratamiento diferente de la correlación serial en Et· Esto no debe
entenderse necesariamente como que es más aconsejable utilizar modelos ARD frente a mode-
los RD o modelos estáticos de series temporales puesto que en ocasiones es posible que desde
el punto de vista económico, el problema que estamos tratando justifique utilizar modelos
RD o incluso modelos estáticos de series temporales. En tales casos, lo relevante será tener
presente que los errores tendrán autocorrelación.
En la ecuación (16.2.6) vimos que dicho modelo era equivalente al modelo (16 .2.4) , de
manera que la inclusión de un retardo de Y y uno adicional de X hace que el error no
esté autocorrelacionado (siempre que el error siga el proceso autorregresivo modelizado), de
este modo podemos estimar los coeficientes de dicho modelo por MCO y utilizar los errores
estándar por defecto en MCO, es decir, la inferencia estadística se realizaría correctamente
sin necesidad de usar errores tipo HAC.
Sin embargo, la estimación por MCO de (16.2.6) no nos permite recuperar directamente
los coeficientes de los efectos dinámicos de la Ecuación (16.2.4). Para poder recuperarlos, una
estrategia consiste en expresar la función de regresión estimada como función de los valores
actuales y pasados de Xt. P ara ello tendríamos que eliminar la yt de la función de regresión
estimada (es decir, de la estimación de la Ecuación (16.2.6)).
Por ejemplo, supongamos que hemos estimado el modelo
y queremos eliminar Yt-i· Para ello utilizamos la expresión de Yt-i y la sustituimos en la

ecuación anterior:
ft Ji (Ji Yt-2 + 8oXt-i + 8iXt-2 + 82Xt-3) + 8oXt + 8iXt-i + 82Xt-2

= 8oXt + (8i + Ji8o) Xt-i + ( 82 + Ji8i) Xt-2 + Ji82Xt-3 + JiYt-2.
El efecto causal dinámico del primer retardo ya estaría estimado. Para estimar el efecto
dinámico del segundo retardo, simplemente utilizaríamos Yt-2, el mismo proceso de sustitución
y agrupamiento de términos:
ft = 8oXt + (8i + Ji8o) Xt-i + ( 82 + J i81) Xt-2

' ' '2 '
+</i182Xt-3 + <Pi Yt-2
8oXt + (Ji+ Ji8o) Xt-1 + (82 + Ji81 + Ji8o) Xt-2
+J1 ( 82 + J181) Xt-3 + Jrft-3.

Esta expresión nos permite recuperar el efecto del segundo retardo. Si repetimos continua-
mente el procedimiento llegaríamos a
Yt 5oXt + (61 + J160) Xt -1 + (82 + J161 + Ji5o) Xt-2

+J1 (82 + J161 + Ji5o) X t-3 + Ji (62 + J161 + Ji5o) Xt-4 + ...
que nos permite tener un resumen compacto de una distribución de retardos larga y posible-
mente compleja estimando pocos parámetros. Afortunadamente estas operaciones las realiza-
mos a través del software especializado que ya comentamos en el primer tema.
Por otra parte, y alternativamente, también bajo el supuesto de exogeneidad estricta, es
posible obtener otro estimador si en lugar de estimar (16.2.6), lo que hacemos es estimar la
versión (16.2. 7), que (como hemos dicho) es equivalente. En tal caso, lo primero que tendríamos
que observar es que para estimar (16.2.7) precisamos de </>1 (en el caso de que conociéramos el
esquema autorregresivo del error así como el valor de este parámetro). Supongamos (si bien
no es realista, salvo si simulamos modelos en un ordenador) que lo supiéramos; en tal caso, si
la X es estrictamente exógena, obtendríamos los multiplicadores dinámicos simplemente con
formar las variables Xt , Yt, para t = 1, 2, .. . y realizar la regresión MCO. Obviamente no es
realizable o factible, puesto que desconocemos el valor de </>1.
Una versión factible o realizable consiste en estimar </> 1 a partir de los residuos MCO,
Et, obtenidos a partir de la estimación de la ecuación (16.2.1). Con los errores estimados, it,
obtenemos J1 a partir de la regresión MCO de
A A
El siguiente paso consiste en formar Yt = Yt J1Yt ,l XtA= Xt - J1Xt y posteriormente

A -
regresar, incluyendo el término independiente, Y sobre X y Xt-l· Los coeficientes estimados

flk. k =O, 1, 2, ... se denominan multiplicadores dinámicos de Cochrane-Orcutt.
Además el proceso se puede iterar, es decir, una vez estimados los parámetros originales
f3k. k = O, 1, 2, ... y </>1 es posible utilizar los estimadores de los mismos por Cochrane-Orcutt
(C-0) y obtener unos nuevos errores estimados it, a patir de ellos obtener un actualizado
J1 y a continuación unos nuevos estimadores C-0, y así sucesivamente hasta que iteración
tras iteración se alcanzara una convergencia de los parámetros estimados flki k =O, 1, 2, ... Se
conoce a estos multiplicadores causales dinámicos como multiplicadores de Cochrane-Orcutt
iterados.
En varios temas hemos tratado directamente el aspecto de hacer predicciones o pronósticos
sobre los valores de variables económicas. Muchas instituciones económicas (bancos, empre-
sas, gobiernos, ... ) demandan predicciones lo más acertadas posibles para asesorar la toma de
decisiones en la política económica del gobierno, en las estrategias de inversión, en la plani-
ficación de la producción, etcétera. Por lo que se refiere a los modelos formados a partir de
datos temporales, ya hemos visto que tenemos varias posibilidades para ello. Por un lado en
temas anteriores hemos visto que es posible modelizar únicamente utilizando valores anterio-
res de la variable yt , como es el caso de los modelos AR(p) tal y como lo hemos tratado en
el Tema 13, que es un tipo de modelo ARD sin retardos distribuidos. Igualmente podemos
Tema 16 629
realizar pronósticos mediante los métodos de alisado exponencial expuestos en el Tema 14.
Por último, la técnicas se completan con los modelos si ampliamos el modelo AR(p) a un
modelo ARD(p, q) con p > O, q > O.
16.5. EL MODELO DINÁMICO COMPLETO
Una especificación particular que evitaría problemas derivados de la autocorrelación, que

como sabemos su existencia no interrumpe por completo las buenas propiedades de los es-
timadores MCO, es la que se deriva de especificar un modelo dinámico completo. Para ver
qué significado tiene el término "dinámicamente completo" consideremos que el modelo que
genera los datos es el siguiente proceso estático de series temporales:
(16.5.1)
y supongamos que lo especificamos de manera que se satisface
(16.5.2)
El supuesto (16.5.2) dentro (junto con) del modelo (16.5.1) implica que
es decir, una vez que hemos considerado (controlado por) Zt , ningún retardo ni de Y ni de Z
ayuda a explicar el valor actual de Y. Obviamente el supuesto (16.5.2) también implica que
es decir exogeneidad contemporánea.

Sabemos que la autocorrelación es prácticamente consustacial a los modelos de series
temporales, incluso en el caso de que sean estáticos, tal y como ocurre con el modelo (16.5.1).
Si en lugar de un modelo estático consideramos un modelo dinámico como los que estamos
viendo en este tema, digamos el modelo de retardos distribuidos
(16.5.3)
entonces en caso de que se satisfaga el supuesto (16 .5.2)
Es decir, una vez que hemos tenido en cuenta Z y dos retardos, no es preciso considerar ni
más retardos de la variable Z ni ninguno de Y pues no afecta al valor actual de Y.
El supuesto también es ilustrativo en el caso de usar en un modelo dinámico autorregresivo
de retardos distribuidos (ARD). Sea el modelo
(16.5.4)
ahora, si es cierto (16.5.2), entonces
Lo que implica que una vez controlados Zt, Yt-1, Zt-1 , no hay otro(s) retardo(s) que afecte al
valor actual de Y , que es lo que queremos explicar.
Vemos que el supuesto (16.5.2) es relevante por varios motivos. Entre ellos uno es que
se adapta a los modelos dinámicos que hemos visto en este tema; otro es que garantiza la
exogeneidad JE (et IZt) = O, lo que es básico para obtener estimadores consistentes de los
coeficientes; por otro lado, nos permite decir que hemos especificado el modelo de manera
completa en el sentido de que para explicar Y se han incorporado todos los retardos necesarios
de todas las variables , ya sea de Y o de Z.
Obviamente, no es necesario que solo contemplemos una sola variable explicativa, Z, si no
que el supuesto se extiende a un conjunto de variables explicativas Xt = (Xit, X2t, ... , Xkt)
que puede contener variables retardadas de Y y/ o de Z. En un modelo general
el supuesto de modelo dinámicamente completo es
(16.5.5)
que en términos de Y es
(16.5.6)
Así, con independencia de lo que haya en el vector Xt hemos considerado todos los retardos
relevantes de las variables en X. Es decir. el modelo especificado utiliza completamente toda
la información sistemática en el pasado de yt y de las variables explicativas restantes. Por este
motivo , cuando se satisface este supuesto. se dice que el modelo dinámico es completo.
Una característica importante de tener un modelo dinámico completo es que entonces se
puede probar que los errores necesariamente estarán incorrelacionados. No obstante, como he-
mos visto puede ser prácticamente imposible especificar un modelo dinámicamente completo,
lo cual no es un severo problema en la medida en que podemos realizar inferencia estadística
correctamente siempre que usemos errores robustos HAC.
La clave del modelo dinámicamente completo reside en la selección de las variables condi-
cionantes que incorporamos en Xt. De modo que si nuestro interés se centra en explicar yt en
términos del pasado de Y y posiblemente de valores pasados de otra secuencia, digamos Zt,
entonces el modelo es completo si hemos considerado suficientes retardos de Y y de Z , que
hemos incluido en Xt para capturar la dependencia del pasado. En el caso del modelo estático
(16.5.1), el vector condicionante es Xt = (Zt); en el modelo (16.5.3), Xt = (Zt, Zt-1, Zt-2);
y en el modelo ARD (16.5.4), Xt = (Zt, Yt- 1, Zt-1). Observamos, por ejemplo, que cuando
el condicionante es Xt = (Zt), asumir el supuesto (16.5.6) es equivalente a que la relación
estática sea la dinámica, lo cual, en general, es bastante restrictivo en los modelos de series
temporales, si bien aun así la relación estática puede ser de gran interés desde el punto de
Tema 16 631
vista económico. En cambio, si el condicionante es Xt = (Zt, Yt-1, Zt-1), entonces asumir que
el modelo es dinámicamente completo supone que la dinámica es de primer orden, lo cual es
menos restrictivo que el caso anterior.
Teóricamente podemos permitir que la dimensión del vector Xt crezca lo desado con t, en
tal caso siempre podríamos elegir Xt = (Zt, Yt-1, Zt-1 , .. ., Y1, Z1) o bien Xt = (Yt-1, Zt-1, .. ., Y1, Z1)
o Xt = (yt_ 1, Yt-2, .. ., Y1) para asegurar un modelo dinámicamente completo. En la prácti-
ca resulta más realista considerar que incluyendo un número suficiente de retardos podamos
aproximarnos a un modelo dinámicamente completo. Este tipo de aproximaciones tienen que
ser lo mejor posible si nuestro interés está fundamentado solo en realizar una predicción. Es
decir, para la predicción sí debería ser una prioridad que el modelo esté lo más dinámicamente
completo, lo cual supone realizar constantemente contrastes estadísticos de correlación serial
(au tocorrelación).
Desarrollamos ahora la demostración por la que el modelo dinámico completo implica
necesariamente ausencia de autocorrelación en el error.
La expresión del supuesto de modelo dinámico completo (16.5.5) es equivalente a
JE(ct IXt ,Et-1, Xt-1,Et-2, ... ) =O. (16.5.7)

Por la Ley de las Esperanza Iteradas , para
JE [JE (csét IXs, Xt , Es) IXs, Xt]

JE [csJE (et IXs, Xt , Es) IXs, Xt]
JE [csÜ IXs, Xt]
o.
Donde la penúltima igualdad se deduce de aplicar el supuesto (16.5.7): obsérvese que el con-
dicionante (X s, Xt, Es) es un subconjunto del condicionante de (16.5.7).
Por último, queremos llamar la atención del lector indicándole que observe que hasta el
momento para especificicar el modelo dinámico hemos contemplado solo el uso de variables
estacionarias. En el próximo tema abordaremos qué sucede cuando las series no lo son, y qué
alternativas se presentan ante tal eventualidad al económetra.
16.6 . APLICACIÓN DE LOS MODELOS UNIECUACIONALES

DINÁMICOS: LA LEY DE ÜKUN
Consideremos ahora un ejemplo económico particular. Vamos a examinar con datos reales
la Ley de Okun. A estos efectos, recordemos que según la ley, un cambio en la tasa de desempleo
de un periodo al siguiente depende de la tasa de crecimiento del output de la economía:
Ut - Ut-1 = -¡ (9t - 9N),
donde Ut es la tasa de desempleo, 9t es el cremiento del PIB, y 9N se refiere a la tasa de

crecimiento normal del PIB de la economía estudiada. El modelo econométrico propuesto
podría ser el siguiente
donde~ es el operador diferencia, tal que ~Ut = Ut-Ut-1, para todo t = 2, 3, ... , T ; a= "f9N; y
f3o = - "(. El parámetro a refleja la variación en el nivel de desempleo si no hubiera crecimiento
(en términos reales) en la economía. A su vez, el coeficiente f3o al estar las variables en términos
porcentuales tendrá una interpretación del tipo elasticidad. De hecho el parámetro captura la
elasticidad del desempleo respecto del PIB real.
A partir del modelo podemos localizar el umbral de la tasa de crecimiento del PIB com-
patible con una variación nula en la tasa de desempleo. La teoría económica, consustancial
en el análisis econométrico, contempla varias explicaciones para una relación entre la tasa de
desempleo (y por tanto del empleo) y la tasa de crecimiento de la economía. En un mundo
en el que las empresas estuvieran mayoritariamente en competencia perfecta, el salario real,
establecido en el mercado de trabajo, determinará las horas contratadas -y por tanto el nivel
de empleo (desempleo)- por las empresas, que podrían vender todo lo que deseen, no viéndose
afectadas por el nivel de demanda agregada de la economía. Alternativamente, si abunda la
competencia monopolística, entonces la demanda agregada de la economía (output produci-
do) determinará el salario real - minimizando los empresarios los costes de producción- el cual
determinará el nivel de empleo (desempleo) .
Esta relación, desde el punto de vista econométrico es, sin embargo, un tanto inocente
en el sentido de que es más probable que los cambios en la producción (output) afecten al
desempleo con cierto retardo temporal, y no solo simultáneamente como se desprende del
modelo anterior. Una modelización que recoge estos efectos dinámicos es la siguiente:
fiut = a+ f3o 9t + f319t-1 + ... + f3q9t-q +Et· (16.6.1)

Supongamos inicialmente que la variable relativa al crecimento económico es exógena, si
bien volveremos sobre esta cuestión más adelante. De este modo , el modelo (16.6.1) es del tipo
RD, y puede estimarse fácilmente , siendo conscientes de los supuestos que hemos de asumir,
si queremos estimar correctamente el mismo. En todo caso, para la estimación, obviamente,
es necesario partir de los datos observados. Los datos con los que vamos a estimar el modelo
RD son relativos a las series temporales de tasa de desempleo y crecimiento real del PIB en
los EE.UU.
Las siguientes figuras muestran las dos series respectivas para el mismo rango de fechas.
El modelo (16.6.1) se estima a partir de las series de crecimiento del PIB y la variación en la
tasa de desempleo. En consonancia con el apartado dedicado a la estimación de estos modelos,
estimamos por MCO utilizando errores estándar tipo HAC. El resultado de considerar q = 3
en dicha regresión es el siguiente:
--
!iUt = 0,58 -
(0,063)
0,20 9t -
(0,0276)
0,16
(0,0338)
9t-1 - 0,07 9t-2
(0,0315)
+ 0,003 9t-3,
(0,0365)
R 2 ajustado = 0,637, T = 95, AIC = - 44,66241,

errores estándar HAC entre paréntesis. Dada la significatividad del coeficiente correspondiente
al retardo q = 3, es conveniente eliminarlo de la regresión y fijar por tanto q = 2:
--
fiut = 0,58 -
(0,0621)
0,20 9t -
(0,0278)
0,16
(0,0310)
9t-1 - 0,07 9t-2,
(0,0295)
R 2 ajustado = 0,642, T = 95, AIC = -50,69367.

Tema 16 633
Figura 16.6.1: Gráficos del crecimiento PIB real y la Tasa de desempleo de EE.UU.
Crecimiento del PIB
2.5
2
1.5
1
0.5
o
-0.5
-1
-1.5
1986 1992 1998 2004 2010
Tasa de desempleo
10
9
8
7
6
5
4
3
1986 1992 1998 2004 2010
Figura 16.6.2: Crecimiento del PIB real y variación en la Tasa de desempleo de EE.UU.
Crecimiento del PIB
2.5 ~~-~----~------~-~---~------~
2
1.5
1
0.5
o
-0 .5
-1
-1.5 ' - - - ' - - - - - - - - - ' - - - - - - - -..___ _ _ _ ___e'-------~
1986 1992 1998 2004 2010
Diferencia Tasa Desempleo

1.2
1
0.8
0.6
0.4
0.2
o
-0.2
-0.4
1986 1992 1998 2004 2010
634 EFECTOS CAUSALES DI ÁMICOS
Del modelo RD(2) estimado obtenemos los multiplicadores de impacto para los 3 periodos
considerados. Así, una variación en el crecimiento del PIB genera un efecto sobre la tasa de
desempleo que se dispersará a lo largo los siguientes periodos. En efecto, el aumento de un 1
por ciento en PIB generará, de acuerdo al modelo, un descenso medio sobre la tasa de des-
empleo del 0.20 % durante el mismo trimestre, un descenso medios del 0.16 3 en el siguiente
trimestre, y finalmente un descenso medio del 0.07 % durante el segundo trimestre desde el
cambio inicial. Obviamente también podemos obtener los multiplicadores acumulativos . En
este modelo estimado tendríamos - (O, 2 +O, 16 +O, 07) = -0, 43 de multiplicador acumulati-
vo de largo plazo; que indica un efecto de un descenso medio, en 9 meses, de la tasa de paro de
0.43 puntos porcentuales como consecuencia de un incremento de un 1 por ciento por encima
del cremiento normal de la economía estadounidense. Obsérvese, que si bien podemos utilizar
los errores estádar estimados en la regresión anterior para ver la precisión de los estimado-
res de los multiplicadores de impacto , sabemos que esto no es posible para el multiplicador
acumulado de largo plazo (y los intermedios). Para obtener el error estándar válido debemos
recurrir a estimar un modelo del tipo indicado en la expresión (16.4.1)
En tal caso el modelo estimado sería

-
L .ut = 0,58 - 0,20 6.gt - 0,36 Í::.9t-l - 0,43 9t-2 ,
(0,0621) (0,0278) (0,0439) (0,0441)
y por tanto los errores estándar HAC que aparecen en paréntesis son los que hemos de utilizar
para estudiar la significatividad y / o construir intervalos de los multiplicadores acumulados .
¿Es posible estimar los multiplicadores dinámicos de manera más efeciente respecto a
la estimación MCO de los coeficientes en el modelo de retardos distribuidos? Tal y como
hemos visto anteriormente esto sería posible si la variable g fuera estríctamente exógena
(exogeneidad pasado, presente y futuro) , pese a existir auto correlación en los errores de la
regresión. No obstante, antes de utilizar estos métodos más eficientes es necesario evaluar si
tiene sentido que g sea estrictamente exógena. ¿Los otros factores que explican la variación
de la tasa de desempleo en el momento t podrían estar eventualmente relacionados con los
valores de la tasa de crecimiento en el futuro ? La respuesta puede ser perfectamente positiva:
por ejemplo, las rigideces de los mercados de trabajo afectan a la evolución actual de la tasa
de desempleo, y están en el término error; es previsible que las autoridades económicas estén
tratando continuamente de mejorar dichas rigideces para reducir el desempleo futuro. Las
medidas implementadas en el tiempo t afectarán factiblemente a la evolución del PIB, y por
tanto sería difícilmente sostener que la variable crecimiento es estrictamente exógena, y en
consecuencia los métodos alternativos a MCO no deberían ser utilizados.
Cuando iniciamos este apartado supusimos que la variable crecimiento era exógena, y
acabamos de comprobar que no lo es estrictamente exógena. ¿Es creíble que sea exógena
(presente y pasado)? Hay varios motivos que hacen pensar que la variable crecimiento es
endógena. Inicialmente parece de sentido económico la existencia de variables omitidas en el
modelo econométrico planteado, como pueden ser las variables crecimiento de la población, que
afecta directamente tanto a la evolución del desempleo como a la del crecimiento medido en
Tema 16 635
términos del PIB real; el grado de competencia en los mercados de bienes y servicios; los costes
de ajuste de los inputs (costes de despido y de contratación, etcétera). También es razonable
económicamente pensar que un conjunto común de variables expliquen tanto la evolución
del desempleo , como la del crecimiento, generando así una relación de bidireccionalidad: en
función de la productividad, un mayor creciento del PIB conlleva un aumento neto del empleo
(una disminución del desempleo neto). En paralelo, un mayor empleo (menor desempleo), en
función de cómo se estén utilizando otros factores productivos, impulsará la demanda agregada
y por tanto el crecimiento.
El resultado de esta simultaneidad (bidireccionalidad) y, en su caso, de la existencia de
variables omitidas en el modelo, es que ninguna de las dos variables sería exógena respecto de
la otra. Y si esto es así, entonces las anteriores estimaciones no estarían capturando consis-
tentemente el efecto causal dinámico del crecimiento en la evolución de la tasa de desempleo.
La alternativa más natural es optar por una aproximación econométrica que nos permita
contemplar fundamentalmente los problemas de causalidad bidireccional. Para ello los mode-
los dinámicos multiecuacionales, a diferencia de los presentados en este tema, son una solución
muy atractiva cuando tenemos series temporales de las variables en cuestión. La metodología
consistente en formar vectores autorregresivos nos permitirá afrontar con mayor éxito pro-
blemas de bidireccionalidad y variables omitidas, y se presentará en temas ulteriores. Esta
misma metodología multiecuacional ofrece dos potenciales ventajas adicionales: nos permiti-
rá aproximarnos mejor a un modelo dinámicamente completo y mejorará la calidad de las
predicciones respecto a los modelos uniecuacionales.
Es relevante apreciar que muchas de las relaciones macroeconómicas que interesan al eco-
nomista pueden fácilmente estar impregnadas de causalidad bidireccional, generando que los
regresores sean endógenos. Determinar la exogeneidad de una variable require, en general, una
combinación de teoría económica, junto con una valoración de las instituciones que afectan al
entorno económico.
16.7. MODELOS RD Y ARD CON EL OPERADOR

DE RETARDOS L
Consideremos inicialmente que el modelo ARD (p,q) de la ecuación (16.2.3) no tiene
constante, por lo que lo podríamos reescribir de la siguiente manera:
p q
Yt = L 'YiYt-i + L .8iXt-i +Et, Et rv w N(O, a 2 )) (16.7.1)
i= l i=O
donde el acrommo WN se refiere a ruido blanco (White Noise). Este modelo también lo
podemos reescribir así
(16.7.2)
donde ahora
C(L) 1 - "(1L - "(2L 2 - ... - "fpLP

2
B(L) = .80 - ,81L- ,82L - ... - ,BqU.
Si incluimos la constante, la diferencia es mínima notacionalmente
C(L) (yt - 'Yo) = B(L)Xt +Et,
por lo que el tratamiento lo daremos sin incluir la constante, o alternativamente es como si

las variables estuvieran en diferencias respecto de sus medias. Para recordar este aspecto, y
siguiendo la notación de este libro , las letras estarán en grafía de minúsculas.
Una utilidad del modelo expresado en (16.7.1) es que nos permite contemplar varios casos
particulares. Así si q =O el modelo se reduce a un tipo AR(p):
Et , o bien
p
Yt L r iYt- i +Et·
i=l
En caso de que p =O , tenemos un modelo del tipo RD(q)
Yt B(L )xt +Et, o bien

q
Yt L /3iXt-i +Et·
i =l
Si combinamos p = 1, q = 1 obtenemos el modelo ARD(l,1), que ha sido frecuentemente

utilizado en la literatura, entre otros, porque permite expresar el modelo de la siguiente
manera:
6yt = f3o6Xt + (r - 1) (Yt-1 - (lxt-1), B :=({Jo+ /Ji)/ (r - 1).
Por otra parte, del mismo modo que requerimos unas condiciones de regularidad en los
modelos autorregresivos y de medias móviles (AR y MA) para que el modelo sea estable, tam-
bién ahora se hace pertinente hacer dichas consideraciones. Para ver cuáles son reescribimos
el modelo (16.7.2) de la siguiente forma
B(L) 1
Yt C(L)Xt + C(L)Et
D(L)xt + Tlt
ÓoXt + Ó1Xt-l + Ó2Xt-2 + ... + Tlt
(óo + ó1L + ó2L 2 + ... ) Xt + Tlt·
Naturalmente D(L) es un polinomio infinito resultante del cociente B(L)/C(L). Es necesario
observar que el nuevo término error está ahora afectado por la correlación. La restricción que
debemos hacer es que el impacto total sobre Yt sea finito, de modo que pasado un tiempo
la variable retorne a un nuevo equilibrio o retorne al equilibrio anterior. Para lograr esta
estabilidad es necesario, por tanto, que la suma de los coeficientes derivados del polinomio
D(L) sea convergente (finita). Formalmente, ese requisito se cumple siempre que las raíces del
polinomio C(L) sean superiores a la unidad .
En los apartados anteriores hemos aludido a distintos tipos de multiplicadores. Por ejem-
plo, los multiplicadores dinámicos correspondientes a distintos periodos se pueden deducir
Tema 16 637
fácilmente a partir de la expresión Yt = D(L)xt + rJt· Una variación unitaria de Xt afectará a

Yt, es decir en el periodo actual, de acuerdo a
OYt B(O)
8xt = D(O) = C(O) = 80 = f3o,
mientras que la misma variación afectará k periodos hacia adelante de acuerdo a
OYt+k _ OYt _ ,
------uk
OXt OXt-k '
que salvo para el caso de que p = O no coincidirá con f3k· En particular, si consideramos el
modelo ARD(l,1)
Yt = /lYt-1 + f3oxt + f31Xt-l + ft,
es decir
los multiplicadores dinámicos serían
ªYt+l
OXt
0Yt+2
OXt
OYt+k ªYt , ªYt+k

-!l-- = Uk = /1-!l-- = llk-1 ( /lf30 + f31 ) >
OXt UXt-k UXt
de modo que se estabiliza, es decir, el multiplicador dinámico se aproxima a cero a medida que
pasan los periodos siempre que 111! <l. Lo que equivale a que el polinomio C(L) = (1 - ¡ 1 L)
tenga la raíz fuera del círculo unidad.
El multiplicador dinámico acumulativo de largo plazo será la suma de todos los, posible-
mente infinitos, anteriores:
00
B(l)
L Ój = C(l) = D(l).
J=Ü
Indicamos que el hecho de que fueran infinitos no sería un problema toda vez que la suma
fuera finita al estar garantizado por las condiciones de las raíces del polinomio. En el caso
particular del modelo ARD(l ,1) podríamos haber obtenido los multiplicadores a partir de la
suma de los multiplicadores dinámicos:
f3o + 11f30 + f31 + /1 b1f30 + f31) + lf b1f30 + f31) + ···

+ lf + ¡f + ···) + f31
f3o ( 1 + 11 ( 1 + 11 + lf + ¡f + ···)
= ~+ _f!2._
1 -11 1 -11 '
que es exactamente D(l).
638 EFECTOS CAUSALES DINÁ:\1ICOS
EJERCICIOS
1. En los países desarrollados3 el petróleo es una materia prima central en sus economías.
Como resultado. la evolución del precio de esta materia prima puede afectar a la econo-
mía real. Algunos macroeconomistas consideran algunas crisis económicas (obviamente,
no en todas) han sido provocadas por fuertes variaciones en el nivel de precios del pe-
tróleo. De hecho se ha considerado que para que haya incidencia en la producción, el
precio del petróleo debe estar por encima de sus valores pasados recientes. Un modelo
como los presentados en este tema puede resultar interesante para cuantificar el efecto
de los precios del petróleo sobre la act ividad económica real de modo que se puedan
capturar los efectos dinámicos de la variación de precios del petróleo sobre la evolución
del PIB. Es necesario prestar atención a cómo se pueden definir las variables que vamos
a relacionar: respecto al PIB, nos interesa su variación porcentual trimestral, es decir,
yt = lOOln(PIBt/PIBt_i), mientras que para los precios del petróleo nos interesa la
diferencia, en puntos porcentuales, entre el precio del petroléo en el periodo t y su valor
máximo a lo largo del año anterior. Denotamos esta variable diferencia máxima porcen-
tual por Dmaxt. El modelo estimado para la economía estadounidense en el periodo
1955I-2000:IV es
Yt 1 - 0,05Dmaxt - 0,026Dmaxt-1 - 0,031DmaXt-2 - 0,109Dmaxt-3

-0,128Dmaxt-4 + 0,008Dmaxt-5 + 0,025DmaXt-6 - 0,019Dmaxt-7
+0,067 DmaXt-8
a) Indique qué tipo de modelo se ha estimado.

b) Interprete el coeficiente relativo a la variable Dmaxt.
e) Suponga que los precios del petróleo se situan un 25 % por encima de su valor
máximo anterior y se mantienen en ese nivel a partir de entonces. ¿Cuál sería el
efecto previsto sobre el crecimiento de la actividad real para cada trimestre de los
próximos dos años?
d) Construya un intervalo de confianza para la respuesta dada en c) .
e) ¿Cuál será la variación acumulada en el PIB para ocho trimestres?
2. Considere el siguiente modelo
yt = 2 + 0,4Yt- 1 + 2,0Xt - 0,8Xt-1 + ft,
donde Xt es estrictamente exógena.
a) Clasifique el modelo de acuerdo a lo explicado en la teoría.

b) Obtenga el efecto de impacto de X sobre Y.
e) Obtenga los cinco primeros multiplicadores dinámicos de impacto.
3
Tanto este ejercicio como el siguiente fueron propuestos por Stock y Watson en su reciente manual.
Tema 16 639
d) Obtenga los cinco primeros multiplicadores acumulados.

e) Obtenga el multiplicador dinámico de largo plazo acumulado.
f) Indique qué papel juega la exogeneidad estricta en este modelo.
3. Considere el modelo siguiente
yt = 0,8Yt-1 + 3Xt +Et.

a) Clasifique el modelo.
b) Indique cuáles son los polinomios B(L) , C(L) y D(L).
e) Obtenga el multiplicador dinámico acumulativo de largo plazo.
4. Considere el siguiente modelo dinámico
yt = 4>1Yt-1 +Et, Et rv Normal, IID(O, 1),
y T = 10, 20, 80, 100.
a) Para 4> 1 = 0,5 simule 1000 réplicas del modelo para cada T, y estime su correspon-
diente ~ 1 (T), T = 10, 20, 80, 100.
b) Para cada T del apartado anterior, calcule el estimador del sesgo , es decir,
1 1000
E (J1 (T) - 4>1) = 1000 L (J1 (T) - 4>1) .
i=l
e) Compruebe si para cada T, el sesgo estimado se aproxima a -~i .
5. Considere el siguiente modelo
yt = 0,5Yt-1 + Xt +Et, Et rv Normal,IID(O, 1)
a) Ahora puede haber sesgo de estimación proveniente del parámetro autorregresivo

y del parámetro que afecta a X. Compruebe qué sucede con el sesgo de ambos
parámetros utilizando los pasos del ejercicio anterior. Represente estos sesgos grá-
ficamente.
b) ¿Qué conclusión puede sacar de los resultados obtenidos en el apartado a)?
Tema 17
TENDENCIAS, RAÍCES UNITARIAS Y

REGRESIONES ESPURIAS
Al plantear un modelo de regresión múltiple estamos imponiendo criterios que de alguna

manera se acomoden en su conjunto a cierto tipo de estacionariedad: los parámetros deben
ser estables en el tiempo, la varianza de los errores constante, los errores deben estar no
autocorrelacionados, entre otros.
En la práctica estos supuestos son difíciles de cumplir, y cuando las variables utilizadas
en el análisis de regresión son no estacionarias, entonces no podemos recurrir al Teorema
Central del Límite y simplificar los supuestos del modelo clásico de regresión lineal, ni siquiera
asintóticamente. En estas condiciones (incumplimiento de los supuestos clásicos) , el problema
de utilizar en el análisis de regresión series temporales no estacionarias puede llegar a ser
crítico y las conclusiones de sus resultados pueden ser erróneas.
Por el contrario, cuando las variables son estacionarias y su función de autocorrelación
(FAT) tiende a cero rápidamente a medida que aumenta el desfase, es decir que p (Xt, Xt+u) =
O cuando u--+ oo, de manera que están asintóticamente incorrelacionadas, es decir, son ergó-
dicas (o de forma menos técnica podemos decir que los valores de las series estacionarias son
casi independientes a medida que el desfase aumenta), entonces podemos considerar «como
si» las observaciones hubieran sido obtenidas mediante muestreo aleatorio, que es el supuesto
que hacemos en los temas dedicados a la regresión lineal en la Parte I del libro, y que cuando
utilizamos series temporales, en lugar de sección cruzada, hemos de considerar un supuesto
alternativo 1 . En consecuencia podemos aplicar la Ley de los Grandes Números y el Teorema
Central del Límite. En definitiva las variables estacionarias son ideales para utilizarlas en el
análisis de regresión de series temporales.
Puesto que el carácter no estacionario de las variables puede tener consecuencias cuando
las utilizamos en el análisis de regresión, en el sentido de que los contrastes de hipótesis,
los intervalos de confianza y las predicciones habituales pueden resultar poco fiables si no se
cumplen los supuestos clásicos, en este tema analizaremos los tipos de no estacionaridad más
habituales de las series de tiempo económicas y también sus posibles soluciones.
1
Compárese la Suposición 3 con el supuesto adaptado expuesto a continuación en esta misma Sección 4.1.
641
642 TENDENCIAS , RAÍCES U~ITA RIAS Y REGRESIO:\ ES ESPuRIAS
17.1. CONCEPTO DE TENDENCIA
Muchas series económicas presentan un comportamiento parecido al que mostramos en los

paneles a) y b) de la Figura 17.1.2. Por ejemplo, una serie del logaritmo del PIB de un país
podría tener fácilmente rasgos muy similares a los descritos por el panel b) de dicha Figura.
Entre ellos el más relevante es que la media, lejos de ser constante, tiende a crecer con el paso
del tiempo. A esto (promedio creciente o decreciente) nos referiremos por tendencia en la media
o proceso con tendencia determinista. El panel a) de la Figura 17.l.2 bien podría representar
el logaritmo de un tipo de cambio de dos divisas. Sin duda, dicho panel sugiere otro tipo de
tendencia, desde luego uno en el que el proceso no tiene una tendencia en la media, aunque
sí parece mostrar que cada cambio tiene un efecto prolongado sobre sus valores posteriores
de manera que. a diferencia del anterior caso, el mejor predictor de valores futuros es el valor
actual. Este tipo de procesos decimos que tienen una tendencia estocástica.
Los motivos por los que algunas series temporales (históricas) económicas tienden a pre-
sentar un comportamiento parecido al del panel b) de la Figura 17.1.2 posiblemente sea porque
las tasas de crecimiento de algunas variables económicas, empresariales o sociales provienen
de un proceso con ciertas características que son estables intrínsecamente. Dichas caracterís-
ticas están precisamente recogidas en el tipo de tendencia. Por ejemplo, suele ser habitual
considerar que las tasas de crecimiento de algunas variables (como es el caso de la variable
«población», por ejemplo) sigan una pauta proporcional, como sería la situación generada a
partir de un modelo yt = ef3ot en el que la variable yt crece a una tasa d(yt) / dt = f3oYt,
que como vemos induce a considerar que la tasa sigue una pauta determinada. Se observa
que podríamos estimar el modelo haciendo primero el logaritmo de la variable ln(yt) = {30 t y
posteriormente estimando por MCO. Lo que motiva que en muchos casos se modelice a partir
del logaritmo de la serie.
Lógicamente también hay otras muchas potenciales variables a estudiar para las que difí-
cilmente puede considerarse que la tasa de crecimiento siga una pauta determinista. Antes al
contrario, hay variables como las sugeridas en el panel a) de la Figura 17.l.2 para las que la
media de la serie no es tan sistemática como en el caso del panel b) como para representarla
mediante una tendencia determinista, y sin embargo la media estaría más adecuadamente
descrita por un proceso estocástico. Nuevamente, en tal caso, podemos observar la pertinen-
cia de trabajar sobre los datos en logaritmos. Para ello observemos que la diferencia de los
logaritmos nos lleva a
ln(yt) - ln(yt_i) ln(ytjyt_i)

ln{ l + [(Yt- yt_i) / Yt-1]}
(yt - Yt-1) /Yt-1,
donde hemos aplicado un infinitésimo equivalente que indica que para valores próximos a cero
se tiene ln(l + x):::::: x.
Comprobamos que, tanto para un tipo de evolución de las tasas de crecimiento, como para
otro (o equivalentemente para ambos tipos de tendencia) , la transformación a logaritmos de las
variables tiene una interpretación económica. De hecho hemos comprobado que ambos tip ~
Tema 17 643
de evolución implican diferentes concepciones de la tendencia de la serie. Por este motivo es

importante considerar qué se entiende por tendencia.
De modo intuitivo podemos entender la tendencia como el movimiento sistemático y per-
sistente a largo plazo de una variable en el tiempo. Esto nos permite entender que los movi-
mientos de la variable que observamos fluctúan, en el tiempo, en torno a esa tendencia, ya
sea esta determinista o estocástica.
Como veremos es importante considerar y distinguir dichas tendencias. No tener en cuenta
el componente tendencia!, cuando utilizamos series no estacionarias en el análisis de regresión ,
nos puede llevar a concluir equivocadamente que los cambios en una variable son los causantes
de los cambios en otra, cuando en realidad ambas series parecen correlacionadas solo porque
ambas presentan tendencias temporales por motivos que tienen que ver con otros factores
inobservables distintos de los considerados en la regresión.
1 7 .1.1. Tendencias deterministas

Hay muchos ejemplos de series temporales económicas cuyo movimiento puede ser descri-
to como una tendencia determinista. Por ejemplo, si tomamos una muestra suficientemente
larga, el PIB de cualquiera de los países de la UE presenta una tendencia creciente del tipo
determinista. Una tendencia determinista es aquella que puede ser descrita por una función
no aleatoria del tiempo. De esta definición se deduce que una serie con tendencia determinista
es necesariamente no estacionaria. Esta forma de no estacionaridad se manifiesta como la
propensión de la serie a moverse en una dirección (creciente o decreciente) . En la práctica
supone introducir la influencia temporal como una variable más en el modelo de regresión.
Las tendencias determinísticas más usuales son las lineales, exponenciales o cuadráticas.
Obtenemos una tendencia lineal si calculamos por MCO la siguiente expresión:
ft = 'ílo + 'í31t, para t = 1, 2, ... ;

obtenemos una tendencia exponencial mediante
-
ln yt =
~ ~
f3o + {31t, para t = 1, 2, ... ,
y una tendencia cuadrática calculando la siguiente expresión:
(17.1.1)
Decimos que yt tiene una tendencia lineal, exponencial o cuadrática, si la serie libre de ten-
dencia, yt - Yt = Zt, es estacionaria [IE (Zt) =O, var (Zt) =a~, Pu= P-u]. También se suele
denominar a este tipo de procesos no estacionarios como procesos estacionarios en tendencia.
Un proceso de este tipo, por tanto, es uno en el que la parte estocástica es estacionaria, y la
parte no estacionaria es determinista, por ejemplo:
Yt = f3o + !31 t + estacionario

donde hemos tomado una tendencia lineal, si bien podríamos haber puesto, en general, cual-
quier otra. Y la parte indicada por «estacionario» podría ser cualquier forma estacionaria
644 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
estudiada previamente, por tanto podríamos indicarla como IJ!(B )Et, siendo 'll(B) el corres-
pondiente polinomio de retardos.
Puesto que, como hemos señalado, la regresión entre variables no estacionarias puede
presentar graves problemas, conviene eliminar este movimiento antes de relacionar dichas
variables en un modelo de regresión. Así trabajaremos, en general, con la expresiones generales
del tipo
(B)(Yt - /30 - f31t) = 8(B) Et
donde los polinomios respectivos son indicativos de la parte autorregresiva y de media móvil.
Un caso muy sencillo es
(17.1.2)
a partir del mismo podemos preguntarnos cuál es la contribución de la tendencia temporal

sobre la variable Y. La respuesta es que la contribución es exactamente la constante f31, puesto
que la contribución de parte tendencia sobre Y varía de [31 t a f3 1 (t+ 1) de un periodo a otro.
Otro ejemplo consiste en considerar un proceso AR(l) en la parte estacionaria:
(17.1.3)
por tanto 8(B) = l. En este caso, obviamente, el proceso no estacionario yt es estacionario

en tendencia puesto que la parte Plt-1 +Et, que denotaremos por Zt, es estacionaria.
A partir de este modelo resulta ilustrativo observar el comportamiento de las predicciones
s periodos hacia adelante:
JE(Yt+s IYt, Yt-1, ... ) JE (f3o + f31 (t + s) IYt, Yt-1, ... ) +JE (Zt+s IYt, Yt-1, ... )
f3o + f31 (t + s) +JE (Zt+s IYt, Yt-1, ... )
f3o + !31 (t + s) +JE (Zt+s IZt, Zt-1, ... )
= f3o + f31 (t + s) + p8 Zt (17.1.4)
donde la penúltima igualdad es correcta puesto que los vectores (Yt, Yt-1, ... ) y (Zt, Zt-1, ... )
son informativamente idénticos, y la última igualdad se obtiene a partir de calcular la espe-
. . da so bre Z t+s = Et+s + PEt+s-1 + ... + ps-1 Et-1 + pszt·
ranza con dic10na
De particular interés es comprobar que entonces la predicción s-periodos adelante, con
un horizonte suficientemente largo , converge a la tendencia lineal [30 + (31 (t + s). En otros
términos, los valores pasados y presentes de Y no afectan a la predicción. Como veremos esto
es diferencial respecto a los procesos con tendencias estocásticas.
Algo similar ocurre si f3o = f31 = O. En esta situación
JE(Yt+s IYt, Yt-1, ... ) = P8 Zt = P8 (PYt-1 +Et)
que nos permite comprobar que: (i) el efecto de los shocks o innovaciones, Et, tienden a des-
parecer a medida que pasa el tiempo, es decir, tienen un efecto transitorio sobre la predicción
(sobre la media condicionada); (ii) el efecto sobre la media condicionada (predicción) del valor
inicial de Yt-1 también desaparece con el paso del tiempo.
Tema 17 645
Por último, y desde una perspectiva más aplicada, si las variables presentasen únicamen-
te tendencia determinista lineal, la eliminación de dicho movimiento puede llevarse a cabo
regresando dicha variable con respecto al tiempo
Los residuos de esta estimación Uyt representarían entonces la serie libre de tendencia y,
como tal, podría ser incluida en el modelo de regresión. Por ejemplo, en el caso de dos variables
X e Y, la regresión se calcularía como:
iLyt = 80 + 81 iLxt·
Alternativamente podemos efectuar la regresión entre los valores originales, incluyendo el
tiempo como un regresor adicional. Puede demostrarse que en este caso el estimador es el
mismo, es decir
resultado que se generaliza para considerar el supuesto de que haya más variables explica-
tivas. Por consiguiente, cuando hay variables con tendencias deterministas puede resultar
conveniente incluir el tiempo como un regresor más en el modelo de regresión.
17.1.2. Tendencias estocásticas

Sin embargo, las series temporales pueden presentar, como ya hemos anticipado, otro tipo
de tendencia que denominamos tendencia estocástica y que no se caracteriza por presentar
una media que cambia a una tasa constante en el tiempo. Podemos definir la tendencia
estocástica a partir de una función aleatoria del tiempo: la media no se mantiene constante,
pero en contraste con la tendencia determinista, su cambio es impredecible.
La tendencia estocástica considera que el componente tendencia! de las series económicas
es aleatorio y por tanto la variación (incremento o decremento) de la variable es de naturaleza
estocástica. Recordemos que la tendencia determinista considera sin embargo que tal variación
es constante cada periodo. A continuación lo exponemos más técnicamente.
La forma técnica de introducir una tendencia con un comportamiento estocástico como
el que describimos en lo párrafos anteriores es mediante una raíz unitaria (concepto que ya
mencionamos en el apartado 13.12). Un proceso estocástico temporal tiene una raíz unitaria
cuando una de las raíces del polinomio de retardos es unitaria. El caso más sencillo es este
El lector podrá recordar que en el Tema 13 consideramos que las series podían presentar
tendencias de este tipo en la media, y desaparecían t ras tomar diferencias (procesos estacio-
narios en diferencias), tal es el caso:
(1 - B)Xt = Zt, donde Zt es un proceso estacionario.

646 TE DENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
Esta representación es indicativa de que la variación o el cambio de X en el tiempo se re-

presenta mediante un proceso estacionario Z. De ahí que dijéramos entonces que la serie X
era «integrada» puesto que si Z es el cambio o variación de X , entonces X es la «suma»
a lo largo de t de Z. Decho una serie no estacionaria se considera integrada de orden uno,
I (l), si para obtener una serie estacionaria (desestacionarizar la serie) se requiere aplicar una
primera diferencia sobre la serie original. Denominando Zt a una serie estacionaria y Xt a la
serie original, decimos que Xt es I (1) si
(17.1.5)
Un caso ilustrativo es aquel donde, por ejemplo, la parte estacionaria es Zt = f3o + Vt con
Vt una variable con esperanza nula, y siendo Xt una tendencia estocástica en forma de proceso
J(l):
Xt = Xt-1 + f3o + Vt
Yt = Xt + Et, Et es iid. (17.1.6)
Este caso nos permite preguntarnos sobre cuál es la contribución de la tendencia temporal
estocástica sobre la variable Y. La respuesta es que la contribución de la tendencia es Xt -
Xt-1 = f3o + Vt, y por tanto ya no es una constante {31 , sino aleatoria, lo que implica tener
una media y una varianza, que en su momento consideraremos.
El papel que desempeñan las perturbaciones aleatorias en los modelos con tendencia der-
terminista y estocástica es claramente diferente y tiene implicaciones importantes. Para com-
probarlo consideramos nuevamente el modelo con tendencia determinista lineal (17.1.2) y el
modelo con tendencia estocástica (17.1.6). En el caso determinista el cambio de Y de un
periodo a otro consecutivo es
yt- Yl-1 = f3o + f31t + Et - /30 - f31(t- l) - Et-1 = f31 +Et - Et-1,
es decir, la perturbación producida en t - 1 que nos alejó de la línea o senda (f3o + f31t), esto
es Et-1, desaparece en el perido t, revertiendo de este modo Y a su senda, y haciendo que el
efecto sea transitorio. Por el contrario, el cambio en Y en el modelo con tendencia estocástica
(17.1.6) sería
Yt - Yt-1 = Xt - Xt-1 +Et - Et-1 = f3o + Vt +Et - Et- 1,
al igual que en el caso determinista, el efecto de Et-1 sobre Y desaparece cuando llega la
perturbación Et, es decir en el periodo t. Sin embargo en el periodo t cuando se produce el
efecto de Vt, no desaparece el correspondiente de Vt-1, y por tanto Y no revierte o regresa a
su senda.
Retomemos ahora, para completar y contrastar, una variante no estacionaria del modelo de
la ecuación (17.1.3) , particular cuando p = l. Ahora la parte estocástica ya no es estacionaria
al presentar una raíz unitaria
Zt = Zt-1 +Et·
Tema 17 647
Figura 17.1.1: Tendencias determinista y estocástica

a) 10 realizaciones de tendencia determinista b) 10 realizaciones de tendencia estocástica
La esperanza matemática condicionada (la predicción s periodos adelante) se obtiene ha-

ciendo p = 1 en (17.1.4), con lo que se tiene
lE(Yt+s IYt, Yt-1, ... ) f3o + /31 (t + s) + Zt

f3o + /31 (t + s) + Yt - f3o - /31 t
f31s + yt.
A diferencia del modelo con tendencia determinista, ahora el valor presente de Y tiene un
efecto permanente en la predicción futura para todos los horizontes temporales.
Es muy importante distinguir entre tendencias deterministas y estocásticas. En términos
gráficos, en un proceso con tendencia determinista, las desviaciones con respecto a la tendencia
son puramente aleatorias y se corrigen rápidamente . El movimiento a largo plazo de la serie
está completamente determinado por el componente determinista, es decir , por la tendencia.
Por el contrario, en el caso de una tendencia estocástica, el componente aleatorio es mucho
más persistente y sí afecta al movimiento a largo plazo. Para empeorar más las cosas, es
posible que un proceso presente a la vez los dos tipos de tendencia. Más adelante se presenta
un contraste estadístico para distinguir entre estas posibilidades. Visualmente en la Figura
17.1.1 representamos varios casos de tendencias porque en ocasiones resulta ilustrativo ver
diferencias, si bien -como decimos- para hacer una correcta evaluación necesitaremos de
algunas herramientas técnicas.
Una tendencia estocástica se elimina diferenciando la serie, como se deduce inmediata-
mente de la expresión ( 17. l. 5). ¿Qué sucedería si en un proceso de raíz unitaria (tendencia
estocástica) le quitáramos una tendencia temporal det erminista? La respuesta la damos en la
siguiente sección cuando expongamos lo que es un paseo aleatorio con deriva.
A continuación presentamos algunos procesos con tendencias estocásticas relevantes y
útiles. Como hemos visto en los casos contemplados anteriormente, el introducir términos
autorregresivos es una forma sencilla de representación de tendencias estocásticas.
Paseo aleatorio
Un proceso estocástico importante es el conocido por paseo aleatorio:
648 TENDENCIAS, RAÍCES Ul\'. ITARIAS Y REGRESIONES ESPURIAS
Yt = Yt-1 + ét, (17.1.7)

donde suponemos que ét es ruido blanco independiente, es decir que JE (ét) =O, var (ét) = a;
y p (ét, ft+u) =O para u> O.
Intuitivamente, un paseo aleatorio se caracteriza porque el valor de la serie «mañana» es
el valor que toma «hoy» más una variable impredecible.
Realizando sustituciones sucesivas, podemos obtener el modelo de paseo aleatorio como la
suma de variables puramente aleatorias,
T-1
Yt = ft + ft-1 + ... + f1 +Yo= Yo+ L ft-i, (17.1.8)

i=O
y aplicando esperanzas no condicionadas tenemos que:
JE (Yt) = JE (Yo), (17.1.9)

por lo que la esperanza no depende del tiempo t sino de las condiciones iniciales del proceso,
y bajo el supuesto usual de que le proceso comienza con el valor cero, Yo = O, la esperanza
del proceso sería cero para todo t, JE (Yt) = O. Lo principal es que el valor está presente en
el proceso, y no desaparece a lo largo de los distintos periodos. También observamos que las
innovaciones del proceso ét se acumulan en el componente 1 ¿f=
0 ft-i, por lo que un shock o
innovación en t tendrá el esperado efecto permanente.
La varianza no condicionada es
var (Yt) = var (ét) + var (ét-i) + ... + var (é1) + var (Yo) = a'¡t, (17.1.10)
de manera que la varianza depende del tiempo t, aumentando a medida que transcurre, por
consiguiente, el proceso paseo aleatorio no es estacionario en varianza, lo que es indicativo de
que la incertidumbre sobre la situación del proceso crece con t. Comprobamos entonces que
el paseo aleatorio no es estacionario. Sin embargo, como hemos visto, la diferenciación
del proceso nos devolvería un proceso estacionario.
Además el comportamiento del proceso paseo aleatorio es persistente en covarianza, esto
lo podemos comprobar calculando la predicción para h periodos en el futuro a partir del valor
del momento actual Yt,
Yt+h = ft+h + ft+h-1 + .. + ft+l + Yt ,

donde incluimos el término Yt por ser el último valor conocido.
Su valor esperado condicionado es
JE (Yt+h 1 Yt) = Yt, para h 2: 1,

de manera que con independencia de lo lejano que sea el periodo de predicción h, la mejor
predicción es su valor actual yt.
La función de autocovarianza con u desfases "fu del proceso paseo aleatorio es
Tema 17 649
T -1 T+u-1 )
cov(t, t +u) =JE ((yt - Yo) (Yt+u - Yo)) =JE ~ Et-i ~ Et-j
(
por lo que la autocovarianza varía a lo largo de t.

La función de autocorrelación con u retardos es, en consecuencia,
JE (YtYt+u)
Pu=--;======--;========
t = (-t )1/2
Jvar (yt)Jvar (Yt+u) ~Ja'i(t+u) Jt(t+u) t+u
para valores de t grandes t / (t +u) será cercano a uno y Pu decrecerá aproximadamente de

forma lineal; por consiguiente la función de autocorrelación (FAT) de un proceso paseo aleato-
rio decrece de forma lineal y no de forma geométrica como requieren los procesos estacionarios
(por tanto el proceso no es débilmente dependiente en covarianza, sino persistente).
Además las autocovarianzas no dependen solo del desfase, como ocurre en los procesos
estacionarios, con u retardos la función de autocovarianza /-u es
T-1 T-u-1 )
/-u= JE (YtYt-u) =JE ~ Et-i ~ Et-j =a; (t - u),
(
de manera que la función de autocovarianza no depende solo del desfase,
/-u= a; (t - u) -=/=/u= 2a;t.
La persistencia en covarianza es una cuestión importante desde el punto de vista econó-

mico. Si el PIB es fuertemente persistente en covarianza, el PIB de los próximos años puede
estar muy correlacionado con el PIB de no pocos años atrás. En consecuencia debemos tener
siempre en cuenta que las políticas económicas que causan una variación del PIB actual puede
tener efectos durante muchos años. Así por ejemplo el gráfico de la función de autocorrela-
ción (FAT) de las matriculaciones de vehículos en niveles del Tema 13 presenta una fuerte
persistencia, y las ventas de 4 años atrás están muy correlacionadas con las actuales; en con-
secuencia las medidas de política económica sectoriales y también las decisiones empresariales
del sector pueden tener un efecto que durará varios años en el futuro.
Esta persistencia es independiente de si el proceso tiene o no tendencia. De hecho es posible
tener series altamente persistentes (como el PIB , la tasa de inflación, la tasa de desempleo,
o incluso tipos de interés de los bancos centrales) que también puedan tener tendencia (el
PIB suele tener una tendencia creciente, pero la inflación o el desempleo, no es tan evidente).
Por este motivo es interesante introducir otro tipo de tendencia estocástica que construimos
a partir del paseo aleatorio que hemos presentado.
En efecto, hemos visto que el proceso paseo aleatorio es estacionario en media pero no en
varianza ni en covarianza. El proceso más sencillo de tendencia estocástica que no es estacio-
nario en media ni varianza es el denominado paseo aleatorio con deriva. Analíticamente
el proceso es
650 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIO:\IES ESPURIAS
yt = /30 + Yt-1 + ft, (17.1.11)

cuya única diferencia con el paseo aleatorio sin deriva. expresión (17.1.7), es la inclusión del
término constante.
Analíticamente la inclusión o no de un término constante en series estacionarias no es
importante; en el temas anteriores hemos restado a las observaciones su media y hemos tra-
bajado con procesos estacionarios con media cero sin pérdida de generalidad. Sin embargo , en
los procesos no estacionarios si hay término constante, estos son importantes analíticamente
y nos proporcionan una propiedad permanente del proceso no estacionario. Así si el término
constante es igual a la unidad f3o = 1, decimos que el proceso presenta una deriva unitaria y
el proceso marca una tendencia lineal determinista con pendiente también unitaria. La Figu-
ra 17.1.2 reproduce un paseo aleatorio, gráfico a) , y un paseo aleatorio con deriva unitaria,
gráfico b ).
Figura 17.1.2: Paseo aleatorio

a) yt = Yt-1 +Et con Yo =O b) yt = 1 + Yt-1 +Et con Yo= O
"
"
2' 50 7S 100 125 150 175 200 25 50 75 100 125 150 175 200
En el gráfico a) paseo aleatorio, la serie es aproximadamente estacionaria en media pero

la varianza va aumentando con el tiempo. En el gráfico b) paseo aleatorio con deriva unitaria,
la tendencia es creciente y en consecuencia no es estacionario en media.
Podemos escribir el proceso paseo aleatorio con deriva como suma de variables aleatorias;
realizando sustituciones sucesivas tenemos:
T-l
yt = tf3o +Yo+ L ft-i, (17.1.12)
i=O
cuya esperanz~ es
lE (Yt) = t,80 +Yo , (17.1.13)

de manera que el valor esperado depende de t por lo que no es constante en el tiempo. Si el
término constante es positivo f3o > O la media es creciente, y si es negativo f3o < O la media
se reduce con el tiempo. Ahora podemos comprobar qué sucede si a este proceso le restamos
una tendencia linal temporal, t,80. En tal caso tendremos que
yt - tf3o = Yo + ut, donde Ut = L,f=01 Et-i,

Tema 17 651
de modo que la varianza del proceso de raíz unitaria (paseo aleatorio con deriva) cuando le
restamos una tendencia determinista, tiene una varianza (}" 2t , que crece con la fecha en la que
t iene lugar la observación. Comprobamos entonces que en presencia de tendencia estocástica
es poco afortunado quitar una tendencia determinista.
Siguiendo un proceso similar al utilizado para el proceso paseo aleatorio sin deriva llega-
mos a los mismos resultados para la varianza, autocovarianzas y autocorrelaciones del proceso
paseo aleatorio con deriva. Por consiguiente, el proceso paseo aleatorio con deriva no es estacio-
nario en varianza. var (Yt) = (J"¡t , la auto correlación decrece linealmente, Pu = [t/ (t + u)] 1/ 2 ,
y la función de autocorrelación no depende solo del desfase, /u =/=-/-u ·
El valor del proceso para h periodos en el futuro teniendo en cuenta el valor de la variable
actual Yt es
rt+h = hf3o + Et+h + Et+h- 1 + ·· + ft + yt, (17.1.14)

y su esperanza
lE (Yt+h 1 Yt) = hf3o + Yt, (17.1.15)

por tanto, la mejor predicción es el último valor conocido Yt más la deriva hf3o.
Utilizando la terminología AR! M A un paseo aleatorio es un proceso AR! M A (O, 1, O), es
decir , un proceso cuya primera diferencia es un proceso estacionario. Ya hemos visto ejem-
plos de series no estacionarias que presentan raíces unitarias aunque sus procesos generadores
son más complejos que el proceso paseo aleatorio que es solo el caso más simple de tenden-
cia estocástica. Así el PIB anual en logaritmos tiene raíz unitaria y responde a un proceso
AR! M A(l, 1, O), los tipos de interés interbancario muestran un proceso AR! M A (O, 1, 1), los
gastos de inversión anual responden a un proceso AR! M A (1, 1, 1) y el paro registrado a un
proceso SARI M A (2, 1, O) (O, 1, 1)i 2 . Todos ellos son ejemplos analizados en el tema anterior
y que presentan raíces unitarias aunque sus procesos generadores son más complejos que el
proceso paseo aleatorio.
Veamos un ejemplo.
Ejemplo 50. El índice general de la bolsa española

La idea de un proceso paseo aleatorio fue plantead a originalmente de forma atemporal por K .
Pearson en 1905. En la formulación de Amemiya (1985) aparece por primera vez asociada a series
de tiempo y en especial al mercado bursátil 2 : «... las series de tiempo poseen en muchos aspectos
las características de las series de sumas de números aleatorios ... a partir de sus diferencias se ha
concluido que los precios de las acciones se asemejan a sumas de variaciones puramente aleatorias
incluso con más razón que los precios de los bienes».
Con posterioridad la idea de camino aleatorio se asocia con la hipótesis de mercado eficiente .
En dicha hipótesis los inversores no pueden obtener beneficios de correlación alguna entre los
rendimientos, después de descontar los costes de transacciones y ajustar los riesgos . Es decir, los
valores de los títulos son un estimador insesgado de su valor intrínseco, y la información relevante
para el precio de un título se refleja en su precio corriente. Implica que el conocimiento de la historia
2
Aunque fue Fama (1965) en su célebre artículo el que popu lariza el término para la bolsa.
pasada de los cambios de una serie de precios no puede ser usado para predecir los cambios futuros
de forma significativa.
Nosotros utilizaremos el 1BEX con periodicidad mensual entre enero de 1987 y diciembre de
2011 para contrastar la hipótesis de mercados eficientes . La Figura 17.1.3 muestra la serie en
niveles.
Figura 17.1.3: IBEX, 1987-2011
18,000
16,000
14,000
12,000
10,000
8,000
6,000
4.000
2,000
88 90 92 94 96 98 00 02 04 06 08 10
Los valores del IBEX varían en el tiempo por lo que aparentemente no es estacionario en media;
también parece observarse mayor variación con el transcurso del tiempo, y por tanto tampoco
parece que la serie sea estacionaria en varia nza. Para comprobarlo calculamos el correlograma de
la serie en niveles, que representamos en la Figura 17.1.4.
Tema 17 653
Figura 17.1.4: Correlograma del IBEX en niveles

Sample 1987M01 2011M12
lnduded observations 300
Autocorrelabon Partial Correlation AC PAC 0-Stat Prob
1
2
0989
0.977
0989
-O073
29642
586 43
ºººº
O000
3 0.965 o 046 870 57 o 000
4 O953 -O 036 1148 9 O000
5 o 940 -O 069 1420 3 o 000
6 0927 0037 16854 0000
7 o 915 -O 022 1944 2 o 000
8 0.902 -O 005 2196 6 o 000
9 0890 0021 24431 0000
10 O876 -O 102 2682 7 O000
11 O861 -O 032 2914 9 O000
12 o 846 o 002 3140 o o 000
13 o 832 o 022 3358 5 0.000
14 0818 -0011 35703 0000
15 o 802 -O 057 3774 9 o 000
16 o 787 -O 021 3972 3 o 000
17 o 771 o 004 4162 8 o 000
18 o 757 o 053 4347 1 o 000
19 o 745 o 070 45261 o 000
20 0.731 -O 066 4699 3 o 000
21 o 71 6 -O 072 4865 9 o 000
22 O701 -O 055 5025 8 O000
23 o 685 -O 003 5179 3 o 000
24 o 669 o 006 5326 3 o 000
25 o 654 o 024 5467 2 o 000
26 O638 -O 031 5602 O O000
27 o 622 -O 038 5730 5 o 000
28 O606 -O 034 5853 O O000
29 o 593 o 129 5970 5 o 000
30 o 579 -O 016 6083 1 o 000
31 o 566 o 040 619! , o 000
32 o 555 o 054 6295 2 o 000
33 o 545 -O 004 6395 9 o 000
34 O534 -O 026 6492 9 O000
35 o 521 -O 099 6585 7 o 000
36 O507 -O 055 6673 7 O000
Las autocorrelaciones (FAT) decrecen muy lentamente mostrando que el 1BEX presenta una
fuerte persistencia en covarianza y, en consecuencia, la serie no es estacionaria .
Puesto que la teoría económica sugiere que la serie se comporta como un proceso paseo
aleatorio, estimamos primero un modelo paseo aleatorio con deriva ,
I BEXt = 93 , 500 +O , 9901 BEXt-1 +Et

(59,439)
...
(0,055)
(17.1.16)
n = 299 , R 2 =O, 9835 , R2 =O, 9835, A kaike = 15, 223 , S chwarz = 15, 247.
El término autorregresivo es muy cercano a la unidad y muy significativo tal y como sugiere
la hipótesis de mercados eficientes. Como el término constante no es significativo, estimamos un
modelo paseo aleatorio puro o sin deriva ,
IBEXt =O, 999895IBEXt- 1 + Et

...
(0,003531)
(17.1.17)
n = 299, R =O, 9834, R =O , 9834, A kaike = 15, 224, S chwarz = 15, 237,
2 2
cuyo parámetro es, en términos prácticos, unitario y muy significativo. Para validar el proceso paseo
aleatorio las perturbaciones estimadas deben ser la imagen empírica de un proceso ruido blanco .
Reproducimos en la Figura 17.l.5 el correlograma de los residuos estimados.
654 TE NDENCIAS, RAÍCES UNITA RI AS Y RE G RESIO>! ES ESPURIAS
Figura 17.1.5 : Correlograma de los residuos del IBEX estimados a partir del proceso paseo
aleatorio puro
Sample 1987M02 2011M12
lnduded observaUons 299
Autoconelatlon Partial Conelabon IC PIC 0-Stat Prob
•t ,, 1 0098 0098 28746 ºº~º

~ ' 1 ' 2 ·O 092 -O 103 5 4613 O 065
,,' ' ''
''
3
4
o036
o090
0.058
0.072
5 8659
8 3316
o 118
o 080
'' 1' 5 -O 058 -0.068 9 3450 o096
'' '' 6 0022 0051 94884 0148
7 o 016 -0.011 9 5661 0.215
'' 1'
8 -0043 -0041 10142 0255
''
''
''
'' 9 0053 0075 11012 0275
10 0045 0012 11654 0309
''
''
''
'' 11 -0014 -0003 11715 0385
12 -0011 0001 11753 0466
1'
''
'' 13 o 032 o 012 12 079 o 521
'' 14 o 038 o 040 12 540 o 563
'' '' 15 0.015 o 014 12 610 o 632
'' '' 16 -O 009 -O 012 12 634 o 699
''
4 1
1'
1 1 17 -0082 -0081 14787 0611
'' '' 18 -0074 -0066 16544 0555
''
''
·•·
•••
,,,
19
20
21
o 060
o 067
o 035
o 061
o 050
o 056
17 690
19 157
19 563
o 543
o 512
o 549
''
1 1 '1 22 -0011 -0012 19601 0608
1 1 1' 23 -0008 -0025 19621 0665
24 -O 044 -O 051 20 262 o 682
'1
1 1 ''
'' 25 o 014 o 015 20 323 o 730
'1
'' 26 o 030 o 031 20 627 o 761
'' '' 27 o 004 0.019 20 632 o803
~ 1 t • 28 ·O 150 -O 155 28 092 O 460
'1 1' 29 o 029 o 048 28 382 o 498
'1 '1 30 -O 007 ·O 052 28 401 O549
,.
e1
''
''
''
'1
''
1'
•l!I
''
31
32
33
34
35
-O 108
-0048
0055
o 129
o 053
-O 079
0003
0018
o 140
o 033
32 353
33126
34132
39 817
40 772
o 400
0412
0413
o 227
o 231
'' '1 36 -O 05<1 -O 067 41638 O 239
Las dos últimas columnas muestran el valor del estadístico Ljung-Box y su p-valor . Para 36
desfases el p-valor del contraste muestra un p-valor de 0 ,239 de manera que no podemos rechazar
la hipótesis nula de ruido blanco a los niveles usuales. Concluimos en consecuencia que los residuos
estimados son una imagen empírica cercana de un proceso ruido blanco y el modelo paseo aleatorio
para el IBEX queda validado, de manera que la mejor predicción del valor del IBEX es el último
valor conocido . Este resultado es coherente con la hipótesis de mercados eficientes en la bolsa
española para el periodo considerado.
17.1.3. Regresiones entre variables con tendencias estocásticas

Cuando utilizamos series no estacionarias en el análisis de regresión, es decir, cuando
alguna de las variables utilizadas tiene tendencia estocástica, se producen básicamente tres
potenciales tipos de problemas: (i) el estimador MCO del coeficiente o pendiente asociado
a dicha variable puede tener una distribución distinta de la estándar asintótica estudiada
hasta ahora; (ii) el estadístico tipo-t asociado a dicho coeficiente también puede presentar una
distribución distinta de la normal; y (iii) en función del comportamiento de otras variables del
modelo, sería muy probable que dos variables independientes parecieran claramente relacionas.
Tema 17 655
En este apartado trataremos los dos primeros problemas, y dejaremos el tercero de ellos para
la siguiente sección.
El motivo último por el que con series con tendencia estocásticas no podemos confiar en
los estimadores ni en que los estadísticos de contraste presenten distribuciones normales, ni
siquiera asintóticamente, es que no siempre podemos aplicar el Teorema Central del Límite,
ni tampoco la Leyes de Grandes Números.
Para comprobar este extremo es necesario considerar el modelo de regresión habitual de
la Parte 13 y particularizar para un caso sencillo en el que uno de los regresares del modelo,
Wt, tiene raíz unitaria. En tal caso, uno de los elementos de la matriz X'X será L,'[= 1 w;,
que
según la Ecuación 17.1.8 será igual a
(17.1.18)
La esperanza del producto frfs es cero cuando r # s. Por tanto, solo los términos r s
caracterizan la esperanza de la expresión 17.1.18, la cual será, toda vez que JE (e;)= 1,
Sea w el vector que contiene todos los términos del tipo Wt, que será un vector de orden
T, entonces el valor esperado del producto y- 1w'w será (T + 1) / 2, que por tanto tiene un
orden de magnitud (ver Sección 5.2.2.2) O(T). Cuando presentamos los supuestos del modelo
de regresión requerimos que los primeros momentos de las variables estuvieran acotados (es
decir que no crecieran indefinidamente). Entre otros, eso garantizaba que y-l X'X estuviera
acotado en probabilidad. Sin embargo, acabamos de ver que si uno de estos términos contiene
una raíz unitaria no es posible tal acotación. Esta situación tiene efectos sobre las propiedades
del estimador y su distribución asintótica.
Para comprobarlo considerademos dos situaciones. Una primera en el que el término error
Et no tiene tendencia estocástica. Recordemos la forma del estimador MCO del parámetro
(1/T) L Xtét
((3~ 1 _ (31 ) =
(1/T)L,x; '
que tiene numerador en el que interactúan una variable con tendencia estocática (que no
revierte a su media) con otra que sin tendencia (que sí lo hace), procurando así que asintóti-
camente estén incorrelados. Por tanto el cociente convergerá4 en probabilidad a cero:
. (f31~ - (31 ) = plim

plim . ( LL,Xtét)
x; = O
además al resultar que Xt tiene raíz unitaria, facilita que la suma del denominador crezca sin
límite en el tiempo, y por ello el estimador MCO será consistente, y la convergencia al cero
3
Ver los supuestos del modelo de regresión lineal Sección 6.1.
4
Consideramos la variable en diferencias respecto de su media.
será a una velocidad de convergencia mayor respecto del caso estacionario en Xt. En efecto,
cuando el error y la variable explicativa son ambas estacionarias, el denominador convergía a
una constante.
Hemos comprobado entonces que la Ley de los Grandes Números es aplicable de manera
que si una de las variables explicativas tiene una raíz unitaria y el término error es estacionario,
obtenemos un estimador consistente de su correspondiente pendiente asociada. Sin embargo,
no ocurre lo mismo con la viabilidad para aplicar el Teorema Central del Límite, el cual es
el que nos permite deducir una distribución asintótica normal. Esto es así toda vez que la
varianza de Xt, y por tanto la de la variable aleatoria Xt, no está acotada. El lector puede
revisar lo indicado en la Sección 5.2.2.4 al respecto. Así pues, no es posible escalar 5 por T 112
(.81 - /31) a fin de hacerla converger a un dist ribución normal, y por tanto los contrastes tipo
t y tipo F dejan de ser útiles.
El segundo caso que consideramos es cuando ambos, error y variable explicativa, tienen
raíz unitaria. Ahora el numerador r-
1
L.: X tEt es una variable de orden en T, es decir Op(T)
con varianza no acotada y por tanto ya no es aplicable al LGN. Así pues no es sería aplicable
ni el LGN, ni como en el caso anterior, el TCL. La convergencia del estimador MCO sería
a una variable aleatoria distinta de la normal, y por tanto no podemos realizar el tipo de
contrastes de hipótesis que habitualmente utilizamos 6 .
A modo de ejemplo vamos a considerar el caso de un modelo autorregresivo de primer
orden , si yt no es estacionaria
f3o+ f31rt-1 +Et,

rt =
se puede comprobar 7 que el estimador MCO de /3 1 es consistente, pero tiene una distribución
distinta de la normal incluso para muestras grandes y su distribución asintótica se desplaza
hacia cero, es decir, es sesgada. Su esperanza es aproximadamente JE (/31) = 1 - 5, 3/ T. Por
consiguiente en muchas ocasiones el valor obtenido mediante MCO es menor que la unidad
incluso cuando el verdadero valor es unitario. De manera que cuando el proceso autorregresivo
de primer orden muestra un estimador menor que la unidad pero suficientemente próximo , es
preferible aplicar primeras diferencias.
17.2. REGRESIONES ESPURIAS
Otro problema frecuente de considerar regresiones con series que posiblemente tengan
tendencias estocásticas es el que se produce cuando consideramos regresiones espurias. Para
ver qué significa, y qué problemas genera, consideremos qué sucede cuando regresamos un
proceso de raíz unitaria yt = Yt-1 +Et sobre otro proceso de raíz unitaria, digamos, Xt =
Xt-1 + T/t, independientes entre sí.
1
5
Podemos comprobar que r 1 ! 2 (X'X)- X'e: = T 112 0p(T- 2 )0p(T) i= Op(l), mientras que si ninguno
de los elementos de X tuviera raíz unitaria se tendría el resultado habitual que permite aplicar el TCL:
1
T 112 (X'X)- X'e: = T 112 0p(T- 1 )0p(T) = Op(l) .
6
0bsérvese que en caso de que solo el término error tenga raíz unitaria, entonces también lo tendrá la
variable Yt.
7
La comprobación se deja como ejercicio para el lector interesado y avanzado.
Tema 17 657
Supongamos que las series {ét} y {17t} son iid e independientes entre ellas; por tanto {Yt}
y {Xt} son paseos aleatorios independientes. La ecuación de regresión poblacional es
Yt =a+ Xtf3o + Ut,

donde, al ser independientes, (30 = O y Ut = constante+ yt, reflejando la falta de relación
entre Xt e yt.
A priori, si hiciéramos la estimación MCO esperaríamos una estimación de f3o no signifi-
cativa y un R-cuadrado cercano a cero. Pues bien, esto no es así. Lo interesante que consideró
inicialmente Yule en 1926, y demostraron sistemáticamente Granger y Newbold (1974) me-
diante experimentos de Monte Garlo, es que el estimador habitual de MCO de esta regresión
converge a una variable8 aleatoria, y no a la constante que esperaríamos, cero. El estadístico
tipo t (en valor absoluto) tiende a crecer con el tamaño muestral. En el límite, este estadístico
rechaza la hipótesis nula de (30 = Ocon probalidad 1. Y por último, el R-cuadrado no converge
a cero, sino a una variable aleatoria positiva que cambia de muestra en muestra.
Lógicamente, si estimáramos una relación lineal con este tipo de variables encontraríamos
relaciones puramente inexistentes. Debido a que no existe una verdadera relación entre Yt y
Xt , y dado que el estimador MCO, /Jo, es incapaz de revelar esto, se denomina a esta regresión
espuria. Como hemos indicado, los estadísticos tipo t y tipo F asociados a la estimación MCO
crecen con el tamaño muestral, dando la falsa impresión de que realmente existe relación entre
Xt e yt.
Sin entrar en mayores detalles técnicos, podemos intuir por qué un simple modelo de
regresión como el sugerido no funciona. La hipótesis nula es que f3o =O, luego bajo la misma
el modelo sería
Yt=a+ut
que sugiere que el modelo es una constante más un término iid. Sin embargo, en realidad Yt
es un paseo aleatorio de los estudiados previamente. Por lo tanto, con el test tipo t estaríamos
contrastando una hipótesis nula que es falsa, y es muy frecuente que un contraste estadístico
rechace una hipótesis nula falsa. Es interesante observar que en este caso (al no haber relación
entre las variables) sucede que la hipótesis alternativa (30 -=f. O también es falsa, y también
en estos casos es habitual que un test rechace la hipótesis nula. ¿Cuál sería una hipótesis
nula mejor planteada, al menos en el sentido de que sería adecuada con el tipo de test? La
respuesta es un modelo que recoja la verdadera naturaleza de raíz unitaria de Yt
y que bajo la hipótesis nula caracterice el verdadero modelo. Si fijamos a = O, f3o = O, f31 = 1,
recuperamos Yt = Yt-1 +vt, que es un modelo en el que podríamos contrastar si f3o =O , cuando
es cierta. Sin embargo, tampoco resolveríamos el problema, pues al contener el modelo una
raíz unitaria, esto es, al ser Y de tipo 1(1), entonces reaparecen los problemas que hemos
tratado en el apartado anterior. Es decir, la convergencia del estadístico no es asintóticamente
a una normal, sino a otro tipo de distribución.
8
La deducción formal de la variable aleatoria a la que converge excede el nivel técnico de este libro . No
obstante, se desarrolla adecuadamente en el Tema 18 de Hamilton (1994).
Para ilustrar la importancia de utilizar series estacionarias en el análisis de regresión

mostraremos un ejemplo sencillo de regresión espuria.
Los economistas sabemos por la teoría económica que consumo y renta están relacionadas
fuertemente ; además, por introspección, todos sabemos que cuando aumenta nuestra renta
generalmente nuestro consumo también lo hace, de manera que la relación causal entre ambas
variables desde un punto de vista lógico es clara.
Sin embargo, si nos planteamos la relación entre el consumo de los españoles y el PIB
de otro país cualquiera, por ejemplo Argentina, esperamos que ambas variables no estén
correlacionadas puesto que es obvio que el consumo de los españoles no depende de la renta
argentina sino de nuestra propia renta. La Figura 17.2.l muestra el consumo y el PIB de
Argentina y España entre 1954 y 2008 en términos constantes del año 2000.
Figura 17.2.1: Consumo y PIB de Argentina y España en términos constantes

a) Argentina b) España
400.000 900 000
800.000
330.000
700000
300.000
.......
250000 500000
200.000 400000
. ...---···
300000
150000
200000
100.000 -·-
100000
Ambos países muestran tendencias crecientes pero su evolución parece haber sido muy
diferente.
La regresión que relaciona el consumo español con el PIB argentino es:
--
CONSUMOEsP = -126212 + 2, 114-PIBAnc
(16791) (01079)
2 -2
...
[17681] [0,107] (17.2.1)
n = 55, R =O, 9317, R =O, 9304, DW =O, 367,
cuyos resultados se pueden calificar de satisfactorios. Todos los parámetros son altamente
significativos; incluso al 1 %, el grado de ajuste es muy grande, más del 90 %, y solo el esta-
dístico DW indica una fuerte autocorrelación de los residuos estimados. No obstante, Ramsey
(1969) sugiere, como regla práctica, que cuando el estadístico Durbin-Watson es menor que el
coeficiente de determinación, DW < R 2 , debemos sospechar que la regresión estimada puede
ser espuria.
Además el problema no se soluciona int roduciendo una tendencia determinista cuadrática,
Tema 17 659
CONSuMOEsP = 36903 +O, 457·PIBAna + 1659·t + 97, 959·t 2

(12552) (0,107) (689) (10,26 1)
[16.5.9 1] [0,163] [8~8] [15,393] (17.2.2)
2 -2
n = 55 , R = O, 9899, R = O, 9892, DW = O, 244,
donde el DW es aún peor y se mantiene la influencia del PIB argentino sobre el consumo
español. Hemos visto anteriormente que la introducción de tendencias deterministas es una
forma de solucionar el problema de regresiones espurias, pero para que esto ocurra debemos
cerciorarnos de que las series libres de tendencia son estacionarias (o al menos débilmente
dependientes en covarianza) , lo que no ocurre en este caso.
La estimación en diferencias es:
--
LCONSUMOEsP = 9776+O,107·6.PIBARG
( 1132) (0,086)
[1864] [0,147] (17.2.3)
2 -2
n = 55, R = O, 0290, R = O, 0103, DW = O, 579.
Al aplicar diferencias, el PIB argentino no es significativamente distinto de cero a los
niveles usuales, aunque el DW sigue presentando autocorrelación, es mayor que el coeficiente
de determinación; además la regresión solo explica el 2,9 % del consumo, de manera que
podemos estar bastante seguros, al menos , de que esta regresión no presenta problemas de
regresión espuria. En conclusión, tal y como dicta la teoría económica y el sentido común, el
consumo español y la renta argentina no están correlacionados.
A las mismas conclusiones llegamos si planteamos la cuestión a la inversa, es decir, si el
consumo argentino está correlacionado con el PIB español.
La regresión en niveles es:
CONSuMOARG = 38724 + o, 298·PIBESP

(4413) (0,010)
[4624] [0,018] (17.2.4)
2 -2
n = 55, R =O, 9421, R =O, 9410, DW =O, 463 ,
donde aparentemente los resultados son satisfactorios e indican que el consumo argentino
depende de la renta española; solo DW es insatisfactorio, y como el DW < R 2 debemos
sospechar de nuevo la existencia de regresión espuria.
Con la introducción de una tendencia cuadrática los resultados son:
CONSuMO ARG = 56413 +o, 055 ·P I B ESP + 1470·t + 25 , 419·t 2

(10047) (0,083) (700) (12,523)
[7992] [0, 113] [1122] [13,587] (17.2.5)
•
2 -2
n = 55, R = O, 9506 , R = O, 9477, DW = O, 504,
donde se ha eliminado el problema de regresión espuria. Ahora el PIB español no es significa-
tivamente distinto de cero a los niveles usuales, no obstante , el DW sigue siendo menor que
el coeficiente de determinación .
La estimación en primeras diferencias es:
--
6CONSUMOARG = 4039 +0, 032·6PIBEsP
(2487) (O, 160)
2 -2
.
[2335] [ü,219]
-
(17.2.6)
n = 55, R =O, 0007. R = -0, 0185, DW = 1, 277,
regresión que también elimina el problema de regresión espuria, y el DW es mayor que el

coeficiente de determinación, además la regresión solo explica el 0,007 % del consumo.
Una cuestión interesante es preguntarnos por qué en un caso la introducción de la tendencia
cuadrática, expresión (17.2.5), soluciona el problema de regresión espuria mientras que en el
otro, expresión (17.2.2) , no. Y también por qué al aplicar primeras diferencias se detecta el
problema en ambos casos. La Figura 17.2.2 muestra el consumo de Argentina y España en
primeras diferencias y libres de tendencia cuadrática.
Figura 17.2.2: Series del consumo argentino español y argentino transformadas

Argentina España
a) Primera diferencia c) Primera diferencia
30000 32.000
21000
20000
2'000
10.000 20000
"'°'
12.000
-10000
1000
-20,000 •ooo
·30 000
b) Libre de tendencia cuadrática d) Libre de tendencia cuadrática

40000
30000
'°·'°'
40.000
30.000
l\
20000
10000
·10.000
·20000
-30.000
Las cuatro gráficas muestran variables aproximadamente estacionarias en media pero tam-
bién las cuatro parecen mostrar variabilidad creciente con el tiempo de manera que ninguna
de las cuatro series parece tener una varianza constante. La Figura 17.2.3 muestra la función
de autocorrelación (FAT) de las cuatro series.
Tema 17 661
Figura 17.2.3: Función de autocorrelación del consumo

Argentina España
a) diferencias b) libre de tendencia c) diferencias d) libre de tendencia
Alltocorrelation Autocorrelation Autocorretabon Autocorrt1auon
Los gráficos a) y c) muestran el consumo en diferencias de Argentina y España, y obser-

vamos que ambas series muestran autocorrelaciones que decrecen rápidamente y por tanto las
podemos considerar asintóticamente incorrelacionadas. La serie libre de tendencia cuadrática
del consumo argentino, gráfico b), también la podemos considerar asintóticamente incorrela-
cionada aunque el decrecimiento es más lento; de hecho de los seis primeros desfases solo el
tercero es no significativo (en este sentido la rapidez con que las autocorrelaciones se anulan
puede ser relevante sobre todo cuando la muestra no es muy grande como es el caso). Sin
embargo, el consumo español libre de tendencia cuadrática, gráfico d) , muestra una función
de autocorrelación persistente e incluso los últimos ocho retardos, desfases 17 al 24, son sig-
nificativos. En definitiva, esta es la razón por la que en la expresión (17.2.2) la inclusión de
una tendencia cuadrática no soluciona el problema de regresión espuria, y la eliminación de
la tendencia cuadrática no hace que la serie sea asintóticamente incorrelacionada (y por tanto
la serie no es estacionaria en tendencia).
En conclusión, se desaconseja el uso de series no estacionarias en el análisis de regresión
puesto que los estimadores, los contrastes de hipótesis, los intervalos de confianza y las pre-
dicciones habituales pueden resultar poco fiables, incluso asintóticamente. Por el contrario
cuando las series son estacionarias y al menos asintóticamente incorrelacionadas, podemos
aplicar el TCL y considerar las observaciones de las series temporales como si se hubieran
obtenido mediante muestreo aleatorio y en consecuencia las estimaciones y los contrastes de
hipótesis son válidos, al menos asintóticamente, y también podemos utilizar los contrastes
robustos incluso en presencia de autocorrelación y heterocedasticidad de los residuos.
El remedio más habitual para evitar los problemas de las regresiones espurias consiste
en diferenciar los datos antes de estimar la regresión. Dado que los regresores y el término
error serían bajo la hipótesis nula entonces todos I (O), entonces los coeficientes estimados
convergerían a las distribuciones normales habituales de MCO. El siguiente caso es un ejemplo
que ilustra cómo proceder.
662 TENDENCIAS, RAÍCES UNITARIAS Y REGRESIO . ES ESPURIAS
La regresión entre el consumo y la rent a española en niveles es:
--
CONSUMOEsP = -6162
(2093)
+o, 789·PIBEsP
(0,005)
2 -2
[4435]
...
[0,011] (17.2.7)
n = 55, R = O, 9980, R = O, 9980. DW = O, 172,
cuyos resultados son satisfactorios excepto por el bajo valor del DW. Además como DW < R 2 ,
debemos sospechar la existencia de regresión espuria. La estimación en diferencias es:
--
6.CONSUMOEsP = -144, 772 + 0, 809·6.PIBEsP
(737,581 ) (0,047)
[800,577] [0,069] (17.2.8)
2 -2
n = 54, R =O, 8484, R =O, 8455, DW = 1, 328,
donde el término constante no es significativamente distinto de cero. La propensión marginal al

consumo sigue siendo significativamente distinta de cero y además es menor que la unidad tal
y como indica la teoría keynesiana. El estadístico Durbin-Watson es mayor que el coeficiente
de determinación por lo que podemos calificar a la regresión de fiable desde el punto de vista
estadístico. Además, podemos utilizar los contrastes robustos en muestras grandes incluso
con presencia de autocorrelación y heterocedasticidad puesto que PIB y consumo en primeras
diferencias están asintóticamente incorrelacionados.
Las regresiones estimadas en esta sección ilustran de forma empírica el importante proble-
ma teórico de que las regresiones con variables no estacionarias pueden resultar engañosas. En
temas posteriores analizaremos cómo para el caso concreto de que las variables no estacionarias
incluidas en la regresión presenten tendencias estocásticas comunes (variables cointegradas)
la regresión entre ellas resulta, sin embargo, fiable. Cabe entonces preguntarse si la inclusión
de una tendencia temporal determinista (de tipo lineal, por ejemplo), que necesariamente
un regresar no estacionario, es aconsejable. En este caso cabe decir que tanto la distribución
asintótica del estimador MCO como el contraste de hipótesis para regresares temporales de
este estilo, son similares en la práctica a lo que hemos expuesto en la Parte I del libro para
regresares no temporales, es decir, la dist ribución asintótica será la estándar normal, y el
contraste será del tipo t.
17.3. CONTRASTE DE RAÍCES UNITARIAS
Hasta ahora hemos determinado si una serie temporal es estacionaria a partir de su gráfica
y su función de autocorrelación muestral, de tal manera que si la gráfica presenta un nivel
estable en el tiempo, entonces decimos que parece estacionaria en media; y si la variabilidad
es aproximadamente estable, entonces decimos que la serie temporal parece estacionaria en
varianza; y si además la función de autocorrelación muestral decrece geométricamente entonces
decimos que la serie es estacionaria también en covarianza. En tales casos podemos concluir
indicando que la serie temporal es compatible con un proceso estacionario , es decir, podría
Tema 17 663
ser descrita y aproximada por un proceso estacionario de los contemplados y expuestos en

apartados y temas anteriores.
También hemos visto la relevancia de distinguir entre procesos que se hacen estaciona-
rios tras eleminar una tendencia determinista de aquellos en los que es necesario trabajar
con la serie transformada en diferencias para hacerla estacionaria. Si partiendo de series no
estacionarias erramos en la transformación necesaria a fin de hacerla estacionaria, tendremos
potenciales problemas. Una primera alternativa podría ser comparar los residuos de los mo-
delos con ajustes de tendencia con los modelos que proceden de la diferenciación de la serie.
Siguiendo la metodología clásica de Box y Jenkins preferiríamos la transformación que lleva
a los residuos con una función de autocorrelación más simple.
No obstante, este procedimiento en ocasiones no es suficiente y si seguimos teniendo dudas
sobre la existencia o no de una tendencia estocástica podemos recurrir a procedimientos
estadísticos formales que contrastan la existencia de tendencia estocástica frente a la hipótesis
alternativa de que la serie es estacionaria.
Nosotros analizaremos los contrastes propuestos por Dickey-Fuller de raíces unitarias (DF).
No es la única metodología estadística de contraste de raíces unitarias pero es una de las más
usuales , y tiene la ventaja de que los programas especializados incorporan todos sus contrastes
y los calculan de forma rutinaria.
Inicialmente consideremos el caso más simple de modelo AR(l)
yt = Prt-1 +Et, Yo= o, Et rv N(O, 0' 2).
Cuando p = 1, el modelo es un paseo aleatorio sin deriva. La estimación MCO de p sería,

como sabemos
p= (tYt-1Yt) (t~=-1)-l
t=l t=l
Dado que se trata de un modelo con errores homocedásticos y normales, sabemos por el Tema
4 que
y dado que se trata de un AR(l) , sabemos que estos procesos tienen una autocovarianza
JE (~:_ 1 ) = 0' 2 / (1 - p2 ), y por tanto se tiene que
vT (p - p) ~ N (O , (1 - p 2 )) .
Bajo la hipótesis nula de raíz unitaria, obtendríamos entonces una distribución con va-
rianza nula
vT(p-1)~0,
esto es, a una distribución degenerada a un número que acumularía toda la densidad, y por
tanto sería una distribución inútil para poder contrast ar la hipótesis deseada.
Como hemos sugerido anteriormente, es preciso multiplicar o escalar por T, y no por VI',
para obtener una distribución no degenerada. De hecho la distribución a la que converge
no es a una distribución estándar (conocida) , sino que converge a un tipo de distribución que
se denomina precisamente de Dickey-Fuller (DF).
En tal caso, esto es, para una hipótesis nula de paseo aleatorio sin deriva, el contraste
sería del tipo t habitual, es decir
p- 1 d
-ee (pA) -t DFo,
tabulado en el suplemento Apéndices y Tablas como Caso 1 «sin término independiente ni

tendencia».
Alternativamente, el modelo puede ser formulado como
6yt = (p - 1) Yt-1 + ét = 8Yt-1 + ét

de modo que la hipótesis de raíz unitaria es
Ho : 8 =O versus H1 : 8 <O
Ahora el contraste sería
En general, no es necesario usar el supuesto de que el error sea gausiano para llevar a cabo
un contraste de DFo. Únicamente lo hemos utilizado a efectos ilustrativos. De hecho las tablas
relativas a DFo son aplicables con un error en forma de ruido blanco. Ya sea con ruido blanco
o ruido blanco gausiano, la hipótesis nula es que el proceso estocástico es estacionario en
diferencias, es decir, que tras realizar una diferencia el proceso se transforma en estacionario.
En términos un poco más generales en los que la serie a analizar presenta una media que
no es cero, entonces deberíamos incorporar términos deterministas a la configuración de la
regresión a estimar. Un problema importante, que también resolvieron Dickey y Fuller, es que
al incluir la constante también cambia el valor del estadístico, por tanto el test se ve afectado.
Si incorporamos una constante a partir del modelo AR (1) usual,
Yt + PYl-1 +Et, con ét ruido blanco,

= f3o (17.3.1)
sabemos que el proceso es estacionario si IPI < 1, y cuando el parámetro tiene valor unitario,
p = 1, el proceso se denomina paseo aleatorio con deriva o sin ella dependiendo del valor de
f3o. Por tanto resulta natural plantear como hipótesis nula Ho : p = 1, frente a H 1 : p < 1 .
A partir de la expresión en diferencias que anteriormente hemos utilizado , podemos rees-
cribir el modelo de la siguente manera
Yt - Yt-1 = f3o + PYl-1 - Yt-1 + ét ;

6yt = f3o + (p - 1) Yt-1 +Et; (17.3.2)
6yt = f3o + 8Yt-1 +Et,
cuya última ecuación es la expresión habitual del contraste DF.
Puesto que 8 = p - 1, contrastar que 8 =O, es lo mismo que p = 1, y si 8 <O, entonces
p < l. Por consiguiente estamos considerando 8 = O, frente H1 : 8 < O. Obsérvese que la
Tema 17 665
regresión planteada bajo la hipótesis nula implica que el regresando es I(O) y que el regresar es
I(l) (a esto se le denomina regresión desequilibrada); sin embargo, bajo la hipótesis alternativa
ambas variables son J(O) y por tanto se vuelve a equilibrar.
El valor empírico del contraste DF se calcula de la forma habitual, ~(- =
ee1_8;
e¡:),
ee p
donde
los errores estándar ee (s) son los no robustos de MCO. Debemos tener en cuenta también
que el contraste planteado es de una sola cola y rechazamos las hipótesis nula si el valor es
más negativo o menor que el valor crítico de tablas de DF . El uso de tablas diferentes a las
habituales es porque bajo la hipótesis nula estamos planteando una regresión desquilibrada.
La presencia de un proceso con tendencia estocástica I( l), como hemos visto, hace que no
sea aplicable el Teorema Central del Límite, por lo que asintóticamente no se converge a una
distribución normal.
Si rechazamos la hipótesis nula, el constraste nos sugiere que la serie no tiene raíz unitaria,
y entonces sería estacionaria. En particular, las tablas DF a utililzar son las indicadas como
Caso 2 del test tipo t, y es necesario considerar que las mismas son válidas si {30 = O, es decir
las tablas se elaboran considerando que el proceso verdadero es una paseo aleatorio sin deriva.
J p- 1 d
- (
A)= -(
ee 8
A) --+ DF1.
ee P
Sería posible y puede resultar interesante plantear la hipótesis nula compuesta, H 0 : p =

1, f3o = O. En tal caso el contraste estadístico sería del tipo F. Nuevamente la distribución a
utilizar es una distribución asintótica no estándar y también obtenida incialmente por Dickey y
Fuller. Deberíamos utilizar la tabla indicada como Caso 1 del test tipo F dentro del suplemento
Apéndices y Tablas. Como resultado de dicho contraste, en el caso en que no se pueda rechazar,
decimos que el proceso es estacionario en diferencias.
El contraste DF1 se aplica en situaciones cuando el usuario tiene dudas sobre la estacio-
nariedad, pero no hay una tendencia de largo plazo visible o alternativamente no hay razones
teóricas para asumir dicha tendencia. Ejemplos típicos son los tipos de interés o la tasa de
inflación.
Por el contrario, si el usuario viera razonable incorporar una tendencia, el modelo que
acabamos de plantear podría albergar una hipótesis nula de paseo aleatorio con deriva, pero
le permite incorporar una hipótesis alternativa de un proceso que se hiciera estacionario tras
eliminar linealmente la tendencia. Para tal fin debemos considerar otro tercer caso, un caso
en el que podamos incorporar una tendencia lineal
Yt = f3o + at + PYt-1 +Et.

Si estimamos un modelo de este tipo, o de forma equivalente
6Yt = f3o + at + 8Yt-1+Et,8 = (p - 1)
la hipótesis nula sería

Ho : 8 = O versus H1 : 8 < O.
666 TENDENCIAS, RAÍCES Ul\'.ITARIAS Y REGRESIO:\TES ESPURIAS
En tal caso el estadístico de DF también tendría una distribución asintótica distinta de

las precedentes
J _p-1
- - - - - - -+
dDD
r2
ee(8) ee (p)
y por tanto las tablas a utilizar serían las del Caso 3.

Al igual que sucedía anteriormente, sería posible efectuar un contraste conjunto sobre
a = O, p = 1, para ello usaríamos la correspondiente tabla de DF relativa a un contraste tipo
F (caso 3).
Como el lector puede suponer este t ipo de contrastes deben usarse con criterio, y éste
puede resultar a veces confuso. Indicamos a continuación algunos usos estandarizados para los
trabajos aplicados. Como norma general para contrastar la hipótesis nula de una raíz unitaria,
lo adecuado es ajustar una especificación tal que represente una plausible descripción de los
datos tanto bajo la hipótesis nula, como bajo la alternativa.
Si la serie original presenta tendencia, se deberían incluir como regresores el término
independiente (constante) y el término de tendencia lineal temporal. Como hemos indicado ,
en ese caso la hipótesis nula contempla que la tendencia procede de un paseo aleatorio con
deriva, mientras la alternativa es que el proceso tiene una tendencia temporal determinista
junto con un proceso estacionario AR(l) .
Si la serie no parece presentar tendencia y tiene un valor medio distinto de cero, deberíamos
incluir un término constante en la regresión, si bien el modelo planteado bajo la hipótesis nula
en este caso sería un paseo aleatorio sin deriva. Finalmente, si la serie parece fluctuar en torno
al valor medio cero , no se considera necesario incluir ningún regresor adicional en la regresión,
es decir, no incluimos ni constante ni término de tendencia.
El contraste DF es solo válido para un proceso AR (l) y cuando la serie no responde a ese
proceso, el contraste DF muestra autocorrelación de los errores. Para evitarlo y generalizar
el contraste se utiliza el contraste aumentado de Dickey-Fuller (APF) que consiste en
añadir términos autorregresivos en el contraste DF hasta que desaparece la autocorrelación.
El número de retardos utilizados se determina mediante el criterio de Akaike (eligiendo el
número de retardos que minimiza su valor).
El caso básico con una posible estruct ura AR(p) es
q
6.Yt = óYt- 1 +¿ . Yi 6.Yt-i + E:t
i=l
y el test es un contraste tipo t para
Ho : ó = O versus H1 : ó < O.
Los valores críticos para el parámetro ó serían los ya presentados con DFo. Si quisiéramos llevar
a cabo un contraste de significatividad sobre alguno de los parámetros / i utilizaríamos las
distribuciones estándar asintóticas habituales. El motivo para esta diferencia es que cualquier
hipótesis del tipo /i = O no introduce ninguna raíz unitaria.
Tema 17 667
P ara llernr a cabo este tipo de contraste ADF es preciso incluir el número de retardos
suficiente que asegure que los errores son IID. Es habitual empezar con un retardo amplio
para el tipo de serie, e ir eliminando retardos irrelevantes.
En la práctica incluimos variables deterministas como la constante. Si ese fuera el caso, es
decir, si estimamos
q
Lyt = f3o + óYt-1 + L !iLJt-i +Et (17 .3.3)

i=l
la hipótesis nula de tendencia estocástica o raíz unitaria sería Ho : ó = O, frente a la hipótesis

alternativa de proceso estacionario, H 1 : ó < O. Rechazamos la hipótesis nula si el valor
empírico es menor o más negativo que el valor crítico y concluimos que la serie es estacionaria.
P ara ello ut ilizamos los mismos estadísticos y valores críticos, en este caso DF1 . También aquí
podemos contemplar hacer un contraste tipo F con la distribución ADF correspondiente para
la hipótesis conjunta de f3o = ó =O.
Cuando la serie presenta una tendencia clara (creciente o decreciente) la hipótesis alterna-
t iva de estacionaridad (ausencia de raíz unitaria) sin contemplar la posibilidad de estaciona-
ridad en tendencia (determinista) no es adecuada y debe ser considerada. De manera que en
este caso se añade al contraste ADF una tendencia determinista, analíticamente el contraste
ADF con tendencia determinista es:
Lyt = f3o + at + óYt-1 + L /iLJt-i +Et. (17.3.4)

i=l
La hipótesis nula de tendencia estocástica o raíz unitaria es Ho : ó = O, frente a la hipótesis

alternativa de proceso estacionario alrededor de una tendencia determinista, H 1 : ó < O.
Rechazamos la hipótesis nula si el valor empírico es menor o más negativo que el valor crítico
y concluimos que la serie es estacionaria alrededor de una tendencia determinista. También
aquí podemos contemplar hacer un contraste tipo F con la distribución ADF correspondiente
para la hipótesis conjunta de a= ó =O.
Los valores críticos para muestras grandes del contraste ADF los reproducimos a conti-
nuación:
Valores críticos del estadístico ADF para muestras grandes

10% 5% 1%
Con término constante -2 .57 -2,86 -3 ,43
Término constante y tendencia -3.12 -3 ,41 -3,96
Veamos algunos ejemplos.
Ejemplo 51. El déficit público en España

La Figura 17 .3.1 muestra el déficit público en Espa ña entre 1964 y 2010.
668 T EN DENCIAS , RAÍCES UNITARIAS Y REG R ESIO NES ESP URIAS
Figura 17.3.1: Déficit, 1964-2010
·2
·10
-12 ...........~--~--~--~---
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Nos preguntamos si el déficit es estacion ario , y para ello recurrimos el contraste ADF. Con un
retardo de la variable endógena siguiendo el criterio de Akaike, la regresión ADF es:
--
6 déf icitt = -0, 662 - O, 257·déf icitt-l + O, 446·6déf icitt-l ·
(0, 299) (0,095) (0,158)
(17.3.5)
Los valores críticos o de tablas del estad ístico ADF para una muestra de 47 observaciones y
término constante son -2,925 al 5 % y -2 ,60 1 al 10 %.
El valor empírico de J es -2,705 (- 0, 257/O, 095) de manera que solo podemos rechazar la
hipótesis de raíz unitaria al 10 % de significa t ividad.
Por el contrario, si utilizamos el nivel usual (5 %) no podemos rechazar la hipótesis nula de
raíz unitaria .
Como sabemos, cuando no podemos rech aza r la hipótesis nula realmente solo podemos afirmar
que las evidencias empíricas para rechazarla no son suficientes y no significa que necesariamente la
serie tenga raíz unitaria. De manera que el resultado de la prueba ADF es en este caso ambiguo (se
rechaza al 10 % pero no al 5 %) . En todo caso, parece razonable proceder como si tuviera raíces
unitarias ya que la evidencia empírica a los nive les usuales no permite rechazar su existencia .
Ejemplo 52. El PIB argentino

En la Figura 17.2.1, gráfico a), se muestra el PIB de Argentina entre 1954 y 2008 en dólares
constantes del año 2000. La serie muestra una tendencia creciente y por tanto no tiene sentido
contrastar, como hipótesis alternativa , que el PIB argentino es estacionario puesto que es evidente
que no lo es. En consecuencia incluimos en la regresión ADF una tendencia determinista y ahora
la hipótesis alternativa de <5 es que la serie es estacionaria alrededor de una tendencia determinista
H1 : <5 < O.
La regresión ADF con tendencia utilizan do el criterio de Akaike para determ inar el número de
retardos es:
--
6 PIBt = 13935 + 776, 549 -t - O, 163- PIBt-1 +O,492· 6 PIBt-l·
(7881) (372,297) (0, 089) (0,147)
(17.3.6)
Tema 17 669
Los va lores ere- es o de tablas del estadístico ADF para una muestra de 55 observaciones con
término consta'"-e - ., dencia determinista son -3.494 al 5 % y -3 ,176 al 10 %.
El valor e ::> co de 8 es -1,831 (-0, 163/0, 089) de manera que no podemos rechazar la
hipótesis de ra z u :aria ni siquiera al 10 %, además el valor empírico -1,831 está muy alejado del
valor crít ico a 1 a de significatividad, -3,176. Por consiguiente , la evidencia empírica en contra de
que la serie de P 3 argentino es estacionario en tende ncia determinista es muy grande . Y puesto
que el co ntraste ADF no permite rechazar la existencia de ra íz unitaria consideramos que de hecho
el PIB argentino es estacionario en diferencias.
Ejemplo 53. El PIB argentino en primeras diferencias

En el ejercicio anterior hemos visto que las evidencias del contraste ADF con tendencia deter-
minista su gieren claramente que la serie del PI B pued e tener raíces unitarias y por consiguiente,
ser estacionario en diferencias.
Ahora vamos a contrastar si el PIB argentino en pri meras diferencias es estacionario. El criterio
de Akaike indica que el mejor ajuste se obtiene sin ut ilizar retardos de la variable dependiente; por
tanto utilizamos el contraste DF , cuya regresión es:
--
62 PIBt = 3605, 042 - 0,609·6PIBt-l ·
(1652) (0, 131)
(17.3 .7)
Los va lores críticos del estadístico DF para una muestra de 55 observaciones con término
constante son -3,555 al 1 %, -2,916 al 5 % y -2 ,596 al 10 %.
El valor empírico de 8 es -4,649 (-0 , 609/ 0, 131 ) y puesto que el valor empírico es más
negativo o menor que el valor crítico, incluso al 1 %, rechazamos la hipótesis nula de raíz unitaria
y concluimos que las primeras diferencias del PI B argentino son estacionarias.
17.4. ORIENTACIONES PARA LA MODELIZACIÓN
Una conclusión práctica que puede extraerse de lo presentado en este tema es que la
manera más fiable de tratar la presencia de una serie con tendencia es t ransformar la serie
a fin de que dicha tendencia desaparezca. Una técnica adecuada hemos comprobado que es
trabajar con la primera diferencia de la serie y así modelizar con la serie estacionaria, como
hemos venido haciendo generalmente en los temas presentados.
Desde el punto de vista del modelizador hay que considerar, no obstante, ciertas precau-
ciones. En efecto, los contrastes de Dickey-Fuller pueden no rechazar la hipótesis nula de
raíz unitaria (tendencia estocástica) y sin embargo el proceso podría estar generado por un
parámetro autorregresivo bastante cercano, pero no igual, a la unidad . En este caso, aun no
rechazando la nula de raíz unitaria, no significa que el proceso tenga una raíz unitaria, pues
el cont raste se puede equivocar más de lo esperado. Por otra parte, el contraste de DF y el
ADF consideran que el término error, E:t, es estacionario. En caso de que esto no sea así, los
contrastes de tipo DF no serían apropiados. Si sospechamos que el error no es estacionario .
porque la varianza no es constante, el contraste ADF puede inducirnos sistemáticamente a

errores. El estudio de estructura de dependencia en la varianza se analiza precisamente en el
tema siguiente.
Hay circunstancias muy importantes en las que el uso de variables 1(1) nos facilita la
comprensión de relaciones económicas fundamentales y, por tanto, sería desaconsejable el
transformarlas en 1(0) porque entonces estaríamos limitando el tipo de preguntas económicas
a las que podemos responder. En el Tema 16 planteamos los modelos ARD , y ahora por
simplificar vamos a ver un caso particular de la ecuación (16.2.3), fácilmente generalizable
para cualquier combinación de retardos. En particular nos referimos al modelo ARD(l ,l)
con dos particularidades, la primera es que ahora las variables no son estacionarias, y la
segunda es que ambas variables guardan una relación económica de largo plazo
que como se observa no tiene subíndices temporales pues es una relación económica entre las
variables que «acaba» cumpliéndose. Podemos reescribir la ecuación de largo plazo entre estas
dos variables I(l) de la forma habitual
Y= f3o + f31X
donde f3o = ro/( l - 1'1) , f31 = (óo + 81) /(l - 1'1).
La cuestión es que es posible expresar el modelo ARD(l,1) considerando el valor infor-
mativo de la relación de largo plazo. A partir de la expresión ARD(l ,1) sustraemos a ambos
lados Yt-1 y en el lado derecho le añadimos el término 80Xt-1 - 8oXt_ 1, lo que nos conduce a
ó.yt =ro+ (r1 - 1) Yt-1 + 80 (Xt - Xt-1) + (80 + 81) Xt-1 + ft .

Esta expresión puede reescribirse como sigue
/'O ( 80 + 81) )
ó.yt = (r1 - 1) ( ( ) + Yt-1 + ( ) Xt-1 + 806.Xt +et,
/'l - 1 /'l - 1
que puede expresarse más compactamente como
donde a = (1- 1'1). Como vemos la expresión entre paréntesis es la relación de largo plazo que
tienden a guardar las dos variables. De este modo la variación de la variable Y se explica por la
relación de largo plazo y por la variación de corto plazo experimentada por la variable X. En el
Tema 20 llamaremos a este tipo de expresiones modelos de corrección del error y abundaremos
entonces sobre el rol de las relaciones de largo plazo , que entonces llamaremos relaciones de
cointegración, lo que nos permitirá profundizar sobre cuándo tiene sentido utilizar variables
1(1) y cómo hacerlo. Observamos que en la última ecuación se trabaja simultáneamente con
variables 1(1 ) - en este caso, yt, Xt- junto con variables 1(0) -en este caso, ó.yt, ó.Xt. En estos
Tema 17 671
casos, y siemp_ - :::ia relación de largo plazo entre las variables, no será deseable
trabajar solo - - -__::. I O . En paralelo, las propiedades estadísticas de trabajar con
variables I(l oo_ _ : _ e cointegración veremos que son al menos tan buenas que con la
estimación co_ I O.
Así pues. ·;:;: == -o de vista del económet ra, este se encontrará en la tesitura de
decidir cómo -- <"" presencia de este tipo de varibles y de relaciones. Básicamente
se presentan~;;-:~- - posibilidades cuando t rat a con variables I(l). Si las variables son
(a) estacionari.ó.."'. ) ~ ' 1) y cointegradas, podemos estimar una regresión con la relación
entre los niYe_ - ~ ~ ·-a.riables sin el riesgo de la regresión espuria. En el caso (b) estimamos
primero la ecUGc:' _~o cuadrática entre las I( l) para la relación de largo plazo y luego
estimamos el müci:: e corrección de error que capt ura también la relación de corto plazo.
Si las variab - - I ' l) . pero no hay relación de cointegración, estimamos la relación entre
las variable e ·.:-erencias. Es decir , estimamos un modelo ARD en primeras diferencias. Y
por último. : :as variables tienen tendencia temporal (no estocástica) podemos estimar una
regresión que inc ye una tendencia determinista (de las vistas en este tema) con las variables
en niveles. Es decir. estimamos un modelo ARD en niveles con una tendencia determinista.
Por último. ha de quedar claro que no debemos considerar que los únicos tipos de no
estacionariedad se agotan con los procesos con tendencias deterministas y estocásticas. Un
tipo de proceso no estacionario relevante se presenta cuando hay un cambio estructural en la
función de regresión poblacional. Ya hemos expuesto algo sobre cambios estructurales en el
Tema 7; sin embargo, no vamos a profundizar más en este tipo de procesos no estacionarios,
y remitimos al lector al Tema 14 del manual de Stock y Watson (2007).
EJERCICIOS
Teóricos
l. Las series temporales pueden contener tendencias deterministas y/ o estocásticas, ¿cuál
es la diferencia entre ambas?
2. ¿Cómo podría contrastar si una serie es 1(2)? Indique qué series económicas podrían
presentar esta característica.
3. Suponga que ha decidido utilizar la ecuación de contraste de Dickey y Fuller con término
independiente y tendencia determinista, es decir,
k
6.yt = f3o + ÓYt-1 + ¡ t + L >.. i6.Yt-i + Et.
i= l
¿Cuál sería la hipótesis nula apropiada para contrastar conjuntamente que la serie tiene
una tendencia estocástica pero no determinista? ¿Cuál es la distribución del estadístico
de contraste? Si la hipótesis nula fu ese rechazada, ¿cuál sería la conclusión?
4. Considere los procesos:
672 TENDENCIAS , RAÍCES UNITARIAS Y REGRESIONES ESPURIAS
donde los términos de error son no autocorrelacionados e independientes entre sí y

z10 = z20 =O. Si efectuamos la regresión entre z1 y z2:
a) ¿Esperaríamos encontrar un parámetro significativo o no significativo?

b) Suponga que elige un nivel de significatividad de 0,05 para llevar a cabo el contraste,
¿es razonable esperar que se pueda rechazar alguna vez la hipótesis nula?
e) Genere ambos procesos con un ordenador, efectúe la regresión y contraste la signi-
ficatividad. Repita el proceso 100 veces, ¿qué observa?
5. Muestre que, bajo la hipótesis nula, el término error de la regresión del ejercicio anterior,
Zit = f3z2t + Ut, no puede cumplir los supuestos habituales.
Prácticos
6. La tabla ETl 7 1 contiene diversos datos macroeconómicos referidos a la UE y EE.UU.
a) Represente gráficamente las series de dicha tabla y decida la versión del test de
raíces unitarias más apropiado en cada caso.
b) Calcule el valor del test (poniendo atención en emplear el número de retardos
adecuado) y diga si, de acuerdo con el mismo, las series tienen o no una raíz
unitaria. Especifique claramente la hipótesis alternativa.
e) Cuando emplee la tercera versión del contraste (con constante y tendencia en la
ecuación), utilice un test F para contrastar la presencia de raíz unitaria, formulando
explícitamente la hipótesis nula . ¿Cuál es la conclusión si la hipótesis se rechaza?
¿Y si no se puede rechazar?
7. Con los datos de la tabla ETl 7 _ 2, calcule la regresión entre el consumo privado japonés
y la formación bruta de capital en España. A la vista de los resultados, diga si se aprecian
signos de regresión espuria y, en caso afirmativo , señale cuáles.
Tema 18
MODELOS TIPO ARCH
Los procesos lineales ARMA que hemos estudiado en el Tema 13 se caracterizan, entre otras
cosas, tanto por su varianza marginal (no condicionada) como por su varianza condicionada,
que son constantes. En este tema estudiaremos procesos estacionarios que son no lineales
en la varianza porque aunque su varianza marginal es constante, la varianza condicionada
a sus valores pasados no lo es. El lector puede preguntarse qué sentido o relevancia tiene
centrarse en la modelización de la varianza condicionada. Uno de los objetivos del tema es
entender precisamente la relevancia que este tipo de modelización tiene para el análisis de
datos económicos y financieros.
Los procesos que vamos a explicar en este tema se propusieron para explicar ciertas re-
gularidades que no son posible explicar con los modelos ARIMA. Por ejemplo, las series de
rentabilidades financieras, de las que la Figura 18.4.1 es un ejemplo típico, suelen presentar
las siguientes características:
• Distribución no normal.
• Colas de la distribución pesadas.
• Elevada curtosis.
• Poca estructura en la media: datos casi incorrelados, pero estos datos al cuadrado pre-
sentan fuerte estructura de dependencia.
• La varianza de los residuos de un ajuste lineal (por ejemplo tipo AR::vIA) no es constante
y aparecen rachas o épocas de menor variabilidad seguidas o precedidas de otras de
mayor variabilidad.
Hay varios modelos estocásticos que pueden reproducir este tipo de comportamientos. Los
que vamos a estudiar son los modelo denominados tipo ARCH que sin duda son los más útiles
y relevantes en la literatura actual.
673
674 MODELOS TIPO ARCH
18.1. PROCESOS AUTORREGRESIVOS CON VARIANZA CONDICIO-

NADA HETEROCEDÁSTICA
A lo largo de este libro, hemos puesto de manifiesto que en los datos económicos es poco
realista considerar que los errores de los modelos poblacionales planteados sean homocedásti-
cos. Muchas series históricas temporales muestran periodos de una inusualmente elevada vo-
latilidad , seguidos de periodos de relativa t ranquilidad. En tales circunstancias, la suposición
de que la varianza del término error es constante (homocedasticidad) resulta claramente
inapropiada.
No es difícil imaginar situaciones en las que uno puede estar muy interesado en predecir la
varianza condicionada de una serie. Por ejemplo, si uno posee (o considera la posibilidad de
poseer) un activo bursátil, parece razonable que esté interesado en prever el rendimiento del
mismo, y también la varianza (volatilidad) de la rentabilidad durante el periodo de tenencia
del activo. Por el contrario, la varianza no condicionada (es decir, la predicción a largo plazo
de la varianza) no sería importante si los planes son comprar el activo en el periodo t y
venderlo en el t + 1. Desde el punto de vista teórico, podemos decir que hay motivos para
estar interesados en modelizar la media del proceso (rendimiento esperado del activo) y la
varianza condicionada (volatilidad) del mismo.
En esta misma línea, los modelos de precios de los activos indican que la prima de riesgo
dependerá de la rentabilidad (retorno) esperado y de la varianza de esta rentabilidad. La
medida relevante es el riesgo sobre el periodo de tenencia, y no el riesgo no condicionado.
Un gestor de una cartera de fondos que utilice valores de riesgo podría no estar dispuesto
a mantener una cartera con un 5 3 de probabilidad de pérdida de un millón de euros . La
valoración del riesgo debería determinarse usando la distribución condicionada de los retornos
del activo. La varianza condicionada representa así la incertidumbre de las predicciones sobre
acciones o decisiones que entrañan un riesgo entendido de este modo .
18.1.1. Procesos ARCH

Engle (1982) mostró que es posible modelizar simultáneamente la media y la varianza de
una serie. Como paso previo para comprender la metodología de Engle, vamos a ver por qué
las predicciones condicionales son preferibles a las predicciones incondicionales. Supongamos
para ello que se estima un modelo ARMA estacionario yt = /30 + /31Yt-1 +Et, y queremos
predecir Yt+l· La media condicionada de Yt+1 por la información disponible hasta el momento
t es 1
Si usamos esta media condicionada para predecir Yt+i, es decir, si utilizamos la predicción
condicionada, entonces la varianza del error de predicción la podemos calcular fácilmente:
1
Utilizando de nuevo la notación contractiva del operador Et.
Tema 18 675
Sin embargo. si usamos predicciones no condicionadas, la predicción no condicionada (en la

que no damos por conocido Yt-j,j =O, 1, ... ) es siempre la media a largo plazo de la secuencia
{yt} que es igual a 3o/ (1 - /31). En tal caso, la varianza no condicionada del error de predicción
sería:
2
JE { [Yt+i - Bo/ (1 - /31)] } =JE [ (Et+1 + /31Et + /3fEt-1 + /3?Et-2 + .. .)2]
= (}" 2/ (1 - f3I) .
Dado que 1/ (1 - f3I) > 1, la predicción no condicionada tiene una mayor varianza que la
condicionada. Por lo que, la predicción condicionada (que tiene en cuenta los valores actuales
y anteriores de la serie) será preferible.
Igual que modelizamos la media (esperanza) del proceso, ahora estamos interesados en
modelizar la varianza del proceso. Para que esto tenga relevancia ha de darse el caso de que
la varianza de {Et} no sea constante, (}f. Si esto es así entonces se podría estimar cualquier
tendencia de los movimientos en la varianza usando, por ejemplo, un modelo ARMA.
Denominamos {ft} a los residuos estimados del modelo yt = /30 + /3 1Yt-1 +Et . La varianza
condicionada de Yt+1 es:
2 2
var (Yt+1 I Yt) = JEt [(Yt+i - /30 - 81Yt) ] = JEt (Et+1) ,
que ahora no es constante.

La varianza condicionada se podría modelizar como un proceso AR( q) para los cuadrados
de los residuos estimados, es decir
(18.1.1)
donde Vt es un proceso de ruido blanco.
Si los valores de a1, a2, .. ., aq fueran todos iguales a cero, la varianza estimada sería simple-
mente la constante ao. En otro caso, la varianza condicionada de yt evoluciona de acuerdo con
el proceso autorregresivo dado por la Ecuación (18 .1.1 ). De hecho, podemos utilizar (18 .1.1 )
para predecir la varianza condicionada en t + 1 como
~2 :::2 ~2 ~2
JE tEt+l = O'.Q + O'.lEt + 0'.2Et-1 + ... + O'.qEt+l-q·
Por esta razón, una ecuación de la forma (18.1.1 ) se conoce por modelo autorregresivo
heterocedástico condicionado 2 (ARCH). Este tipo de estructuras dinámicas en los resi-
duos pueden proceder tanto de un modelo tipo ARMA o incluso de un modelo de regresión
como los vistos en las dos primeras partes del libro. La cuestión fundamental es que estos
residuos pueden ser ruido blanco, y sin embargo estar formado por variables dependientes.
Estas dependencias facilitan que sea posible obtener información útil del pasado para explicar
su futuro, algo que no sucedería jamás si los residuos provinieran de una distribución normal.
Una clase de modelos que generan ruido blanco permitiendo simultáneamente dependencia
consiste en utilizar un esquema de perturbación multiplicativa, siendo por tanto una alterna-
tiva a la expresión (18.1.1). El ejemplo más simple de modelos heterocedásticos condicionados
multiplicativos fue el propuesto por Engle (1982):
2
Contracción de la expresión inglesa: A utoRegressive Conditional H eteroskedasticity.
(18.1.2)
donde Vt es un proceso de ruido blanco tal que a; = 1, Vt y Et-l son independientes, y ao y

a 1 son constantes tales ao > O y O < a1 < 1.
Dada la importancia de este modelo , veamos cuáles son sus características fundamentales.
Características básicas del proceso estocástico (18.1.2) Dado que Vt es ruido-blanco

e independiente de Et-l, es fácil ver que los términos de la sucesión {Et} tienen media cero y
sus elementos están incorrelacionados: Dado que JE (Vt) = O se tiene que
JE (Et) =JE [vt (ao + a1E;_ 1) 112J (18.1.3)

12
=JE (vt ) JE (ao + a1EL 1)1 =O.
Dado que JE (VtVt- i ) = O, tenemos que
JE (EtEt-i ) = Ü, i =/= Ü. (18.1.4)
La deducción de la varianza no condicionada de Et es también fácil.
JE (E¡)= [vl (ao + a1d-1)]

JE
=JE (vf ) JE (ao + a1EL1) ·
Dado que a;
= 1 y la varianza no condicionada de Et es idéntica a la de Et-1 (es decir,
JEEF = JEEL 1), la varianza no condicionada es3
(18.1.5)
Respecto de los dos primeros momentos no condicionados (media y varianza) observamos

analíticamente que no se ven afectados por la presencia del proceso de error dado por (18.1.2).
Veamos ahora qué sucede con los momentos condicionados. La media condicionada de Et
es igual a cero. Dado que Vt y Et- 1 son independientes y que JEvt =O, la media condicionada
de Et es
3
La manera de llegar a este resultado , similar a otros que aparecen en este tema, se deja como ejer-
cicio algebraico para el lector. Fundamentalmente consiste en desarrollar la expresión y utilizar los cri-
terios de convergencia de sucesiones. O alternativamente, utilizando la Ley de las esperanzas iteradas,
én
!E ( éD]
= !E [IEt-1 ( é;_
= ao + ai!E ( 1) , dado que es un proceso estacionario (que implica varianza no
condicionada constante) !E (é¡_ 1 ) =!E (1
d) , si sustituimos esta última igualdad por la anterior y despejamos
!E (é;) se obtiene el resultado deseado.
Tema 18 677
~ :=:t Et- 1,Et-2, ... ] = IEt-1 (vt) lEt-1 (ao + a1Ef_ 1)1 12 =O.
Obsérvese que por ahora las propiedades de Et no se ven afectadas por la estructura (18.1.2)
ya que la media condicionada y no condicionada es cero, la varianza es constante y todas las
autocovarianzas on cero . Sin embargo, la influencia de (18.1.2) recae por completo sobre la
varianza condicionada: Dado que JE (v¡) = 1, la varianza de Et condicionada por ét- 1,ct-2, ...
es:
(18.1.6)
En la Ecuación (18.1.6) , la varianza condicionada de ét depende del valor de e:f- 1. Si el

valor obtenido de Ef- 1 es relativamente alto, la varianza condicionada en ta este valor de e:f- 1
lo será también, haciendo más probable que el valor siguiente e:; también sea relativamente
alto. Este efecto va a producir correlación entre los cuadrados de la serie, lo que se traducirá
en rachas de valores de magnitud relativamente elevada, o con mayor varianza.
Por otro lado, el que la media condicionada y no condicionada sean nulas, facilita el he-
cho de que siempre sea posible que aparezca un valor pequeño de e:;, pese a que la varianza
condicionada fuera alta. De manera que la serie puede presentar rachas de valores altos, pero
globalmente seguirá un proceso estacionario en media. También se aprecia que la varianza
condicionada sigue un proceso autorregresivo de primer orden, motivo por el cual se le deno-
mina ARCH(l). Esta expresión naturalmente nos recuerda a un proceso autorregresivo AR(l),
pero es importante observar que los coeficientes ao y a 1 han de estar restringidos a fin de que
la varianza condicionada nunca sea negativa. Para ello es necesario asumir que ao y a1 son
positivos. Para asegurar la estabilidad del proceso es necesario que se cumpla que O < a 1 < 1.
Es central observar de las ecuaciones (18.1.3), (18.1.4) , (18.1.5), y (18.1.6) que las medias
condicionada y no condicionada son nulas; los elementos de sucesión {e:t} no están correlacio-
nados entre sí; y sin embargo los errores no son independientes toda vez que están relacionados
con su segundo momento 4 .
Cabe preguntarse cuál será el efecto que tendrá el proceso (18.1.2) sobre un proceso yt . Es
decir, nos interesa saber cómo afecta la estructura en el error de dependencia no lineal (por
la heterocedasticidad condicionada) sobre la sucesión {Yt}. Nos gustaría que fuera tal que
pudiera recoger aquellos hechos estilizados prototípicos de las series temporales tales como la
existencia de periodos de tranquilidad y de volatilidad.
Desde un punto de vista formal las propiedades de la media y la varianza condicionadas
de {Yt} vienen dadas por
lEt-1 (Yt) = /30 + /31 Yt-1

y
var (Yt 1 Yt- 1, Yt-2, ... ) = lEt-1 (Yt - /30 - /31Yt-i) 2

2
= lEt-1 (ct)
2
= ao + a 1 (ct-i) .
4
La correlación es lineal por definición , luego vemos que pese a no haber correlación, sí hay dependencia.
Dado que a 1 y Ef- 1 no pueden ser negativos, el mínimo valor de la varianza condicionada
es ao. Para cualquier valor de Et-1 distinto de cero , la varianza condicionada de yt está
positivamente relacionada con a 1. Es de destacar que la estructura univariante de yt puede
generar cambios en la varianza condicionada, y es posible hacerlo sin necesidad de utilizar
una segunda variable. La Figura 18.1.1 muestra el caso de un proceso AR(l) en la media con
errores condicionados heterocedásticos tipo ARCH(l) , esto es:
y el caso del modelo
en donde hemos utilizado exactamente la misma serie de residuos en ambos casos. Por otro
lado , en la Figura 18.1.2 hemos dibujado los residuos heterocedásticos utilizados. Lo primero
que observamos es la interacción entre el proceso de la media de yt y de la varianza del
error del modelo. Además se aprecia igualmente que la volatilidad crece con el parámetro
autorregresivo de orden uno.
El proceso ARCH(l) es un caso interesante que fácilmente nos conduce al modelo ARCH(q)
de mayor orden:
q
Et = Vt ao + '"' .2
L.; a iEt-i. (18.1.7)
i=l
En (18.1.7) todas las perturbaciones desde Et-l hasta Et-q tienen un efecto directo sobre
de modo que la varianza condicionada actúa como un proceso autorregresivo de orden q.
Et ,
La varianza no condicionada será:
q
var(Et) =JE (E¡) =JE [JEt-1 (E¡)] = ao + ¿ a iJE (ELi) ,
i=l
dado que JE (Ef_i) =JE (E¡) , entonces factorizando y despejando queda:
var(Et) = ªº
1 - a1 - ... - aq
,
q
lo que exige la restricción ¿ ai < 1.
i=l
Tema 18 679
Figura 18.1.1: Procesos AR-ARCH

AR(1)·ARCH(1), alpha. o.as
10.---~~~...---~~~.,--~~~...,.,-~~~-.-~~~--,
20 40 60 80 100
AR(1)-ARCH:1), alpha •O 25
10.---~~~...---~~~.,--~~~,--~~~-.-~~~--,
40 80 100
Figura 18.1.2:
Errores heteroce<fásticos
•
o
-2
-4
•
18.1.2. Procesos GARCH

Bollerslev (1986) generaliza el trabajo pionero de Engle permitiendo que la varianza con-
dicionada sea un proceso ARMA. Ahora el proceso del error es de la forma
donde a-; = 1y
q p
ht = ªº + ¿ o:isLi + ¿ f3iht-i· (18.1.8)
i= l i=l
Si {vt} es un proceso de ruido blanco, entonces las medias condicionada y no condicionada

de Et son iguales a cero. Tomando el valor esperado de Et, es fácil comprobar que
JE (et) =JE (vt) JE (ht) 1/ 2 =O.

El punto importante es que la varianza condicionada viene dada por Et-1 (sf) = ht. Por
tanto, la varianza condicionada de Et es el proceso ARMA dado por la expresión de ht en
(18.1.8). Si consideramos el caso más sencillo para la estructura de ht, es decir,
ht = ªº + 0:1sL1 + f31ht-1,
entonces por un lado tendremos que valores altos de Et dan lugar a una mayor varianza en el
periodo siguiente, y además el nuevo término (3 1 obliga a que la varianza cambie con cierta
inercia, todo lo cual produce rachas de mayor variabilidad.
Este modelo ARCH (p, q) generalizado, llamado GARCH (p, q), permite que la varianza
heterocedástica pueda ser representada por componentes autorregresivos y componentes de
medias móviles. Si tenemos que p = O y q = 1, es claro que el modelo ARCH de primer orden
dado por (18.1.2) es simplemente un modelo GARCH (O, 1). Por lo tanto, si todos los valores
de f3i son cero, el modelo GARCH (p, q) es equivalente a un modelo ARCH (q).
Un modelo ARCH de orden superior (q alto) puede representarse de manera más sencilla
mediante un GARCH, lo cual facilita la identificación del modelo y su estimación. Para ase-
gurar que la varianza es finita, todas las raíces del polinomio característico asociado a (18.1.8)
deben caer en el circulo unitario. Una mayor simplicidad en el modelo especificado supondrá
un menor número de restricciones en los coeficientes.
La característica clave de los modelos GARCH es que la varianza condicionada de las
perturbaciones de la sucesión {Yt} se distribuye como un proceso ARMA. Por tanto es de
esperar que los residuos generados a partir de un filtrado ARMA deberían comportarse en
sintonía con dicho patrón característico. Es decir, suponemos que estimamos {Yt} como un
proceso ARMA. Si la especificación ARMA es adecuada, entonces la ACF y la PACF de los
residuos deberían ser indicativas de un proceso de ruido blanco. Sin embargo, la ACF del
cuadrado de los residuos puede ayudar, en su caso, a identificar el orden del proceso GARCH.
La Ecuación (18.1.8), como hemos sugerido, se parece mucho a un proceso ARMA estándar.
Como tal, si hay heterocedasticidad condicionada, el correlograma debería ser indicativo de
tal proceso. Dos posibles técnicas se basan en los residuos al cuadrado. Son las siguientes:
Tema 18 681
Uso del correlograma del cuadrado de los residuos
(1) Estimar {yt} usando el modelo ARMA (o el modelo de regresión) que mejor se ajuste,
y obtener los cuadrados de los errores ajustados { tD. También calcular la varianza
muestral de los residuos (0- 2) definida como:
T
0- 2 = ¿ t;/T,
t=l
donde T = Número de residuos
(2) Calcular y dibujar las autocorrelaciones muestrales de los residuos al cuadrado como:
T
¿ (t¡ - a-2) (tLi - a-2)
t=i+ l
T
¿ (t¡ - a-2)2
t=l
(3) En muestras grandes, la desviación estándar de Pi se aproxima a T- 0 ,5 . Los valores in-

dividuales de Pi que son significativamente distintos de cero son indicativos de errores
GARCH. Los Q-estadísticos Ljung-Box pueden usarse para analizar grupos de coefi-
cientes significativos. El estadístico
n
Q = T(T + 2) ¿ pi/ (T - i)
i=l
tiene una distribución asintótica x2 con n grados de libertad si la secuencia { t¡} está
serialmente no correlacionada. Rechazar la hipótesis nula de que la secuencia { t¡} no
está correlacionada en serie es equivalente a rechazar la hipótesis nula de no ARCH o
de errores GARCH. En la práctica, debería considerarse valores de n no superiores a
T / 4.
Contraste para efect os ARCH
(1) Usar MCO para estimar la ecuación de regresión más apropiada o el modelo ARMA y
sean { t¡} los cuadrados de los errores ajustados.
(2) Regresar estos residuos al cuadrado sobre una constante y sobre los q valores retardados
·2 Et_
Et-l> ' 2 est o es, est•imar una regres10n
·2 2 , ... , Et-q> . , de 1a forma
Si no hay efectos ARCH o GARCH, los valores estimados de a1 a aq deberían ser cero.
Por tanto, esta regresión tendrá poco poder explicativo de modo que el coeficiente de deter-
minación R 2 será bastante bajo. Usando una muestra de T residuos , bajo la hipótesis nula
de que los errores no siguen un (G)ARCH , el t - estadístico TR 2 converge a una distribución
x2 con q grados de libertad. Si T R 2 es suficientemente grande, rechazaríamos la hipótesis
nula de que a1 a aq son conjuntamente iguales a cero, lo cual es equivalente a rechazar la
hipótesis nula de que los errores no siguen un proceso (G)ARCH. Por otro lado, si TR 2 es
suficientemente pequeño , es posible concluir que no hay efectos ARCH. En muestras peque-
ñas, típicamente utilizadas en trabajos aplicados, un contraste de la F para la hipótesis nula
a 1 = ... = aq = O muestra más potencia que el contraste x2 . Recordemos que el test de la F
consiste en comparar el valor de la F muestral con el valor de F en la tabla F , con q grados
de libertad en el numerador y T-q grados de libertad en el denominador.
18.1.3. Un ejemplo clásico de estimación (G)ARCH: Modelización

temporal de la inflación
Si bien la inflación no es el ámbito científico donde mayor repercusión y recorrido ha tenido
la modelización GARCH, sí es un ámbito socialmente relevante y además fue el terreno en el
que se propuso inicialmente la modelización tipo (G)ARCH. En el ámbito de la negociación
salarial, claramente, empresas y sindicatos necesitan predecir la tasa de inflación sobre el
periodo de duración del contrato laboral. La teoría económica sugiere que la negociación del
salario dependerá de la tasa de inflación predicha y de la incertidumbre sobre la precisión de
esta predicción. Sea !Et (7rt+ 1) la esperanza condicionada de la tasa de inflación para t + 1 y
sea O";¡ la varianza condicionada. Si las partes en el contrato tienen expectativas racionales,
0";
los términos del contrato dependerán de IEt7rt+l y de 1, en vez de depender de la media y
la varianza no condicionadas. La hipótesis de expectativas racionales asegura que los agentes
no pierden información útil. En la predicción de algunas series, los agentes racionales usan
la distribución condicionada de la serie, en vez de la no condicionada. Por tanto, cualquier
test del modelo de negociación salarial que use la varianza histórica de la tasa de inflación
sería incompatible con la idea de que los agentes racionales hacen uso de toda la información
disponible (es decir , medias y varianzas condicionadas).
Un modelo ARCH para la inflación del Reino U nido

El artículo pionero de Engle (1982) consideró los residuos de un modelo simple de la
espiral salarios/ precios para el Reino Unido (RU) durante el periodo 1958 - 1977. Sea Pt el
logaritmo del índice de precios al consumo de RU y Wt el logaritmo del índice de salarios
nominales. Por lo tanto, la tasa de inflación es 7rt = Pt - Pt-1 y el salario real es rt = Wt - Pt·
El modelo estimado por Engle para la tasa de inflación de RU fue
0,0257 +0,3347rt-1 +0,4087rt-4 -0,4047rt-5 +0,0559rt-1

(0,0057) (0,103) (0,110) (0,114) (0,01369) (18.1.9)
0,000089,
Tema 18 683
donde ht es la Yarianza de {Et}.

Según el modelo estimado, aumentos del salario real del periodo anterior generan un
aumento de la tasa de inflación actual. Los retardos de la tasa de inflación en t - 4 y t - 5
capturan factores estacionales propios de la serie económica en cuestión. Todos los coeficientes
tienen un t- estadístico mayor a 3,0, y varios contrastes apuntan hacia la no presencia de
correlación en los residuos. La varianza estimada fue de 0,000089.
En el análisis de los errores ARCH , el contraste de Engle de efectos ARCH (también
conocido por contraste de los multiplicadores de Lagrange para errores heterocedásticos) no
fue significativo para un ARCH(l); sin embargo, el contraste para errores de un proceso
ARCH(4) arrojó un valor de TR 2 igual a 15,2. En el nivel de significación del 0,01, el valor
crítico de x2 para cuatro grados de libertad es 13,28; por tanto, se concluye con que hay
evidencias de la presencia de errores tipo ARCH .
Engle especificó el proceso ARCH(4) siguiente:
(18.1.10)
Este conjunto particular de ponderaciones sobre las variables retardadas , garantiza que se
satisfacen las condiciones ao > O y O < a1 < 1.
Una cuestión importante que ahora anticipamos es cómo estimar los coeficientes de las
ecuaciones (18.1.9) y (18 .1.11) sin perder eficiencia. La solución más generalizada utiliza técni-
cas de estimación máximo verosímiles no lineales , que brevemente expondremos más adelante
en este tema.
Las estimaciones máximo verosímiles del modelo de Engle son:
0,0328 +0,1627rt-1 +0,2647rt-4 -0,3257rt-5 +0,0707rt-l

(18.1.11)
(0,0049) (0,108) (0,089) (0,099) (0,0115)
ht = 0,000014 +0,955
(8,5 X 10- 6 ) (0,298)
Los valores estimados de ht son las varianzas condicionadas del error de predicción. Todos
los coeficientes (excepto el propio retardo de la tasa de inflación) son significativos a niveles
convencionales. Usando los valores calculados para {ht}, Engle aprecia que la desviación típica
de las predicciones de la inflación se duplicó a medida que la economía del Reino Unido pasó
de los años sesenta a los caóticos años setenta. La estimación puntual de 0,955 indica unos
efectos de severa persistencia a lo largo del tiempo.
Un modelo GARCH para la inflación de EE.UU.

Tras la publicación de artículo del Engle (1982), Bollerslev (1986) propone un modelo de
la inflación de EE.UU. En este trabajo se pone de manifiesto una crítica a la arbitrariedad en
la conformación de la varianza condicionada (18.1.10) que establece una combinación lineal
decreciente en los retardos. No obstante, este tipo de restricciones en la estructura garantiza
la estimabilidad del modelo, algo que no necesariament e sucedería en caso de plantear un
modelo sin restricciones en la estructura de los retardos.
A partir de los datos trimestrales durante el periodo transcurrido de febrero-1948 a abril-

1983, Bollerslev (1986) calcula la tasa de inflación a partir del cambio logarítmico producido
en el deflactor del PIB de EE.UU. Su estimación es la siguiente:
7rt = 0,240 +0,5527rt-1 +0,1777rt-2 +0,2327rt-3 -0,2097rt-4 + et

(18.1.12)
(0,080) (0,083) (0:089) (0,090) (0,080)
ht = 0,282.
En dicho trabajo, la Ecuación (18.1.12) presentó coeficientes significativos a niveles con-
vencionales, con unos valores estimados de los coeficientes de autorregresión que implicaban
estacionariedad. La FAT y la FAP no tuvieron coeficientes significativos al nivel del 5 3 de
significación. En cambio, la FAT y la FAP de los residuos al cuadrado (tn arrojaban correla-
ciones significativas. De hecho, los contrastes estadísticos para errores ARCH(l), ARCH(4) y
ARCH(8) fueron altamente significativos.
Ante esta situación, Bollerslev estima el modelo ARCH(8) restringido, y para tal restricción
utiliza una técnica ya prevista por Engle y Kraft (1983). El resultado fue:
7rt = 0,138 +0,4237rt-l +0,2227rt-2 +0,3777rt-3 -0,1757rt-4 +et,

(18.1.13)
(0,059) (0,081) (0,108) (0,078) (0,104)
8
ht = 0,058 +0,802 ¿ [(9 - i) / 36J cLi·
i=l
(0,003) (0,265)
Pese a que los coeficientes de la autorregresión (18.1.12) y (18.1.13) son bastante similares,
los modelos para la varianza son bastante diferentes. La Ecuación (18.1.12) asume varianza
constante, mientras (18.1.13) asume que la varianza (ht) es una media ponderada geométri-
camente decreciente de la varianza de los 8 t rimestres previos. Ambos hechos implicarán que
las predicciones de la tasa de inflación de los dos modelos deberían ser similares, pero los
intervalos de confianza alrededor de la predicción diferirán: la Ecuación (18.1.12) generará un
intervalo constante de anchura invariable, mientras que la Ecuación (18.1.13) produce inter-
valos de confianza que se expanden en los periodos de volatilidad de la inflación y se contraen
en los periodos de relativa tranquilidad.
En paralelo, Bollerslev, a fin de subrayar la relevante utilidad de los GARCH, contrasta la
posible estructura GARCH de primer orden en la varianza condicionada, para lo que estima
la ecuación:
8
ht = ao + a1 I: [(9 - i) /36] eLi + ,81ht-l· (18.1.14)
i=l
En primer lugar construye los residuos de la varianza condicionada de (18.1.13), poste-
riormente calcula la regresión de estos residuos sobre una constante y ht-1, en cuyo caso TR 2
Tema 18 685
sigue una distribución x2 con un grado de libertad. El estadístico realizado es T R 2 = 4,57 que
al nivel del 5 % de significación, conduce a no rechazar la hipótesis de un proceso GARCH de
primer orden. Dada la relevancia del coeficiente (31 estima el siguiente modelo GARCH(l,1):
7rt = 0,141 +0,4337rt-l +0,2297rt-2 +0,3497rt-3 -0,1627rt-4 +et,

(0,060) (0,081) (0,110) (0,077) (0,104)
(18.1.15)
ht = 0,007 +o,135ei_ 1 +0,829ht-1 ·
(0,006) (0,070) (0,068)
Ahora las pruebas rutinarias de diagnóstico indican que la FAT y la FAP de los residuos
al cuadrado no revelan ningún coeficiente que exceda 2r-o, 5 . El contraste de residuos hete-
rocedásticos para la presencia de retardos adicionales de ef y para la presencia de ht_ 2 no es
significativo al 5 %.
Es relevante apreciar que la inclusión de la modelización GARCH dota de mayor «simpli-
cidad» al modelo (18.1.15) respecto del modelo (18.1.13).
18.2. PROPIEDADES ADICIONALES DE LOS PROCESOS GARCH
En un proceso GARCH intervienen dos ecuaciones interrelacionadas:
yt = ao + f3Xt + et (18.2.1)
2 2 ) 0,5
et = Vt ( ÜO + Ület-1 + ... + üqet-q + f31ht-1 + ... + (3pht-p , (18.2.2)
donde Xt puede ser un proceso ARMA de orden (pm, qm). Además, Xt puede contener varia-
bles exógenas.
La primera ecuación modeliza el comportamiento de la media (esperanza) y la segunda
nos modeliza el comportamiento de la varianza. Los símbolos pm y qm se utilizan para denotar
el orden del proceso ARMA para la media, que obviamente son distintos, en general, de los
órdenes que caracterizan a la ecuación GARCH(p,q). Ambas ecuaciones están relacionadas,
ya que ht es la varianza condicionada de et; por tanto, el proceso GARCH de (18.2.2) es la
varianza condicionada de la Ecuación (18.2.1), lo cual comprobamos fácilmente.
Dado que et = Vt (ht)º' 5 , entonces la relación entre ht y ef será
y, dado que JE (vl) = IEt-1 (vl) = 1,

Propiedades de los procesos de error GARCH (1,1)

A modo de resumen y por contrastar con el caso homocedástico cabe decir que en ausencia
de heterocedasticidad condicionada, {Et } tiene media cero , varianza constante y todas las auto-
correlaciones entre Et y Et-j son cero. Sin embargo, para un proceso estocástico GARCH (l ,1),
la cuestión se complica ligeramente:
• La varianza condicionada de un GARCH(l.1) es:
JEt-1Ei = ao + a1EL 1 + /31 ht-1 ;

o
(18.2.3)
• La esperanza de Et : la media no condicionada de Et es cero. La esperanza de (18.2.2)

es:
12
JEE:t =JE [vt (ht) l J =O,
dado que ht no depende de Vt, y JEvt =O, entonces la JEEt =O
• La varianza de E( dado que Et = vt (ao + a1EL 1 + /31 ht-1) , la varianza no condicio-
nada del proceso GARCH(l ,1) es:
(18.2.4)
expresión que simplificamos teniendo en consideración que JEvt = 1 y
que sustituimos en (18.2.4) para obtener en el caso de i = 1
(18.2 .5)
Por tanto , la varianza no condicionada, estará correctamente definida para a1 + /31 < 1, y
será:
JE (E¡) = ao/ (1 - a1 - /31) .

En general, para modelos GARCH(p, q), la varianza será finita si se cumple que
q p
1- ¿ Üi - ¿ /3i > o.
i=l i=l
• La función de autocorrelación Las autocorrelaciones son todas iguales a cero, ya

12 1 2
que JE (EtEt-j) =JE [vt (ht) / Vt-j (ht-j) ! J y dado que ht , Vt-j y ht-j no dependen del
valor de Vt y JEvt = O, entonces tenemos que todas las autocorrelaciones son cero para
j =I= o.
Tema 18 687
Figura 1-.2 .... : Persistencia en el modelo GARCH(l,1): ht (línea discontinua), h~
so
80
70
1....
60
.......
,
50
....."
·:
40
30
20
10
20 40 60 80 100
• La varianza condicionada La varianza condicionada del proceso de error es ht , ya

que
lEt-1 (E¡) = lEt-1 (vzht) = ht.
Este simple resultado es una característica esencial de la modelización GARCH. La
varianza condicionada del proceso de error no es constante. Por tanto, con una apro-
piada especificación de los parámetros de ht, es posible modelar y predecir la varianza
condicionada del proceso {yt}.
• Persistencia de la volatilidad En un proceso GARCH, los errores están no correla-

cionados JE (EtEt-J) =O. Sin embargo, como muest ra la Ecuación (18.2.3), los errores al
cuadrado de un proceso GARCH (1,1) están correlacionados. De hecho , la FAT de los
residuos al cuadrado de un proceso GARCH(l,l) tiende a comportarse como un proceso
ARMA(l,1). Valores grandes de 0:1 y f31 actúan incrementando la volatilidad condi-
cionada, pero lo hacen de manera diferente. Esto lo podemos ilustrar con un ejemplo
sencillo. Consideremos los dos modelos siguientes de varianza condicionada:
ht = 1 + Ü,6Ef-1 + Ü, 2ht-l·
h~ = 1 + Ü,2Ef-1 + 0,6h~-l ·
de los que generamos, a partir de una misma serie de innovaciones Vt, una realización
de procesos de errores al cuadrado E¡ 2
= v'f ht y (E~) = v'f h~. Representamos ambas
realizaciones en la Figura 18.2.1 , la primera con trazo discontinuo y la segunda con
trazo continuo.
Dado el valor de ht, consideremos que llega nueva información, lo cual queda recogido en un
shock Vt que, obviamente, tiene un efecto inmediato sobre E¡. En la Figura 18.2.1, podemos
apreciar que el efecto de la innovación en el siguiente periodo es más pronunciado para el

modelo ht que para el h~ dado que el primero tiene un valor mayor de a1. En cambio, los
picos en la serie generada por el modelo h~ son más persistentes, dado el mayor valor de {31 .
Evaluación del ajuste y pruebas de diagnóstico

Una manera de analizar la adecuación de un modelo GARCH es comprobar o evaluar la
calidad del ajuste respecto de los datos. Algunos autores usan el AIC (Akaike Information
Criterion) y el SBC (Schwartz Bayesian Criterion); por ejemplo, el criterio AIC es
AIC = Tln(L:t;) + 2n,

donde n es el número de parámetros necesarios para la estimación del modelo. Sin embargo,
ambos criterios utilizan la suma cuadrática de los residuos (SCR) de una regresión para la me-
dia del proceso , cuando realmente estamos interesados tanto en la media como en la varianza
condicionada. Por este motivo es razonable utilizar las verdaderas innovaciones del modelo,
es decir, Vt, que podemos obtener simplemente estimando Vt =et/ h~· 5 , que es representativo
de los errores relativos a los valores ajustados de la varianza condicionada:
T
SCR' = ¿ (cUht) 2 .
t= l
Si los valores el estuvieran cercanos a los valores estimados de ht, entonces deberíamos
seleccionar aquel modelo con la menor SCR'. También es posible elaborar un criterio tipo
AIC o SBC si consideramos que las innovaciones provienen de una distribución normal. En
tal caso, el valor que maximiza la función de verosimilitud depende de
T
L = - ¿ [zn(ht) + cUht],
t=l
lo que permite usar
AIC'= lnL + 2n,
SBC, = -lnL + nln(T),

donde L está definido arriba y n es el número de parámetros estimados.
Además de proporcionar un buen ajuste, un modelo estimado GARCH debería capturar
todos los aspectos dinámicos del modelo, tanto por lo que se refiere a la media como a la
varianza. En este sentido, los residuos estimados deberían estar serialmente no correlacionados
y no deberían mostrar ningún resto de volatilidad condicionada.
Para analizar estos aspectos se estudian los residuos estandarizados, como indica la ecua-
ción
' ' /h' t0,5 ·
Vt =Et (18.2.6)
Tema 18 689
Esta expresión estandariza cada residuo usando su desviación típica condicionada. La serie
resultante, Vt, debería tener media cero y varianza uno.
Si hay alguna correlación serial en la secuencia {vt}, el modelo de la media no está es-
pecificado apropiadamente. Para analizar el modelo de la media, se hallará el estadístico- Q
de Ljung-Box para la secuencia {vt} . No se debería poder rechazar la hipótesis nula de que
varios Q-estadísticos son cero. Del mismo modo, para analizar los restantes efectos GARCH,
podemos utilizar el estadístico-Q de Ljung-Box ahora sobre los residuos estandarizados al
cuadrado (esto es, vi?). Si no hay efectos GARCH rest antes, no se debería poder rechazar
la hipótesis nula de que los valores muestrales de los Q-estadísticos sean iguales a cero. En
definitiva, Vt 2 es un estimador de cUht = v[, y como tal, las propiedades de {vt 2 } deberían
imitar a aquellas de un proceso de ruido blanco.
Una vez que el modelo es satisfactorio, el siguiente paso es utilizar el modelo para pre-
decir valores futuros de yt y de su varianza condicionada. Además, el modelo permite crear
intervalos de confianza alrededor de la predicción usando la estimación de la desviación típica
condicionada. Dado que lEtct+i = ht+1, un intervalo de confianza para la predicción puede
construirse como
Observamos que dado que la esperanza de todo proceso GARCH es cero, la predicción
óptima de Yt+j no se ve afectada por la presencia de errores tipo GARCH. Es, en cambio,
el intervalo de confianza alrededor de la predicción el que se ve afectado por la varianza
condicionada.
La predicción para un periodo hacia adelante de la varianza condicionada es fácil de
obtener. Si actualizamos ht un periodo, encontramos
ht+1 = ao + a1cF + /31ht,

donde éfy ht son conocidos en el periodo t. La predicción j periodos hacia adelante la
desarrollamos en el Apéndice técnico.
18.3. ÜTROS MODELOS TIPO ARCH
El mayor desarrollo de la modelización tipo ARCH se ha producido en el campo de la

modelización de activos financieros. En particular, el interés fundamental reside en obtener
estimaciones precisas de la varianza condicionada del precio de un activo. Dado que los modelos
GARCH pueden predecir la volatilidad condicionada, los inversores pueden medir el riesgo de
un activo durante el periodo de tenencia del mismo.
18.3.1. ARCH-M
Engle, Lilien y Robins (1987) extendieron el modelo básico ARCH para permitir a la media
de la serie depender de su propia varianza condicionada. Esta clase de modelo, llamado el
modelo ARCH en Media (ARCH-M), es particularmente adecuado para estudiar los mercados
de activos. Dado que el grado de riesgo de un activo puede ser medido por la varianza de la
rentabilidad, la prima de riesgo será una función creciente de la varianza condicionada de las
rentabilidades. La idea consiste en escribir el exceso de rentabilidad por tenencia de un activo
con riesgo como
(18.3.1)
donde yt representa el exceso de rentabilidad por la tenencia de un activo a largo plazo relativo
a un bono del Tesoro en un periodo; µt es la prima de riesgo necesaria para inducir al agente
con aversión al riesgo a mantener el activo a largo plazo en lugar de el bono de un periodo y
ét es el shock no predecible del exceso de rentabilidad sobre el activo a largo plazo.
El exceso de rentabilidad esperado por la tenencia de un activo a largo plazo debería ser
igual a la prima de riesgo:
Engle, Lilien y Robins asumen que la prima de riesgo es una función creciente de la
varianza condicionada de ét, esto es, a mayor varianza condicionada de las rentabilidades,
mayor compensación es necesaria para inducir al agente a mantener el activo a largo plazo.
Matemáticamente, si ht es la varianza condicionada de ét · la prima de riesgo puede expresarse
como:
ó> o, (18.3.2)
donde ht es el proceso ARCH ( q)
ht = ªº + ¿ aicLi· (18.3.3)
i=l
Como un conjunto, las Ecuaciones (18.3.1), (18.3.2) y (18.3.3) constituyen el modelo básico
ARCH-M. Obsérvese que si la varianza condicionada es constante (es decir , a 1 = a2 = ... =
cxq =O) el modelo ARCH-M se convierte en el caso tradicional de prima de riesgo constante.
18.3.2. Modelos TARCH y EGARCH

Una característica interesante de los precios de activos es que las malas noticias parecen
tener un efecto más pronunciado sobre la volatilidad del que lo tienen las buenas noticias.
El efecto apalancamiento captura este tipo de comportamientos: la idea es que podemos
medir la nueva información por el tamaño de ét· En caso de ét = O, la volatilidad esperada
(lEtht+i) estará a un nivel determinado. A partir de ese nivel (sin noticias nuevas) , si las
noticias son «buenas» (es decir, si ét es positivo) , la volatilidad crece más de lo que crece en
caso de que las noticias sean malas. Es decir, un shock positivo ét produce un menor efecto
sobre la volatilidad que un shock negativo de la misma magnitud.
Glosten, Jaganathan y Runkle (1993) mostraron cómo modelizar la asimetría de estos efec-
tos sobre la volatilidad. Considerando el proceso con umbral ( Threshold) GARCH (TARCH) :
Tema 18 691
ht = ao + a1cL 1 + .A1dt-1cL 1 + !3i ht-1 ,

donde dt-1 es una variable dummy que es igual a uno si Et-1 < O y es igual a cero si Et-1 2'. O.
Por tanto. si Et-1 2'. O, el efecto del shock Et-1 sobre ht es a1cL 1, mientras que si Et-1 <O,
dt-1 = 1, y el efecto del shock Et-1 sobre ht es (a1 + .A 1) ci- 1. En caso de que .A1 >O, entonces
los shocks negativos tendrán mayores efectos sobre la volatilidad que los positivos. Esto se pue-
de contrastar mediante la variable producto dt-1cL 1. Si el coeficiente .A1 es estadísticamente
diferente de cero, se concluye que los datos contienen un efecto umbral.
Otro modelo que permite el efecto asimétrico respecto de la llegada de noticias es el modelo
Exponencial-G ARCH (EG ARCH).
ln(ht) = ao + a1 (ct-i/h~~1 ) + .A1 IEt-i/h~~1 1 + f31 ln (ht-1). (18.3.4)
La Ecuación (18 .3.4) permite efectos apalancamiento, ya que si Et-i/hL 1 es positivo, el

efecto del shock sobre el logaritmo de la varianza condicionada es a1 + .A1. Si Et-i/hL 1 es
negativo , el efecto del shock sobre el logaritmo de la varianza condicionada es -a 1 + .A 1 .
También permite que los coeficientes del modelo puedan ser incluso negativos, lo cual era una
restricción en los modelos estándar. Esto es así porque la ecuación de la varianza condicionada
es log-lineal, y por tanto, independientemente de la magnitud ln(ht), el valor de ht no puede
ser negativo.
Una manera de analizar el apalancamiento es estimar el modelo TARCH o EGARCH y
realizar un contraste tipo t para la hipótesis nula >. 1 = O. Sin embargo, hay una prueba de
diagnóstico específica que te permite determinar cuando hay efectos apalancamiento en los
residuos. Después de estimar un modelo ARCH o GARCH, formamos los residuos estandari-
zados
1/ 2
ctf ht
A A
St = ·
Para analizar los efectos apalancamiento, se estima la regresión de la forma
s; = f3o + f31st-1 + f32st-2 + ...

Si no hay efectos apalancamiento, los errores al cuadrado no deberían estar correlacionados
con el nivel del término error. Luego se puede concluir que hay efectos apalancamiento si el
valor muestral de F para la hipótesis nula j31 = /32 = ... = O excede del valor crítico de la
tabla de F.
18.3.3. Cuestiones a tener en consideración con los modelos tipo ARCH

Es necesario tener presentes varios aspectos cuando elaboramos un modelo tipo ARCH.
Errores no-normales: para la mayoría de los activos financieros, la función de distribu-
ción de la tasa de retorno es de «cola pesada». U na distribución de cola pesada tiene más
peso en las colas que una distribución normal. Esto implica, por ejemplo, que la rentabilidad
de un activo concreto tiene una probabilidad más alta de una mayor pérdida (o ganancia)
que la prevista por la distribución normal. La Figura 18.3.1 compara la distribución normal
Figura 18.3.1: Comparación entre las Distribuciones :'formal y t
,:·-.
N( 0 . 1 ) -
tOJ - --
"
º"
" ,, ''
"
01'
j '
o.os --
estándar con una t- distribución con un grado de libertad. Se observa que la distribución de
la t -de Student asigna (prevé) una mayor probabilidad sobre las realizaciones grandes que la
distribución normal. Por este motivo, los paquetes informáticos permiten estimar un modelo
GARCH usando una t- distribución u otra con colas pesadas.
Modelos con variables explicativas: al igual que el modelo de la media puede contener
variables explicativas, la especificación de ht también se permite para variables exógenas.
Por ejemplo, suponemos que queremos determinar cómo una noticia puntual incrementa la
volatilidad de la rentabilidad de los activos. Una manera de atacar esta tarea sería crear una
variable dummy Dt igual cero O antes del evento e igual a 1 después. Se considera la siguiente
modificación de la especificación G ARCH (1, 1)
Si encontramos que ¡ > O, es posible concluir que el evento en cuestión incrementó la

volatilidad condicionada.
18.4. EJEMPLO PARA EL ÍNDICE NYSE
Ilustramos las técnicas desarrolladas anteriormente con el estudio de la serie temporal del
índice NYSE. En particular estamos interesados en la rentabilidad de dicho índice compuesto.
Los datos están formados por los días laborables en el periodo 03/ 01 / 2000 - 30/ 07 / 2008.
La Figura 18.4. l representa la serie objeto de análisis, obtenida a partir del índice NYSE
calculando la rentabilidad como la diferencia del logaritmo del índice y multiplicando por
100. Claramente se aprecian periodos en los que hay solo pequeños cambios en la serie (2003 -
2005) y otros en los que hay bloques de grandes aumentos y disminuciones en la rentabilidad
de este índice.
El modelo para la media

Como hemos dicho construimos y analizamos la rentabilidad diaria del índice
Tt = 100 X ln (NYSEt/NYSEt-1),
Tema 18 693
Figura 18.4.1: Rentabilidades

Rentabilidad del NYSE
2000 2001 2002 2003 2004 2005 2006 2007 2008
cuya función aproximada de densidad nos la proporciona el histograma de la Figura 18.4.2, en

donde también presentamos la función de densidad de una normal. Se observa que difícilmente
se acomoda la distribución de la rentabilidad del índice, en la masa de probabilidad, a lo
previsto por una normal: las colas son más pesadas que en el caso normal.
Las 2148 observaciones de la serie {rt} tienen un valor medio de 0,000353 y una varianza
muestral de 0,000101. La secuencia {rt} se muestra en la Figura 18.4.1.
La serie {rt} presenta autocorrelaciones estadísticamente relevantes en los retardos 1 y 6.
El criterio de parsimonia y la valoración de los criterios de selección de Akaike sugieren una
modelización AR(l). El modelo resultante es
rt = - 0,0026 0,061 Tt-1 +Et· (18.4.1)

(-0,0247) (-0,0213)
Recordemos que este modelo para la media no es el definitivo dado que se ha hecho con-
siderando que la varianza es constante. Si la varianza es realmente variable en el tiempo,
entonces el error estándar de los coeficientes puede cambiar sustancialmente cuando los mo-
delos de la media y la varianza se estiman conjuntamente. Los estadísticos tipo t nos sugieren
que podríamos prescindir del intercepto, sin embargo lo mantenemos porque, dado que exis-
ten ventajas en usar la técnica de regresión con término intercepto , a medida que vayamos
utilizando distintos modelos para la varianza condicionada el estadístico tipo t del intercepto
puede ir variando.
El siguiente paso es comprobar si los residuos del proceso son compatibles con ruido blanco.
La FAT (ver Tabla 18.1) tiene todos los residuos no significativos al 5 %, lo que sugiere que
el modelo para la media del proceso es aceptable.
Figura 18.4.2: Distribución de los retornos ~YSE
Estadfstico para el contraste de normahdad y -

Ch1-cuadrado(2) ~ 165 302 (O 0000) N(·00026888.1229) -
o 35
03
o 25
02
o 15
01
o 05
-6 -4 -2
Tabla 18.1: FAT de los residuos

1 2 3 4 5
0,0003 0,0004 0,0007 0,0014 -0,0323
[0,989] [1,000] [1,000] [1,000] [0,813]
El modelo para la varianza condicionada

El primer paso es evaluar si merece la pena modelizar la varianza condicionada. Para que
así fuera sería necesario que hubiera evidencia de estructura en el cuadrado de los residuos.
En este caso t¡ revela una FAT indicativa de una fuerte evidencia a favor de la presencia de
efecto G ARCH.
A mayor abundamiento , el test de los multiplicadores de Lagrange que hemos expuesto en
este tema nos conduce al modelo
t; = o, 13
(0,078)
+ o,o3
(0,019)
tL 1 + (0,020)
0,15 tL2 + 0,21 tL 3 + o,o4 tL 4 + 0,06 tL 5 ,
(0,021) (0,020) (0,019)
cuyo estadístico de contraste es 227,9 con un p-valor inferior a 0,0001, por lo que podemos
concluir que hay errores GARCH.
Uno de los modelos más sencillos es el GARCH (1,1), y por tanto puede ser un modelo
interesante para comenzar la modelización de la varianza condicionada. Si posteriormente las
Tabla 18.2: FAT de los residuos estandarizados

1 2 3 4 5
0,1175 0,2167 0,2576 0,1175 0,1608
[1 ,000] [1,000] [1,000] [1,000] [1,000]
Tema 18 695
Tabla 18.3: FAT de los residuos

1 2 3 4 5
0.014 0,0024 0,0245 -0,004 -0,035
[0.514] [0,803] [0,631] [0,779] [0,493]
pruebas de ·a~· - ico no son superadas por el modelo seleccionado, podremos cambiar a
otro.
A partir de cuadrado de los residuos, la estimación máximo verosímil simultánea de la
media y la varianza nos conduce a
rt = 0,04 - 0,054 rt - 1 +et

(0,019) (-0,021)
ht = 0,01 + o,066cL 1 + 0,92 ht-1·

(0,004) (0,108) (0,011)
Pruebas de diagnóstico
05
El diagnóstico se lleva a cabo en la serie de residuos estandarizados St = it/ ht ' . El corre-
lograma (FAT) de los residuos estandarizados se muestra en la Tabla 18.3 que indica ausencia
de autocorrelación serial. Por otra parte, la FAT del cuadrado de los residuos estandarizados
apunta también en la misma dirección de ausencia de efectos GARCH. De hecho, si hacemos
la regresión
y si usamos varios valores de n , encontraremos que ninguno desde {31 hasta f3n es estadís-
ticamente significativo. Además, no podemos rechazar una hipótesis nula del tipo {31 = f32 =
··· = f3n =O.
Cabe ahora preguntarse por el efecto apalancamient o. Si no hubiera efecto apalancamiento,
st no debería estar correlacionado con los retardos en niveles { st}. Sin embargo , considerando
la ecuación de regresión
sl = 0,99 - 0,07 St-1 - 0,160 St-2

(0,036) ( -0,034) ( - 0,036)
observamos que los coeficientes de St-1 y St-2 son altamente significativos. Dado que los signos
son negativos, concluimos que shocks negativos se asocian con valores grandes de la varianza
condicionada. Debemos entonces considerar la estimación por un modelo asimétrico.
Los modelos asimétricos

Tenemos dos alternativas, el modelo TARCH y el EGARCH. El modelo TARCH arroja la
siguiente estimación:
ht = 0,02 + 0,055EL 1 + 0,72 dt-1Et-1 + 0,93 ht-1·

(0,005) (0,009) (0,168) (0,008)
Por otra parte el modelo EGARCH es:
Tt = 0,015 - 0,05 Et-l +Et

(0,172) (-0,017)
ln(ht) = -0,08 + 0,10 Et-i/h~:!1 - 0,073 1Et-i/h~:!1 I + 0,98 ln (ht-1).

(-0,013) (0,016) (-0,012) (0,004)
Es interesante que a1 es negativo, >-1 es positivo y a1 + >-1 es positivo. Dado el valor de

ht-1, un aumento en una unidad en Et-1 inducirá un cambio en el logaritmo de la varianza
condicionada de 0,02 unidades [0,02 = 0,1 - 0,073]. Sin embargo, si disminuye en una unidad
Et-l, la volatilidad condicionada cae 0,107 unidades (-0, 10 - 0,073 = -0,107), lo que implica
que las buenas noticias tienen menor efecto que las malas.
El proceso de selección continúa ahora revisando, con los mismos procesos que hemos
usado en el modelo GARCH, los residuos estandarizados del modelo TARCH y el EGARCH.
En ambos casos, los residuos estandarizados apuntan hacia la eliminación correcta de los
efectos ARCH. Sin embargo para establecer cuál de los dos escoger es preciso utilizar un
criterio de selección. El criterio del logaritmo de la función de verosimilitud, así como los
criterios tipo Akaike, indican que el mejor modelo es el EGARCH.
Finalmente podemos valorar si los residuos están comportándose según una normal. Si { st}
sigue una distribución normal estandarizada, 0,5 3 debería estar por debajo de -2 ,54; 2,5 3 de
los valores deberían estar por debajo de -1,64 ; 50 3 deberían ser negativos; 95 3 deberían estar
sobre 1,64 desviación típica y 99 ,5 3 deberían estar sobre 2,54. Si dibujamos los cuantiles de
{St} frente a los de la distribución normal, los primeros deberían caer a lo largo de una línea
recta, indicativa de los cuantiles de la normal. La Figura 18.4.3 indica un buen comportamiento
respecto de la normal excepto para unas pocas observaciones de las colas. En caso de no estar
satisfechos con la aproximación, se puede hacer un contraste de normalidad, y en caso de
rechazar la hipótesis nula de normalidad podríamos reestimar el modelo suponiendo que las
innovaciones Vt se distribuyen según una distribución distinta de la normal, como la t.
Una vez que hemos optado por el modelo EGARCH , podemos dibujar la estimación de la
varianza condicionada ht, ver Figura 18.4.4.
Estimación por máxima verosimilitud de modelos tipo ARCH

Algunos paquetes informáticos contienen rutinas que estiman los modelos GARCH y
ARCH-M tales que el investigador solo tiene que especificar el orden del proceso y el ordena-
dor hace el resto. Incluso, teniendo acceso a una rutina automática, es importante entender
el procedimiento numérico usado por el paquete informático. Otros paquetes informáticos
Tema 18 697
Figura 18.4.3: Análisis para la normalidad

Gráfico Q·Q de stduhata
·2
.4 o
-6
o
·8
.4 -3 ·2 ·l o 4
Cuantiles de la Normal
Figura 18.4.4: Varianza condicional estimada

7
4
l:
3
o
2000 2001 2002 2003 2004 2005 2006 2007 2008
requieren que el usuario introduzca un pequeño algoritmo de optimización. Esta sección téc-
nica explica los métodos de máxima verosimilitud requeridos para comprender y escribir un
programa para modelos del tipo GARCH.
A modo introductorio, supongamos que los valores de {Et} están construidos a partir de
una distribución normal con media cero y varianza constante 0' 2 , es decir, la probabilidad
de cualquier realización de Et es:
siendo Lt la probabilidad de Et.

Dado que las realizaciones de {Et} son independientes, la probabilidad de la realización
conjunta de E 1 , E2, .. ., ET es el producto de las probabilidades condicionadas. Por tanto, si
todos tienen la misma varianza, la probabilidad de las realizaciones conjuntas es:
Es mucho más fácil trabajar con sumatorios que con productos. Así, es conveniente tomar
logaritmos a cada lado para obtener
(18.5.1)
El procedimiento usado en la estimación por máxima verosimilitud consiste en seleccionar

los parámetros de la distribución a fin de maximizar la probabilidad de extraer la muestra
efectivamente observada. Por ejemplo, supongamos que {Et} es generado por el siguiente
modelo:
Et = yt - f3Xt. (18.5.2)
En el modelo de regresión clásico, la esperanza de Et se asume que será cero, la varianza es

constante 0' 2 y las realizaciones varias de {Et} son independientes. Usando la muestra con T
observaciones , podemos sustituir (8.2) en la función de probabilidad en logaritmos (8.1) para
obtener
(18.5.3)
2
Para maximizar esta función, derivamos respecto 0' y {3
Tema 18 699
T
8lnL _
a;;x- - - ~
T
- 1
2(?" ¿ (yt - f3Xt)2
t=l
(18.5.4)
T
~ = ~ 2:: (YtXt - f3X't) .
t=l
2
Igualando estas derivadas parciales a cero y resolviendo para los valores de 0' y f3 que
producen el máximo valor de lnL , tenemos que:
De especial interés es observar que las condiciones de primer orden son fácilmente resolubles
dado que son lineales. Este no es el caso en la estimación de un modelo ARCH o GARCH
dado que las ecuaciones de primer orden no son lineales. En su lugar, la solución requiere
algún tipo de algoritmo de búsqueda. Por ejemplo, podemos considerar un proceso de error
ARCH(l) en el modelo de regresión dado en (18.5.2) donde suponemos que et es el término
de error en la ecuación lineal yt - f3Xt = et que ahora está modelizado por
Por tanto, la varianza condicionada de et no es constante, dado que cada realización de et

tiene varianza condicionada ht, y la probabilidad conjunta de las realizaciones e1 a er es:
La función logaritmo de la verosimilitud es:
T T T
lnL = -
2
ln(27r) - 0,5 2:: lnht - 0,5 ¿ (eUht).
t=l t=l
Para et = yt - f3Xt y para una varianza condicionada tipo ARCH (l ) ht = ao + a 1 eL 1 ,

tenemos que:
T- l T T
lnL = - --ln(21f) -0,5
2
¿ ln (ao + a1eL 1) - 0,5 ¿ ((Yt - f3Xt) 2 / (ao + a1eL 1)).
t=l t=l
La observación inicial se pierde dado que co está fuera de la muestra. Sustituyendo

(Yt-1 - f3Xt-d 2 por cL 1 es posible maximizar lnL con respecto a ao, a 1 y /3. Desafortunada-
mente no hay soluciones simples de las condiciones de primer orden para máximo. Aunque sí
hay algoritmos numéricos implementados en el software especializado que pueden seleccionar
los valores de parámetros que maximizan ln L. En la mayoría de los paquetes informáticos de
series temporales, el procedimiento necesario para escribir tales programas es bastante simple.
Predicción de la varianza condicionada j periodos hacia adelante
Para empezar usamos el hecho de que el= vlht, por tanto c;+J = vl+Jht+J· Actualizando
j periodos y tomando esperanzas condicionadas a ambos lados, debería ser claro que:
Dado que Vt+J es independiente de ht+j y lEtvl+J = 1, tenemos que:
(18.5.5)
Podemos usar la última ecuación para obtener la predicción de la varianza condicionada

del proceso GARCH(l,1). Actualizando (18.2.3) j periodos obtenemos que:
y tomando esperanzas condicionadas
Si utilizamos ahora la Ecuación (18.5.5), es fácil verificar que:
(18.5.6)
Dado ht+1 , podemos usar (18.3.1) para predecir todos los valores siguientes de la varianza
condicionada como:
Si (a1 + /31) < 1, la predicción condicionada de ht+j convergerá a largo plazo al valor:
lEht = ao/ (1 - a1 - /31) .

Tema 18 701
EJERCICIO
l. Suponga que la secuencia se genera por un proceso ARCH(q) tal que
muestre cómo es la esperanza condicionada Et - l (ét) 2 , y compárela con la Ecuación

(18.1.1 ).
2. Considere el modelo ARCH-M y:
a) Encuentre la media incondicionada. ¿Cómo afecta 8 a la media?

b) Muestre que la varianza incondicional cuando ht = ao + a1EL 1 no depende de
ªº' (3, 8.
3. Para un proceso GARCH , ¿es cierto que cov(Et, f(Et-h)) =O para cualquier función f
y cualquier h > O?
4. Compruebe que para un proceso ARCH(2), la condición de existencia del momento de

orden 4 con µ4 = JE (v{) se puede escribir como.
5. Halle la función de autocovarianza y autocorrelación de EF cuando Et es solución del

modelo GARCH(l ,l)
Et = Tlt<Yt
(Y;= w + aéL1 + f3<Yt-1,
donde Tlt '""'N(O, 1) y 1 - 3a 2 - (3 2 - 2a(3 >O .
~ -- '
Tema 19
INTRODUCCIÓN A LOS MODELOS VAR
19.1. INTROD UCCIÓN
Los vectores autorregresivos (VAR) fueron planteados originalmente por Sims (1980) como
una metodología alternativa a la denominada econometría tradicional. A comienzos de la
década de los setenta del siglo pasado, la metodología tradicional se basaba en la construcción
de (grandes) modelos de ecuaciones simultáneas en los que las variables estaban divididas en
dos grupos: endógenas o determinadas dentro del modelo, y exógenas. La estimación de estos
modelos exigía que estuviesen identificados, lo que a su vez implicaba el cumplimiento de
determinadas restricciones generalmente de exclusión (es decir, en cada una de las ecuaciones
identificadas, debían excluirse una o varias variables). Estas restricciones no tenían mucho
que ver con la teoría económica y eran contempladas con creciente escepticismo por una parte
importante de la profesión. La división entre variables endógenas y exógenas también parecía
arbitraria . Si a esto unimos el hecho de que los modelos multiecuacionales sufrieron un rotundo
fracaso durante la crisis de los setenta, podemos entender el contexto en el que Sims planteó
su alternativa metodológica.
Un VAR es un modelo multivariante que amplía el modelo univariante AR para estudiar
conjuntamente dos o más series temporales . Para introducir el concepto, consideremos que
solo tenemos dos variables X e Y. El VAR será entonces un modelo formado únicamente por
dos ecuaciones. En la primera, X se hace depender de sus propios retardos y de los retardos de
la otra variable, Y. Análogamente en la segunda ecuación la variable dependiente Y depende
de los valores retardados de X e Y. Formalmente:
Los supuestos del VAR son los mismos que formulamos para la regresión con series tem-
porales, aplicados a cada una de las ecuaciones que lo conforman.
Si llamamos W t al vector formado por Xt e Y t, podemos escribir el VAR en notación
matricial de la siguiente manera:
703
704 INTRODUCCIÓN A LOS MODELOS VAR
(19.1.1)
donde Ut es el vector de los errores, Ao es el vector de los términos independientes y
Aj = ( :~~ ~~~ ).
Siguiendo una regla análoga a la vista cuando estudiamos los modelos ARMA, el número
de retardos incluidos en las ecuaciones del VAR (habitualmente los mismos) determina el
orden del sistema. Así el orden de (19.1.1) será p, pues pes el retardo más largo. El VAR más
sencillo que cabe imaginar es un VAR(l) con dos variables, cuya expresión sería:
Wt = Ao + A 1Wt-l + Ut =
= ( :~~ ) +( :~~ ~~~ ) ( ~:~: ) + ( ~~: ) . (19.1.2)
Si junto con los términos autorregresivos, incorporamos en cada ecuación términos de

medias móviles, estaremos ante un VARMA , es decir, un sistema en el que cada una de sus
ecuaciones tiene términos autorregresivos y de medias móviles. Por ejemplo, un VARMA(p,
q) expresado en forma matricial vendrá dado por:
Wt = Ao + A1wt-1 + ... + A pw t-p + U t + B1ut-1 + ... + BqUt -q,

es decir, tiene términos autorregresivos hasta el orden p y de medias móviles hasta el orden q.
Sin embargo, por razones no demasiado bien explicadas , en la práctica los modelos VARMA
son mucho menos utilizados que los VAR, de manera que nos limitamos aquí a dejar constancia
de su existencia.
19.2. ESTIMACIÓN Y ORDEN DEL VAR

En principio, una de las ventajas de los VAR con respecto a los modelos de ecuaciones
simultáneas es que no requieren técnicas especiales de estimación. En efecto , como todas las
variables explicativas son retardos del vector w y se asume que los errores son homocedásticos
y no autocorrelados, la estimación de cada una de las ecuaciones del VAR puede llevarse a cabo
por MCO. Los estimadores así obtenidos son consistentes y tienen una distribución asintótica
normal, de manera que la inferencia estadística puede llevarse a cabo con los estadísticos t y
F que estudiamos en los temas anteriores.
Hemos visto que el número de retardos define el orden del VAR, pero ¿cómo se determina
ese parámetro? En principio pueden incluirse gran cantidad de retardos con objeto de que los
residuos tengan las propiedades deseables, pero conviene ser prudentes dado que la pérdida de
grados de libertad derivada de la inclusión de retardos adicionales puede ser muy importante.
Por ejemplo, un VAR( 4) con tres variables tendrá 39 coeficientes (cada ecuación tendrá 3·4
= 12 coeficientes más el término independiente), pero si se incluye un retardo adicional, el
Tema 19 705
número de coi=r::t?:":i::¡-,:5- : eleva a 48, es decir, un retardo adicional implica la pérdida de 9

grados de lihOl.-.,,'"',
La selecció "' "' _ongitud apropiada de los retardos suele hacerse basándose en criterios
ed"' emplearse un test de ratio de verosimilitud de la siguiente manera. Su-
pongamo q e o contrastar la hipótesis nula de que el orden del VAR es p contra la
alternath-a de -_lli de orden q, con q > p. Estimamos tanto el VAR(p) como el VAR( q)
y obtenem - para cada uno de ellos una estimación de la matriz de varianzas y covarianzas
de los re idu . i:P y f.q. Entonces el estadístico:
T [zn ( det(f.p)) - ln ( det (f.q)) J (19.2.1)
se distribuye como una x; siendo r el número de restricciones impuestas bajo la hipótesis

nula. P ara tener en cuenta el sesgo en muestras pequeñas, Sims propuso utilizar en su lugar
el estadístico:
(19.2.2)
donde m es el número de parámetros a estimar bajo la hipótesis alternativa. Si el valor de (3)

o (4) es superior al crítico en tablas se rechazará la hipótesis nula en favor de la alternativa,
siendo q el orden del VAR. Podemos seguir con este procedimiento hasta que no podamos
rechazar la hipótesis nula, en cuyo caso habríamos encontrado el orden adecuado.
El test de ratio de verosimilitud solo es aplicable cuando uno de los modelos es una versión
restringida del otro. Además no tiene buenas propiedades en muestras pequeñas. Por ello suele
recurrirse a diversos criterios de información. Por ejemplo, el criterio de información de Akaike
(AIC) para un VAR(p) con k variables se calcula a partir de la expresión:
2
AIC(p) = ln [det (¿u)]+ k(p + 1) T' (19.2.3)
donde ¿u representa como antes la matriz de varianzas y covarianzas de los errores del VAR
que se estima a partir de Ut. Hay otros estadísticos. El criterio de información de Schwarz
(SBC) tiene una expresión parecida a la anterior.
Calculado el AIC (o cualquier otro criterio) para distintos órdenes, elegiremos aquel que
proporcione un valor menor.
Por ejemplo, estimados un VAR(2) y un VAR(3) para las variables inflación y los tipos de
interés a corto en EE.UU. , con datos cuatrimestrales del periodo 1960ql-2010q4, se obtienen
las siguientes estimaciones para las matrices de varianzas y covarianzas de los residuos:
t2= ( 0,073911 0,029361 ) t3= ( 0,071906 0,035144 ) ;

0,493874 y 0,0469491
706 INTRODUCCIÓ!\7 A LOS MODELOS VAR
por tanto el estadístico de ratio de verosimilitud será:
204 [ln(0,035641 ) - ln(0,032519)] = 18,70,
y como el valor crítico de una x~ para un nivel de significatividad del 5 3 es 9,49, rechazaríamos
la hipótesis nula (p=2) en favor de la alternativa (p = 3). A continuación podemos contrastar
Ha : p = 3 contra H 1 : p = 4 y así sucesivamente.
Si utilizamos el Criterio de Información de Akaike:
AICv AR2 = 2,43 y AICv AR3 = 2,36 ,

de manera que de acuerdo con este criterio, también sería preferible un VAR(3).
La mayoría de los programas informáticos calculan automáticamente el valor de estos
estadísticos.
19.3. DIFERENTES FORMAS DEL VAR

En las secciones anteriores hemos presentado el VAR en lo que podemos denominar forma
estándar. Así definido el VAR no requiere mucho más que la elección del conjunto de variables
a incluir en el sistema y la selección del orden más apropiado. El sistema estará casi con toda
seguridad sobreparametrizado, pero en la medida en que imponer restricciones nulas inade-
cuadas puede implicar la pérdida de información importante, y teniendo en cuenta además
que debido a la elevada multicolinealidad entre las variables explicativas, los tests tipo t no
son una guía enteramente fiable, es preferible no reducir el modelo, al menos por el momento.
Además de la forma estándar, existe al menos otra presentación posible del VAR. En un
VAR estructural (SVAR) se incluyen como variables explicativas, además de retardos de todas
la variables, las propias variables contemporáneas. Esta forma de expresar el VAR refleja que
a priori se considera que las variables económicas modelizadas pueden estar simultáneamente
relacionadas, sin necesidad de establecer una única relación causal, y en ese sentido todas las
variables son tratadas de forma simétrica. Esto lo podemos comprobar a partir del ejemplo
con dos variables presentado en 19.1.2, escrito por comodidad con las variables expresadas en
desviaciones con respecto a sus medias, se tendría
(19.3.1)
La estructura de este sistema permite ret roalimentaciones porque Xt e Yt pueden afectar

una a la otra. Por ejemplo, 121 es el efecto contemporáneo sobre Yt provocado por un cambio
unitario de Xt, y a21 es el efecto sobre Yt t ras un cambio unitario producido un periodo antes
en la variable Xt-1· Asumiremos por el momento que tanto x como y son estacionarias, c1 y
.::2 son procesos de ruido blanco con varianzas a; a;,
y respectivamente, y que ambos están
incorrelacionados entre sí. Tras una sencilla manipulación algebraica:
Tema 19 707
( ~;) ( )
-l ( au
n21
1
-121
es decir,
)( Xt-1
Yt- 1
(19.3.3)
o, expresado en forma matricial compacta,
Wt = r1Wt-l + Ut.
Visto de esta manera, el sistema 19.3.3 es la forma reducida del VAR estructural 19.3.1,
dado que tanto x como y están expresadas en función de las variables predeterminadas del
sistema. Nótese además que bajo las condiciones de 19.3.1, E(uitU2t) en 19.3.3 será en general
distinta de cero.
A diferencia de lo que sucedía en el VAR estándar, las ecuaciones de un VAR estructural no
pueden ser estimadas por MCO, dado que no todos los regresares son exógenos: en la primera
ecuación del sistema 19.3.1 Yt está correlacionado con Eit y lo mismo sucede con Xt y E2t en la
segunda. Este problema podría solventarse utilizando la representación equivalente expresada
en 19.3.3, dado que en la forma reducida todos los regresares son efectivamente exógenos (solo
hay variables predeterminadas a la derecha de ambas ecuaciones). Sin embargo, para que esta
forma de proceder resultase operativa, debería de ser posible obtener todos los parámetros
de 19.3.1 a partir de las estimación de 19.3.3. ¿Es esto posible? La respuesta es claramente
negativa, puesto que el número de parámetros en 19.3.3 es inferior al del sistema 19.3.1, como
puede comprobar fácilmente el lector. En definitiva, nos enfrentamos a un típico problema de
identificación: a menos que se impongan restricciones sobre el VAR estructural, no es posible
identificar los parámetros del mismo.
¿Cuántas restricciones son necesarias para alcanzar la identificación? Puede comprobarse
(aunque no lo haremos aquí) que en un VAR con k variables, es necesario imponer al me-
2
nos k 2k restricciones. En el ejemplo que venimos manejando, esto significa que una sola
restricción sería suficiente para identificar todos los parámetros de la forma estructural. Por
ejemplo, supongamos que por nuestro conocimiento teórico admitimos que y tiene efectos
contemporáneos sobre x, pero que no hay efectos contemporáneos de x sobre y. En términos
prácticos ello significa que imponemos la restricción 1 21 = O. En nuestro caso, esto es todo lo
que necesitamos para obtener la identificación. Además , esta restricción implica que el VAR
estructural 19.3.1 se convierte en un sistema recursivo:
Xt = /'12Yt + Cl'.nXt-1 + f3nYt-l + a12Xt -2 + /312Yt-2 + Eit,

Yt = n21Xt-1 + /321Yt-1 + a22Xt-2 + /322Yt-2 + E2t· (19.3.4)
708 INTRODUCCIÓ N A LOS MODELOS VAR
Como es sabido, este t ipo de sistemas sí pueden ser estimados por MCO. En efecto, las
variables explicativas de la segunda ecuación son retardos de x e y, por lo que no plantean
problemas de endogeneidad. Y en la primera ecuación tampoco hay ahora relación entre y y
élt·
19.4. PREDICCIÓN
La predicción es una de las causas del éxito de los VAR y una de sus principales aplica-
ciones. Para ilustrar su funcionamiento , volvamos al VAR(l) dado en 19.1.2. La predicción
óptima de Wt para el periodo t+ l, vendrá dada por:
Análogamente, para t + 2 tendremos:
wt+2 Ao + A 1wt+1 = A o + A1 (Ao + A1wt)

Ao + A 1Ao + A iwt
(1 + A 1) Ao + A iwt,
y en general la predicción para el periodo t+h,
(19.4.1)
Supongamos que hemos estimado un VAR(l) para la inflación y el tipo de interés a corto
plazo empleando datos trimestrales de EE.UU. del periodo 1959q2 - 2010q4. La estimación
proporciona
0,062184 ) ( 0,9307 0,3081 )

Ao = ( 0,094078 y Ai = 0,0164 0,8325 .
Entonces la predicción para el año 2011 será:
~ A A ( 0,0621 ) ( 0,9307 0,3081 ) ( 0,5007 ) = ( 0,4813 ) .

Wt+l = O+ lWt = 0,0940 + 0,0164 0,8325 0,1833 0,4104 '
wt+2 (I + A 1) Ao + A i w t = [( ~ ~) + ( ~:~~~~ ~:~~~! )] ( ~:~~~~ )

2
0,9307 0,3081 ) ( 0,5007 ) = ( 0,4689 ) .
+ ( 0,0164 0,8325 0,1833 0,6165 '
Tema 19 709
2
1 o) ( 0,9307 0,3081 ) ( 0,9307 0,3081 ) ] ( 0,0621 )
Wt+ 3 [( O 1 + 0,0164 0,8325 + 0,0164 0,8325 0,0940
3
0,9307 0,3081 ) ( 0,5007 ) = ( 0,46207 ) .
+ ( 0,0164 0,8325 0,1833 0,8049 '
y para el último trimestre:
A ( 0,4594 )
Wt+4 = 0,9786 .
Obviamente el error de predicción irá aumentando progresivamente con el horizonte tem-
poral de la predicción.
Otra posibilidad es utilizar la denominada predicción iterada. Consiste en reestimar el VAR
después de cada pronóstico, empleando este como un dato adicional. Es decir, si queremos
emplear este procedimiento para efectuar una predicción h periodos adelante, procederemos
de la siguiente forma. Se estima el VAR con los datos conocidos. A continuación se efectúa
una predicción para el siguiente periodo ( t+1). Empleando ese pronóstico como un dato más
se vuelve a estimar el VAR y se efectúa una nueva predicción para el periodo ( t+2) y así
sucesivamente hasta llegar al periodo h.
19.5. CAUSALIDAD DE GRANGER, FUNCIONES DE RESPUESTA AL

IMPULSO Y DESCOMPOSICIÓN DE LA VARIANZA
Como señalan Stock y Watson (2001) , debido a la compleja dinámica de los VAR, la
práctica habitual consiste en proporcionar los resultados de estas tres utilidades, más que
centrarse en el coeficiente de determinación o la significatividad individual de los coeficientes.
El análisis de causalidad de Granger estudia si los retardos de una determinada
variable son de utilidad para elaborar pronósticos sobre otra. Si es así, decimos que la primera
causa en el sentido de Granger a la segunda. Consideremos de nuevo el VAR(2) con dos
variables presentado en (1), que volvemos a escribir expresado en desviaciones con respecto a
la media:
Xt = anXt-l + CY12Xt-2 + f3nYt -l + f312Yt - 2 + U1t,

Yt = a21Xt-1 + a22Xt-2 + f321Yt -1 + f322Yt - 2 + u2t·
En base a la estimación de este sistema:

l. Si los coeficientes f31i de la primera ecuación son estadísticamente significativos, mientras
que los a2i en la segunda no lo son, diremos que hay causalidad, en el sentido de Granger,
de y ax.
2. Si los coeficientes a2i de la segunda ecuación son estadísticamente significativos, mientras
que los f31i en la primera no lo son, diremos que hay causalidad, en el sentido de Granger,
de x a y.
710 lNTRODUCCIÓ I" A LOS MODELOS VAR
Tabla 19.1: Contraste causalidad de Granger

Ecuación Ho F3 ,197 valor-p
Inflación /31i = O 2,34 0,075
Tipo de interés a2¡ = O 4,22 0,006
3. Si ambos conjuntos de coeficientes, a2i y /31¡, son estadísticamente significativos, diremos

que hay causalidad bidireccional en el sentido de Granger.
4. Si ninguno de los dos conjuntos de coficientes son estadísticamente significativos, no hay

ninguna relación de causalidad.
Así en el VAR(3) para la inflación y los tipos de interés a corto, el contraste de causalidad de
Granger arrojaría el resultado presentado en la Tabla 19.1. En la segunda fila de la tabla se
recogen los resultados correspondientes a la ecuación de inflación. La hipótesis nula es que los
coeficientes correspondientes al tipo de interés son conjuntamente iguales a cero. Utilizando
un test F encontramos que esa hipótesis no puede ser rechazada, de manera que no habría
causalidad (en el sentido de Granger) de los t ipos de interés a la inflación. Sin embargo en la
ecuación del tipo de interés (tercera fila) , la hipótesis nula de que los coeficientes de la inflación
son conjuntamente iguales a cero resulta claramente rechazada dado el reducido valor p, por
lo que la inflación sí ejercería una influencia causal sobre el tipo de interés.
Podemos generalizar este análisis sin problemas para contemplar más de dos variables.
Para ello puede ser de utilidad emplear la siguiente notación para un VAR con k variables:
(
X1t
X2t
X~t
l (
Au(L)
A21 (L)
Ak1 (L)
(19.5.1)
donde Aij (L) representa los coeficientes de los retardos de la variable j sobre la ecuación de
la variable i. Entonces diremos que la variable j no causa, en el sentido de Granger, a la
variable i, si no se puede rechazar la hipótesis nula de que todos los coeficientes de Aij (L),
son estadísticamente iguales a cero.
Las fun ciones de respuesta al impulso (FRI) son otra de las características esenciales de
esta metodología . De la misma manera que un modelo autorregresivo univariante admite una
representación en forma de medias móviles, el VAR puede expresarse también como un sistema
vectorial MA(oo). Por ejemplo, un VAR con dos variables podría expresarse como un VMA
de la siguiente manera:
Tema 19 711
'Pll (i) U1t-i )

'P21 (i) ) ( U2t-i
(19.5.2)
En la expresión anterior cp 11 (1) y cp 12(l) miden el impacto sobre Xt de un cambio unitario en

cada uno de los elementos del vector u un periodo después de que dicho cambio haya tenido
lugar. Análogamente cp21(l) y 'P22(l) miden el impacto sobre Yt de dichos cambios. El resto
de los coeficientes se interpretan de la misma forma.
Conocidos estos coeficientes, pueden calcularse los efectos a lo largo del tiempo ocasionados
por un shock en alguna de las perturbaciones del sistema, es decir, las respuestas al impulso
representado por ese shock.
Volvamos al ejemplo del VAR(l) de dos variables. Supongamos que de la estimación del
sistema obtenemos:
A1 = ( 0,6 0,3)
-O ,1 O 2 .)
En primer lugar habría que verificar que el VAR es estacionario1, dado que no tiene sentido
analizar las FRI en otro contexto. En este caso puede comprobarse que los valores propios de
A1 son menores que l. Supongamos que la matriz de varianzas y covarianzas de las pertur-
baciones es:
y que los valores iniciales 2 son nulos y'{; = ( O O ) . Analicemos el efecto sobre la senda
temporal de las variables del sistema de un shock de una desviación estándar 3 en el primer
elemento del vector de las perturbaciones. Es decir, supondremos que en el periodo 1 uf =
(3, O), volviendo a ser nulo dicho vector en los periodos siguientes. Entonces para el primer
periodo se tiene:
~,6
( 0,1
0,3 ) (
0,2 oo ) + ( o3 ) ( 3 )
o
Y2 = A iY1 + u2 = 0,6
( -O,l
0,3 ) ( 3 ) + ( o) ( _1,8 )
0,2 o o 0,3
1
El VAR será estacionario si los valores propios de la matriz A 1 son menores que la unidad.
2
Dado que lo que nos interesa es la evolución dinámica de las variables ante shocks , no es restrictivo en
absoluto considerar unas condiciones iniciales dadas.
3
Considerar shocks en términos de desviaciones típicas es muy habitual puesto que nos evita los problemas
de las distintas unidades de medida.
712 lNTRODU CCIÓ!\ A LOS MODELOS VAR
A1 ( 0,6 0,3 ) ( 1,8 ) ( O) ( 0,99 )

Y3 = Y2 + u 3 = -0 ,1 0,2 -0,3 + o = -0,24
A1 ( 0,6 0,3 ) ( 0,99 ) ( O) ( 0,522 )

Y4 = Y3 + u4 = -0,1 0,2 -0,24 + o = -0,147 .
Operando sucesivamente, podemos obtener las respuestas de x e y al impulso inicial. En

la Figura 19.5.1 se muestran las FRI. Puede comprobarse que al cabo de 10 periodos, el efecto
del shock está prácticamente agotado.
Figura 19.5.1: Funciones de respuesta al impulso
·1
_,
0 1 2 ) A S 6 T 1 9 10 11
El problema de la presentación que hemos hecho en los párrafos anteriores es que no es

verosímil que uno de los elementos de u cambie mientras el otro permanece inalterado. Si el
VAR del ejemplo es la forma reducida de un VAR estructural, los elementos de u estarán
correlacionados entre sí. En efecto, de (19 .3.1) y (19.3.2) se deduce que:
de manera que, bajo los supuestos del VAR estructural:
E(u 1 u 2 ) = 2
12w,1 1120- 2
+ 2
(1-112121) 5 ,
que será distinto de cero, y por tanto las perturbaciones del sistema no serán independientes.
Para solucionar este problema, lo que suele hacerse es generar un nuevo conjunto de pertur-
baciones ortogonales, que tendrán varianza constante (unitaria) y no estarán correlacionadas
entre sí. El procedimiento, que puede verse por ejemplo en Johnston y Dinardo (2001), podría
ser como sigue. En primer lugar hacemos E1 = en u1, de manera que si ha de tener varianza
unitaria, en = 1/ s1, siendo s1 la desviación estándar muestra! de u 1 . A continuación se
efectúa la regresión de u2 sobre u1 obteniendo las discrepancias c2= u2 - c21 u1, que por cons-
trucción estará incorrelacionada con u1 y también con E1 . Si llamamos s2,1 al error estándar
de la regresión anterior y hacemos E2 = c2/ s2,1, la transformación adecuada queda definida
por:
Tema 19 713
Tabla 19.2: Funciones de respuesta al impulso (errores ortogonales)

X y
1 2,20 -0,033
2 1,31 -0,227
3 0,72 -0,1 76
4 0,38 -0,107
5 0,19 -0,059
6 0,099 -0,031
P=( l/~2,1 ) ,
de manera que,
Apliquemos todo esto al ejemplo anterior y veamos qué sucede con el vector u cuando se
produce un shock de una desviación estándar en el primer elemento de e sin que se modifique
el segundo. Dado que
o ),
s2,1
tendremos que (se deja el cálculo al lector)
u = p-le = ( 0,4!4.3 14,~22 ) ( ~ ) =( 1,3~32 ) ·

Como puede comprobarse, ahora u2 es distinto de O. Los seis primeros valores de las nuevas
FRI se recogen ahora en la Tabla 19.2.
Afortunadamente los programas informáticos llevan a cabo automáticamente este tipo de

transformaciones evitando el tedio del cálculo.
Finalmente la descomposición de la varianza nos dice qué porcentaje de la varianza del
error de predicción cometido al pronosticar cada variable del sistema debe ser atribuido a
cada uno de los shocks.
La predicción con el modelo 19.1.2, expresado de nuevo en desviaciones a las medias, es
como sigue. Suponiendo que conocemos la matriz A 1 , el pronóstico en t para el periodo t+l,
será:
en tanto que:
Por tanto el error de pronóstico es:
Para dos periodos adelante,
mientras que,
y el error de pronóstico será ahora:
En general, el error de pronóstico, h periodos adelante será:
Ut+h
2 Ah-1
+ A lllt+h-1 + A lllt+h-2 + ··· + l llt+l· (19.5.3)
Bajo los supuestos del modelo, la varianza del error de pronóstico 19.5.3 es:
(19.5.4)
Con la descomposición de la varianza distinguimos la parte de 19.5.4 debida al shock de la

primera ecuación de la parte que corresponde al shock de la segunda.
Para verlo mejor es útil escribir el VAR en forma VMA. En el ejemplo de dos variables que
venimos manejando, empleando,
(
Xt )
Yt
= f ( 'Pll (~)
i=O 't/21(i)
't/12(~)
't/22 (i)
) ( élt-i ) '
é2t-i
se tiene que el error de predicción h periodos adelante para el primer proceso será:
'P11(0)éit+h + 'P11(l)éit+h-l + ... + 'P11(h - l)éit+l

+'P12(0)é2t+h + 'P12(l)é2t+h-l + ... + 'P12(h - l)é2t+l,
siendo su varianza
Tema 19 715
En la expresión anterior, la varianza del error de predicción proceso h periodos adelante

aparece claramente diferenciada en dos partes: la correspondiente al primer shock (primer
corchete) y la que se debe al segundo . La descomposición expresada en porcentaje sería
1000";i[<pu(0) 2 + <pu( 1) 2 + ... + <pu(h - 1) 2 ]

O'h
X
De forma análoga se obtiene la descomposición de la varianza de la segunda serie.

Tanto las FRI como la descomposición de la varianza del error de pronóstico adolecen de
un problema común. El VAR estructural, en el que normalmente estaremos interesados, no
puede ser estimado sin imponer las restricciones necesarias.
Como hemos visto , lo habitual es permitir que uno de los elementos de w, digamos y,
tenga efectos contemporáneos sobre el otro, x, pero no a la inversa. Ello determina lo que
se denomina el orden causal que transforma el VAR estructural en un sistema recursivo. Se
da la circunstancia de que tanto las FRI como la descomposición de la varianza cambian
sustancialmente en función de cuál sea ese orden.
19.6. UN EJEMPLO: MODELIZACIÓN VAR DE LA INFLACIÓN, EL

TIPO DE INTERÉS Y LA OFERTA MONETARIA
En esta sección ilustramos esta metodología con un caso concreto: la modelización VAR
de la inflación, el tipo de interés a corto plazo y la oferta monetaria en nuestro país. Para la
inflación hemos utilizado la tasa de crecimiento interanual del deflactor del PIB. El tipo de
interés es la diferencia del t ipo de interés a 3 meses de las letras del Tesoro y, finalmente, para
la oferta monetaria hemos empleado la tasa de crecimiento interanual del agregado M3. Los
datos de frecuencia trimestral, corresponden al periodo 1982(Q3) - 2008(Q4).
En primer lugar mostramos, en la Tabla 19.3, los resultados de los contrastes de ratio de
verosimilitud4 y el criterio de información de Akaike, para determinar la longitud óptima de
los retardos. En ambos casos la longitud del retardo es 6. Estimamos pues un VAR(6) , es decir,
estimamos inflación, tipo de interés y oferta monetaria, en función de seis retardos de cada
una de dichas variables más un término independiente. La Tabla 19.4 recoge los resultados
del contraste de causalidad de Granger.
4
Estos valores son los que muestra, junto a otros, el programa Eviews. El contraste LR está calculado de
la siguiente manera: a partir de una longitud de 8 para el retardo máximo (valor que debe ser elegido de
antemano por el usuario), se va obteniendo sucesivamente el resultado del contraste LR como hemos señalado
en el texto. Nos detenemos la primera vez que la hipótesis nula resulta rechazada.
Tabla 19.3: Cont raste del orden del VAR

Lag LR AIC
1 460,39 14,98
2 139,92 13 ,71
3 13 ,86 13,73
4 17.88 13,71
5 48 .12 13,34
6 37,46* 13 ,07*
7 10,84 13,11
8 5,88 13,21
La interpretación de la tabla es sencilla. La primera columna indica cuál es la variable

explicada en cada caso. En la segunda, la variable que se excluye, y en las dos siguientes, el
resultado del estadístico de contraste correspondiente a dicha exclusión y su valor p.
Así, para la ecuación de inflación, la exclusión de todos los retardos del tipo de interés,
es decir, la hipótesis de que esos coeficientes son nulos, no puede ser rechazada a juzgar
por el valor del estadístico de contraste, que presenta un valor p muy elevado. Sin embargo,
la hipótesis de que los coeficientes correspondientes a la oferta monetaria son nulos resulta
rechazada si bien el valor p está próximo al 5 %. Decimos entonces que hay causalidad (de
Granger) de la oferta monetaria a la inflación.Es una relación causal acorde con la teoría
económica, según la cual el incremento de la cantidad de dinero por encima del crecimiento
del producto genera inflación.
Leyendo de forma similar el resto de la información de la Tabla 19.4, se concluye que no
hay más relaciones empíricas de causalidad, es decir, que tanto en la ecuación del tipo de
interés como en la de oferta monetaria pueden excluirse los retardos, distintos de los de la
variable explicada, sin reducción significativa de la suma cuadrática residual.
En la Figura 19.6.1 representamos la respuesta de la inflación a un shock de una desviación
estándar en u2 y en u3 , es decir la respuesta de la inflación ante un shock inesperado en el
tipo de interés (figura de la izquierda) y en la oferta monetaria (figura de la derecha). El
shock se concreta en un aumento puntual de una desviación estándar en el término de error,
que vuelve a tomar un valor nulo en todos los periodos posteriores. Las correspondientes FRI
se representan en trazo continuo, mientras que las líneas en trazo discontinuo representan el
intervalo de confianza del 95 %. Como puede observarse, un aumento de M3 se traduce en un
incremento de la inflación en los siguientes 9 trimestres.
Tema 19 717
Tabla 19.4: Contraste de causalidad de Granger

Ecuación Variable excluida Fe, se valor-p
Inflación Tipo de interés 0,38 0,89
Oferta monetaria 2,19 0,04
Tipo de interés Inflación 0,65 0,69
Oferta monetaria 0,96 0,45
Oferta monetaria Inflación 0,93 0,47
Tipo de interés 0,85 0,53
Figura 19.6.1: Funciones de respuesta al impulso de la inflación (Xl) al tipo de interés (X2)
y a la oferta monetaria (X3)
Response of X 1 to X2 Response of X 1 to X3
16...---------------, 16...---------------,
12 12
.................-------- . ·---·------.......... , __
4 ••• --?--·----~------.._ 4
····.............
-8 -8 ··.,
- 12-;--,--,---,-~-~-,---~--1 -12;---r-...---,---.--r----r--.---r---I
1 5 7 10 1 2 4 9 10
Figura 19.6.2: Funciones de respuesta al impulso del tipo de interés (X2) a la inflación (Xl)
y a la oferta monetaria (X3)
Response of X2 to X1 Response of X2 to X3
-1 -1
2 4 5 9 10 2 4 7 9 10
Figura 19.6.3: Funciones de respuesta al impulso de la oferta monetaria (X3) a la inflación

(Xl) y al tipo de interés (X2)
Response of X3 to X1 Response of X3 to X2
2 2
- 1-~~----------1 - 1 -~~----------1
1 2 6 9 10 1 2 4 9 10
Asimismo en Figuras 19.6.2 y 19.6.3 se muestran las respuestas del tipo de interés y la
oferta monetaria ante shocks inesperados en los errores de las otras ecuaciones del sistema.
En las Tablas 19.5, 19.6, y 19.7 ofrecemos la descomposición de la varianza. Obsérvese la
influencia del orden causal implícito (inflación, tipo de interés, oferta monetaria): un shock
en la ecuación de inflación solo influye en el primer periodo sobre la propia ecuación de
inflación , ya que, para el orden causal considerado , esta variable no entra como explicativa
contemporánea en ninguna de las otras dos ecuaciones. Sin embargo, un shock en la ecuación de
tipo de interés afectará en el momento de producirse tanto al tipo de interés como a la inflación,
puesto que el tipo de interés entra sin retardos en la ecuación de inflación. Finalmente, si el
shock se produce en la ecuación de oferta monetaria habrá efectos contemporáneos en todas
las ecuaciones del sistema. Como señalamos más arriba, tanto las funciones de respuesta al
impulso como la descomposición de la varianza se verán afectadas si cambia el orden causal.
Una de las supuestas ventajas de los VAR, señalada en la toda la literatura que trata
sobre esta metodología, es una capacidad predictiva superior a la de otras modelizaciones.
Para terminar, mostramos la predicción de inflación para los cuatro trimestres del año 2009
obtenida a partir del VAR, comparando este pronóstico, tanto con los valores realmente ob-
servados como con la predicción obtenida a partir de un modelo uniecuacional típico de series
temporales. En concreto, hemos aplicado los métodos estudiados en el Tema 13, para mode-
lizar individualmente la serie de inflación, efectuando a continuación una predicción para los
cuatro trimestres de año 2009.
El mejor modelo que hemos encontrado para la inflación es un SARIMA(2,0,0)(1,0,1). En
la Tabla 16.8 se recogen los valores del correlograma. Con 102 datos, el nivel crítico al 5 %
sería aproximadamente 0,2, de forma que ninguno de ellos es significativo y la serie puede
por tanto considerarse ruido blanco. En la Figura 19.6.4 mostramos la inflación realmente
observada junto con las predicciones obtenidas con el modelo SARIMA (puntos oscuros) y
con el VAR (puntos claros). La línea representa los valores observados mientras que en la
parte sombreada, los puntos negros son los pronósticos obtenidos con el modelo SARIMA y
los puntos claros, los del VAR. Puede comprobarse que las predicciones del VAR son mejores.
Tema 19 719
Tabla 19.5: Descomposición de la varianza (inflación)

:-.¡Q se Inflación Interé s M3
5 ,97 100 0,00 0 ,00
2 11,92 99 ,64 0 ,31 0 ,05
3 16 ,54 98 ,56 1, 16 0 , 28
4 20 ,62 96 , 14 1, 98 1 ,88
5 22 ,35 90 , 17 3, 21 6 ,61
6 23,45 8 1 ,92 4, 00 14 ,08
7 24 , 71 75 3, 96 21 ,04
8 25,88 73 ,38 3, 69 22 ,93
9 26,31 74, 07 3, 57 22 ,36
10 26,50 73 ,15 3, 56 23 ,29
Tabla 19.6: Descomposición de la varianza (tipo de interés)

:-.¡Q se Inflación Interés M3
1,06 0 ,09 99,91 o,oo

2 1 ,72 0 ,04 99,95 0 ,0 1
3 2,13 0 ,03 99 ,96 0 ,01
4 2 , 28 0 , 73 99,09 0,18
5 2 ,32 2 ,23 96, 49 1 ,28
6 2 .45 3 ,50 90 , 79 5, 71
7 2,62 4 ,00 84 ,47 11, 5 4
8 2 ,72 3 , 78 80 ,46 15,76
9 2,76 4 ,64 77 ,97 17,38
10 2,78 6 , 12 76 ,78 17 ,10
Aunque en ambas se aprecia cierto sesgo, este es mucho menor en el caso del VAR, que además
indica bien la dirección de la inflación, en contraste con la predicción del modelo univariante,
según la cual la inflación aumentaría en el último trimestre de 2009.
720 INTROD UCCIÓ N A LOS MODELOS VAR
Tabla 19.7: Descomposición de la varianza (Oferta Monetaria)

:-;¡o se Inflación In terés M3
1,18 0,23 0,28 99,49
2 1,80 0,10 0,81 99,09
3 2,35 0 ,1 8 2,93 96,88
4 2,90 1 ,2 7 4,68 94,06
3,15 1,39 7,91 90.70
6 3,37 1 ,87 10,71 87,42
7 3,54 2 ,47 12,39 85,14
8 3,65 2 , 32 14 ,47 83,21
9 3,79 2 ,33 15,34 82,33
10 3,89 2 ,26 16,04 81,70
Tabla 19.8: Funciones de autocorrelación total (FAT) y parcial (FAP)

2 3 4 5 6 7 8 9 10
FAT ,081 -,101 ,027 - ,017 ,010 ,026 -,147 ,016 ,162 ,018
FAP ,081 -,108 ,046 -,035 ,023 ,016 -,150 ,051 ,127 ,008
Figura 19.6.4: Predicción de inflación para 2009
40
•
o
•
40
•
-80
- 120--~--~-~--~-~-~~---1
0801 0802 0803 0804 0901 0902 0903 0904
1 ~ INF4 • ARMA For • VAA For 1

Tema 19 721
EJERCICIOS
Teóricos
1. Mostrar que en un VAR con k variables, la identificación requiere ( k 2 -k) /2 restricciones.
2. Explique cómo se obtienen los grados de libertad de los estadísticos de contraste de la

Tabla 16.4.
3. Considere la forma reducida (19.3.3) del VAR estructural (19.3.1). Estudie las propie-
dades de Uit y U2t· En particular, indique bajo qué condiciones será nula E(uitU2t)·
4. En la Figura 19.5.1 se han representado las funciones de respuesta al impulso de un

ejemplo basado en las matrices hipotéticas A1 = ( ~O~l ~'.~ ) Y :E = ( ~ 1~ ).
Calcule los valores propios de A1 y señale si son compatibles con un VAR estacionario.
Invierta el orden de las variables y vuelva a calcular las funciones de respuesta al impulso
suponiendo un shock de una desviación estándar en la primera perturbación. Compárelas
con las del texto.
5. Suponga que debe realizar una previsión sobre el PIB a partir de un modelo en el que
se incluyen además las siguientes variables macroeconómicas: consumo de los hogares,
inversión, exportaciones, importaciones, tipos de interés a corto y largo plazo y oferta
monetaria. Si dispone de datos trimestrales de los últimos 25 años, ¿podría emplear un
modelo VAR para llevar a cabo la predicción? ¿En qué condiciones?
6. Suponga que los residuos de un VAR estándar como el representado en la ecuación 19.1.2
son tales que var( uit) = 0,75, var( u2t) = 0,5 y cov( Uit, U2t) = 0,25. Analice si el VAR
estructural está identificado.
Prácticos
7. Empleando datos del periodo 1980 - 2005, utilice la tabla ET19 1 para estimar un
VAR con las variables PIB y tipo de interés.
a) Justifique si considera más apropiado emplear las variables en niveles o diferencia-

das.
b) Estudie cuál es el orden más apropiado y estime el VAR para ese valor p.
e) Utilice el contraste de causalidad de Granger y diga si hay relaciones (empíricas)
de causalidad entre estas dos variable.
8. La tabla ET19 _ 2 contiene los datos para España de oferta monetaria e índice de
precios al consumo desde el primer trimestre de 1980 hasta el cuarto de 2010. La OM
está expresada en logaritmos.
a) Obtenga la serie de inflación y compruebe que es estacionaria. Obtenga asimismo

una serie estacionaria para la OM.
b) Especifique y estime un VAR(12) entre las series estacionarias. Emplee alguno de
los estadísticos estudiados para decidir si el orden más apropiado es 12, 8, 6 o 4.
c) Analice las relaciones de causalidad entre las variables. ¿Son los resultados obteni-
dos acordes con la teoría cuantitativa del dinero?
d) Vuelva a estimar el VAR incluyendo ahora variables dummy estacionales. ¿Modifica
en algo los resultados anteriores la inclusión de estas variables?
9. La tabla ET19 3 contiene diversas series macroeconómicas referidas al área euro ob-
tenidas de la base de datos AWM.
a) Construya un VAR con las variables PIB, índice de precios, tipo de interés y tipo
de cambio efectivo con todas las series en niveles y las de PIB , precios y tipo de
cambio expresadas en logaritmos.
b) Utilice las funciones de respuesta al impulso para analizar los efectos de una política
monetaria restrictiva sobre el PIB y los precios.
c) Un resultado desconcertante que aparece frecuentemente en este contexto es el
denominado price puzzle: los precios suelen subir como resultado de una políti-
ca monetaria contractiva, lo que resulta contraintuitivo. Compruebe que el VAR
estimado en el apartado anterior adolece de este problema.
d) Para tratar de resolver esta cuestión suelen incluirse variables exógenas en el VAR
que puedan paliar el posible problema de especificación implícito. Vuelva a estimar
el VAR incluyendo como exógenas el índice mundial de precios, así como el PIB y
el tipo de interés a corto plazo en EE.UU. Compruebe si esta medida soluciona al
menos en parte el problema señalado.
e) Estime de nuevo el VAR del primer apartado, pero alterando la ordenación de las
variables. Compare las funciones de respuesta al impulso y la descomposición de
la varianza en ambos casos.
Tema 20
COINTEGRACIÓN
20.1. INTRODUCCIÓN
En el tema anterior introdujimos la posibilidad de estudiar simultáneamente las inter-

acciones dinámicas de dos o más series a través de un modelo VAR. Allí consideramos que
las variables del sistema VAR eran I(O) , pero ¿qué sucede si no lo son? Ya estudiamos para
los procesos estocásticos univariantes que podemos eliminar la tendencia tomando la serie
en diferencias, y también en un escenario VAR podríamos estudiar las relaciones dinámicas
formando un VAR de variables en diferencias, sin embargo no siempre es lo adecuado (ni
desde el punto de vista económico y ni econométrico) pues podríamos dejar analizar aspectos
relevantes de las relaciones dinámicas entres las variables consideradas. Este tema introduce
precisamente el escenario en el que deberíamos trabajar con las series no estacionarias.
Hemos visto que la regresión entre variables no estacionarias puede dar lugar al problema
de las regresiones espurias. La mayoría de las series macroeconómicas son no estacionarias, lo
que plantea un problema empírico importante en ciertas circunstancias. Por ejemplo, la teoría
económica postula que hay una relación de equilibrio a largo plazo entre el consumo agregado y
la renta disponible. Considérese la estimación de dicha función utilizando un sencillo modelo de
regresión simple y datos trimestrales entre 1995 y 2012 (segundo trimestre), correspondientes
a la economía norteamericana:
2
A
Ct = 3253,6 + 0,49 yt , R = 0,96, DW = 0,05.

(125,6) (0,012)
A simple vista los resultados son bastante aceptables: tanto el signo como el valor de
la propensión marginal al consumo son acordes con la teoría, el ajuste es muy elevado y la
renta es altamentemente significativa, con un valor p prácticamente nulo . Pero un contraste
ADF muestra que tanto consumo como renta disponible son ambas I(l) , es decir, series no
estacionarias, por lo que podemos enfrentarnos al mencionado problema de regresión espuria.
Añadamos que el valor del estadístico de Durbin y Watson es claramente incompatible con
la hipótesis de no autocorrelación y significativamente menor que el valor del coeficiente de
determinación, y tendremos todos los síntomas clásicos de la regresión sin sentido.
En estas condiciones se ha sugerido evitar el problema efectuando la regresión entre las
723
724 COINTEGRACIÓN
series diferenciadas. La diferenciación de las series eliminaría la no estacionaridad, pero al coste

de impedir estimar la supuesta relación de equilibrio a largo plazo, puesto que la regresión
6.Ct = 80 + 816.Yt +Et sería una estimación de la relación a corto plazo.
La pregunta es entonces si es posible estimar relaciones de equilibrio o a largo plazo
entre variables no estacionarias, cuestión del máximo interés si tenemos en cuenta que, como
hemos dicho, la mayor parte de las series económicas son en principio no estacionarias. La
cointegración proporciona una respuesta a este interrogante. Supongamos que efectivamente
existe una relación a largo plazo entre las variables Y (digamos gastos en consumo) y X (renta
disponible) que podemos representar por:
(20.1.1)
En la relación anterior el término de error Et = yt - (a + f3Xt) puede interpretarse como
la desviación del consumo de su relación de equilibrio a largo plazo dada por a+ f3Xt, o error
de equilibrio. Si dicha teoría existe realmente, cualquier desviación del consumo respecto de
a + f3Xt, ha de ser necesariamente transitoria. Es claro que en otro caso, es decir, si las
desviaciones no se corrigiesen en un plazo relativamente breve, no podríamos sostener la
existencia de dicha relación. En términos estadísticos, ello significa que Et no debería apartase
mucho de la recta de ordenada nula, cruzándola frecuentemente. Es decir, la existencia de la
relación a largo plazo exige que el término error en 20.1.1 sea estacionario, a pesar de que las
series de consumo y renta sean ambas integradas de orden uno 1 . Esto no sucede, por ejemplo,
si dicho término tiene una raíz unitaria (una tendencia estocástica), dado que en este caso
los errores, lejos de eliminarse, se van acumulando en el tiempo. Es decir, que la existencia
de la teoría representada por la Ecuación 20.1.1 , exige que aun siendo yt y Xt I(l), ha de
existir una combinación lineal de las mismas Et, que sea estacionaria, o I(O). Esta es la idea
fundamental del concepto de cointegración: dos series se dice que están cointegradas, si siendo
ambas I(l), existe una combinación lineal entre las mismas que es estacionaria. Nótese que la
cointegración exige en este caso que ambas series sean I(l). Si una fuese I(l) y la otra I(O) no
podría existir una combinación lineal estacionaria entre las mismas.
En estas condiciones, o sea si hay cointegración , se puede demostrar que la estimación
MCO de 20.1.1 proporciona estimadores adecuados evitando por tanto el problema antes
mencionado de las regresiones espurias. En concreto el estimador MCO de 20.1.1 no solo
es consistente, sino superconsistente, es decir, converge con más rapidez de la habitual al
verdadero parámetro poblacional.
La Figura 20.1.1 ilustra gráficamente lo anterior. En los dos paneles representamos dos
series X e Y, integradas de primer orden (escala derecha), junto con los residuos de la regresión
entre las mismas en trazo discontinuo (escala izquierda). En la Figura 20.1.1 de la parte
izquierda se han representado los tipos de interés a corto y largo plazo en la Unión Europea,
tal como aparecen en la base de datos AWM .
Los errores de desequilibrio representados por los residuos en la parte inferior del gráfico
son claramente estacionarios, de manera que las desviaciones de la relación de equilibrio a
largo plazo se corrigen con relativa rapidez. Podemos decir que X e Y están cointegradas. En
1
0bsérvese que decimos condición necesaria, pero no suficiente. La existencia de una relación con sentido
económico entre un conjunto de variables solo puede provenir de la teoría económica.
Tema 20 725
"':1es cointegradas (izquierda) y no cointegradas (derecha)
08
12 _/ ......-····-- 06
.--· 04
0.2
00
.04
¡v'"..,
,, ,,
.l~ ...- - I
_..,, /~ 00+--~--,,-_---./---~~~-,.-,,-,.,.~~~---<
- G4
1 1
\. J
\,i'
-08+......~~~~~~~~~~~.,..,...
!980 1985 1990 1995 2000 2005 1970 1975 1980 1985 1990 1995 2000 2005
el pa.c. a derecha, donde se han representado dos índices de precios (el defl.actor de la UE
y un:.- ""ce mundial de precios, ambos obtenidos de la misma fuente) sucede lo contrario: los
residu ::. ::. n no estacionarios registrándose grandes desviaciones del equilibrio que además se
man ienen de forma prolongada en el tiempo. En este caso las series no están cointegradas.
La figu ra precisamente nos invita a pensar que las series cointegradas comparten una
tendencia estocástica común, mientras que eso no sucede en las no cointegradas. Pensemos
en los determinantes del PIB per cápita, donde cada uno de los numerosos determinantes del
mismo influyen sobre el valor observado. Si uno de esos determinantes, como es el caso del
consumo per cápita, tiene una tendencia estocástica, también la tendrá el PIB per cápita.
De hecho ambas variables (hemos visto ejemplos en otros temas) tienen cada una de ellas
tendencia estocástica, por lo que incluso podemos decir que al estar teóricamente relacionado
el consumo y el PIB per cápita, es factible que compartan una tendencia estocástica común.
Al tratarse del PIB per cápita este podría contener más tendencias estocásticas y compartir
o no con ellas una tendencia. Por ejemplo la inversión per cápita podría compartir tendencia
con el PIB per cápita.
20.2. DESCRIPCIÓN DEL CONCEPTO DE COINTEGRACIÓN
Esta sección tiene dos partes. En la primera, damos una visión intutitiva del concepto
de cointegración y de los modelos de corrección del error. En la segunda parte de la sección,
damos un tratamiento más técnico solo del concepto y dejamos para más adelante en el tema
el tratamiento sistemático de los modelos de corrección del error.
20.2.1. Un exposición intuitiva de la cointegración

Los paseos aleatorios se ilustran clásicamente mediante el paseo de un hombre borracho
que sale de un bar en dirección a su casa. La senda que describen sus pasos constituye un
ejemplo de un paseo aleatorio y por tanto de proceso no estacionario de la forma
726 COINTEGRACIÓN
donde Et es un proceso estacionario de ruido blanco relativo a los pasos del borracho en cada
periodo.
o solo los borrachos son las únicas criaturas cuyo comportamiento sigue un paseo alea-
torio. De hecho los perros también pueden seguir una trayectoria de paseo aleatorio cuando
van desatados. Cada nuevo olor que se cruza en su nariz marca la dirección de su siguiente
paso, de modo que tan pronto como se cruza otro nuevo olor, el anterior se olvida. Así pues,
podríamos modelizar también la trayectoria del perro mediante otro paseo aleatorio
yt - Yt-1 = Wt,
y ahora Wt es otro proceso estacionario de ruido blanco relativo a los pasos del perro en cada
periodo. Tanto en el caso del borracho como en el del perro las localizaciones actuales son la
mejor forma de predecir sus localizaciones futuras , como sucede con todo paseo aleatorio.
Los paseos aleatorios datan de principios de 1900, desde entonces la econometría ha evolu-
cionado y sus metáforas también. Uno de los grandes avances econométricos es precisamente
observar que los procesos pueden estar cointegrados. Para explicarlo metafóricamente el cuen-
to del borracho se ha tenido que adaptar. Ahora se trata de una borracha que es la dueña
del perro. La borracha sale del pub y comienza a caminar sin un objetivo determinado en
forma de paseo aleatorio. De vez en cuando, grita para saber dónde está su perro Oliver.
Oliver interrumpe entonces su propio paseo aleatorio y lanza un ladrido. Entonces ambos se
oyen mutuamente. Él pensará que si se aleja mucho, le acabará dejando durmiendo fuera en
la calle; mientras que ella pensará que no debe dejar que él se aleje demasiado porque de lo
contrario se pasará toda la noche ladrando, lo que la impedirá dormir como espera durante la
noche. De manera que perro y dueña valoran cómo de lejos están uno del otro y se moverán
de manera que la distancia se vaya haciendo parcialmente menor y así llegar a casa.
Ahora ni el perro ni la dueña borracha siguen un paseo aleatorio; cada uno ha añadido un
mecanismo de corrección sobre sus pasos. Sin embargo si solo miráramos las sendas descritas
por cada uno de ellos, parecerá que siguen un rumbo nocturno sin objetivo alguno, si bien
ambos a medida que pasa el tiempo aumentará la probabilidad de estar alejados del pub. Las
trayectorias de la dueña y su perro aún contienen tendencias estocásticas. Sin embargo, el
mecanismo de corrección o ajuste descrito asegura que las sendas compartan una tendencia
estocástica común.
Esto hace que independientemente de las tendencias estocásticas de cada uno de ellos,
podamos decir con garantías que si encuentras a la borracha, es muy improbable que el perro
esté muy lejos. Es decir, si medimos la distancia entre ambas trayectorias, la serie de la
distancia entre ambos no tendrá un tendencia estocástica, y en tal caso las sendas del perro
y la mujer diremos técnicamente que guardan un relación de cointegración y en particular,
como explicaremos a continuación, son cointegradas de orden cero. La clave es que hay una
relación probabilística lineal entre las dos sendas que es de un orden de integración menor que
el que tienen por separado las sendas del perro y su dueña. Nótese que la cointegración es un
concepto probabilístico. La distancia entre el perro y la dueña es una variable aleatoria que
es estacionaria, pese a provenir de dos procesos no estacionarios.
Efectivamente, podemos modelizar el proceso cointegrado de la mujer y el perro como
(20.2.1)
Tema 20 727
y
yt - Yt-1 = Wt + 0:2(Yt-1 - Xt-1). (20.2.2)
En ambas ecuaciones aparece el término (Yt-1 - Xt-1) que es un mecanismo de corrección
que hará muy probable que no se separen perro y dueña. Este término es precisamente la
relación de cointegración entre X e Y. En contextos económicos la relación de cointegración
es una relación de equilibrio a largo plazo entre las variables económicamente relacionadas.
El mecanismo de corrección en las ecuaciones refleja cómo las variables se ajustan a dicha
relación de equilibrio de largo plazo cuando se alejan de la misma, por lo que a dicho término
de ajuste se le denomina corrección del error. Los coeficientes o: 1 y 0:2 son indicativos de la
velocidad del ajuste, es decir, de la velocidad con la que se corrige el error.
Obsérvese que si la distancia entre el perro y la mujer no tendiera a corregirse, es decir si la
distancia entre uno y otro contuviera una tendencia estocástica, entonces lo más probable es
que ambos acabaran en posiciones alejadas, por lo que sus trayectorias no serían cointegradas
de orden cero. En términos un poco más generales, si tenemos dos series I(l), la diferencia2
no será (en general) estacionaria. Engle y Granger (1987) demostraron 3 que si las sendas del
perro y la dueña son I(l) y son consistentes con las ecuaciones (20.2.1) y (20.2.2), entonces
ambas trayectorias necesariamente serán cointegradas de orden cero. También demostraron
que si existe una relación de cointegración entre las dos trayectorias (ambas no estacionarias),
entonces debe existir un mecanismo de corrección del error como por ejemplo el presentado
en las ecuaciones (20.2.1) y (20.2.2).
En este caso hemos considerado que la diferen cia en sus localizaciones es estacionaria.
En general, la relación de cointegración no requiere que la diferencia entre ambas variables
sea estacionaria. Solo se necesita que exista una combinación lineal de las variables (que no
contenga una tendencia estocástica) que haga que sea estacionaria, evitando así que las sendas
se separen. Si esto es así, la cointegración de variables implica que comparten una tendencia
estocástica común, de manera que si sabemos cuál es la combinación lineal (como en el caso
del perro y su dueña) , tal tendencia común se cancelará y quedará una variable sin tendencia.
Así pues una forma más general de exponer relaciones como las indicadas en las ecuaciones
(20.2.1) y (20.2.2) es mediante el modelo de corrección del error siguiente
(20.2.3)
(20.2.4)
donde se aprecia que la relación de cointegración común es
Pongamos un ejemplo más económico, una vez que hemos entendido la relación de cointe-
gración entre el perro y su dueña. El consumo Y y el ingreso X son dos variables I(l) de las
que el análisis económico nos indica que están relacionadas (cointegradas). Un cambio en el
ingreso de los hogares (positivo) lo más seguro es que lleve a un aumento del gasto en bienes
20 una combinación lineal entre ellas .81 yt + ,82Xi, O< ,Bi < l.
3
Si aplicamos sus resultados al ejemplo en cuestión.
728 COINTEGRACIÓN
de consumo de los hogares (para lo cual 1 > {3 1 > O), si bien el cambio no será inmediato
por lo que la respuesta en el consumo se dilatará algo en el tiempo. El modelo de corrección
del error anterior, en particular la relación de cointegración, nos permite examinar cuánto
cambiará el consumo del hogar en respuesta a un cambio en la variable ingreso. Y además nos
facilita ver cómo es la velocidad del cambio quedando reflejada en la parte de corrección del
error: 6.yt = a20 + a21 (ct-1) + E2t donde hemos puesto Et-1 como el error de cointegración
(ct-1 = Yt-1 - f31Xt-1).
En efecto, de la misma manera que perro y dueña se corregían mutuamente, ahora el
consumo y el ingreso también se podrán corregir pues dados unos ingresos Xt-1 superiores
(por un shock externo), se tendrá que Yt- 1 < (f31Xt-1), lo que es equivalente a ét-1 < O.
Un valor del parémetro a21 < O implicaría, según el modelo de corrección, que el consumo
se ajustaría al alza como resultado de Et- l < O, es decir, 6.yt aumentaría. En paralelo si
a11 > O, el término de corrección del error también reconduciría la senda del ingreso pues
6.Xt se reduciría.
Los modelos de corrección del error y los modelos VAR, expuestos en el tema anterior,
nos invitan a considerar la estrategia correcta que ha de tomar el económetra cuando algunas
de sus variables son no estacionarias. Efectivamente, pudiera ser que dos variables fueran
integradas, pero no estuvieran cointegradas. Sabemos que la regresión de una sobre otra
conduce a lo que en el apartado 17.2 denominamos regresión espuria y por tanto nos conduce
demasiado frecuentemente a erróneas conclusiones sobre la verdadera (inexistente) relación
entre las variables. La forma de estimar y realizar inferencias correctas es utilizando un VAR
con las variables en diferencias:
6.Xt = !310 + !3116.Xt + !3126.Yt + Clt
6.yt = !320 + !3216.Xt + !3226.Yt + c2t

donde se aprecia que en ambos lados las variables son estacionarias y por tanto los estimadores
son consistentes y el contraste tipo t asociado es asintóticamente normal.
Sin embargo, si hubiera una relación de cointegración la anterior estrategia no nos per-
mitiría verla. La forma de no perder la valiosa información derivada de la cointegración sería
incorporando las variables retardadas en niveles pero con la restricción que impone la relación
de cointegración. Precisamente lo que se plantea en el modelo de corrección del error, y que
como se observa nuevamente a los dos lados del igual se presentan variables estacionarias.
Antes de abordar un poco más sistemáticamente la presentación de la cointegración, ob-
servemos que el modelo formado por las ecuaciones (20.2.3) y (20.2.4) puede expresarse como
un modelo VAR del siguiente modo
Yt = a20 + (a21+1) Yt-1 - a21f31Xt-1 + E2t

que nos sugiere que pueden producir problemas de identificación de los efectos parciales de
las variables. En todo caso , se observa que las relaciones entre las variables siguen estando
equilibradas puesto que son todas no estacionarias, si bien ahora siguen compartiendo la
misma relación de cointegración, pese a que no es inmediatamente visible desde las series en
Tema 20 729
niveles. Esto justifica que la estimación se haga desde la especificación dada por las ecuaciones
(20.2.3) y (20.2.4).
Por último, el lector debe considerar que es posible incorporar más de dos variables.
En efecto. no solo pueden entrar en escena la mujer y su perro, sino que también podemos
considerar que la mujer tiene un novio que también salía del bar en condiciones similares. Como
tal procurará ajustar su paso al de su novia lo que introduciría otra relación de cointegración
(en este caso entre ambos), si bien la mujer seguirá también estando cointegrada con su
mascota:
Xt - Xt-1 Et+ 0:1(Yt-1 - Xt-1)

yt - Yt-1 Wt + 0:2(Yt- 1 - Xt-1)
Zt - Zt-1 Vt + 0:3 (Yt- 1 - Zt-1).
Nuevamente, si observamos individualmente (por separado) las trayectorias de los tres nos
parecerán cada una de ellas que describen sendas no estacionarias, si bien las tres guardan
una relación de cointegración articulada por la relación de la mujer con su perro y del novio
con la mujer, pese a no existir relación alguna entre el novio y la mascota. Obsérvese que no
es necesario que la mujer ajuste sus pasos a los de su novio. De hecho podríamos incluir otra
relación de cointegración, precisamente podríamos considerar que a la mujer embriagada le
conviene que su novio no se aleje demasiado, en tal caso estaría sujeta a dos relaciones de
cointegración:
Incluso podríamos pensar en introducir una tercera relación de cointegración: el novio

siente cierto interés (por los motivos que fuera) por la localización de la mascota de su novia:
(20.2.5)
sin embargo, esta relación es una simple combinación lineal de las dos anteriores, es decir,
la relación del perro y su dueña, y la de la mujer y el novio, (Yt-1 - Xt-1) y (Yt-1 - Zt-1),
respectivamente. Al ser una combinación lineal podríamos entonces reescribir la expresión
(20.2.5) sin utilizar la relación de cointegración (Zt - 1 - Xt-1). En efecto, la combinación es
la siguiente
Esta última parte del ejemplo nos permite comprobar intuitivamente que cuando hay tres
variables solo es posible como máximo tener dos relaciones de cointegración.
20.2.2. Un exposición técnica de la cointegración

Para facilitar la exposición técnica que vamos a utilizar en el resto de tema, comenzamos
en una situación similar a la de la mujer y el perro, es decir con el supuesto de que hay solo
dos variables.
730 COINTEGRACIÓN
La definición formal de cointegración desarrollada por Engle y Granger (1987) es la si-

guiente:
Se dice que dos series temporales yt y Xt están cointegradas de orden d, b, donde d 2:: b,
CI( d,b), si:
1. Ambas son integradas de orden d.
2. Existe una combinación lineal de dichas variables /31yt + f32Xt que es integrada de orden
d-b.
El vector ((31, f32) recibe el nombre de vector de cointegración y además en este caso (solamente
dos variables implicadas), dicho vector, una vez normalizado, es único.
El caso de mayor interés en economía y al que nos referiremos en lo sucesivo, salvo que se
diga lo contrario, es d=b=l, es decir, CI(lJ) o series I(l) para las que existe una combinación
lineal que las hace I(O). Por ejemplo, sean las series:
Y1t = Wit + Eit

Y2t = W2t + €2t,
donde Wit y W2t son dos procesos de camino aleatorio representativos de la tendencia esto-
cástica en cada una de las dos series y Eit, E2t los respectivos términos error. Si los procesos
Yit e Y2t están cointegrados, debe existir un vector de parámetros no nulos ((31, f32) tal que
f31Yit + f32Y2t sea estacionario:
f31Y1t + /32Y2t = (/3171.'lt + f32W2t) + ((31€1t + f32E2t)·
El último paréntesis es estacionario, al ser una combinación lineal de series estacionarias, de
manera que ((31 Wit + f32w2t) debe ser también estacionario. Sin embargo, este término es una
combinación lineal de variables I(l) y la única forma de que sea I(O) es que se anule. Puesto
que por hipótesis los parámetros del vector f3 son distintos de cero, se tiene que
f32
f31 Wit + f32W2t = Ü ===? Wit =- f3l W2t·
Es decir que (excepto por la constante -(32 //31) la tendencia estocástica de ambos procesos
es la misma, es común.
Ya sabemos por el ejemplo introductorio que el concepto de cointegración se extiende sin
dificultad para contemplar k variables. De hecho, en dicho ejemplo consideramos que k era 3.
x xf
Sea el vector k 1, = (xit, X2t, .. ., Xkt)· Diremos que las series son cointegradas CI( d,b) ,
d ;:::: b, si:
l. Cada una de las varia bles Xi es integrada de orden d, I ( d).
2. Existe un vector r¡ de dimensión k x 1 distinto de cero tal que xf r¡ es I(d-b).

El vector r¡ se denomina vector de cointegración. Como antes, nuestro interés se centrará sobre
todo en el caso CI(l,1).
Tema 20 731
20.3. CONTRASTE DE COINTEGRACIÓN. EL PROCEDIMIENTO DE

ENGLE Y GRANGER
De lo expuesto hasta ahora se deduce el interés por contrastar si dos variables concretas
X e F están o no cointegradas. En efecto, como observadores de las trayectorias del perro y
de su dueña podemos vislumbrar su aparente tendencia a estar juntos, pero no es obvio quién
es el líder y quién es el seguidor , si es que es el caso. Est a sección presenta un procedimiento
econométrico para arrojar luz al respecto.
Si la dos variables están cointegradas, podemos estimar la relación estática a largo plazo
mediante una simple ecuación de regresión mínimo cuadrática. Teniendo en cuenta la defi-
nición de cointegración y lo que estudiamos en temas anteriores, tampoco es difícil imaginar
cómo podemos llevar a cabo dicho contraste. Hemos señalado que la condición para que dos
series estén cointegradas es que los residuos de la ecuación 20.1.1 sean estacionarios.
En efecto, puesto que la condición para que las variables estén cointegradas es que el
término de error sea estacionario, podemos utilizar su contrapartida empírica para contrastar
la cointegración. Esta estrategia se conoce como aproximación de Engle y Granger e implica
seguir los siguientes pasos:
l. Comprobar el orden de integración de las series implicadas. Podemos utilizar el test

ADF para contrastar si ambas series son 1(1). Si las dos resultan ser 1(0) no tiene sentido
hablar de cointegración. Por otro lado, si no son del mismo orden de integración, entonces
tampoco pueden estar cointegradas. Solo si ambas son 1(1) se continúa el proceso.
2. A no ser que la ecuación cointegración, yt = n: + fJ Xt +Et representativa de la relación

a largo plazo sea conocida, lo que no suele suceder en la práctica, el siguiente paso es
estimarla. Para ello empleamos MCO. Ya hemos dicho que si X e Y están cointegradas,
MCO proporciona estimadores superconsistentes de n: y (J. A partir de los estimadores
MCO se obtiene la serie de los residuos estimados et =Et. Esta serie es una estimación
de las desviaciones respecto del equilibrio a largo plazo y, como hemos señalado, esta
serie debe de ser estacionaria si realmente hay una relación de cointegración entre las
variables implicadas.
3. Para contrastar la estacionariedad de la serie de et empleamos de nuevo un test ADF,

es decir calculamos, /::,et = Óet-1 + ¿7= 1 )..il::,et-i +Et y procedemos, como hacíamos en
los contrastes de este tipo, a contrastar la hipótesis nula Ho : 8 = O contra la alternativa
unilateral H1 : 8 < O. Si es posible rechazar esta hipótesis, entonces concluimos que las
series están cointegradas. Por tanto, rechazaremos que las variables estén cointegradas si
el J/ ee( J) es mayor que el valor crítico en tablas para el nivel de significatividad elegido.
Aquí surge un problema derivado del hecho de que et no representa realmente el error
de desequilibrio, sino solo su estimación y dado el método empleado (MCO), el proce-
dimiento estaría sesgado hacia la estacionariedad de et. Para solventar este problema
hemos de emplear tablas diferentes, en las que los valores críticos son más elevados en
valor absoluto. Por ejemplo, para 100 observaciones y un nivel de significatividad del
5 %, el valor crítico es -3,39, mucho más negativo que -1,95, el valor crítico habitual en
732 COINTEGRACIÓN
Tabla 20 .1: Test de raíces unitarias

Serie ADF
LT -1 ,66
ST -1 ,05
6LT -7,23
6ST -6 ,42
las tablas ADF para esta ecuación y nivel de significatividad (la ecuación de contraste
no tiene término independiente).
Por ejemplo, tomemos las series representadas en el panel de la izquierda de la Figura 20.l.l.
El contraste ADF aplicado a las mismas, arroja el resultado de la Tabla 20.l.
Ambas son pues 1(1) de manera que tienen el mismo orden de integración.
El segundo paso es estimar la regresión, obteniéndose:
L'ft = -2,11 + l,l5STt.

Los residuos se representan gráficamente en la misma Figura 20. l.1 y visualmente tienen
todo el aspecto de ser estacionarios. El contraste ADF aplicado a los mismos proporciona
para el estadístico empírico de un valor de -4,69. El valor crítico en las tablas para el nivel
del 5 % es (para 100 observaciones) -3,39 (-4,00 para el 1 %). Como el valor del estadístico
de contraste es menor (más negativo) que el valor crítico, podemos rechazar la hipótesis nula
(Ho : ó = O) y por lo tanto los residuos son estacionarios, de manera que las series están
cointegradas y el vector de cointegración es (-2 ,11, 1,15).
Podemos decir entonces que hay evidencia suficiente para sostener la existencia de una
relación a largo plazo entre ambas variables.
Otro procedimiento de contraste puede basarse en el estadístico de Durbin y Watson de
la regresión de cointegración. Recordemos que la expresión de dicho estadístico es DW =
2
l:(eI:et2-il . Si los residuos tuvieran una raíz unitaria (no fuesen estacionarios), el numerador
et
de la fórmula anterior estaría próximo a cero. Por tanto un valor reducido del estadístico DW
constituye una evidencia contraria a la cointegración. Sobre esta idea se ha construido un
contraste alternativo (CRDW) cuyos valores críticos para una muestra de 100 observaciones,
son 0,322 (10 %), 0,386 (5 %) y 0,511 (1 %)4 . Si el valor de CRDW es mayor que el valor crítico
para el nivel de significatividad elegido, se rechaza la hipótesis nula de que los residuos tienen
una raíz unitaria.
No obstante, este método se utiliza con menos frecuencia dado que la potencia del con-
traste es menor. Engle y Granger (1987) presentan diversos procedimientos de contrastación y
finalmente aconsejan la utilización del procedimiento descrito , es decir, un test ADF aplicado
a los residuos de la regresión de cointegración. Pero tampoco este método está libre de críticas.
Dado que se basa en el contraste aumentado de Dickey y Fuller, hereda todas las críticas de
este procedimiento y sus resultados han de ser tomados con precaución.
4
Sargan y Bhargava (1983).
Tema 20 733
20.4. EL TEOREMA DE REPRESENTACIÓN DE GRANGER

En e apartado 20.2.1 expusimos intuitivamente la cointegración en relación con los mode-
lo de corrección del error. De hecho comprobamos la estrecha relación entre ambos conceptos.
En es a ección damos un tratamiento más formal a lo expuesto entonces.
C no de los resultados más importantes en el análisis de cointegración es el denominado
teorema de representación de Granger (Granger, 1986 y Engle y Granger, 1987). Según este
teorema si dos series están cointegradas admitirán una representación en forma de modelo de
corrección de error (que denotaremos por sus siglas en inglés ECM).
un modelo de corrección de error es un modelo dinámico en el que se recogen conjunta-
mente tanto la relación a corto y a largo plazo entre las variables implicadas como el ajuste con
el que se corrigen las hipóteticas desviaciones respecto del equilibrio a largo plazo , exigido por
la hipotética relación de cointegración. Si seguimos considerando únicamente dos variables,
un sencillo modelo de corrección de error podría tener la siguiente expresión:
(20.4.1)
El ECM puede incluir en la parte derecha retardos de las diferencias de las variables,
dummy u otras regresaras que de momento ignoraremos para hacer más fácil la exposición.
El modelo puede verse como una reparametrización de la ecuación:
Yt = </>1Yt-l + <p1Xt + <p2Xt-l + Vt· (20.4.2)

Si en la expresión (20.4.1) hacemos 'Y = 1 - </>1 y 8 = (r.p1 + <p2)/(l - </>1) entonces
coincide con el anterior. Aunque esta última ecuación incluyese más retardos, siempre podría
reparametrizarse como un ECM del estilo (20.4.1), si bien en este caso el modelo de corrección
de error incluiría como explicativas retardos de las variables diferenciadas.
Examinemos ahora brevemente las características del modelo (20.4.1) en el supuesto de
que x e y sean CI(l ,l). En este caso las series son originalmente I(l) , de manera que sus
primeras diferencias han de ser estacionarias. El término error es estacionario por definición
y, por tanto , para que la ecuación anterior tenga sentido , el término Yt-1 - ÓXt-1 ha de ser
también estacionario ('Y es una constante). Este último t érmino es pues una combinación lineal
entre variables I(l) que, como acabamos de señalar, es estacionaria. Dicha combinación lineal
no es otra cosa que la ecuación de cointegración o relación a largo plazo entre las variables
que, por hipótesis, habíamos supuesto cointegradas. Como el término entre paréntesis es el
error de la ecuación de cointegración, es decir, el error de equilibrio , el ECM puede escribirse:
(20.4.3)
La interpretación es que existe una relación a largo plazo entre las variables (están coin-
tegradas) dada por Yt = 8xt + ét· Además el modelo recoge también la dinámica a corto,
representada por las variables diferenciadas. Por supuesto a corto plazo pueden producirse
desviaciones respecto a la relación a largo, pero si hay cointegración es necesario que estas
se corrijan en un plazo razonable. En este sentido, el t érmino 'Y mide la velocidad con la que
se produce esa corrección y en consecuencia su valor debería estar comprendido entre O y 1.
734 COINTEGRACIÓN
Por ejemplo, si en el periodo t-1 se ha producido una desviación positiva, es decir la cantidad
observada de y es superior a la que correspondería de acuerdo con la relación de cointegra-
ción, en el periodo siguiente, es decir, en t, una parte importante de esa desviación debe ser
compensada: la cantidad y en t será (36.xt menos la parte correspondiente a la mencionada
corrección. En este caso ello se traducirá en restar a (36.xt la medida de esa compensación,
dada por ')'ft-1· De esta forma el mecanismo descrito estaría empujando y hacia su posición
de equilibrio.
Si el valor de y en t - 1 fuese menor que el que corresponde al equilibrio a largo plazo, el
sistema operaría en sentido contrario.
Podemos presentar estas ideas en el marco de un sencillo VAR bivariante, lo que nos
servirá para introducir algún concepto adicional. Tomemos por ejemplo los gastos agregados
en consumo de los hogares Ct y la renta disponible Yt para los que la teoría postula una
relación de equilibrio a largo plazo. Si hay cointegración entre e e y, entonces si en un periodo
concreto el consumo es elevado respecto a la correspondiente relación de equilibrio (es decir,
hay desequilibrio), esa discrepancia se debe corregir en los periodos siguientes. El desequilibrio
se puede compensar bien con una caída del consumo, o bien con un incremento de la renta o
ambas a la vez. En cualquier caso, la dinámica a corto debería verse afectada por la situación
de desequilibrio. Ello puede representarse con un modelo como el siguiente:
6.ct = -ac (Ct- 1 - f3Yt-1) + Eit
6.yt = <Xy(Ct-1 - f3Yt-i) + f2t ·
En el modelo anterior, consumo y renta cambian como consecuencia de la existencia de

errores de desequilibrio (ct-1 - f3Yt-1 #- O). Si la desviación es positiva Ct-1 - f3Yt-1 > O,
el consumo caerá y/ o la renta crecerá. Nada cambia en la interpretación del sencillo modelo
anterior si se incluyen en el VAR términos adicionales, es decir:
6.Ct; = -ac(Ct-1 - f3Yt-i) + .A.116.Ct-l + Ó116Yt-l + éit
6.yt = <Xy(Ct-1 - f3Yt-i) + A216Ct-l + Ó216Yt- l + f2t·
Los términos <Xc y ay miden la velocidad del ajuste y, si hay cointegración, al menos uno de
ellos debe ser significativamente distinto de cero. Si ambos fuesen nulos , habría desaparecido
la relación a largo plazo en el sistema anterior: no sería un modelo de corrección de error ni
habría cointegración. Ese modelo se puede ampliar para contemplar más variables. En este
caso se tendría, expresado en forma matricial,
p
6.wt = µ + 7rWt-1+ L1ri6Wt-i +et,

i=l
donde la matriz 7r no puede ser nula si existe algún vector de cointegración entre las variables
incluidas en w . Más adelante volveremos sobre esta representación del ECM . Retornemos por
el momento a la representación del VAR bivariante entre consumo y renta disponible. En un
Tema 20 735
sistema cointegrado de este tipo, en general las dos variables reaccionarán ante una situación
de desequilibrio. Sin embargo, es posible que solo una de ellas lo haga. Por ejemplo ay, el
término que mide la velocidad del ajuste al equilibrio en la ecuación de renta, podría ser nulo ,
mientras que O'.c no. En este caso la renta no responde ante hipotéticos desequilibrios previos
en el consumo y todo el ajuste correspondería a la primera ecuación. En estas circunstancias
diremos que Yt es débilmente exógena.
Para estimar el ECM podemos seguir un procedimiento por etapas similar al que ya hemos
visto para el contraste de cointegración. En primer lugar estimamos la Ecuación (20 .1.1). Si
las variables están cointegradas entonces los estimadores de los parámetros a largo plazo a
y f3 serán consistentes. A continuación se salvan los residuos que son una estimación de los
verdaderos errores de desequilibrio en (20.4.3). El segundo paso consiste en estimar (20.4.3).
Para determinar si hay que incluir o no retardos de las variables diferenciadas y cuántos en
caso afirmativo5 , podemos usar algún criterio del tipo AIC o SBC. En esta fase se obtienen
por tanto las estimaciones de los parámetros a corto plazo así como un estimador de r, que
se interpreta como la velocidad del ajuste al equilibrio.
Engle y Granger (1987) han demostrado que, si existe cointegración, los estimadores MCO
de esta ecuación son consistentes y asintóticamente eficientes. Asimismo se muestra la consis-
tencia de los errores estándar de estos estimadores.
Como ilustración de todo lo anterior, estimaremos a continuación un ECM con los índices
de precios industriales de Alemania y EE.UU. Los datos son mensuales , y corresponden al
periodo 1981 - 1997 y están expresados en logaritmos. En primer lugar estudiamos el orden
de integración de ambas series. El valor del estadístico ADF para los precios de Alemania y
EE.UU. es -2,32 y -1,20 respectivamente. Por lo tanto no es posible rechazar la hipótesis de
raíz unitaria. Sin embargo, la hipótesis de que las primeras diferencias de ambas variables es
no estacionaria resulta claramente rechazada: ambas series son pues I(l).
A continuación estimamos la ecuación de cointegración, obteniendo (errores estándar entre
paréntesis):
Yt = 1,85 + 0,599Xt,
(0,03) (,009)
siendo y los precios en Alemania y x en EE.UU. El contraste de raíces unitarias aplicado a los
residuos de la regresión anterior propociona un valor ADF= -4,16 , de forma que la hipótesis
de raíz unitaria resulta claramente rechazada. Los residuos son estacionarios y por tanto las
series de precios en ambos países están cointegradas. La relación de equilibrio a largo plazo
vendría dada por la estimacion anterior, siendo la elasticidad 0,60, es decir que durante ese
periodo, los precios crecieron menos en Alemania que en EE.UU. Con ello hemos cubierto la
primera de las fases conducentes a la estimación del ECM.
La estimación de un ECM como el presentado en (20.4.3) es:
6Yt = ,0008 + 0,256Xt - 0,068it, R 2 = 0,32.

(,0002) (0,02) (0,01 )
5
A veces se incluyen también diferencias de otras variables 1(1) que no aparecen en la relación a largo plazo.
736 COINTEGRACIÓN
Los estimadores tienen todos ellos los signos adecuados y son estadísticamente significa-
tivos. En cuanto a la magnitud de los mismos, la elasticidad a largo plazo sería como hemos
dicho, aproximadamente 0,6. La elasticidad a corto plazo sería menor, 0,25 , y el ajuste lento
toda vez que el valor del EMC, -0 ,068, implica que se necesitan aproximadamente 5 trimestres
para corregir un hipotético desequilibrio, todo ello suponiendo que los residuos de la ecuación
de corrección de error tuvieran un comportamiento apropiado. En caso contrario habría que
introducir más retardos de las variables hasta conseguirlo.
El teorema de representación de Granger nos enseña que la relación entre cointegración
y corrección de error es biunívoca, es decir, si dos variables están cointegradas admiten una
representación en forma de ECM y, además, un modelo de corrección de error solo puede ser
construido si existe una relación de cointegración entre ambas variables. Lo anterior sugiere
que otra forma de contrastar si dos variables están cointegradas consiste en especificar y
estimar un modelo de corrección de error y contrastar la hipótesis nula Ho : 'Y = O contra la
alternativa H 1 : 'Y < O, siendo 'Y el coeficiente del término ECM. Para una exposición más
detallada de este contraste, puede verse por ejemplo Davidson y MacKinnon (2004). Estos
autores señalan que la ecuación de contraste suele tener menos problemas de autocorrelación
serial que la del método de Engle y Granger y que, en general, este estadístico es también
más potente. Ericsson y MacKinnon (2002) proporcionan, para diversos supuestos, los valores
críticos de este estadístico, que no se distribuye de forma normal.
El estadístico de contraste para dos variables, presentado en Davidson y MacKinnon, es:
6yit = X 'Y + a6y2t + Ó1Yit-1 + Ó2Y2t-1 + et,

donde la hipótesis a contrastar es H 0 : ó1 = O contra la alternativa unilateral. En el ejemplo
anterior:
6f¡lt = 0,156 + 0,221 6 y2t - 0,071ylt-l + 0,038y2t- l·

(,022) (0,034) (0,011) (,007)
Puesto que -0,071 / 0,011 = -6,45, la hipótesis nula de no cointegración resultaría clara-
mente rechazada (el valor crítico es -3,8 aproximadamente).
20.5. COINTEGRACIÓN CON MÁS DE DOS VARIABLES
El procedimiento en dos pasos de Engle y Granger, aunque no exento de problemas, es una

buena estrategia de contraste cuando solo hay dos variables implicadas. En la práctica hay
más de dos variables implicadas. En el caso del ejemplo ilustrativo de la mujer, el perro y el
novio, como observadores de las trayectorias descritas por los mismos, nos podemos preguntar
sobre más hipótesis de las que hemos considerado en la exposición del ejemplo. En efecto, nos
podríamos preguntar si es el novio el que sigue a la mascota y realmente no está interesado
en su novia. También cabría preguntarse si acaso el novio y la mujer, presos de su amor hacia
su mascota, siguen los pasos de su querido perro. O incluso podríamos preguntarnos si acaso
el perro sigue al novio y la mujer a su amada mascota.
Lo mismo sucede con las relaciones económicas: a largo plazo suelen incluir más de dos
variables. La teoría de la demanda incluye junto al precio , al menos la renta; la demanda de
Tema 20 737
dinero, la :po de interés, etc. En estos casos u otros más complejos, el contraste de
Engle y G~a.:: ,_ apropiado. El problema fundamental es que en este tipo de ecuaciones
puede ha ·e una relación de equilibrio a largo y, aunque sigue siendo cierto que
~ : _ estacionarios existe una relación de cointegración, esta estrategia no nos
· ~ ::_mir la hipotética existencia de varias.
: . u pongamos que tras estimar la ecuación yt = a+ .B1Xit + ,82X2t + ,83X3t +et
-= .as Yariables implicadas son 1(1) , se encuent ra que los residuos son estacionarios.
Entonces podemos afirmar que hay cointegración. Pero seríamos incapaces de distinguir cuán-
tas re~ de cointegración hay. Una posibilidad es que haya una única combinación lineal
entre as cuatro variables que sea estacionaria. Pero también podría ser que hubiera una rela-
ción de cointegración entre yt y Xit y otra entre X2t y X3t· Sean v1 y v2 los residuos de tales
relaciones
V1 = yt - 80 - 81X 1t
v2 = X2t - >.o - >.1X3t·
Dado que hemos postulado la existencia de cointegración, dichos residuos han de ser 1(0)
y, por definición, cualquier combinación lineal de dos variables 1(0) , es también I(O). Por
ejemplo, la suma de ambos residuos:
también es estacionaria. De esta manera tenemos una combinación lineal estacionaria entre
las cuatro variables, pero con el contraste descrito en la Sección 20 .3 no seríamos capaces de
identificar todas las relaciones de cointegración.
Para solventar estos problemas se han desarrollado contrastes más apropiados, siendo pro-
bablemente el test de rango de cointegración de Johansen (1988) uno de los más utilizados6 .
El método es bastante más complejo, de manera que nos limitamos aquí a una somera ex-
plicación. Afortunadamente la práctica totalidad de los programas econométricos permiten
llevar a cabo de forma rutinaria este test.
Johansen basa su metodología en los modelos VAR. Supongamos que deseamos estudiar
las posibles relaciones de cointegración entre un grupo de k variables incluidas en el vector
W t. Consideremos entonces el VAR
p+l
Wt = CXt + L hiWt- i + Ut. (20.5.1)
i =l
donde W es un vector de dimensión k x 1 con las variables implicadas, que asumiremos I(l).
Como hemos dicho, el caso más interesante en Economía es aquel en el que las variables
son CI(l,1). La matriz X contiene variables como tendencias, dummy, etc., y puede o no ser
incluida en la ecuación; u es el vector de los errores y hi son matrices de dimensión k x k.
6
Pero no el único: podría emplearse también aquí un contraste basado en un ECM.
738 COI TEGRACIÓN
Si eliminamos X para simplificar la exposición, el sistema anterior puede ser reparametrizado

como 7 :
p
6 Wt = IIWt- 1 + L IIi6 Wt-i + Ut. (20.5.2)

i=l
Obsérvese la similitud entre 20.5.2 y la ecuación de contrastación de Dickey y Fuller. De la

misma forma que allí nuestro interés estaba en el coeficiente de Yt-1 con objeto de contrastar
la existencia de una raíz unitaria, aquí nos centraremos en la matriz II, que referida a 20.5.2
viene dada por
p+ l
II = Lhi- Ikk i (20.5.3)
i= l
siendo ni = - ¿~=i+l hj.

En la ecuación 20.5.2 las variables diferenciadas y el vector de los errores son todos ellos
estacionarios, de manera que para que la igualdad se cumpla, el término IIWt-1, donde
las variables incluidas en W son I(l) , debe ser asimismo estacionario. La estacionariedad
de ese término implica que la matriz II contiene los coeficientes necesarios para formar las
combinaciones lineales estacionarias entre las variables de W, es decir, cada fila de dicha matriz
es un vector de cointegración. De hecho el rango de II determina el número de relaciones de
cointegración entre las k variables.
Por ejemplo , un caso elemental de 20.5.2 sería el VAR8 :
(~~; ) (:~~ :~~ )(~:=~ )+ ( :~: ) . (20.5.4)
Si II = O entonces las ecuaciones del VAR están equilibradas en el sentido de que todos
sus términos son estacionarios, pero en este caso no hay cointegración: si todos los elementos
de II son nulos, no puede decirse que haya una combinación lineal estacionaria entre x e
y. Análogamente si II no es de rango reducido, es decir si el rango es 2, entonces habría
dos relaciones de cointegración, pero entre dos variables solo puede haber como máximo una
relación de cointegración independiente, de manera que si el rango es 2 se deduce que ambas
variables son I(O) y no tiene por tanto sentido hablar de cointegración.
7
Por ejemplo, en un VAR(2) se tendría:
Wt = h1Wt- l + h2Wt-2 + Utj

si ahora sumamos y restamos h2Wt-1 se obtiene
Wt = (h1 + h 2 )Wt-l + h2 L Wt - l + Ut;

y restando h 1 + h2 a ambos lados de la igualdad:
8
Con las variables en desviaciones con respecto a sus medias.
Tema 20 739
El caso más interesante es aquel en el que el rango es 1, lo que quiere decir que las dos
columnas de II no son linealmente independientes. En este caso es posible factorizar la matriz
TI como
(20.5.5)
donde a y {3 son ambas matrices de dimensión 2xl. Ahora el primer término a la derecha de la
igualdad . TIWt- l = a{3TWt-l y este será estacionario si f3Wt-l es I(O) , lo que significa que
el \'ector {3 contiene los coeficientes de la combinación lineal estacionaria entre las dos variables
I(l ) de W, es decir que {3 es el vector de cointegración. Por su parte los coeficientes de a
medirían la velocidad de ajuste al equilibrio en los ECM resultantes de la ecuación factorizada.
Por ejemplo, supongamos que una vez efectuada la factorización el sistema (20.5.4) queda:
6.Xt )
( 6.yt
( A1 ) ( 51 52 ) ( Xt-1 ) +( Eit ) .
A2 Yt-1 E2t
El vector de cointegración es ( 81 82 ) o, normalizado en x, ( 1 ~ ) . Entonces tenemos:
6.Xt = A1 (81Xt-l + 82Yt-i) + Eit = ..\181 ( Xt-1 + ~>t-1) + Eit
6.yt = A2 (81Xt-l + 82Yt-1) + E2t = ..\281 (Xt-1 + ~>t-1) + E2t ·

Análogamente en el caso general con k variables en 20 .5. 2, el rango de la matriz TI indica
el número de relaciones de cointegración independientes. Sea r < k el rango de dicha matriz.
Entonces dado que TI es de rango reducido, la factorizamos como TI = a{3T, siendo k x r las
dimensiones de las matrices a y {3 . Como antes, las r filas de la matriz {3T son los vectores
de cointegración del sistema.
Volvamos de nuevo a (20.5.2) y consideremos un ejemplo hipótetico. Supongamos que en
un sistema con tres variables hemos obtenido:
6.ylt ) (-1 /2 5/ 16 -1/ 16 ) Yit-1 )

p
(
6.y2t = 1/8 -41 / 64 5/ 32
(
Y2t-1 +L Tii6Wt -i + Ut.
6.y3t 1/ 4 11/32 -3/ 32 Y3t- 1 i=l
El último término de la ecuación puede ser ignorado sin pérdida de generalidad. A simple
vista no es posible ver si las columnas (filas) de la matriz TI son linealmente independientes.
Para calcular el rango podemos emplear la propiedad según la cual el rango de una matriz es
igual al número de valores propios distintos de cero. Los autovalores de TI son en este caso
(-0,79, -0,44 , O). Como solo dos de ellos son distintos de cero el rango es 2, es decir, la matriz
es de rango reducido y podemos afirmar que hay dos relaciones de cointegración entre las
variables del sistema. La matriz TI puede factorizarse como
-1 / 2
1/ 4 ) {3T= ( 1 -1 / 8 0 )
a = (
1/8 -5/ 8
0 1 -1 /4 '
1/4 3/ 8
740 COINTEGRACIÓN
de manera que las dos relaciones de cointegración serían Ylt = 0,125y2t+Vit e Y2t = 0,25y3t+V2t
donde ambos vectores han sido normalizados en y 1 e Y2· En términos de ECM , ignorando como
hemos dicho I::f= 1 Ili6 W t-i tendríamos:
6ylt = -0,5Vtt-1 + 0,25V2t-l + Uit
6y2t = 0,125Vit-l - 0,625V2t-l + U2t
6y3t = 0,25Vlt-l + 0,375V2t-l + U3t·

El sistema (20.5.2) junto con la restricción expresada en (20.5.5) queda,
p
6 W t = a{3TWt -1 + L Ili6 Wt-i + Ut, (20.5.6)

i=l
que una vez estimado proporciona, como hemos visto, tanto las relaciones de cointegración co-
mo los parámetros de ajuste. El sistema anterior con las restricciones impuestas es no lineal y
en consecuencia es necesario emplear algún procedimiento de estimación diferente del método
de mínimos cuadrados ordinarios. Lo habitual es estimar esta ecuación por máxima verosimi-
litud. Además hay un problema de identificación derivado del hecho de que la factorización
(20.5.5) no es única. El vector o vectores de cointegración no estarán identificados a menos
que impongamos alguna normalización arbitraria, similar a la que hacemos implícitamente en
cualquier modelo de regresión.
20.6. CONTRASTE DE COINTEGRACIÓN DE J OHANSEN
Como hemos señalado, el método de Johansen (1988 y 1992) está basado en la autorre-
gresión vectorial. Por tanto el primer paso es estimar un VAR entre las variables que, según
la teoría económica y / o el trabajo empírico previo , mantienen relaciones a largo plazo. El
sistema 20.5.2 es, como hemos visto, una reparametrización del VAR entre las variables origi-
nales, donde adicionalmente pueden incluirse variables deterministas (término independiente,
dummy, etc). Para determinar el orden del VAR original podemos emplear alguno de los cri-
terios estadísticos señalados con anterioridad, asegurándonos de que los residuos del sistema
cumplen las hipótesis necesarias. Si el orden del VAR entre las variables en niveles es p, el
VAR en primeras será de orden p-1.
Inicialmente no habrá ninguna restricción sobre el rango de la matriz II de manera que las
matrices que la factorizan serán ambas de orden k x k. Utilizaremos diversos test de hipótesis
para contrastar restricciones de nulidad sobre los elementos de las mismas.
Puede demostrarse que la maximización de la función logarítmica de verosimilitud del
modelo restringido conduce a
kN N r
-2 (log27r + 1) - 2' L log(l - Ai) ,
i=l
Tema 20 741
siendo Ai los autovalores de TI que podemos estimar como sigue.

En primer lugar estimamos por MCO las ecuaciones
p
L.Wt = ¿ r riL.Wt-i + ut
i=l
p
Wt-1 = L Ili6 Wt-i + Vt,

i=l
incluyendo si es oportuno una constante y una matriz X con variables adicionales. Dado que
en W están las k variables del sistema, ello exigirá estimar 2k ecuaciones de regresión.
Se salvan los residuos de cada una de las regresiones y se calculan las matrices de varianzas
y covarianzas,
~ 1 ~ A A T ~ 1 ~ A A T ~ 1 ~ A A T ~ ~T
"-'uu =N L UU ' "-'vv =N L VV ' "-'vu =N L VU Y "-'uv = "-'vu.
Entonces la matriz que nos interesa viene dada por:
(20.6.1)
Conocida II hallamos sus valores propios Ai ordenándolos de mayor a menor. Un test de ratio
de verosimilitud apropiado para contrastar el número de valores propios distintos de cero, es:
k
Atraza = -N L log(l - Ai), (20.6.2)
i=r+l
conocido en la literatura como estadístico de la traza. En este contraste la hipótesis nula es
que el número de valores propios distintos de cero es menor o igual que r 0 contra la alternativa
de que hay al menos r 0 + 1 de ellos distintos de cero, es decir:
Ho : r ::; ro, HA : r 2: ro+ l.

Si no existe ninguna relación de cointegración entre las variables, entonces el rango de TI
será nulo, o lo que es lo mismo, todos los valores propios serán nulos. Por lo tanto todos los
términos log(l - >.i) serán nulos y 20.6.2 también se anulará. Por el contrario, si un autovalor
>.1 es distinto de cero, entonces el término log(l - >.1) será también distinto de cero y 20.6.2
ya no será nulo.
En la práctica lo que tenemos son estimaciones de II y de sus autovalores. Una vez orde-
nadas las estimaciones de los valores propios, el test se lleva a cabo de forma secuencial:
l. Se comienza por contrastar la hipótesis Ho : r = O contra la alternativa HA : r 2: l. Si
esta hipótesis no puede ser rechazada, se detiene el proceso y se concluye que no hay
relaciones de cointegración.
2. Si se rechaza la hipótesis nula anterior, continuamos con el contraste de Ho : r = 1 contra

HA : r 2: 2 . Si esta hipótesis no se puede rechazar se detiene el proceso, concluyendo
que hay una relación de cointegración. Si no es así, continuamos con el mismo.
742 COINTEGRACIÓN
3. La última posibilidad, consiste en contrastar Ho : r = k - 1 contra HA : r = k. Si no

es posible rechazar Ho concluimos que hay k-1 relaciones de cointegración entre las k
variables, deteniéndonos en este punto.
4. Si se rechazase la última hipótesis nula, habría que concluir que hay k relaciones de
cointegración entre las k variables, lo que implicaría que todas ellas son estacionarias,
por lo que carecería de sentido el análisis de cointegración.
Cuando la hipótesis nula es que hay ro vectores de cointegración contra la alternativa de que
hay ro+ 1, entonces solo hay un término en el sumatorio de 20.6.2, siendo el estadístico:
Amáx = -Nlog(l - Ar0 +1) . (20 .6.3)
Esta versión del test recibe el nombre de estadístico máximo. La única diferencia entre ambos
estadísticos es que ahora cambia la hipótesis alternativa que, en el caso del estadístico máximo,
resulta restringida a que el rango sea una unidad mayor que la postulada por la hipótesis
nula. Con ello se consigue mejorar la potencia del contraste. En todo caso, el procedimiento
secuencial de contrastación es similar:
l. El primer paso será contrastar Ho : r = O contra HA : r = 1, empleando Amáx =

-Nlog(l - A.1). Si esta hipótesis no se rechaza, se detiene el proceso no habiendo en-
contrado evidencia de cointegración.
2. A continuación contrastamos Ho : r :S 1 contra HA : r = 2, siendo ahora el estadístico

Amáx = -Nlog(l -A.2) . Si no se rechaza, hemos hallado un vector de cointegración. En
caso contrario continuamos con el procedimiento, de forma análoga.
3. La última posibilidad Ho : r :S k - 1 contra HA : r = k , se contrastaría con Amáx =

-Nlog(l - A.k)·
Como en el caso del contraste ADF, la distribución de estos estadísticos no es estándar y sus
valores han sido obtenidos por simulación9 .
Como ilustración, tomemos las series españolas de importaciones y producto interior bruto
correspondientes al periodo 1983ql - 1998q4, para las que se ha estimado un VAR(2) y a
continuación obtengamos:
fI = ( -1 ,3573 -0,4837 )
4,6731 1,6642 .
Los valores propios de esta matriz son aproximadamente A.1 = 0,3024, A.2 = 0,0045. Por
tanto el contraste de la hipótesis nula de que no existe ningún vector de cointegración ( r =
O) , contra la alternativa de que existen 2, empleando el estadístico de la traza, será:
-64 [lag (1 - 0,3024) + log(l - 0,0045)] = 24,07.

9
Ver por ejemplo MacKinnon, Haug y Michelis (1999).
Tema 20 743
Tabla 20.2: Contraste de cointegración: estadístico máximo

H. nula H. alternativa Est. máximo Valor crítico (5 %) valor p
Ho : r = O H1 : r = 1 23,05 14,26 0,002
Ho : r ~ 1 H1 : r = 2 0,29 3,84 0,59
Como el valor crítico 10 al 5 % es aproximadamente 15.49, rechazamos la hipótesis nula

y aceptamos que hay al menos un vector de cointegración. A continuación contrastaríamos
Ho : r = 1 contra la alternativa HA : r = 2,
-64 [log(l - 0,0045)] = 0,29.
Ahora el valor del estadístico de contraste es menor que el crítico al 5 % (3,84 en este caso),
de manera que detendríamos aquí el procedimiento, concluyendo que existe una relación de
cointegración (tampoco tendría sentido ya seguir dado que solo hay dos variables).
En cuanto al estadístico máximo, mostramos sus resultados en la Tabla 20.2. Como pue-
de verse, en este caso ambos estadísticos llevan a la misma conclusión: hay un vector de
cointegración.
Conviene señalar que, igual que sucedía con el test ADF, los valores críticos de estos
contrastes son muy sensibles al tipo de ecuación empleada. En particular dependen de forma
crucial de si se incluyen o no términos deterministas. Ello da lugar a un elevado número de
tablas, lo que puede resultar confuso. Sin embargo, la situación suele ser más sencilla dado
que dos posibilidades son con mucho las más frecuentes en la práctica.
20.7. CONTRASTES DE HIPÓTESIS
Uno de los atractivos de la metodología desarrollada por Johansen es que permite contratar
fácilmente hipótesis sobre los parámetros de los vectores de cointegración o los parámetros de
ajuste, por ejemplo, si alguno de ellos es nulo o toma un valor determinado.
Supongamos que tenemos k variables, r vectores de cointegración y q restricciones lineales
representadas por una matriz H. El procedimiento de contraste supone estimar por máxima
verosimilitud el modelo restringido y calcular a continuación un test de ratio de verosimilitud.
El modelo con las retricciones en H queda
p
6 Wt = a,8THWt-1 + L Ili6 Wt-i + Ut.

i=l
siendo el procedimiento de cálculo bastante similar al descrito en la sección 6. Simplemente

hemos de reemplazar 'Evv y 'Euv por:
10
En este caso, los valores críticos corresponden a una ecuación con constante pero sin tendencia ni variables
exógenas adicionales.
744 COINTEGRACIÓN
Tabla 20.3: Valores propios de los modelos irrestricto y restringido

~i 5-i
i = 1 0,4332 0,433
i=2 0,1776 0,172
i = 3 0,1128 0,044
i = 4 0,0434 0,006
- • T
:Euv = :EuvH ·
A continuación obtenemos la matriz:
(20.7.1)
Sea 5-i el i-ésimo autovalor de la matriz anterior, una vez ordenados de mayor a menor.
Un test de ratio de verosimilitud del modelo restringido viene dado entonces por,
r r
-T L log(l - ~i) + T L(l - 5-i) ;:_,X~· (20.7.2)
i= l i=l
Por ejemplo, Johansen y Juselius (1990), en un modelo para la demanda de dinero en

Dinamarca, encuentran una única relación de cointegración entre las variables
rht = 6,06 + l, 03yt - 5,21i~ + 4,214,

donde m es la oferta monetaria (M2), y la renta real e ib, id son los tipos de interés a corto y
largo plazo 11 . A continuación se plantean contrastar la hipótesis de que la demanda de dinero
y la renta son proporcionales, es decir, que el coeficiente de estas variables es la unidad.
Tenemos pues cuatro variables implicadas, un vector de cointegración y una restricción. Los
autovalores de los modelos irrestricto y restingido se muestran en la Tabla 20.3.
Puesto que solo hay una relación de cointegración ( r = 1), el estadístico 20. 7. 2 es:
1
TL [zn(l - 5-i) - ln(l - ~i) J = 53 [ln(l - 0,433) - ln(l - 0,4332)] = 0,02.
i=l
Como este resultado es menor que el valor crítico al 5 3 en una distribución XI (aproxi-
madamente 3,84), no se puede rechazar la hipótesis de elasticidad unitaria entre demanda de
dinero y renta.
De forma similar se pueden llevar a cabo contrastes sobre los parámetros de ajuste. Por
ejemplo, en el mismo modelo anterior es posible contrastar que solo la demanda de dinero
responde a las desviaciones respecto del equilibrio a largo. Ello equivale a imponer la restric-
ción de que el resto de los coeficientes a son todos nulos. Estimados los valores propios del
modelo restringido, se comparan con los del irrestricto siguiendo el mismo procedimiento que
11
Los autores no encontraron significativa la inflación en este caso.
Tema 20 745
acabamos de describir. Si la restricción de nulidad referida a un ai concreto no puede ser

rechazada, concluiríamos que la variable correspondiente es débilmente exógena.
Un contraste que también tiene interés se refiere a si debemos o no incluir una constante en
la relación de cointegración. Para llevarlo a cabo, estimamos el modelo restringido y calculamos
y ordenamos sus valores propios. Si el modelo irrestricto tiene r relaciónes de cointegración,
el estadístico
k
T L [tn(l - 5.i) - ln(l - ~i) J
i=r+l
se distribuye asintóticamente como una xLr·

Si la restricción (incluir una constante en los
vectores de cointegración) es válida, los valores propios de ambos modelos deberían ser simi-
lares y el resultado del estadístico inferior al crítico en tablas.
Johansen y Juselius (1990) muestran también cómo contrastar hipótesis utilizando un test
de Wald.
20.8. UN EJEMPLO: LA TEORÍA DE LA PARIDAD DEL PODER

ADQUISITIVO
En esta última sección trataremos de ilustrar la metodología de Johansen con una aplica-
ción práctica. La teoría de la paridad del poder de compra se basa en la idea de que los precios
de los mismos bienes en dos países diferentes deberían ser los mismos una vez expresados en
la misma moneda. Los potenciales beneficios del arbitraje deberían ser corregidos por movi-
mientos en el tipo de cambio nominal. En la práctica, el ajuste exigirá tiempo, de manera
que puede que la ley se cumpla en el largo plazo , pero que a corto se den situaciones de des-
equilibrio. Emplearemos datos mensuales correspondientes a Italia y EE.UU. ,para contrastar
esta hipótesis. Llamemos Pt y Pt a los precios en Italia y EE.UU. y Rt al tipo de cambio
nominal (liras italianas por dólares). La versión estricta de la PPA exigiría que Rt = Pt/ Pt ,
de manera que empleando logaritmos (que representamos con letras minúsculas) , se tendría
Pt - Pt - rt = E:t. En la Figura 20.8.1 se representan las series temporales correspondientes al
periodo 1981-1996.
Junto con el tipo de cambio (escala de la izquierda), las series de precios muestran que estos
crecieron significativamente más en Italia durante el periodo de referencia. La matrices (10)
necesarias para la estimación de II, obtenidas a partir de un VAR con término independiente
y cuatro retardos de cada una de las variables son:
A 1 ( 0,003644 0,007830 0,002098 )

L:uu = N 0,007830 0,003447 -0,000909
0,002098 -0,000909 0,114545
A 1 ( 5,271681 2,547145 1,268221 )

L:vv = N 2,547145 1,368389 0,339492
1,268221 0,339492 3,405414
746 COINTEGRACIÓN
Figura 20.8.1: Precios y tipo de cambio en Italia y EE.UU.

- - - - - - - - - - - - - - 4.6
4.4
4.2
76
)\.'\ 4.0
I \
74 ,/'\/ \ l\ '\. .
1 \... Af' ,.¡- "'"'.. ~ Ja
"/ \ !\;
72 ,1
/ t "'1 ..
~, ,
(\ .....''"
IV \ /\ 1 J
3.5
/._! \:" "'\ I \/\ i
70 f \,i \'
1
1982 1984 1986 1888 1990 1992 1994 1996

1-p --p• ---rl
Tabla 20.4: Resultados del estadístico de la traza

Ha HA Atraza VC (5 %) Prob
r = 0 r ~ 1 45,78 29,79 ,0003
r = 1 r ~ 2 13,11 15,49 ,1108
r= 2 r= 3 1,76 3,84 ,1838
A 1 ( -0,033874 -0,01317 -0,000849 )

L:uv = N 0,003289 0,000525 -0,016432 .
-0,009166 0,017403 -0,124275
• A A T
Como es obv10 , L:vu = L:uv·
La estimación de II es
0,280854 0,101276 -0,063559 )

II = -0,40244 -0,137555 0,064939 '
(
-0,082537 -0,036949 0,085271
cuyos autovalores son
~l = 0,1603 , ~2 = 0,0588 y ~3 = 0,0094.

A partir de los mismos se pueden calcular los valores de los contrastes de la traza y máximo.
Las Tablas 20.4 y 20.5 recogen los resultados .
Empezando por el estadístico de la traza, la hipótesis de que no hay ninguna relación de
cointegración arroja un valor para el estadístico de contraste muy superior al crítico en las
tablas, de manera que rechazamos esta hipótesis: hay al menos un vector de cointegración.
En el siguiente paso contrastamos que hay un vector de cointegración contra la alternativa
de que existen al menos dos. Esta hipótesis nula no puede ser rechazada, ni siquiera al 10 %.
Detendríamos aquí el proceso, concluyendo que hay una única relación de cointegración entre
Tema 20 747
Tabla 20.5: Resultados del estadístico máximo

Ho HA Amáx VC (5 %) Prob
r = 0 r = l 32,67 21, 132 ,0008
r =l r = 2 11,35 14,265 ,1377
r= 2 r= 3 1,76 3,84 ,1838
las variables. Los resultados del estadístico máximo (ver la tabla correspondiente en el apéndice
G) se interpretan de la misma forma y conducen a la misma conclusión.
El autovector a1 de la matriz fr asociado al aut ovalor .\ 1 = 0,1603, es
af = ( -0,57038 o,81948 0,2293 ) .

Normalizado en el primer elemento (Pt) , el vector de cointegración hallado sería:
'T
/31 = ( 1 -1,4367 -0,402 ) '
es decir que Pt = 1,4367p; + 0,402rt. En este caso dicho vector es único , de manera que la
matriz f3T solo tendrá una fila.
Conocida la matriz f3 es posible calcular también a de donde obtendríamos los parámetros
de ajuste.
Tal como la hemos planteado, la teoría implica que los parámetros han de ser unitarios,
es decir,
Pt = P; + rt + ft,
de manera que tiene interés contrastar si esta hipótesis se cumple. Para ello empleamos 20.7.2.
Para esta restricción HT = ( 1 -1 -1 ) y el autovalor de 20. 7.1 es .\1 = O, 1297. Por tanto
20.7.2 queda:
T [zn(l - .\ 1 ) - ln(l - ~ 1 )] = 187 [ln(l - 0,1297) - ln(l - 0,1603)] = 6,69.
La distribución del estadístico de contraste es en este caso una X~· Para un nivel de
significatividad del 5 %, el valor crítico es 5,99; por tanto se rechaza la hipótesis de que la ley
se cumpla en su forma estricta.
Para evitar el tedio de todos estos cálculos, lo aconsejable es utilizar algún programa
econométrico . Por ejemplo, empleando EViews (versión 7), podemos obtener fácilmente tanto
los valores de los contrastes de la traza y máximo como los de la contrastación de hipótesis
sobre a y / o {3. Para la hipótesis de parámetros unitarios, tenemos el resultado recogido en la
Tabla 20.6.
EJERCICIOS
Teóricos
l. Pruebe que, en el caso de dos variables, si existe un vector de cointegración este es único.
748 COINTEGRACIÓN
Tabla 20.6: Contraste de hipótesis (formato Eviews)

Vector Error Correction Estimates
Sample (adjusted): 1981M06 1996Ml2
lncluded observations: 187 after adjustments
Restricciones de cointegración:
B(l,l) = l, B(l,2) = -1, B(l,3) = -1
Contraste LR para restricciones (rango = 1):
Chi-square(2) : 6,685488
valor de probabilidad (p-valor): 0,035340
Ecuaciones de cointegración: Cointl
p(-1) 1
p*(-1) -1
r(-1) -1
e 7,4357
Corrección de error: Ap ~p * ~r
-0,0064 0,0062 0,03158
(0,00256) (0,0025) (0,0 144)
2. Aparte de los contrastes estadísticos, para determinar si dos variables están cointegradas,
pueden utilizarse otras vías. En concreto, podemos emplear el conocimiento experto del
tema objeto de investigación y la representación gráfica de las variables. Indique cómo
pueden ayudar estos procedimientos en el análisis de cointegración.
3. Dos variables Xt e Yt han sido generadas de acuerdo a
Xt = U1t + cit
Yt = u2t + E2t,
siendo Uit y u2t dos procesos de camino aleatorio y cit, E2t ambos ruido blanco. Probar
que si las series están cointegradas, las tendencias estocásticas de ambos procesos deben
ser iguales.
4. Suponga que la estimación de la matriz 7r obtenida a partir de un VAR con dos variables,
es:
A - 0,16 -0,12 ) ( Xt-1 )
- (
7rWt-l - 0 , 24 0 , 18 Yt-1
.
a) ¿Qué condiciones deben de cumplir los valores propios de la matriz anterior para
que x e y estén cointegradas?
b) Halle los valores propios y muestre que en este caso las variables estarían efectiva-
mente cointegradas.
e) Sea el vector de cointegración normalizado en x, {3T = ( 1 O, 75 ) . Encuentre la
matriz o: con los parámetros de ajuste.
Tema 20 749
Tabla 20. 7: Resultados de varios contrastes

Ho 1 Atraza 1 Amáx 1 5 %(traza) 1 5 %(máx.) 1
r = O 45,01 77,20 54,64 30,33

r '.5, 1 25,70 32,19 34,55 23,78
r '.5, 2 6,17 6,49 18,17 16,87
r '.5, 3 0,32 3,74
d) Construya a partir de la factorización anterior, los dos modelos de corrección de

error implícitos en el VAR.
e) Normalice ahora el vector de cointegración en y. ¿Cómo cambia en este caso la
matriz a?
5. Suponga que los dos valores propios de la matriz 7r utilizada en el ejemplo de la Sección
20.6 fuesen realmente estimaciones obtenidas a partir de una muestra de 100 obser-
vaciones. Calcule los valores de los estadísticos de la traza y máximo e indique qué
conclusiones se derivan de los mismos.
Prácticos
6. Emplee la tabla ET20 1 con los datos de gasto en consumo final de los hogares y renta
disponible, para contestar a las siguientes cuestiones:
a) ¿Cuál es el orden de integración de las variables?

b) Represente gráficamente ambas series y valore la cointegración entre ambas.
e) Contraste la cointegración utilizado el test CRDW y el procedimiento de Engle
y Granger. Señale si con ambos se llega a la misma conclusión. ¿Es razonable el
vector de cointegración encontrado?
d) Emplee las series en logaritmos e indique si cambia en algo el análisis.
e) Repita el análisis de cointegración entre las variables anteriores, empleando ahora
la metodología de Johansen.
7. Hendry y Mizon (1993) estiman la demanda de dinero en el RU para el periodo 1963

- 1984, con datos trimestrales desestacionalizados y empleando para ello el agregado
monetario Ml, expresado en términos nominales, m, gasto total final en términos reales,
y, deflactor implícito del gasto, p, tipo de interés a 3 meses, r, inflación, medida como
la diferencia del logaritmo de los precios, i, y una tendencia temporal, todas menos esta
última, expresadas en logaritmos. Expresando la oferta monetaria en términos reales,
las variables implicadas fueron pues, mt - Pt ,Yt, it, rtyt. En la tabla 17.7 se muestran
los resultados de los contrastes de la traza y máximo (columnas 2 y 3):
a) ¿Cuál es el valor del estadístico máximo para la hipótesis H 0 : r '.5, 3?

750 COINTEGRACIÓN
b) Los valores críticos, teniendo en cuenta que los autores incluyen una tendencia y
término independiente, se muestran en las dos últimas columnas. ¿Cuántos vectores
de cointegración existen de acuerdo con cada una de las versiones del contraste?
e) Suponga que hubiese tres relaciones de cointegración. Indique si a partir de la
estimación de la matriz 7r es posible obtener todos los parámetros de las matrices
Q y /3.
8. Juselius (2006) presenta, para la ecuación de demanda de dinero en Dinamarca (datos
trimestrales para el periodo 1973ql-2003ql) , la siguiente estimación de 7r (en negrita
los parámetros estadísticamente dist intos de cero):
-0,26 0 ,24 -1 ,48 5 ,04 -4,99 m[_1

0,02 - 0 ,12 -0 ,33 -2 ,11 0,51 Y[-1
IlXt-1 = -0 ,02 -0,01 -0 ,77 -0,64 0,24 6Pt-1
o o 0,01 -0,11 0,04 rbt
o o 0,03 0,01 -0,09 rm
t
siendo m[ la demanda de dinero expresada en términos reales , Yt la renta real, 6pt la

tasa de inflación, y rf' rr los tipos de interés a corto y largo plazo.
a) Asumiendo que hay un único vector de cointegración dado por la primera fila de
TI y que la matriz de los parámetros de ajuste es ar = (-0,26, O, O, O, O) , escriba
la factorización resultante, la ecuación de equilibrio a largo plazo y el modelo de
corrección de error (normalice el vector de cointegración en la demanda de dinero).
b) Indique cómo contrastaría la hipótesis de que los coeficientes de los tipos de interés
son iguales pero de signo contrario.
e) En el modelo anterior, ¿cuáles son los efectos de una tenencia de efectivo por encima
del equilibrio?
d) Asumamos que hay dos relaciones de cointegración, la segunda de las cuales podría
representar, según Juselius, una relación entre la renta real y el tipo de interés
a corto (los dos únicos parámetros significativos en esa fila). Trate de dar una
justificación económica a esta segunda relación de equilibrio.
e) Normalizado en y, ¿cuál sería el segundo vector de cointegración?
1) La autora considera que la matriz a, ahora de dimensión 5 x 2, tiene todos
sus elementos nulos excepto au y a12. Escriba de nuevo el sistema teniendo
en cuenta la segunda relación de cointegración.
9. Emplee los datos de la tabla ET20 _ 2 (y un programa econométrico) para hacer este
ejercicio. Con los datos de dicha tabla:
a) Especifique y estime un VAR en diferencias entre la cantidad de dinero en términos

reales, el PIB , el tipo de interés y la inflación. Determine un orden adecuado para
el VAR utilizando el criterio de información de Akaike.
Tema 20 751
b) Utilice las dos versiones del contraste de Johansen y señale el número de vectores
de cointegración hallados en cada caso.
e) Obtenga la regresión de cointegración correspondiente a la demanda de dinero y el
término de ajuste al equilibrio.
d) Considere que existe un segundo vector de cointegración entre inflación, renta y tipo
de interés. Obtenga la estimación del sistema y valore los signos de los coeficientes
de las ecuaciones de cointegración y de los términos de ajuste.
e) Con los resultados del apartado d), indique si hay regresares débilmente exógenos.
Bibliografía
Aigner, D. (1974). <<MSE Dominance of Least Squares with Errors of Observation». Journal
of Econometrics, 2, 365-372.
Amerniya, T. (1985). Advanced Econometrics. Harvard University Press. Cambridge.
Andrews, D.W.K. (1991). «Heteroskedasticity and aut ocorrelation consistent covariance rna-
trix estirnation». Econornetrica 59, 817-858.
Angrist, J. D. y Krueger, A. B. (1991). «Does Cornpulsory School Attendance Affect Schooling

and Earnings». Quarterly Journal of Economics 106, 979-1014.
Arellano, M. (1987). «Cornputing Robust Standard Errors for Within groups Estirnators».
Oxford Bulletin of Econornics and Statistics, 49, 431-434.
Baltagi, B. H. y Levin, D. (1992). «Cigarrette taxation: raising revenues and reducing con-
surnption», Structural Changes and Economic Dynamics, 3, 321-335.
Beverton, R. J. H. y Holt, S. J. (1957). «Ün the Dynarnics of Exploited Fish Populations,

Fishery Investigations». Series II Volurne XIX, Ministry of Agriculture, Fisheries and Food.
Bollerslev, T. (1986). «Generalized Autorregresive Conditional Heterocedasticity», Journal of

Econometrics, 51, 307-327.
Box, G. E. P. y Jenkins, G. M. (1970). Time Series Analysis, Forecasting and Control. Rolden
Day. San Francisco.
Box, G. E. P. y Cox, D. R. (1964). «An Analysis of Transforrnations», Journal of the Royal

Statistical Society, 211-243.
Bound, J. , Jaeger, D. A. y Baker, R. M. (1995). Journal of the American Statistical Associa-

tion, vol. 90, No. 430, pp. 443-450.
Carnpbell, J. Y. y Mankiw, N. G. (1990) . «Perrnanent Incorne, Current Incorne, and Consurn-

ptiom>, Journal of Business and Economics Statistics, vol. 8, 265-279.
Chatfield, C. (1996). The Analysis of Time Series, 5th ed., Chaprnan & Hall, New York.
753
754 Bibliografía
Cochrane, D. , y Orcutt , G. H. (1949). «Application of least squares regression to relationships

containing auto-correlated error terms», Journal of the American Statistical Association,
44(245) , 32-61.
Davidson, R. y MacKinnon, J. G. (2004). Econometric Theory and Methods. Oxford University

Press.
Davidson, R. y MacKinnon, J. G. (1981). «Severa! Test for ~Iodel Specification in the Presence
of Alternative Hypotheses». Econometrica, 49, 781-793.
Dickey, D. A. y Fuller, W. A. (1979). «Distribution of the Estimators for Autoregressive Time

Series with a Unit Root». Journal of the American Statistical Association. 74(366), pp.
427-431.
Enders , W. (2004). Applied Econometrics Times Series (2nd Edition). Wiley.
Engle, R. F. (1982). «Autorregresive Condit ional Heterocedasticity with Estimates of the

Variance of the U.K Inflation», Econometrica, 50, 987-1008.
Engle, R. E. y Granger, C. W. (1987). <<Cointegration and Error Correction: Representation,

Estimation and Testing». Econometrica. 55, pp. 251-276.
Engle, R. F. y D. Kraft (1983). «Multiperiod forecast error variances of inflation estimated

from ARCH models», in: A. Zellner, ed., Applied time series analysis of economic data
(Bureau of the Census, Washington, DC), 293-302.
Estimating time varying risk premia in the term structure: the ARCH-M model. Econometrica
55, pp. 391-407.
Ericsson, N. R. y MacKinnon, J. G (2002). «Distributions of error correction test for cointe-

gration>>. Econometric Journal, 5, pp. 285-318 .
Fama, E. F. (1965). «Random walks in stocks market prices». Financia[ Analysis Journal.
Octubre, pp. 3-7.
Fair, R. C. (1978). «A Theory of Extramarital Affairs». Journal of Political Economy, 86, pp.
45-61.
Gardner Jr. , E.S . y McKenzie, E. (1985). «Forecasting trends in time series». Management
Science 31, 1237-1246.
Glosten, L. , Jagannathan, R. y Runkle, D. (1993). «On the Relation between the Expected
Value and the Volatility of the Nominal Excess Return on Stocks». Journal of Finance,
48(5) ,1779-1801.
Gómez , V. y Maravall, A (1996), «Programs TRAMO (Time series Regression with Arima
noise, Missing observations, and Outliers) and SEATS (Signal Extraction in Arima Time
Series). Instructions for the User>>. Working Paper 9628, Servicio de Estudios, Banco de
España.
Bibliografía 755
Granger, C. W. J. y Newbold, P. (1974). «Spurius Regressions in Econometrics». Journal of

Econometrics. Vol. 2, pp. 111-120.
Granger, C. W. (1986). «Developments in the study of cointegrated economic variables».

Oxford Bulletin of Economics and Statistics, vol. 48, pp. 213-228.
Greene, W. H. (2012). Econometric Analysis. 7th ed. Pearson Education Limited.
Gujarati, D. N. y Porter, D. C. (2010). Econometría, 5ª ed .. Mexico DF: McGraw Hill.
Hamilton, J. D. (1994). Times Series Analysis. Princeton Universisty Press, Princeton.
Hausman, J. A. (1978). «Specification Tests in Econometrics». Econometrica, 46, pp.

1251-1271.
Hayashi, F. (2000). Econometrics. Princeton University Press.
Hodrick, R. y Prescott, E. (1980). <<Post War Business Cycles: An Empirical Investigation» .

Discussion paper 451 Carnegie - Mellon University.
Hyndman, R.J. Koehler, A.B. Ord, J.K. y Snyder, R.D. (2008). Forecasting with exponential
smoothing: the state space approach. Springer-Verlag. Berlin.
Johansen, S. (1988). «Statistical Analysis of Cointegration Vectors». Journal of Economic

Dynamics and Control, vol. 12, pp.231-254.
Johansen, S. (1992). «Determination of Cointegration Rank in the Presence of Linear Trends».

Oxford Bulletin of Economics and Statistics, vol. 54, pp. 383-397.
Johansen, S. y Juselius, K. (1990). «Maximum Likelihood Estimation and Inference on Coin-

tegration». Oxford Bulletin of Economics and Statistics, vol. 52, pp. 169-210.
Johnston, J. y Dinardo, J. Métodos de Econometría. Ed. Vicens Vives. Barcelona, 2001.
Juselius, K. (2006). The Cointegrated VAR Model. Oxford University Press. Oxford.
Ladiray, D. y Quenneville, B. (2001). «Seasonal Adjustment with the X-11 Method». Lecture
notes in statistics 10.
MacKinnon, J. G., Haug, A. A. y Michelis, L. (1999) . «Numerical distribution functions of

likelihood ratio test for cointegration». Journal of Applied Econometrics, 14, pp. 563-77.
Maddala, G. S., Trost, R. P., Hongyi, L. y Joutz, F. (1997). «Estimation of Short-run and
Long-Run Elasticities of Panel Data Using Shirkdage Estimators». Journal of Business and
Economics Statistics, vol. 15, núm. 1, 90-100.
Maravall, A. (1987). «Descomposición de series temporales: especificación, estimación e infe-

rencia». Estadística española, 114, 11-69.
756 Bibliografía
Maravall A. y del Río A. (2001) «Time Aggregation and the Hodrick-Prescott Filter». Banco
de España, Documento de Trabajo # 0108.
Maravall A. y Kaiser (2002). «A Complete Model-Base Interpretation of tha Hodrick-Prescott
Filter: Spuriousness Reconsidered». Banco de España. Documento de Trabajo # 0208.
Marcet, A. y Ravn, M. (2003). «The HP-Filter in Cross-Country Comparisons». CEPR Dis-
cussion Paper, 4244.
Mizon, G. E. y Richard, J. F. (1986). «The Encompassing Principle and Its Application to
Testing Nonnested Hypotheses». Econometrica, 54, 657-678.
Patterson, K. (2000). An Introduction to Applied Econometrics. Mac Millan Press. London.
Pegels, C. C. (1969). «Exponential forecasting: sorne new variations». Management Science,
15(5), 311- 315.
Peña, D. (2005). Análisis de Series Temporales. Alianza Editorial, Madrid.
Prais, S. J. y Winsten, C. B. (1954). «Trend Estimators and Serial Correlation». Cowles
Commission Discussion Paper No. 383 (Chicago).
Ramsey, J. B. (1969). «Tests for Specificat ion Errors in Classical Linear Least-Squares Analy-
sis». Journal of the Royal Statistical Association. Series B, 71 , 350-371.
Sargan, J. D. y Bhargava, A. (1983). «Testing for Residuals from Least Squares Regression
for Being Generated by the Gaussian Random Walk», Econometrica, (51), 153- 174.
Stock, J. H. y Watson, M. W. (2007). Introduction to Econometrics, 2nd ed. Boston: Addison
Wesley.
Stock, J. H. y Watson, M. W. (2001). «Vector Autoregressions». Journal of Economic Pers-
pectives, v. 5, n° 4; pp. 101-115.
Stock, J. H. y Yogo, M. (2005). «Testing for Weak Instruments in Linear IV Regression,»
Capítulo 5 en Donald W.K. Andrews (ed.), Identification and Inference far Econometric
Models. New York: Cambridge University Press (2005).
Taylor, J W . (2003). «Exponential smoothing with a damped multiplicative trend». Interna-
tional Journal of Forecasting, 19, 715- 725.
Winters, P. (1960). «Forecasting sales by exponentially weighted moving averages». Manage-
ment Science 6, 324- 342.
Wooldridge , J. M. (2006). Introducción a la econometría. Un enfoque moderno. Madrid: Thom-
son.
Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data, MIT Press
Working, H. (1934). «A Random Difference Series for Use in the Analysis of Time Series».
Journal of the American Statistical, XXIX, 185, pp. 11-24.
Índice alfabético
Alisado, 552 cuasiexperimentos, 431

amortiguada, 560 de Granger, 711
espacio de los estados, 569, 580 diferencias en diferencias , 436
estacional, 563, 564, 567 efecto causal, 76 , 286
exponencial de Holt, 557 efecto causal promedio , 77
exponencial simple, 553 experimento aleatorio controlado, 433
filtro de Kalman, 569 modelo causal, 84
Holt-Winters, 563, 564, 567 modelo estructural, 84
taxonomía, 567 predicción, 307
análisis de especificación, 285 regresión, 76
ARCH, 675, 676 variables de control, 343
ARCH(l), 680 causalidad simultánea, 305
ARCH(q) , 680 soluciones, 306
ARCH-M, 691 variables instrumentales, 327
ARD, 519, 619, 622 ceteris paribus
(p,q), 519, 622 esperanza condicionada, 68
ARIMA, 505 inferencia causal, 68
ARIMA estacionales, 506 coeficiente beta, 53
atípicos, 103, 104, 224 cointegración, 727
autocorrelación, 462 condiciones de regularidad, 82
coeficientes, 481 condiciones VI
correlograma, 463 exogeneidad y relevancia, 317
de un G ARCH, 688 consistencia, 106, 190, 442
estimación, 463 MCO, 108, 194
FAT, FAP, 722 contraste
función , 458 ADF , 725 , 734
parcial, 476 asintótico de la t , 209
ruido blanco, 466 Box-Pierce y Ljung, 244
autocovarianza, 493 Breusch y Godfrey, 243
conjunto, 131
cambio estructural, 282 CRDW, 734
cambios de escala, 35 de autocorrelación, 242
casi multicolineal, 169 de Breusch-Godfrey, 248
causalidad, 15, 17, 453 de Breusch-Pagan, 229, 230
cuasiexperimento, 441 de causalidad, 712 , 717
757
758 Índice alfabético
de Chow, 283 económicos, 17

de cointegración, 733, 739 insuficientes o perdidos, 304
de dos parámetros, 129 mixtos, 19
de endogeneidad, 336 no experimentales, 17
de Engle, 685 Descomposición, 535
de Goldfeld-Quandt, 253 ciclo, 536
de Hausman, 337. 338, 387 clásica, 537, 541
de heterocedasticidad , 229 de la varianza, 715
de hipótesis , 116 Hodrick-Prescott, 549
de J, 342 tendencia, 535
de Johansen, 742 Tramo-Seats, 542, 547
de la F, 135, 182 X-12 , 542
R- cuadrado , 186 X12, 547
de la J , 296 desigualdades, 220
de la t, 116, 119, 123, 127, 181 distribución muestral
p-valor, 181 MCO clásico, 112
de normalidad, 698 dummies , 258
de significatividad conjunta, 136
de sobreidentificación, 341 ECM , 735
de Wald, 210 ecuación estructural, 321
de White, 230 efecto causal, 77, 435
Durbin-Watson, 242 dinámico, 629
efectos ARCH, 683 promedio, 433, 434
efectos fijos , 380 efecto ceteris paribus, 24
exacto (de la t ), 179 efecto parcial , 24 , 68
modelos no anidados, 294 efectos aleatorios, 381 , 384
ratio de verosimilitud, 401 efectos fijos
RESET, 292 individuales, 366
tipo Wald, 211 temporales, 373
convergencia en distribución, 194 efectos umbrales, 278
correlograma. 463 EGARCH , 692
Cramér-Wold, 195 Exponencial, 693
criterio de información ELIO , 169
AIC , 690 BLUE, 169
de Akaike, 159, 517, 690, 707 ergodicidad, 520
SBC, 690 error
cuasiexperimentos, 438 autocorrelacionado, 235, 236
cuasimulticolinealidad, 168 condicionados, 100
cuadrático medio, 82, 461
datos cuadrático medio de predicción, 82
con errores, 298 de desequilibrio, 726
de panel, 20, 291 de equilibrio, 726, 735
de sección cruzada, 19 de medida. 14, 18, 298, 299, 327, 328
de series temporales, 19 de predicción, 75, 144, 147, 205 , 236 , 509
Índice alfabético 759
de predicción VAR, 711 t ipo t , 118

de pronóstico , 716, 717 errores
de proyección, 83 , 85 incorrelacionados, 109
propiedades, 83 normales, 106, 112
de regresión, 81 tipo ARCH , 680
de sobrespecificación, 287 tipo GARCH , 683, 684
de subespecificación, 288 Espacio de los estados , 580
estacionario, 733 espectro, 593, 596
estandarizado , 204 autorregresivo , 598
fuente de correlación, 250 media móvil, 597
heterocedástico, 81, 111 , 226 poblacional, 594
homocedástico, 81, 166 ruido blanco, 597
homocedásticos, 107, 225 esperanza
iid, 238 AR(l) , 474
incorrelación, 164 de los residuos, 174
independencia condicionada, 436 función esperanza del error, 73
independiente( s), 102 MA(l) , 491
medio absoluto , EMA, 148 marginal , 458
muestral, 89, 178, 179, 200 no condicionada, 163, 171 , 175
normalidad, 176 esperanza condicionada, 68, 165
ortogonal, 163 ceteris paribus, 75
PEMA, 148 del error, 73
por mala especificación, 292 función de, 68
robusto a la heterocedasticidad, 201 lineal, 79
término, 25 , 26 modelo de proyección , 189
Tipo I, 181, 210 no lineal, 202
error estándar, 106, 109, 117 nula, 100, 105
agrupados (errores) , 372 propiedades, 69
asintótico , 201 estacional, 468
asintótico robusto , 203 estacionalidad, 270
con MCP, 229 estacionario , 458 , 460
de un coeficiente, 176 Box-Cox, 468
estimador VI, 320 sentido débil, 458
HAC, 240 sentido estricto , 458
inconsistente( s), 306 estadístico tipo t , 116
MC2E, 326 estimación
notación, 364 efectos fijos , 368
predictor, 144 método de los momentos, 85
robusto, 202, 234 MC2E, 319, 325, 333, 350
robusto a la heterocedasticidad, 108, 125 MCO , 30, 45
robusto HAC , 370 regresión múltiple, 58
robustos, 229 regresión simple, 55
tipificado, 119 variables instrumentales, 306
estimador Frisch-Waugh-Lovell, 91
bietápicos, 318 función de autocorrelación parcial, 477
consistente, 106, 190, 206 función de autocorrelación parcial (FAP), 476
de la diferencia, 366 función de autocorrelación total, 477
de las diferencias, 436 función de respuesta al impulso, 712
de mínimos cuadrados ponderados , 226
de MCP, 226 GARCH, 682
de Wald, 442 (1,1), 688
DID , 440, 447 contrastes o pruebas , 690
diferencias en diferencias, 439 , 440 propiedades, 687
dos etapas (ver MC2E) , 318 Gauss-Markov, 109, 156
efectos aleatorios, 383 teorema, 169
efectos fijos, 368
heterocedástico, 81
función de autocovarianza, 463
heterocedasticidad, 125
GMM, 323, 349
Hodrick-Prescott, 551
HAC , 236 , 240
homocedástico, 81
máximo verosímil, 400, 427
método generalizado de los momentos, 323 inconfundibilidad 437
MC2E, 326, 341 inconsistencia, 306'
MCO , 162 error estándar, 306
restringido, 184 por endogeneidad, 327
robusto (ver HAC) , 240 independencia, 78
ro busto de la varianza, 204 condicionada, 78
robustos, 229 insesgadez, 103
superconsistente, 733 MCO, 166
variables instrumentales, 318 instrumento
VI, 318 válido, 317
evaluación de programas, 257, 432 instrumentos
exogeneidad, 100, 162 débiles, 340
contraste, 336 relevancia y exogeneidad, 340
covarianza, 164 integrado de orden d, 505
del instrumento, 318, 326 intervalo de confianza, 127
estricta, 101 , 624
experimento controlado aleatoriamente, 76 Ley
experimento natural, 438 de las esperanzas iteradas, 71, 80, 164, 678
de las esperanzas totales, 69, 164
FAP, 477 de los grandes números, 191, 192
FAT, 477 log-log , 37
Filtro de Kalman , 581, 584, 589, 590 log-nivel, 37
forma logaritmos y porcentajes, 38
funcional , 37, 43 Logit multinomial, 415
forma funcional, 48
cuadráticas, 48 máxima verosimilitud, 698
forma reducida, 322 método delta, 206, 207, 221
Índice alfabético 761
mínimos cuadrados generalizados (MCG), 244 lineal logarítmico , 40

mínimos cuadrados ponderados (MCP), 226 log-lineal, 38
mínimos cuadrados restringidos, 184 log-log, 37
MC2E, 322 logit, 398
MCG factibles, 245 YICRL, 176
MCRL, 180 no anidado(s), 294
modelo otros modelos arch, 691
anidado( s), 286 poblacional (FRP), 24
ARCH, 677 probit, 403
ARD , 619 proyección lineal, 82
asimétrico, 697 regresión varios predictiores , 519
autorregresivo de retardos distribuidos, 622 respuesta discreta, 413
clásico de regresión lineal, 161 , 162 simple de VI , 352
con regresar endógeno, 321 t ipo AR(p) , 479
correctamente especificado, 286 Tobit, 421
datos censurados, 420 multicolinealidad, 11 O
datos truncados, 424 multiplicador dinámico, 621
de corrección de error, 735 nivel-log, 37
de duración, 423 normalidad (contraste), 112
de efectos aleatorios, 382 normalidad asintótica, 194
de efectos fijos, 366
de elasticidad constante, 37 operador retardos, 474, 480
de esperanza condicionada, 81 orden en probabilidad, 196
de esperanza condicionada lineal, 165
de proyección lineal, 83, 189, 194, 202 paseo aleatorio, 649
periodograma, 600- 602
de proyección lineal (MPL), 190
espectro, 604
de recuento, 417
estimador consistente, 607
de regresión con autocorrelación, 235
predictor lineal, 82
de regresión cuadrático, 48
predictor puntual, 509
de regresión efectos fijos , 370
probit, 403
de regresión lineal, 224
Probit ordenado, 413
de regresión múltiple, 43
proceso
de regresión simple, 27
ARMA(l ,1) , 498
de regresión VI, 321
autorregresivo , 473
de retardos distribuidos, 620, 622 , 625
de media móvil, 489
dinámico completo, 631
ergódico, 461, 520
efectos aleatorios, 382
estacionario, 458, 520
estacionario( s) , 455 estocástico, 456
GARCH, 682 integrado, 467
heterocedástico condicionado, 677
homocedástico , 81 R-cuadrado corregido, 48
homocedástico lineal, 85 raíces unitarias, 664
lineal de probabilidad , 396, 398 regresión espuria, 659
regresión residual, 89, 91 U de Theil, 148

regresión variables estandarizadas, 52
relevancia del instrumento , 326 VAR
residuos y errores, 174 estacionario, 713
ruido blanco , 459 variables
de control, 289 , 343
selección aleatoria, 435 dicotómica, 257
sesgo estandarizadas, 52
de causalidad simultánea, 306, 378 instrumentales (VI), 316
de predicción, 152 proxy, 302
de selección, 304, 434 Variables instrumentales
de variable omitida, 288 ver VI , 315
negativo, 174 varianza
por errores de medida, 328 condicionada, 80
supuesto condicionada GARCH, 688
adaptado a series temporales, 101 del error de pronóstico, 716
de exogeneidad, 100 estimador MCO, 167
de homocedasticidad, 107 heterocedástica, 107
de independencia condicionada, 78, 343 marginal, 458
de muestra aleatoria, 101
de no autocorrelación, 109 Yule-Walker, 479
de normalidad, 178
independencia condicionada del error, 437
sobre momentos de cuarto orden , 103
supuestos
básicos, 99
clásicos, 98
de regularidad, 82
del modelo de regresión con varios predictores, 520
del modelo de regresión con VI , 327
del modelo de regresión lineal, 224
del modelo de retardos distribuidos, 626
término de interacción, 50
TARCH, 692
Threshold , 692
TCL, 219
tendencia, 644
cuadrática, 645
estocástica, 64 7
exponencial, 645
lineal, 645
teoría asintótica, 189
Teorema central del límite, 104, 198
SEGUNDA EDICIÓN
ECONOMETRÍA
Y PREDICCIÓN
Mariano Matilla García
Pedro Pérez Pascual
Basilio Sa nz Carnero
El principal objetivo de los autores de esta obra ha sido tratar de incorporar en un texto
enfocado a la docencia universitaria los principales avances experimentados por la econometría
en las últimas décadas. Tanto estos como el model o clásico de regresión, que sigue siendo el
núcleo básico de la disciplina, se recogen en est e texto con una orientación útil para estudiar
las relaciones de causa-efecto específicas de las ciencias sociales y apta para el tipo de datos
existentes en el entorno económico-empresa rial actual. La exposición teórica se motiva
continuamente con ejemplos propios de la econom ía real española. El nivel de tratamiento de
los temas es prioritariamente introductorio, si b ien los aspectos relacionados con el modelo
de regresión se abordan además en paralelo co n un nivel intermedio-avanzado .
La econometría se presenta desde la perspectiva d e l usuario final. El manual está orientado a
la formación de aquellos profesionales que necesiten analizar datos de naturaleza económico-
empresarial y social, de tal manera que pued an localizar fácilmente aquellas técnicas que
aporten valor añadido a la toma de decisiones fre nte a los datos disponibles. En muchos ámbitos
es fundamental prever escenarios futuros. Por este motivo, se ofrecen también técnicas de
predicción que nos permitan, entre otras cosas, real izar previsiones y analizar la fiabilidad de las
mismas. Finalmente, el libro puede asimismo ser de utilidad para todos aquellos que necesiten
emplear la econometría con objeto de contrasta r hipótesis en el área de las ciencias sociales.
ISBN 978-8448612009
~]]IJ~~ lllJIW~~
11 Editorial
9 www.mheducation.es

Mantilla Mariano - Econometría y Predicción

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mantilla Mariano - Econometría y Predicción

Cargado por

Copyright:

Formatos disponibles

SEGUNDA EDICIÓN 1

No está permitida la reproducción total o parcial de este libro, ni su tratamiento informáti-

I FUNDAMENTOS DEL ANÁLISIS DE REGRESIÓN 7

l. ECONOMETRÍA: MODELOS Y DATOS 11

2. ANÁLISIS DE REGRESIÓN LINEAL. ESTIMACIÓN 23

3. ASPECTOS AVANZADOS DEL ANÁLISIS DE REGRESIÓN 67

4. ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA 97

4.5.2. Introducción a la predicción con series temporales . . . . . . . . . . 147

5. ASPECTOS AVANZADOS: INFERENCIA EN EL MODELO DE REGRESIÓN LINEAL161

5.5.4. Convergencia casi segura y leyes fuertes 216

6. REGRESIÓN CON HETEROCEDASTI CIDAD Y AUTOCORRELACIÓN 223

7. VARIABLES EXPLICATIVAS DICOTÓMICAS 257

8. ÁNÁLISIS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS DATOS 285

8.2 . MALA ESPECIFICACIÓN FUNCIONAL . . . . . . . . . . . . . 292

II AMPLIACIÓN DEL ANÁLISIS DE REGRESIÓN 311

9. REGRESIÓN CON VARIABLES INSTRUMENTALES 315

10.REGRESIÓN CON DATOS DE PANEL Y FUSI ONADOS 357

10.2.4. Inferencia en el modelo de efectos fijos . . . . . . . . . 370

11.MODELO S C O N VA R IAB LE DEPENDIENTE LIMITADA 395

12.C UASIEX P ERI MENTO S Y R EGRESIÓ N 431

III SERIES TEMPORALE S: PRE D ICCIÓ N Y REG RESIÓN 451

13.MODELO S ESTAC ION ARIO S DE SERIES TEMPORALES 455

13.1.1. Procesos estocásticos estacionarios . . . . . . . . . . . . . 458

14. COMPONENTES TEMPORALES Y ALISADO EXPONENCIAL 535

14.2.2.3. Alisado con tendencia lineal amortiguada . . . . 559

15.ANÁLISIS ESPECTRAL 591

16.EFECTOS CAUSALES DINÁMICOS 615

16.2.1. Efectos dinámicos en el modelo de retardos distribuidos (RD) . . . . . 617

17. TENDENCIAS, RAÍCES UNITARIAS Y REGRESIONES ESPURIAS 641

18.MODELOS TIPO ARCH 673

19.lNTRODUCCIÓN A LOS MODELOS VAR 703

19 .5 . CAUSALIDAD DE GRANGER, FUNCIONES DE RESPUESTA AL IMPULSO Y DES-

1.4.1. Precios del Petróleo Brent. 1990 - 2010 . . . . 19

2.2.1. Mínimos cuadrados ordinarios 29

3.1.1. Densidad del Log Salarios . 70

4.0.1. Función regresión muestral y función regresión poblacional 98

7.2.1. Regresión simple con variable dicotómica . . . . . . . 262

7.4.4. Pernoctaciones y empleo en hoteles (logaritmos). Nov-1999 - Nov-2011 275

9.3.1. Demanda . . . . . 329

10.1.1.Función de consumo de famili a típica en 2007 y 2010 363

11.2.1. Diagrama de dispersión de compra de vivienda y renta 396

13.1.1.10.000 observaciones del proceso estocástico de un dado con dependencia 457

13.5.4. Tipos de interés interbancario a un año , primeras diferencias . . . . . . . . . 496

14.1.1.Producción de cemento. Media móvil centrada de 3 y 9 años 538

15.3.1. Espectro de un proceso ruido blanco 595

15.7.1. Balanza de Pagos por Servicios. Logaritmos de la serie original expresada

17 .1.1. Tendencias determinista y estocástica 64 7

18.1.1. Procesos AR-ARCH . 679

19.5.1. Funciones de respuesta al impulso 712

20.1.1. Series cointegradas (izquierda) y no cointegradas (derecha) 725

20.8.1. Precios y tipo de cambio en Italia y EE.UU . . 746

1.1. PIB per cápita anual por CC.AA. Euros corrientes 21

2.1. Denominación de variables . . . . . . . . . . . . . 25

3.1. Salario medio para seis subpoblaciones. 71

4.1. Matriz de covarianzas . . . . 131

7.1. Relación entre el salario y el nivel de estudios en el sector turístico 260

8.1. Especificaciones alternativas de la demanda de café 309

10.1. Efectos individuales y temporales . . . . . . . . . 376

11.1. Probabilidad estimada de licenciados y niveles de renta 403

12.1. Tratamiento y control 450

13.1. Ruido blanco . 465

14.1. Producción de cemento. Media móvil centrada . 538

14.2. Personas ocupadas en España. Media móvil de la media móvil 539

15.1. Estimación de a2 y 82 obtenida por regresión . . . . . . . . . . 601