Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ramón Mahía
Dpto. de Economía Aplicada
Universidad Autónoma de Madrid
ramon.mahia@uam.es
Marzo 2010
CovU iU j ij 0 i j
En un plano intuitivo, la autocorrelación conecta con la idea de que los errores contienen
cierta persistencia y, por tanto, no se deben a factores puramente aleatorios, desconectados
los unos de los otros. Así pues, cuando existe autocorrelación, el error cometido en un
momento del tiempo está “influido” por el error de períodos previos.
1
El problema de la autocorrelación se denomina también frecuentemente de “correlación serial”.
2
Salvando el caso de la denominada autocorrelación espacial, es decir, una correlación existente las
perturbaciones de elementos próximos en el espacio, más que en el tiempo.
Cuando existe autocorrelación, y en un plano puramente analítico, la matriz de varianzas-
covarianzas de las perturbaciones de un modelo contiene ahora elementos no nulos fuera de
la diagonal principal:
- Sin embargo, y como primer efecto (defecto) las varianzas de los parámetros
estimados por Mínimos Cuadrados Ordinarios no pueden estimarse con la expresión
utilizada en presencia de autocorrelación. Dicho de otro modo, la expresión3 de la
varianza de los estimadores MCO es un estimador sesgado de la verdadera varianza
V (ˆ ) 2 X ' X
3 1
Recuerde que en su forma matricial esta expresión es o para un único
parámetro V ˆ j u2
V x j 1 R 2j
de los parámetros. La naturaleza (tamaño y signo) del sesgo en la estimación de la
varianza depende de la forma específica de autocorrelación en la perturbación pero,
generalmente4, el sesgo en el cálculo incorrectamente realizado tiende a ser negativo
en muchas aplicaciones, es decir, subestima el verdadero tamaño de la varianza de los
parámetros.
- En todo caso, sea el sesgo positivo o negativo, partiendo de una expresión incorrecta
de la varianza de los parámetros, se cometerá, como en el caso de la
heterocedasticidad, un error en el contraste “t” de significatividad individual, que
puede llevarnos a errores en el rechazo o aceptación de las variables como
significativas. Si el sesgo más frecuente es por subestimación, será también frecuente
que la autocorrelación nos lleve al falso rechazo de la hipótesis nula en el contraste
“t”, es decir, a la falsa aceptación de variables como relevantes que en realidad, no lo
son. Los cálculos del estadísticos muestral “t” ya no podrán comprarse con los valores
de referencia correctos de las distribuciones “t” y, en realidad, lo mismo ocurrirá con
el resto de cálculos “derivados” de la estimación de la varianza de la perturbación
aleatoria: el contraste “F” ya no se distribuirá como una “F” o los contrastes LM ya no
seguirán una Chi-Cuadrado.
Intuitivamente, la razón de que exista un estimador sin sesgo más preciso reside en
que, si conocemos los patrones de evolución de los residuos, podemos utilizar estos
patrones para dar más o menos importancia a las observaciones asociadas a residuos
más separados de la línea de regresión (de media residual nula) en lugar de ponderar
todas las observaciones por igual (como hace MCO).
- Por otro lado, y con relación a los modelos que contienen variables dependientes
retardadas, debe recordarse que la presencia de autocorrelación en estos modelos
puede impactar además en la inconsistencia de los parámetros (este aspecto fue
debidamente comentado y desarrollado en el texto referido al problema de los
regresores estocásticos).
4
El tamaño y signo del sesgo en la estimación de la varianza depende básicamente de dos factores: del
tamaño y el signo de la autocorrelación en las perturbaciones y del tamaño y el signo de la
autocorrelación en los propios regresores. La autocorrelación de carácter más general es que responde
a un modelo autorregresivo AR(1) positivo en la perturbación; por otro lado, la autocorrelación de las
propias variables exógenas suele ser también, cuando existe, de naturaleza positiva. En estas
condiciones, relativamente frecuentes, puede comprobarse que el sesgo suele infravalorar el verdadero
valor de la varianza de los parámetros estimados.
Al igual que en el resto de hipótesis, debe decirse que la presencia de autocorrelación es un
característica esencialmente natural en todos los modelos de series temporales, los factores
que se encuentran en la perturbación aleatoria (los errores) tienen inevitablemente
conexiones temporales, es decir, una cierta persistencia y esto sucede, de forma inevitable,
porque los fenómenos de causalidad analizados con perspectiva temporal y los
acontecimientos imprevisibles que impactan en esas relaciones muestran también cierta
persistencia.
Este fenómeno “natural” es tanto más frecuente cuanto mayor es la frecuencia de los datos;
en datos de frecuencia baja, la posibilidad de que un acontecimiento que impactó en una
perturbación extienda sus efectos a la siguiente es menor.
En todo caso, y más allá de la autocorrelación “natural”, y como siempre repetimos, conviene
identificar algunas situaciones específicas, habituales en la econometría empírica, asociadas al
riesgo de autocorrelación.
Esta es, sin duda alguna, la principal causa de autocorrelación en un MBRL hasta el punto de
que las pruebas de autocorrelación se consideran generalmente pruebas para evaluar si una
especificación es completa o no.
20000
15000
6000
4000 10000
2000
5000
0
-2000
-4000
-6000
99 00 01 02 03 04 05
2.- Asincronía temporal causa – efecto cuando los datos se miden en forma “discreta”, no
continua
Evitar este tipo de problemas no es fácil en la práctica pero requiere atender cuidadosamente
a la selección de la frecuencia de análisis correcta y/o a considerar la posibilidad de incluir
retardos / adelantos de exógenas / endógenas en la especificación temporal del modelo, es
decir, optar por un modelo dinámico en lugar de estático.5
Una vez más, la utilización de una forma funcional incorrecta, por ejemplo la utilización de una
función lineal en lugar de una logarítmica o potencial, puede provocar que la calidad del
ajuste de la regresión (y por tanto los errores) muestre comportamientos sistemáticos en el
tiempo, ajustando, por ejemplo, adecuadamente los valores pasados y mal los recientes,
induciéndose de esta manera una autocorrelación positiva.
5
Un ejemplo de asincronía cásico es el debido a Kaldor, 1934 con relación al modelo la teoría “cobweb”
que explicaba las fluctuaciones “cíclicas” de precios y los movimientos asincrónicos oferta – demanda en
aquellos mercados en los que la oferta ha de decidirse antes de conocer los precios reales y, por tanto,
ha de basarse en expectativas sobre precios. Cuando estas expectativas son “adaptativas” en lugar de
“racionales”, los productores utilizarán los precios en “t” para decidir su oferta en “t+1” generando
excesos o contracciones de oferta asincrónicas y cíclicas y cíclicos movimientos de precios.
2000 2000
1500
1000
1500
500
COSTE
0
1000 300
-500
200
100
500
0
-100
0
-200
0 2 4 6 8 10
75 80 85 90 95 00 05
La relación lineal, subestima el coste de producción de los últimos años , que ha crecido
potencialmente con la producción y sobrestima el coste de los años intermedios.
Manipular incorrectamente los datos creando “artefactos” temporales puede generar modelos
con riesgo de autocorrelación. Así, por ejemplo, tomar en un modelo primeras diferencias,
genera una perturbación autocorrelacionada aún cuando la perturbación del modelo en
niveles no lo estuviera.6
Trabajaremos para ello con la hipótesis del modelo más simple y frecuente de autocorrelación,
el conocido como modelo autorregresivo de orden 1 ó AR(1):
ut ut 1 t
|ρ|<1
El coeficiente autorregresivo “ρ” se entiende menor que la unidad en valor absoluto7 lo que
sugiere que cuando se produce un “shock” de naturaleza aleatoria de tamaño “u” en un
6
La transformación de un modelo en diferencias es una práctica habitual en econometría. Las primeras
diferencias reflejan el crecimiento (bruto, no porcentual) de una serie entre dos observaciones.
7
En el caso en que ρ fuese superior a 1, las perturbaciones en “t” serían mayores que en “t-1” lo que
indicaría que los shocks o perturbaciones aleatorias, cuando ocurren, no tienen un efecto limitado en el
momento “t” del tiempo, este “shock” queda reducido al período siguiente a un menor
tamaño ρut; es decir, el “shock” aletaorio va “diluyéndose” progresivamente con el tiempo.
Este modelo, sugiere que sólo existe correlación parcial entre la perturbación aleatoria de un
período (t) y la del período anterior (t-1) conforme a una sencilla forma funcional lineal. En
concreto, el valor de la perturbación aleatoria en “t” es una fracción del valor de la
perturbación previa “t-1” dado que “ρ” es menor que la unidad.
Cuando el valor del coeficiente “ρ” es positivo, dos perturbaciones consecutivas comparten
valores similares y del mismo signo8 y decimos entonces que existe autocorrelación positiva.
Cuando el valor del coeficiente “ρ” es negativo, las perturbaciones mantienen también valores
similares pero van alternando sus signos; decimos entonces que existe autocorrelación
“negativa”.
La relación entre cada perturbación ut y la previa no es exacta, determinista, sino que viene
condicionada por la existencia de una nueva perturbación aleatoria εt de carácter “esférico”:
E t 0
V t 2 cte.
Cov t , t s 0 t,s
Aunque cabría pensar que el proceso real de autocorrelación fuera más complejo, por ejemplo
un AR de orden superior AR(p) o un proceso de medias móviles MA(q), lo cierto es que este
modelo de autocorrelación simple, captura con facilidad la mayor parte de las situaciones
reales de autocorrelación. En primer lugar, la perturbación no puede seguir un proceso regular
AR de orden superior, por ejemplo un AR(2), sin mostrar también una correlación parcial con el
retardo de orden uno;9 es decir, el proceso verosímil sería:
ut 1ut 1 2ut 2 t
y nunca:
ut 2ut 2 t
Por otro lado, en caso de existir un patrón de autocorrelación MA (de “medias móviles”), por
ejemplo un MA(1) del tipo:
ut t 1 t
tiempo, sino que inician un proceso de crecimiento progresivo en los sucesivos períodos; una situación,
poco verosímil y que generaría demás, desde el punto de vista técnico, importantes problemas que se
analizarán en una sección posterior del curso.
8
Obsérvese que esta propiedad no significa que TODOS los errores tengan siempre el mismo signo. La
relación entre ut y ut-1 es de naturaleza estocástica está influida por la presencia del componente
aleatorio εt que puede tomar aleatoriamente valores positivos y negativos. Por otro lado, conviene
además recordar que la perturbación aleatoria ut conserva su media nula, de modo que sería imposible
que todos sus valores sean de un mismo signo.
9
Esto se conoce como “ergodicidad”; una propiedad necesaria para garantizar que un proceso
estocástico temporal sea ergódico es que la correlación entre las observaciones tienda a cero al
aumentar la separación entre ellas.
debe recordarse que, merced al teorema de Wald, siempre podrá expresarse ese proceso
MA(q) como un proceso AR(p).
A. Contrastes Gráficos
Un gráfico aún más ilustrativo es el gráfico de dispersión (Scat) del residuo con sus retardos
(generalmente con el primero). Si existe autocorrelación, la nube de puntos que ilustra la
conexión entre los residuos en “t” y los resiudos en “t-1” mostrará un aspecto “creciente” o
“decreciente” muy ilustrativo de esa relación.
NO autocorrelación
1,5
1
0,8
0,6 1
0,4
0,2 0,5
0
-0,2
0
-0,4
-1,5 -1 -0,5 0 0,5 1 1,5
-0,6
-0,8 -0,5
-1
-1,2 -1
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
-1,5
Autocorrelación AR(1) POSITIVA muy débil ρ=0.25 Autocorrelación AR(1) NEGATIVA muy débil ρ=0.25
1,5 1,5
1 1,2
0,8 1
1 0,8 1
0,6
0,4 0,6
0,2 0,5 0,4 0,5
0,2
0
0 0
-0,2 0
-0,2
-0,4 -1,5 -1 -0,5 0 0,5 1 1,5 -1,5 -1 -0,5 0 0,5 1 1,5
-0,4
-0,6 -0,5 -0,6 -0,5
-0,8 -0,8
-1 -1 -1 -1
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
1
5
9
-1,5 -1,5
Autocorrelación AR(1) POSITIVA débil ρ=0.5 Autocorrelación AR(1) NEGATIVA débil ρ=0.5
1,5 2
1,5 1
1 1,5
1 0,5
1
0,5 0,5
0 0,5
0 0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 -0,5 0
-0,5 -0,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-0,5
-1
-1 -1
-1
-1,5 -1,5
-1,5 -1,5
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
-2 -2
Autocorrelación AR(1) POSITIVA moderada/alta ρ=0.75 Autocorrelación AR(1) NEGATIVA moderada/alta ρ=0.75
2 2
1,5 1,5
1,5 1 1,5
1
1 0,5 1
0,5
0,5 0 0,5
0
0 -0,5 0
-0,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-0,5 -1 -0,5
-1 -1,5
-1 -1
-1,5 -2
-1,5 -1,5
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
1
5
9
-2 -2
Autocorrelación AR(1) POSITIVA severa ρ=0.95 Autocorrelación AR(1) NEGATIVA severa ρ=0.95
4 4
3 3
2,5 3 3
2 2
2
1,5 2
1 1
1 1
0
0,5 0
-6 -4 -2 -1 0 2 4 0
0
-0,5 -1 -4 -3 -2 -1 0 1 2 3 4
-2
-1
-1 -2
-3
-1,5 -2
-4 -3
-2
-3
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
-5
1
5
9
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
1
5
9
-6 -4
B. Contrastes numéricos
Uno de los tests más estándar para la detección de la autocorrelación es el conocido como test
o prueba de Durbin – Watson. Este test, propuesto POR Durbin y Watson en 1950, propone
utilizar los residuos et del modelo estimado para computar el siguiente coeficiente:
e et 1
2
t
DW t 2
n
e
t 1
t
2
Para comprender los valores del DW indicativos de autocorrelación positiva, vamos a realizar
una serie de sencillas transformaciones:
n n n n n
Los dos primeros términos del anterior sumando son aproximadamente igual a la unidad:
e e t t 1
DW 1 1 2 t 2n
e t 1
t
2
Por otro lado, la última de las ratios es una aproximación casi exacta a la expresión de la
correlación muestral entre et y et-1:
e t et et 1 et 1
ret ,et 1 t 2
n n
e et e et 1
2 2
t t 1
t 1 t 2
Considerando que la correlación muestral entre et y et-1 es un buen estimador del coeficiente
“ρ” del proceso subyacente AR(1) en las perturbaciones aleatorias10 tenemos entonces que:
DW 1 1 2 ˆ
DW 21 ˆ
Así pues, ahora resulta más fácil interpretar los valores límites del DW:
1 DW 21 1 DW 0
1 DW 21 (1) DW 4
0 DW 21 0 DW 2
Para un determinado nivel de significación (o confianza) fijado por el analista, las tablas del DW
ofrecerán siempre dos valores, uno inferior “di” y otro superior “ds” que habrán de situarse del
siguiente modo alrededor de los valores límite del DW:
10
Aunque no se han examinado todavía en el curso las propiedades de un proceso AR(1) para una serie
genérica yt, puede demostrarse que el valor del coeficiente “ρ” de un proceso de este tipo coincide con
el coeficiente de correlación simple (y parcial) entre yt y yt-1.
0 2 4
di ds 4-ds 4-di
Estos límites, permiten así identificar, alrededor del 2, la zona consistente con la hipótesis nula
de ausencia de autocorrelación H0:ρ=0.
0 2 4
di ds 4-ds 4-di
Las zonas de rechazo de la hipótesis nula son las que circundan el valor “0” y el valor “4”, es
decir, los valores que claramente indican autocorrelación positiva o negativa:
0 2 4
di ds 4-ds 4-di
Lamentablemente, y por la limitación antes mencionada, existen zonas de “duda” en las que el
estadístico DW no permite rechazar o aceptar la hipóteis nula, son las zonas intermedias entre
di y ds y entre 4-di y 4-ds.
0 2 4
di ds 4-ds 4-di
Por un criterio de “prudencia valorativa”, si el valor del DW “cae” en zona de duda, conviene
quizá concluir que existe autocorrelación y tratar de profundizar más en su naturaleza y
corregirla, antes que arriesgar un diagnóstico en sentido contrario.
Un test alternativo a la prueba DW consiste en estimar el modelo simple AR(1) utilizando los
residuos “e” de nuestra regresión:
et et 1 t
El modelo puede estimarse con o sin término independiente y en todo caso, la hipótesis nula
de No Autocorrelación se asociaría con un valor estimado ρ=0, algo que podemos verificar con
el contraste de significación estadística habitual “t”.
El valor estimado de “ρ” es sólo un estimador consistente del verdadero valor de “ρ” por lo
que, para muestras grandes, podemos utilizar el resultado del test “t” como un buen indicador
de la presencia de autocorrelación en la perturbación.
yt 1 2 x2t 3 yt 1 ut
Para solucionar este problema, existen algunas pruebas adaptadas, como el estadístico “h” de
Durbin que no se analizará en este texto. Alternativamente, puede realizarse una sencilla
modificación de la prueba “t” para el AR(1) residual expuesto previamente consistente en
incluir en la estimación del modelo residual AR(1) todos los regresores del modelo original. Es
decir, si el modelo analizado es, por ejemplo:
yt 1 2 x2t 3 yt 1 ut
et et 1 t
estimamos alternativamente:
et 1 2 x2t 3 yt 1 et 1 t
( N p) R 2 p2
11
De hecho, la prueba Breusch – Godfrey se asocia generalmente a la existencia de un orden de
autocorrelación superior a uno y cuando sólo se incluye un retardo residual se conoce como M- de
Durbin.
V. Cómo se corrige
Una vez más, como en los anteriores temas, debe decirse que la verdadera corrección de la
autocorrelación pasa necesariamente por la solución de su causa. En este sentido, debe
recordarse que, en muchas ocasiones12, la autocorrelación es síntoma de una especificación
inadecuada insuficiente y, por tanto, la corrección de la autocorrelación implicaría
necesariamente un replanteamiento de la misma.
La transformación propuesta en este caso consiste en utilizar las “semidiferencias” de los datos
originales a partir del valor del coeficiente “ρ” de autocorrelación:
yt* yt yt 1
x *jt x jt x jt 1
Esta transformación se explica con facilidad si partimos del modelo original en el que
presuntamente existe autocorrelación AR(1). Por simplicidad, imaginemos que ese modelo es:
yt 1 2 x2t ut
con:
ut ut 1 t
12
Algunos autores distinguen esta situación de aquella en la que la autocorrelación no viene provocada por
una deficiente especificación. Gujarati, por ejemplo, define esta situación como Autocorrelación Pura.
donde recordemos, habíamos definido la nueva perturbación εt como una perturbación
aleatoria esférica y, por tanto, sin autocorrelación.
Utilizar los datos en semi – diferencias, permite por tanto obtener estimaciones de los
parámetros y sus desviaciones aparentemente libres de autocorrelación. Para el término
constante. Debe observarse que no se obtendrá el verdadero valor de β1. Para evitar este
problema, o bien utilizamos como término constante la expresión (1-ρ) o bien realizmaos la
regresión con término constante:
yt* 1 2 x2*t t
1.- Evidentemente, realizar la estimación MCGF exige disponer del valor de “ρ”, o dicho con
más propiedad, de una estimación de este valor. Esta estimación puede obtenerse de varias
formas, todas ellas equivalentes o casi – equivalentes. Podemos, por ejemplo, utilizar el valor
del DW y su relación con “ρ”
DW 21 ˆ ˆ 1
DW
2
Alternativamente, podemos realizar la estimación AR(1) residual y obtener “ρ” por MCO:
et et 1 t
Utilizar una estimación de “ρ” parece sencillo pero, sin embargo, entraña importantes
repercusiones. Efectivamente, la utilización de los datos transformados como propone MCGF
resuelve, teóricamente, los problemas de la autocorrelación pero debe señalarse que eso solo
ocurre si disponemos del verdadero valor de “ρ”. Si, como sucede en la práctica, usamos una
estimación de “ρ”, el estimador MCGF presenta un comportamiento desconocido en muestras
pequeñas. Es cierto que, en general, el esimador MCGF gana en eficiencia y suele ser
consistente, pero no es insesgado y los contrastes “t” y “F” no se ajustan en realidad
verdaderas distribuciones “t” y “F” aún cuando la perturbación aleatoria siga una normal.
13
Un valor de cambio en “ρ” inferior a 0,05 es suficientemente pequeño para ser considerado
irrelevante Normalmente, esto sucede en dos o, a lo sumo, tres iteraciones.
3.- En tercer lugar, debe observarse que la transformación de los datos en semi- diferencias
implica perder la primera de las observaciones de la muestra. Esta pérdida no es
excesivamente relevante en la mayor parte de análisis temporales en los que se cuente con
muestras de un tamaño suficiente. No obstante, existe la posibilidad de “recuperar” esa
primera observación realizando para ella una transformación alternativa conocida como Prais
– Winsten.
4.- En cuarto lugar, pero no por ello menos importante, debe observarse que la utilización de
MCGF puede generar parámetros sensiblemente diferentes a los obtenidos en el modelo
original. Este cambio en el valor de los parámetros resulta perturbador, dado que el analista
espera que la corrección de la autocorrelación afecte a las varianzas de los parámetros y no a
su valor. Las diferencias pueden deberse a varios factores, como la utilización de muestras no
demasiado grandes o algunas propiedades de los regresores. En términos generales, resulta
difícil saber si las diferencias entre la estimación MCO y MCGF son estadísticamente relevantes
pero, como norma general, se desaconseja la utilización de MCGF si los resultados de los
parámetros difieren clara y visiblemente de los originales.
El detalle técnico sobre la propuesta de corrección excede la profundidad de este texto, debida
originalmente a Newey y West (1987), pero afortunadamente la mayor parte de los programas
informáticos incorporan esta corrección automática bajo la denominación Estimador Newey –
West o bien estimación con errores estándar CHA (consistentes con la heterocedasticidad y la
autocorrelación).
Más allá de los detalles técnicos, interesa comprender las ventajas de esta estimación frente a
la aplicación de MCGF. Tal y como señala Wooldridge14 esta estrategia es, en ocasiones,
preferible, dado que la consistencia de MCGF exige que todos los regresores sean
estrictamente exógenos y además supone a priori la existencia de un modelo de
autocorrelación AR(1). En sentido contrario, la utilización de procedimientos de inferencia
robustos sólo es estrictamente válido en presencia de muestras grandes, por lo que, quizá, la
solución MCGF es la propicia cuando no se dispone de ellas.
14
Wooldridge, J.F. (2003). Introductory Econometrics. Epígrafe 12.5.